MEGURU知識ベース RAG適合性監査レポート
エグゼクティブサマリー
| 指標 | 値 |
|---|---|
| 全体RAG適合スコア | 6.7 / 10 |
| 結論 | RAG構築可能 — ただしPhase 1クレンジングが必須 |
| ユニークファイル数 | 2,273 |
| 重複ファイル数 | 295(13%) |
| 空ファイル数 | 7 |
| 総データサイズ | 6.61 MB |
| 推定構築工数 | 16時間 |
結論
RAG構築は可能。九条流算命学の知識密度は高く、星の解説・方位別特性・恋愛パターンなど独自コンテンツが充実している。ただし Notionエクスポートの重複295件 + 空ファイル7件 の除去が最優先。
推奨アクション Top 3
- 重複排除:
40_SOURCE_LIBRARY/notion_export_raw/の2.md/3.mdサフィックス295件 + 空ファイル7件を隔離 - メタデータ統一: 星名・方位・中央星・相手星・テーマ・canonical_rank を frontmatter へ統一付与
- STORY_DB構造化: episode/character に感情・葛藤・関係性・診断テーマのメタデータ追加
領域別評価
1. 00_INDEX + 10_CORE(インデックス・コア)
| 項目 | 評価 |
|---|---|
| ファイル数 | 12 |
| 総サイズ | ~50 KB |
| frontmatter被覆率 | ~70% |
| 構造化度 | 7/10 |
| RAG適合度 | 7/10 |
強み: MOC・ステータスダッシュボード・マイグレーションタスクが明確に整理されている。AI_ROUTING_GUIDE はRAGのルーティングインデックスとして再利用可能。
弱み: INDEX.mdが642KBと肥大化。チャンク分割が必要。
2. 20_DIAGNOSIS_DB(診断DB)
| 項目 | 評価 |
|---|---|
| ファイル数 | ~10 |
| 総サイズ | 2.7 MB |
| frontmatter被覆率 | ~60% |
| DB完全性 | 5/10 |
| 重複ファイル | あり(“2”サフィックス) |
| RAG適合度 | 6/10 |
強み: 天中殺DB・大運DB・年運DBなど診断に必要なDBが揃っている。表形式で構造化されている部分が多い。
弱み:
- 年運DBが
records: 0で実データが空 - “2”サフィックスの重複ファイルあり
- 大運DBの開始年齢算出ロジックが別ファイル(立運|開始年齢算出)に分散
3. 30_STORY_DB(物語DB)
| 項目 | 評価 |
|---|---|
| ファイル数 | ~10 |
| 総サイズ | 368 KB |
| frontmatter被覆率 | ~50% |
| 物語完全性 | 5/10 |
| RAG適合度 | 5/10 |
強み: 物語MOCが存在。キャラクターDB・エピソードDBがある。
弱み:
- episode系にテーマ・感情・葛藤・関係性タグが不足
- 全120話想定に対して欠番が多い
- 物語時系列・伏線回収の回答精度が低い
- キャラクター配列・章・話数の構造化メタデータがない
4. 40_SOURCE_LIBRARY/notion_export_raw(一次ソース)
| 項目 | 評価 |
|---|---|
| ファイル数 | ~2,240 |
| 総サイズ | 8.8 MB |
| frontmatter被覆率 | ~10%(Notionエクスポート直後) |
| 重複率 | ~13%(295ファイル) |
| 無題・空ファイル率 | ~0.3%(7ファイル) |
| コンテンツ深度 | 7/10 |
| クロス参照完全性 | 6/10 |
| RAG適合度 | 7/10 |
強み:
- 星の解説(十大主星×5方位 = 50パターン)が概ね揃っている
- 恋愛パターン(中央星×東星 = 100パターン)が充実
- 日干×地支の十大主星対応表(60パターン×10日干)が存在
- 方位関係(冲・破・半会・方三位)が網羅的
- 番外編の独自解釈記事が存在
弱み:
- 295件の重複ファイル(Notionエクスポート時の重複)
- 7件の無題・空ファイル
- Notion raw、タスク、運用メモ、ストーリー素材が混在
- 正本と素材の区別なし → 誤回答リスクが高い
- 恋愛パターンの一部がテンプレート差し替え型で深度不足
- 壊れたwikilinkや未解決参照あり
5. graphify-out(ナレッジグラフ)
| 項目 | 評価 |
|---|---|
| ノードタイプ | ファイル・見出し・セクション等 |
| メタデータ品質 | 5/10 |
| チャンク抽出可能性 | 6/10 |
| RAGインデックス補助 | 6/10 |
最適用途: 単独GraphRAG基盤ではなく、関連ファイル候補の事前絞り込み・ナビゲーション補助として活用。
弱み: contains 関係中心で、概念間・因果・診断ロジックの意味関係が不足。
横断的課題
1. 重複問題(優先度: HIGH)
40_SOURCE_LIBRARY/notion_export_raw/に2.md/3.mdサフィックスの重複が295件20_DIAGNOSIS_DB/にも2サフィックスの重複あり- 対策: 重複ファイルを
_duplicates/に隔離、frontmatterにduplicate_ofフィールド付与
2. 構造化不足(優先度: HIGH)
- frontmatter被覆率が平均40%以下
- 星名・方位・テーマがファイル名にのみ存在し、メタデータとして検索不能
- 対策: 星名・方位・中央星・相手星・テーマをfrontmatterへ統一付与
3. メタデータ欠損(優先度: MEDIUM)
- 検索に必要なタグ体系が未定義
- キャラクター名・エピソード番号・章が構造化されていない
- 対策: RAG検索用メタデータスキーマの定義と一括付与
4. ナレッジギャップ
| ギャップ | 影響度 | 対応 |
|---|---|---|
| 年運DBの実データが空 | HIGH | データ投入が必要 |
| 物語の欠番(120話想定に対して) | MEDIUM | 残りのエピソード作成 |
| 恋愛パターンの深度不足(テンプレート型) | MEDIUM | 独自解釈の拡充 |
| Graphifyの意味関係不足 | LOW | contains→因果関係への拡張 |
| 壊れたwikilink | LOW | リンク修正またはプレーンテキスト化 |
RAG構築ロードマップ
Phase 1: クレンジング(推定4時間)
40_SOURCE_LIBRARY/notion_export_raw/の重複295件を_duplicates/に隔離- 無題・空ファイル7件の削除またはアーカイブ
20_DIAGNOSIS_DB/の重複除去INDEX.md(642KB)のチャンク分割
Phase 2: 構造化(推定6時間)
- 全ファイルにfrontmatter統一スキーマ付与:
--- title: "ファイルタイトル" domain: "DIAGNOSIS_DB|STORY_DB|SOURCE_LIBRARY" doc_type: "star_desc|direction|pattern|episode|character|reference" stars: ["貫索星", "玉堂星"] central_star: "貫索星" direction: "東|南|西|北|中央" theme: "恋愛|仕事|性格|運勢" canonical_rank: 1 # 1=正本, 2=重複 status: "active|archived|draft" --- - STORY_DBのepisode/characterに構造化メタデータ追加
- 正本と素材の区別を
canonical_rankで管理
Phase 3: インデックス構築(推定4時間)
- チャンク分割: 700文字 / overlap 100文字
- embedding生成: multilingual-e5-large または text-embedding-3-large
- ベクトルDB格納: Qdrant または pgvector
- コレクション分離:
canonical: 診断DB正本story: 物語DBsource: 一次ソース(raw)index: ルーティング・MOC
Phase 4: 検索最適化(推定2時間)
- ハイブリッド検索: BM25 + vector + reranker
- メタデータフィルタ:
status=active,canonical_rank=1で検索時フィルタ必須化 - Graphifyを事前絞り込みインデックスとして統合
- クエリ分類: 星名→星解説、方位×星→パターン、キャラ→物語
推奨技術スタック
| コンポーネント | 推奨 | 理由 |
|---|---|---|
| ベクトルDB | Qdrant / pgvector | 日本語メタデータフィルタに強い |
| Embedding | multilingual-e5-large / text-embedding-3-large | 日本語性能が高い |
| Reranker | bge-reranker-v2-m3 | 日本語クロスエンコーダ |
| チャンクサイズ | 700文字 / overlap 100文字 | 星の解説が300-800文字程度に最適 |
| 検索戦略 | Hybrid(BM25 + dense + rerank) | 専門用語の精密一致 + 意味検索 |
| Graph補助 | Graphify(既存) | ナビゲーション・事前絞り込み専用 |
結論
RAG構築は可能。 知識密度は高く、独自コンテンツ(星の解説・恋愛パターン・方位特性)が2,000+ファイルに渡って蓄積されている。主要な阻害要因は:
- Notionエクスポートの重複 → 機械的に除去可能(4時間)
- メタデータ欠損 → スキーマ定義後に一括付与可能(6時間)
- 年運DBの空データ → データ投入のみで解決
推定16時間の投資で、九条流算命学の専門RAGとして実用レベルに到達可能。