MEGURU知識ベース RAG適合性監査レポート

エグゼクティブサマリー

指標
全体RAG適合スコア6.7 / 10
結論RAG構築可能 — ただしPhase 1クレンジングが必須
ユニークファイル数2,273
重複ファイル数295(13%)
空ファイル数7
総データサイズ6.61 MB
推定構築工数16時間

結論

RAG構築は可能。九条流算命学の知識密度は高く、星の解説・方位別特性・恋愛パターンなど独自コンテンツが充実している。ただし Notionエクスポートの重複295件 + 空ファイル7件 の除去が最優先

推奨アクション Top 3

  1. 重複排除: 40_SOURCE_LIBRARY/notion_export_raw/2.md/3.md サフィックス295件 + 空ファイル7件を隔離
  2. メタデータ統一: 星名・方位・中央星・相手星・テーマ・canonical_rank を frontmatter へ統一付与
  3. STORY_DB構造化: episode/character に感情・葛藤・関係性・診断テーマのメタデータ追加

領域別評価

1. 00_INDEX + 10_CORE(インデックス・コア)

項目評価
ファイル数12
総サイズ~50 KB
frontmatter被覆率~70%
構造化度7/10
RAG適合度7/10

強み: MOC・ステータスダッシュボード・マイグレーションタスクが明確に整理されている。AI_ROUTING_GUIDE はRAGのルーティングインデックスとして再利用可能。

弱み: INDEX.mdが642KBと肥大化。チャンク分割が必要。


2. 20_DIAGNOSIS_DB(診断DB)

項目評価
ファイル数~10
総サイズ2.7 MB
frontmatter被覆率~60%
DB完全性5/10
重複ファイルあり(“2”サフィックス)
RAG適合度6/10

強み: 天中殺DB・大運DB・年運DBなど診断に必要なDBが揃っている。表形式で構造化されている部分が多い。

弱み:

  • 年運DBが records: 0 で実データが空
  • “2”サフィックスの重複ファイルあり
  • 大運DBの開始年齢算出ロジックが別ファイル(立運|開始年齢算出)に分散

3. 30_STORY_DB(物語DB)

項目評価
ファイル数~10
総サイズ368 KB
frontmatter被覆率~50%
物語完全性5/10
RAG適合度5/10

強み: 物語MOCが存在。キャラクターDB・エピソードDBがある。

弱み:

  • episode系にテーマ・感情・葛藤・関係性タグが不足
  • 全120話想定に対して欠番が多い
  • 物語時系列・伏線回収の回答精度が低い
  • キャラクター配列・章・話数の構造化メタデータがない

4. 40_SOURCE_LIBRARY/notion_export_raw(一次ソース)

項目評価
ファイル数~2,240
総サイズ8.8 MB
frontmatter被覆率~10%(Notionエクスポート直後)
重複率~13%(295ファイル)
無題・空ファイル率~0.3%(7ファイル)
コンテンツ深度7/10
クロス参照完全性6/10
RAG適合度7/10

強み:

  • 星の解説(十大主星×5方位 = 50パターン)が概ね揃っている
  • 恋愛パターン(中央星×東星 = 100パターン)が充実
  • 日干×地支の十大主星対応表(60パターン×10日干)が存在
  • 方位関係(冲・破・半会・方三位)が網羅的
  • 番外編の独自解釈記事が存在

弱み:

  • 295件の重複ファイル(Notionエクスポート時の重複)
  • 7件の無題・空ファイル
  • Notion raw、タスク、運用メモ、ストーリー素材が混在
  • 正本と素材の区別なし → 誤回答リスクが高い
  • 恋愛パターンの一部がテンプレート差し替え型で深度不足
  • 壊れたwikilinkや未解決参照あり

5. graphify-out(ナレッジグラフ)

項目評価
ノードタイプファイル・見出し・セクション等
メタデータ品質5/10
チャンク抽出可能性6/10
RAGインデックス補助6/10

最適用途: 単独GraphRAG基盤ではなく、関連ファイル候補の事前絞り込み・ナビゲーション補助として活用。

弱み: contains 関係中心で、概念間・因果・診断ロジックの意味関係が不足。


横断的課題

1. 重複問題(優先度: HIGH)

  • 40_SOURCE_LIBRARY/notion_export_raw/2.md/3.md サフィックスの重複が295件
  • 20_DIAGNOSIS_DB/ にも 2 サフィックスの重複あり
  • 対策: 重複ファイルを _duplicates/ に隔離、frontmatterに duplicate_of フィールド付与

2. 構造化不足(優先度: HIGH)

  • frontmatter被覆率が平均40%以下
  • 星名・方位・テーマがファイル名にのみ存在し、メタデータとして検索不能
  • 対策: 星名・方位・中央星・相手星・テーマをfrontmatterへ統一付与

3. メタデータ欠損(優先度: MEDIUM)

  • 検索に必要なタグ体系が未定義
  • キャラクター名・エピソード番号・章が構造化されていない
  • 対策: RAG検索用メタデータスキーマの定義と一括付与

4. ナレッジギャップ

ギャップ影響度対応
年運DBの実データが空HIGHデータ投入が必要
物語の欠番(120話想定に対して)MEDIUM残りのエピソード作成
恋愛パターンの深度不足(テンプレート型)MEDIUM独自解釈の拡充
Graphifyの意味関係不足LOWcontains→因果関係への拡張
壊れたwikilinkLOWリンク修正またはプレーンテキスト化

RAG構築ロードマップ

Phase 1: クレンジング(推定4時間)

  1. 40_SOURCE_LIBRARY/notion_export_raw/ の重複295件を _duplicates/ に隔離
  2. 無題・空ファイル7件の削除またはアーカイブ
  3. 20_DIAGNOSIS_DB/ の重複除去
  4. INDEX.md(642KB)のチャンク分割

Phase 2: 構造化(推定6時間)

  1. 全ファイルにfrontmatter統一スキーマ付与:
    ---
    title: "ファイルタイトル"
    domain: "DIAGNOSIS_DB|STORY_DB|SOURCE_LIBRARY"
    doc_type: "star_desc|direction|pattern|episode|character|reference"
    stars: ["貫索星", "玉堂星"]
    central_star: "貫索星"
    direction: "東|南|西|北|中央"
    theme: "恋愛|仕事|性格|運勢"
    canonical_rank: 1  # 1=正本, 2=重複
    status: "active|archived|draft"
    ---
  2. STORY_DBのepisode/characterに構造化メタデータ追加
  3. 正本と素材の区別を canonical_rank で管理

Phase 3: インデックス構築(推定4時間)

  1. チャンク分割: 700文字 / overlap 100文字
  2. embedding生成: multilingual-e5-large または text-embedding-3-large
  3. ベクトルDB格納: Qdrant または pgvector
  4. コレクション分離:
    • canonical: 診断DB正本
    • story: 物語DB
    • source: 一次ソース(raw)
    • index: ルーティング・MOC

Phase 4: 検索最適化(推定2時間)

  1. ハイブリッド検索: BM25 + vector + reranker
  2. メタデータフィルタ: status=active, canonical_rank=1 で検索時フィルタ必須化
  3. Graphifyを事前絞り込みインデックスとして統合
  4. クエリ分類: 星名→星解説、方位×星→パターン、キャラ→物語

推奨技術スタック

コンポーネント推奨理由
ベクトルDBQdrant / pgvector日本語メタデータフィルタに強い
Embeddingmultilingual-e5-large / text-embedding-3-large日本語性能が高い
Rerankerbge-reranker-v2-m3日本語クロスエンコーダ
チャンクサイズ700文字 / overlap 100文字星の解説が300-800文字程度に最適
検索戦略Hybrid(BM25 + dense + rerank)専門用語の精密一致 + 意味検索
Graph補助Graphify(既存)ナビゲーション・事前絞り込み専用

結論

RAG構築は可能。 知識密度は高く、独自コンテンツ(星の解説・恋愛パターン・方位特性)が2,000+ファイルに渡って蓄積されている。主要な阻害要因は:

  1. Notionエクスポートの重複 → 機械的に除去可能(4時間)
  2. メタデータ欠損 → スキーマ定義後に一括付与可能(6時間)
  3. 年運DBの空データ → データ投入のみで解決

推定16時間の投資で、九条流算命学の専門RAGとして実用レベルに到達可能。