MEGURU知識ベース RAG適合性監査レポート

エグゼクティブサマリー

指標	値
全体RAG適合スコア	6.7 / 10
結論	RAG構築可能 — ただしPhase 1クレンジングが必須
ユニークファイル数	2,273
重複ファイル数	295（13%）
空ファイル数	7
総データサイズ	6.61 MB
推定構築工数	16時間

結論

RAG構築は可能。九条流算命学の知識密度は高く、星の解説・方位別特性・恋愛パターンなど独自コンテンツが充実している。ただし Notionエクスポートの重複295件 + 空ファイル7件の除去が最優先。

推奨アクション Top 3

重複排除: 40_SOURCE_LIBRARY/notion_export_raw/ の 2.md/3.md サフィックス295件 + 空ファイル7件を隔離
メタデータ統一: 星名・方位・中央星・相手星・テーマ・canonical_rank を frontmatter へ統一付与
STORY_DB構造化: episode/character に感情・葛藤・関係性・診断テーマのメタデータ追加

領域別評価

1. 00_INDEX + 10_CORE（インデックス・コア）

項目	評価
ファイル数	12
総サイズ	~50 KB
frontmatter被覆率	~70%
構造化度	7/10
RAG適合度	7/10

強み: MOC・ステータスダッシュボード・マイグレーションタスクが明確に整理されている。AI_ROUTING_GUIDE はRAGのルーティングインデックスとして再利用可能。

弱み: INDEX.mdが642KBと肥大化。チャンク分割が必要。

2. 20_DIAGNOSIS_DB（診断DB）

項目	評価
ファイル数	~10
総サイズ	2.7 MB
frontmatter被覆率	~60%
DB完全性	5/10
重複ファイル	あり（“2”サフィックス）
RAG適合度	6/10

強み: 天中殺DB・大運DB・年運DBなど診断に必要なDBが揃っている。表形式で構造化されている部分が多い。

弱み:

年運DBが records: 0 で実データが空
“2”サフィックスの重複ファイルあり
大運DBの開始年齢算出ロジックが別ファイル（立運｜開始年齢算出）に分散

3. 30_STORY_DB（物語DB）

項目	評価
ファイル数	~10
総サイズ	368 KB
frontmatter被覆率	~50%
物語完全性	5/10
RAG適合度	5/10

強み: 物語MOCが存在。キャラクターDB・エピソードDBがある。

弱み:

episode系にテーマ・感情・葛藤・関係性タグが不足
全120話想定に対して欠番が多い
物語時系列・伏線回収の回答精度が低い
キャラクター配列・章・話数の構造化メタデータがない

4. 40_SOURCE_LIBRARY/notion_export_raw（一次ソース）

項目	評価
ファイル数	~2,240
総サイズ	8.8 MB
frontmatter被覆率	~10%（Notionエクスポート直後）
重複率	~13%（295ファイル）
無題・空ファイル率	~0.3%（7ファイル）
コンテンツ深度	7/10
クロス参照完全性	6/10
RAG適合度	7/10

強み:

星の解説（十大主星×5方位 = 50パターン）が概ね揃っている
恋愛パターン（中央星×東星 = 100パターン）が充実
日干×地支の十大主星対応表（60パターン×10日干）が存在
方位関係（冲・破・半会・方三位）が網羅的
番外編の独自解釈記事が存在

弱み:

295件の重複ファイル（Notionエクスポート時の重複）
7件の無題・空ファイル
Notion raw、タスク、運用メモ、ストーリー素材が混在
正本と素材の区別なし → 誤回答リスクが高い
恋愛パターンの一部がテンプレート差し替え型で深度不足
壊れたwikilinkや未解決参照あり

5. graphify-out（ナレッジグラフ）

項目	評価
ノードタイプ	ファイル・見出し・セクション等
メタデータ品質	5/10
チャンク抽出可能性	6/10
RAGインデックス補助	6/10

最適用途: 単独GraphRAG基盤ではなく、関連ファイル候補の事前絞り込み・ナビゲーション補助として活用。

弱み: contains 関係中心で、概念間・因果・診断ロジックの意味関係が不足。

横断的課題

1. 重複問題（優先度: HIGH）

40_SOURCE_LIBRARY/notion_export_raw/ に 2.md/3.md サフィックスの重複が295件
20_DIAGNOSIS_DB/ にも 2 サフィックスの重複あり
対策: 重複ファイルを _duplicates/ に隔離、frontmatterに duplicate_of フィールド付与

2. 構造化不足（優先度: HIGH）

frontmatter被覆率が平均40%以下
星名・方位・テーマがファイル名にのみ存在し、メタデータとして検索不能
対策: 星名・方位・中央星・相手星・テーマをfrontmatterへ統一付与

3. メタデータ欠損（優先度: MEDIUM）

検索に必要なタグ体系が未定義
キャラクター名・エピソード番号・章が構造化されていない
対策: RAG検索用メタデータスキーマの定義と一括付与

4. ナレッジギャップ

ギャップ	影響度	対応
年運DBの実データが空	HIGH	データ投入が必要
物語の欠番（120話想定に対して）	MEDIUM	残りのエピソード作成
恋愛パターンの深度不足（テンプレート型）	MEDIUM	独自解釈の拡充
Graphifyの意味関係不足	LOW	contains→因果関係への拡張
壊れたwikilink	LOW	リンク修正またはプレーンテキスト化

RAG構築ロードマップ

Phase 1: クレンジング（推定4時間）

40_SOURCE_LIBRARY/notion_export_raw/ の重複295件を _duplicates/ に隔離
無題・空ファイル7件の削除またはアーカイブ
20_DIAGNOSIS_DB/ の重複除去
INDEX.md（642KB）のチャンク分割

Phase 2: 構造化（推定6時間）

全ファイルにfrontmatter統一スキーマ付与:

---
title: "ファイルタイトル"
domain: "DIAGNOSIS_DB|STORY_DB|SOURCE_LIBRARY"
doc_type: "star_desc|direction|pattern|episode|character|reference"
stars: ["貫索星", "玉堂星"]
central_star: "貫索星"
direction: "東|南|西|北|中央"
theme: "恋愛|仕事|性格|運勢"
canonical_rank: 1  # 1=正本, 2=重複
status: "active|archived|draft"
---

STORY_DBのepisode/characterに構造化メタデータ追加
正本と素材の区別を canonical_rank で管理

Phase 3: インデックス構築（推定4時間）

チャンク分割: 700文字 / overlap 100文字
embedding生成: multilingual-e5-large または text-embedding-3-large
ベクトルDB格納: Qdrant または pgvector
コレクション分離:
- canonical: 診断DB正本
- story: 物語DB
- source: 一次ソース（raw）
- index: ルーティング・MOC

Phase 4: 検索最適化（推定2時間）

ハイブリッド検索: BM25 + vector + reranker
メタデータフィルタ: status=active, canonical_rank=1 で検索時フィルタ必須化
Graphifyを事前絞り込みインデックスとして統合
クエリ分類: 星名→星解説、方位×星→パターン、キャラ→物語

推奨技術スタック

コンポーネント	推奨	理由
ベクトルDB	Qdrant / pgvector	日本語メタデータフィルタに強い
Embedding	multilingual-e5-large / text-embedding-3-large	日本語性能が高い
Reranker	bge-reranker-v2-m3	日本語クロスエンコーダ
チャンクサイズ	700文字 / overlap 100文字	星の解説が300-800文字程度に最適
検索戦略	Hybrid（BM25 + dense + rerank）	専門用語の精密一致 + 意味検索
Graph補助	Graphify（既存）	ナビゲーション・事前絞り込み専用

結論

RAG構築は可能。 知識密度は高く、独自コンテンツ（星の解説・恋愛パターン・方位特性）が2,000+ファイルに渡って蓄積されている。主要な阻害要因は:

Notionエクスポートの重複 → 機械的に除去可能（4時間）
メタデータ欠損 → スキーマ定義後に一括付与可能（6時間）
年運DBの空データ → データ投入のみで解決

推定16時間の投資で、九条流算命学の専門RAGとして実用レベルに到達可能。

MEGURU

エクスプローラー

MEGURU知識ベース RAG適合性監査レポート

MEGURU知識ベース RAG適合性監査レポート

エグゼクティブサマリー

結論

推奨アクション Top 3

領域別評価

1. 00_INDEX + 10_CORE（インデックス・コア）

2. 20_DIAGNOSIS_DB（診断DB）

3. 30_STORY_DB（物語DB）

4. 40_SOURCE_LIBRARY/notion_export_raw（一次ソース）

5. graphify-out（ナレッジグラフ）

横断的課題

1. 重複問題（優先度: HIGH）

2. 構造化不足（優先度: HIGH）

3. メタデータ欠損（優先度: MEDIUM）

4. ナレッジギャップ

RAG構築ロードマップ

Phase 1: クレンジング（推定4時間）

Phase 2: 構造化（推定6時間）

Phase 3: インデックス構築（推定4時間）

Phase 4: 検索最適化（推定2時間）

推奨技術スタック

結論

グラフビュー

目次