D-03|articles 素材を記事・OCR・masterに分ける

目的

articles.zip 配下の素材を、形式別・用途別に分け、A/B/C/Dレーンへ渡せる状態にする。

D-03では、本文の正本化までは行わず、まず「形式」「用途」「投入先DB」「次に処理すべき単位」を明確にする。

棚卸し結果

実素材は 297件

形式件数主な扱い優先処理
------:------
md149件整形済み・変換済み・正本候補
html85件外部記事・取得記事・変換前素材
txt37件抽出テキスト・文字起こし・OCR寄り素材
docx26件Word原本・未変換素材・編集元

内容別の大分類

区分主な内容主な渡し先投入先候補DB
_master物語・本編・番外編・統合済み素材Cレーン物語・エピソードDB / 原典・素材DB
books / docx書籍・資料・Word原本A/B/D原典・素材DB
books-md書籍系md・変換済み素材A/B学問概念DB / 星・診断パターンDB / 原典・素材DB
OCR十大主星十大主星まわりのOCR素材Bレーン星・診断パターンDB / 原典・素材DB
root記事・文字起こし取得記事、html、txt、個別素材D/A/B/C原典・素材DB / 制作資料DB

形式別処理方針

md:149件

最優先で処理する。

理由:

  • すでにMarkdown化されており、Notion投入しやすい

  • DBページ本文へ転用しやすい

  • _masterbooks-md など、正本候補が含まれる

処理方針:

  • _master はCレーンへ渡す前に、物語単位・EP単位へ分割する

  • books-md はA/Bへ渡す前に、概念素材・星素材・診断素材へ分ける

  • OCR由来mdはBレーンへ渡す前に表記ゆれを確認する

  • meta的な内容は制作資料DB候補へ回す

主な渡し先:

  • Aレーン:概念・理論・体系説明

  • Bレーン:星・診断・カード文

  • Cレーン:物語・EP・会話劇

  • Dレーン:制作資料・正本化前の親素材

html:85件

中優先で処理する。

理由:

  • 外部記事・取得記事の可能性が高い

  • 本文抽出や要約前処理が必要

  • 出典URLや取得元を保持する価値がある

処理方針:

  • 原文保存を優先する

  • 本文抽出済みtxt/mdがある場合は重複確認する

  • 出典・タイトル・取得元を原典・素材DBに残す

  • 直接A/B/Cへ渡さず、Dレーンで原典管理する

主な渡し先:

  • Dレーン

  • 原典・素材DB

txt:37件

高優先で処理する。

理由:

  • OCRや文字起こし後の素材である可能性が高い

  • A/B/Cへ渡せる断片が含まれる可能性がある

  • 崩れや重複を早めに確認した方がよい

処理方針:

  • OCR崩れ・文字化け・改行崩れをチェックする

  • 引用と自作メモを分ける

  • 一文単位でA/B/Cへ渡せる素材を抽出する

  • 崩れが大きいものはD-05修正キューへ回す

主な渡し先:

  • Aレーン:定義・理論

  • Bレーン:星・診断文

  • Cレーン:会話・物語断片

  • Dレーン:OCR修正キュー

docx:26件

中優先で処理する。

理由:

  • 編集元・原本である可能性が高い

  • 直接DB投入するより、md/txtへ変換してから扱う方がよい

  • 書式や章立てが残っている可能性がある

処理方針:

  • まず原本として原典・素材DBへ登録する

  • 必要に応じてmd化する

  • 既に対応するmd/txtがある場合は親素材として扱う

  • 本文投入は変換後にA/B/Cへ渡す

主な渡し先:

  • Dレーン

  • 原典・素材DB

内容別処理方針

_master:物語・統合済み素材

扱い:Cレーン優先。

処理方針:

  • 本編

  • 番外編

  • EP

  • 会話劇

  • ケーススタディ

  • 教材内ストーリー

に分ける。

投入先候補:

  • 物語・エピソードDB

  • 登場キャラDB

  • 学習コンテンツDB

  • 原典・素材DB

次工程:D-11へ渡して、EP単位・場面単位・教材テーマ単位へ分割する。

books / docx:書籍・資料原本

扱い:Dレーンで原本管理し、A/Bへ派生させる。

処理方針:

  • 原本ファイルとして原典・素材DBへ登録

  • md化済みがあれば、原本と派生素材を関連付ける

  • 理論素材はAへ

  • 星・診断素材はBへ

  • 出典不明・引用扱いが難しいものはD保留

投入先候補:

  • 原典・素材DB

  • 学問概念DB

  • 星・診断パターンDB

books-md:書籍系変換済み素材

扱い:A/Bへの投入候補。

処理方針:

  • 章単位または見出し単位で分割する

  • 理論・定義・背景はAレーン

  • 星・診断・パターン文はBレーン

  • 教材化できる説明は学習コンテンツDBへ

投入先候補:

  • 学問概念DB

  • 星・診断パターンDB

  • 学習コンテンツDB

  • 原典・素材DB

OCR十大主星

扱い:Bレーン優先。ただしOCR修正が必要。

処理方針:

  • 星名表記を確認する

  • OCR崩れを修正する

  • 十大主星ごとに分類する

  • 診断カード文・講座文・原典引用を分ける

投入先候補:

  • 星・診断パターンDB

  • 原典・素材DB

  • 学習コンテンツDB

次工程:D-05でOCR修正キュー化し、Bレーンへ渡す。

root記事・文字起こし

扱い:Dレーンで一時保管し、用途別に振り分ける。

処理方針:

  • 外部記事は原典・素材DBへ

  • 制作方針は制作資料DBへ

  • 理論説明はAへ

  • 診断素材はBへ

  • 物語断片はCへ

  • 判定不能はD保留

A/B/C/Dへの受け渡し

Aレーンへ渡す

  • books-md の理論・概念・体系説明

  • txt/md内の定義文

  • 六十花甲子や干支の理論説明

  • canonに近い基準文

Bレーンへ渡す

Cレーンへ渡す

  • _master の物語素材

  • エピソード・会話劇・本編/番外編

  • 診断ケースとして使える物語断片

Dレーンに残す

  • html原本

  • docx原本

  • 出典確認が必要な素材

  • OCR崩れが大きい素材

  • 制作資料・運用メモ

  • A/B/C複数レーンで使う親素材

優先順位

最優先

  1. _master 系mdをCレーンへ渡す準備

  2. OCR十大主星をD-05修正キューへ回す

  3. books-mdをA/Bへ分ける

  4. root txtのOCR崩れ・文字化けを確認する

次点

  1. html原本を出典付きで原典・素材DB候補にする

  2. docx原本とmd派生素材の対応を確認する

  3. 制作資料系をD-08へ渡す

次アクション

  1. D-05:OCR十大主星・txt素材の修正キューを作る

  2. D-11:_master / ep系素材を物語・エピソードDB用に分割する

  3. D-06:books-md / OCR / _master をA/B/C受け渡し表へ登録する

  4. D-07:原典・素材DBに入れるための項目を固める

  5. D-08:制作資料DBに入れるための項目を固める

完了条件チェック

  • articles配下の形式別件数を確認した

  • md / html / txt / docx の処理方針を決めた

  • _master / books / books-md / OCR十大主星 / root記事を内容別に分けた

  • A/B/C/Dへの一次受け渡し方針を作った

  • ファイル単位の詳細台帳を作る

  • OCR十大主星の崩れ確認を行う

  • _master系をEP単位へ分割する

  • html原本の出典管理を行う

メモ

D-03は一次分類として完了。次に進めるなら、実務上は D-05|OCR崩れ・文字化け・表記ゆれの修正キューD-11|ep-arcs / _master の物語分割 を先に進めると、B/Cレーンへ渡しやすくなる。