D-03|articles 素材を記事・OCR・masterに分ける
目的
articles.zip 配下の素材を、形式別・用途別に分け、A/B/C/Dレーンへ渡せる状態にする。
D-03では、本文の正本化までは行わず、まず「形式」「用途」「投入先DB」「次に処理すべき単位」を明確にする。
棚卸し結果
実素材は 297件。
| 形式 | 件数 | 主な扱い | 優先処理 |
| --- | ---: | --- | --- |
| md | 149件 | 整形済み・変換済み・正本候補 | 高 |
| html | 85件 | 外部記事・取得記事・変換前素材 | 中 |
| txt | 37件 | 抽出テキスト・文字起こし・OCR寄り素材 | 高 |
| docx | 26件 | Word原本・未変換素材・編集元 | 中 |
内容別の大分類
| 区分 | 主な内容 | 主な渡し先 | 投入先候補DB |
|---|---|---|---|
| _master | 物語・本編・番外編・統合済み素材 | Cレーン | 物語・エピソードDB / 原典・素材DB |
| books / docx | 書籍・資料・Word原本 | A/B/D | 原典・素材DB |
| books-md | 書籍系md・変換済み素材 | A/B | 学問概念DB / 星・診断パターンDB / 原典・素材DB |
| OCR十大主星 | 十大主星まわりのOCR素材 | Bレーン | 星・診断パターンDB / 原典・素材DB |
| root記事・文字起こし | 取得記事、html、txt、個別素材 | D/A/B/C | 原典・素材DB / 制作資料DB |
形式別処理方針
md:149件
最優先で処理する。
理由:
-
すでにMarkdown化されており、Notion投入しやすい
-
DBページ本文へ転用しやすい
-
_masterやbooks-mdなど、正本候補が含まれる
処理方針:
-
_masterはCレーンへ渡す前に、物語単位・EP単位へ分割する -
books-mdはA/Bへ渡す前に、概念素材・星素材・診断素材へ分ける -
OCR由来mdはBレーンへ渡す前に表記ゆれを確認する
-
meta的な内容は制作資料DB候補へ回す
主な渡し先:
-
Aレーン:概念・理論・体系説明
-
Bレーン:星・診断・カード文
-
Cレーン:物語・EP・会話劇
-
Dレーン:制作資料・正本化前の親素材
html:85件
中優先で処理する。
理由:
-
外部記事・取得記事の可能性が高い
-
本文抽出や要約前処理が必要
-
出典URLや取得元を保持する価値がある
処理方針:
-
原文保存を優先する
-
本文抽出済みtxt/mdがある場合は重複確認する
-
出典・タイトル・取得元を原典・素材DBに残す
-
直接A/B/Cへ渡さず、Dレーンで原典管理する
主な渡し先:
-
Dレーン
-
原典・素材DB
txt:37件
高優先で処理する。
理由:
-
OCRや文字起こし後の素材である可能性が高い
-
A/B/Cへ渡せる断片が含まれる可能性がある
-
崩れや重複を早めに確認した方がよい
処理方針:
-
OCR崩れ・文字化け・改行崩れをチェックする
-
引用と自作メモを分ける
-
一文単位でA/B/Cへ渡せる素材を抽出する
-
崩れが大きいものはD-05修正キューへ回す
主な渡し先:
-
Aレーン:定義・理論
-
Bレーン:星・診断文
-
Cレーン:会話・物語断片
-
Dレーン:OCR修正キュー
docx:26件
中優先で処理する。
理由:
-
編集元・原本である可能性が高い
-
直接DB投入するより、md/txtへ変換してから扱う方がよい
-
書式や章立てが残っている可能性がある
処理方針:
-
まず原本として原典・素材DBへ登録する
-
必要に応じてmd化する
-
既に対応するmd/txtがある場合は親素材として扱う
-
本文投入は変換後にA/B/Cへ渡す
主な渡し先:
-
Dレーン
-
原典・素材DB
内容別処理方針
_master:物語・統合済み素材
扱い:Cレーン優先。
処理方針:
-
本編
-
番外編
-
EP
-
会話劇
-
ケーススタディ
-
教材内ストーリー
に分ける。
投入先候補:
-
物語・エピソードDB
-
登場キャラDB
-
学習コンテンツDB
-
原典・素材DB
次工程:D-11へ渡して、EP単位・場面単位・教材テーマ単位へ分割する。
books / docx:書籍・資料原本
扱い:Dレーンで原本管理し、A/Bへ派生させる。
処理方針:
-
原本ファイルとして原典・素材DBへ登録
-
md化済みがあれば、原本と派生素材を関連付ける
-
理論素材はAへ
-
星・診断素材はBへ
-
出典不明・引用扱いが難しいものはD保留
投入先候補:
-
原典・素材DB
-
学問概念DB
-
星・診断パターンDB
books-md:書籍系変換済み素材
扱い:A/Bへの投入候補。
処理方針:
-
章単位または見出し単位で分割する
-
理論・定義・背景はAレーン
-
星・診断・パターン文はBレーン
-
教材化できる説明は学習コンテンツDBへ
投入先候補:
-
学問概念DB
-
星・診断パターンDB
-
学習コンテンツDB
-
原典・素材DB
OCR十大主星
扱い:Bレーン優先。ただしOCR修正が必要。
処理方針:
-
星名表記を確認する
-
OCR崩れを修正する
-
十大主星ごとに分類する
-
診断カード文・講座文・原典引用を分ける
投入先候補:
-
星・診断パターンDB
-
原典・素材DB
-
学習コンテンツDB
次工程:D-05でOCR修正キュー化し、Bレーンへ渡す。
root記事・文字起こし
扱い:Dレーンで一時保管し、用途別に振り分ける。
処理方針:
-
外部記事は原典・素材DBへ
-
制作方針は制作資料DBへ
-
理論説明はAへ
-
診断素材はBへ
-
物語断片はCへ
-
判定不能はD保留
A/B/C/Dへの受け渡し
Aレーンへ渡す
-
books-md の理論・概念・体系説明
-
txt/md内の定義文
-
六十花甲子や干支の理論説明
-
canonに近い基準文
Bレーンへ渡す
Cレーンへ渡す
-
_master の物語素材
-
エピソード・会話劇・本編/番外編
-
診断ケースとして使える物語断片
Dレーンに残す
-
html原本
-
docx原本
-
出典確認が必要な素材
-
OCR崩れが大きい素材
-
制作資料・運用メモ
-
A/B/C複数レーンで使う親素材
優先順位
最優先
-
_master系mdをCレーンへ渡す準備 -
OCR十大主星をD-05修正キューへ回す
-
books-mdをA/Bへ分ける
-
root txtのOCR崩れ・文字化けを確認する
次点
-
html原本を出典付きで原典・素材DB候補にする
-
docx原本とmd派生素材の対応を確認する
-
制作資料系をD-08へ渡す
次アクション
-
D-05:OCR十大主星・txt素材の修正キューを作る
-
D-11:_master / ep系素材を物語・エピソードDB用に分割する
-
D-06:books-md / OCR / _master をA/B/C受け渡し表へ登録する
-
D-07:原典・素材DBに入れるための項目を固める
-
D-08:制作資料DBに入れるための項目を固める
完了条件チェック
-
articles配下の形式別件数を確認した
-
md / html / txt / docx の処理方針を決めた
-
_master / books / books-md / OCR十大主星 / root記事を内容別に分けた
-
A/B/C/Dへの一次受け渡し方針を作った
-
ファイル単位の詳細台帳を作る
-
OCR十大主星の崩れ確認を行う
-
_master系をEP単位へ分割する
-
html原本の出典管理を行う
メモ
D-03は一次分類として完了。次に進めるなら、実務上は D-05|OCR崩れ・文字化け・表記ゆれの修正キュー と D-11|ep-arcs / _master の物語分割 を先に進めると、B/Cレーンへ渡しやすくなる。