D-03｜articles 素材を記事・OCR・masterに分ける

目的

articles.zip 配下の素材を、形式別・用途別に分け、A/B/C/Dレーンへ渡せる状態にする。

D-03では、本文の正本化までは行わず、まず「形式」「用途」「投入先DB」「次に処理すべき単位」を明確にする。

棚卸し結果

実素材は 297件。


形式	件数	主な扱い	優先処理
---	---:	---	---
md	149件	整形済み・変換済み・正本候補	高
html	85件	外部記事・取得記事・変換前素材	中
txt	37件	抽出テキスト・文字起こし・OCR寄り素材	高
docx	26件	Word原本・未変換素材・編集元	中

内容別の大分類

区分	主な内容	主な渡し先	投入先候補DB
_master	物語・本編・番外編・統合済み素材	Cレーン	物語・エピソードDB / 原典・素材DB
books / docx	書籍・資料・Word原本	A/B/D	原典・素材DB
books-md	書籍系md・変換済み素材	A/B	学問概念DB / 星・診断パターンDB / 原典・素材DB
OCR十大主星	十大主星まわりのOCR素材	Bレーン	星・診断パターンDB / 原典・素材DB
root記事・文字起こし	取得記事、html、txt、個別素材	D/A/B/C	原典・素材DB / 制作資料DB

形式別処理方針

md：149件

最優先で処理する。

理由：

すでにMarkdown化されており、Notion投入しやすい
DBページ本文へ転用しやすい
_master や books-md など、正本候補が含まれる

処理方針：

_master はCレーンへ渡す前に、物語単位・EP単位へ分割する
books-md はA/Bへ渡す前に、概念素材・星素材・診断素材へ分ける
OCR由来mdはBレーンへ渡す前に表記ゆれを確認する
meta的な内容は制作資料DB候補へ回す

主な渡し先：

Aレーン：概念・理論・体系説明
Bレーン：星・診断・カード文
Cレーン：物語・EP・会話劇
Dレーン：制作資料・正本化前の親素材

html：85件

中優先で処理する。

理由：

外部記事・取得記事の可能性が高い
本文抽出や要約前処理が必要
出典URLや取得元を保持する価値がある

処理方針：

原文保存を優先する
本文抽出済みtxt/mdがある場合は重複確認する
出典・タイトル・取得元を原典・素材DBに残す
直接A/B/Cへ渡さず、Dレーンで原典管理する

主な渡し先：

Dレーン
原典・素材DB

txt：37件

高優先で処理する。

理由：

OCRや文字起こし後の素材である可能性が高い
A/B/Cへ渡せる断片が含まれる可能性がある
崩れや重複を早めに確認した方がよい

処理方針：

OCR崩れ・文字化け・改行崩れをチェックする
引用と自作メモを分ける
一文単位でA/B/Cへ渡せる素材を抽出する
崩れが大きいものはD-05修正キューへ回す

主な渡し先：

Aレーン：定義・理論
Bレーン：星・診断文
Cレーン：会話・物語断片
Dレーン：OCR修正キュー

docx：26件

中優先で処理する。

理由：

編集元・原本である可能性が高い
直接DB投入するより、md/txtへ変換してから扱う方がよい
書式や章立てが残っている可能性がある

処理方針：

まず原本として原典・素材DBへ登録する
必要に応じてmd化する
既に対応するmd/txtがある場合は親素材として扱う
本文投入は変換後にA/B/Cへ渡す

主な渡し先：

Dレーン
原典・素材DB

内容別処理方針

_master：物語・統合済み素材

扱い：Cレーン優先。

処理方針：

本編
番外編
EP
会話劇
ケーススタディ
教材内ストーリー

に分ける。

投入先候補：

物語・エピソードDB
登場キャラDB
学習コンテンツDB
原典・素材DB

次工程：D-11へ渡して、EP単位・場面単位・教材テーマ単位へ分割する。

books / docx：書籍・資料原本

扱い：Dレーンで原本管理し、A/Bへ派生させる。

処理方針：

原本ファイルとして原典・素材DBへ登録
md化済みがあれば、原本と派生素材を関連付ける
理論素材はAへ
星・診断素材はBへ
出典不明・引用扱いが難しいものはD保留

投入先候補：

原典・素材DB
学問概念DB
星・診断パターンDB

books-md：書籍系変換済み素材

扱い：A/Bへの投入候補。

処理方針：

章単位または見出し単位で分割する
理論・定義・背景はAレーン
星・診断・パターン文はBレーン
教材化できる説明は学習コンテンツDBへ

投入先候補：

学問概念DB
星・診断パターンDB
学習コンテンツDB
原典・素材DB

OCR十大主星

扱い：Bレーン優先。ただしOCR修正が必要。

処理方針：

星名表記を確認する
OCR崩れを修正する
十大主星ごとに分類する
診断カード文・講座文・原典引用を分ける

投入先候補：

星・診断パターンDB
原典・素材DB
学習コンテンツDB

次工程：D-05でOCR修正キュー化し、Bレーンへ渡す。

root記事・文字起こし

扱い：Dレーンで一時保管し、用途別に振り分ける。

処理方針：

外部記事は原典・素材DBへ
制作方針は制作資料DBへ
理論説明はAへ
診断素材はBへ
物語断片はCへ
判定不能はD保留

A/B/C/Dへの受け渡し

Aレーンへ渡す

books-md の理論・概念・体系説明
txt/md内の定義文
六十花甲子や干支の理論説明
canonに近い基準文

Bレーンへ渡す

OCR十大主星
星・診断・カード文に使える素材
六十花甲子の診断文候補
books-md内の星別説明

Cレーンへ渡す

_master の物語素材
エピソード・会話劇・本編/番外編
診断ケースとして使える物語断片

Dレーンに残す

html原本
docx原本
出典確認が必要な素材
OCR崩れが大きい素材
制作資料・運用メモ
A/B/C複数レーンで使う親素材

優先順位

最優先

_master 系mdをCレーンへ渡す準備
OCR十大主星をD-05修正キューへ回す
books-mdをA/Bへ分ける
root txtのOCR崩れ・文字化けを確認する

次点

html原本を出典付きで原典・素材DB候補にする
docx原本とmd派生素材の対応を確認する
制作資料系をD-08へ渡す

次アクション

D-05：OCR十大主星・txt素材の修正キューを作る
D-11：_master / ep系素材を物語・エピソードDB用に分割する
D-06：books-md / OCR / _master をA/B/C受け渡し表へ登録する
D-07：原典・素材DBに入れるための項目を固める
D-08：制作資料DBに入れるための項目を固める

完了条件チェック

articles配下の形式別件数を確認した
md / html / txt / docx の処理方針を決めた
_master / books / books-md / OCR十大主星 / root記事を内容別に分けた
A/B/C/Dへの一次受け渡し方針を作った
ファイル単位の詳細台帳を作る
OCR十大主星の崩れ確認を行う
_master系をEP単位へ分割する
html原本の出典管理を行う

メモ

D-03は一次分類として完了。次に進めるなら、実務上は D-05｜OCR崩れ・文字化け・表記ゆれの修正キュー と D-11｜ep-arcs / _master の物語分割 を先に進めると、B/Cレーンへ渡しやすくなる。

MEGURU

エクスプローラー

D-03｜articles 素材を記事・OCR・masterに分ける

D-03｜articles 素材を記事・OCR・masterに分ける

目的

棚卸し結果

内容別の大分類

形式別処理方針

md：149件

html：85件

txt：37件

docx：26件

内容別処理方針

_master：物語・統合済み素材

books / docx：書籍・資料原本

books-md：書籍系変換済み素材

OCR十大主星

root記事・文字起こし

A/B/C/Dへの受け渡し

Aレーンへ渡す

Bレーンへ渡す

Cレーンへ渡す

Dレーンに残す

優先順位

最優先

次点

次アクション

完了条件チェック

メモ

グラフビュー

目次

バックリンク