D-05|OCR崩れ・文字化け・表記ゆれの修正キュー
目的
articles.zip 内のOCR由来素材・文字起こし系素材を、A/B/Cへ渡す前に修正・分類する。
D-05では、本文の完全整形ではなく、まず どの素材を先に直すか / どのレーンへ渡すか / どのDBに入れるか を決める。
対象素材
D-03の棚卸し結果から、D-05の主対象は以下。
| 対象 | 件数 | 主な内容 | 主な渡し先 | 優先度 |
| --- | ---: | --- | --- | --- |
| OCR十大主星系 | 11件 | 十大主星まわりのOCR統合素材 | Bレーン | 高 |
root c*.txt | 26件 | 恋愛算命学・文字起こし系テキスト | A/B/D | 高 |
root p*.txt | 11件 | AI×算命学・プロンプト/制作補助系テキスト | D/A | 中 |
| OCR由来md | 若干 | 変換済みだが崩れ確認が必要な素材 | A/B/D | 中 |
| docx原本 | 26件 | 原本・編集元。OCR修正対象ではなく照合元 | D | 中 |
優先順位
最優先:OCR十大主星系 11件
Bレーンへ渡すために最初に処理する。
理由:
-
星・診断パターンDBへ直結する
-
十大主星ごとに分割しやすい
-
診断カード文、講座文、星別解説へ展開しやすい
-
OCR崩れが残っていると、星名・専門語・診断文が壊れやすい
処理方針:
-
星名の表記を確認する
-
文章として使える部分と、原典引用として残す部分を分ける
投入先候補:
-
星・診断パターンDB
-
原典・素材DB
-
学習コンテンツDB
完了条件:
-
星ごとに分割できる
-
診断文へ転用できる文が抽出できる
-
OCR崩れが大きい箇所に修正メモが付いている
root c系テキスト 26件
恋愛算命学・文字起こし系の可能性が高い素材。
扱い:A/B/Dの中間素材。
処理方針:
-
恋愛・相性・人間関係に関する診断文はBレーンへ
-
背景理論・概念説明はAレーンへ
-
出典や文脈が不明なものはDレーンに保留
-
文字起こし崩れ、話し言葉、重複を整える
-
センシティブな断定表現は教材用に後で言い換える前提で原文保持する
チェック項目:
-
文頭・文末が欠けていないか
-
同じ内容が複数ファイルに重複していないか
-
講義文字起こしなのか、記事なのか、自作メモなのか
-
恋愛診断カードに使えるか
-
原典・素材DBへ親素材として残すべきか
投入先候補:
-
原典・素材DB
-
星・診断パターンDB
-
学問概念DB
-
学習コンテンツDB
完了条件:
-
A/B/Dのどこに渡すか決まっている
-
恋愛診断素材として使える文が抽出されている
-
出典不明・重複・要確認が分けられている
root p系テキスト 11件
AI×算命学、プロンプト、制作補助、運用メモ系の可能性が高い素材。
扱い:Dレーン中心。必要に応じてAへ渡す。
処理方針:
-
プロンプトや制作手順は制作資料DBへ
-
算命学の理論説明として使える部分はAレーンへ
-
診断文生成のルールが含まれる場合はBレーンの補助資料にする
-
本文素材ではなく、制作・運用ルールとして扱う
投入先候補:
-
制作資料DB
-
原典・素材DB
-
学問概念DB
-
タスクDB
完了条件:
-
プロンプト / 制作方針 / 理論素材 / 保留に分かれている
-
制作資料DBへ入れる候補が分かる
修正観点
1. 星名・専門語の表記ゆれ
重点確認語:
2. OCR誤認しやすい文字
重点確認:
-
鳳 / 鳥 / 風
-
禄 / 緑 / 録
-
騎 / 奇 / 綺
-
牽 / 牛 / 事
-
龍 / 竜 / 寵
-
堂 / 常
-
干 / 千
-
支 / 技
-
占 / 古
-
星 / 里
3. 文体崩れ
確認するもの:
-
途中で文が切れている
-
改行が多すぎる
-
箇条書きが崩れている
-
見出しと本文が混ざっている
-
句読点が抜けている
-
講義口調がそのまま残っている
4. 出典・引用の扱い
分類する:
-
原典引用
-
講義文字起こし
-
自作メモ
-
AI生成メモ
-
編集済み教材文
-
出典不明
出典不明のものは、A/B/Cへ直接流さず、Dレーンで保留する。
キュー分類
Bレーン直行候補
条件:
対象:
-
OCR十大主星系
-
root c系の診断文部分
Aレーン候補
条件:
-
概念説明として読める
-
理論背景として使える
-
教材の定義パートに使える
対象:
-
root c系の理論説明部分
-
root p系の算命学説明部分
-
OCR素材の概念説明部分
Dレーン保留
条件:
-
出典が不明
-
OCR崩れが大きい
-
ファイル内容が重複している
-
AI生成メモか原典か判別できない
-
制作資料なのか本文素材なのか曖昧
対象:
-
root p系のプロンプト/運用メモ
-
html原本との対応未確認素材
-
docx原本との照合が必要な素材
修正作業の進め方
Step 1:ファイル単位で判定
各ファイルに以下を付ける。
| 項目 | 内容 |
|---|---|
| 素材名 | ファイル名または仮タイトル |
| 系統 | OCR十大主星 / c系 / p系 / OCR由来md / その他 |
| 崩れ度 | 軽い / 中 / 重い |
| 主な用途 | 理論 / 星診断 / 恋愛診断 / プロンプト / 原典保管 / 保留 |
| 渡し先 | A / B / C / D |
| 投入先DB | 原典・素材DB / 星・診断パターンDB / 制作資料DB など |
| 修正メモ | 星名誤認、改行崩れ、出典不明など |
Step 2:Bレーン候補から先に修正
Bレーンへ渡せるものを優先する。
理由:
-
十大主星・診断パターンDBに直結する
-
教材化・カード化の再利用価値が高い
-
OCR崩れを放置すると誤診断につながる
Step 3:A/Dへ分岐
理論説明はAへ、制作資料・出典不明・原本照合が必要なものはDへ残す。
D-05の成果物
-
OCR修正キュー
-
星名・専門語の表記ゆれチェックリスト
-
Bレーンへ渡す十大主星素材リスト
-
Aレーンへ渡す理論素材リスト
-
Dレーンに残す出典不明・重複・要確認リスト
-
原典・素材DBに親素材として入れる候補
次アクション
-
OCR十大主星11件を最優先で確認する
-
root c系26件を恋愛診断素材 / 理論素材 / 保留に分ける
-
root p系11件を制作資料 / 理論素材 / 保留に分ける
-
崩れ度を「軽い / 中 / 重い」で付ける
-
Bレーンへ渡せる素材を5〜10件単位で確定する
完了条件チェック
-
D-05対象素材を特定した
-
OCR十大主星 / c系 / p系に分けた
-
修正観点を定義した
-
A/B/Dへの振り分け基準を作った
-
ファイル単位の崩れ度を付ける
-
OCR十大主星11件を星別に確認する
-
Bレーンへ渡す初回キューを確定する
-
出典不明・重複・要確認リストを作る
メモ
D-05では、まずBレーンへ渡せるOCR十大主星素材を優先する。root c系は恋愛診断素材として価値が高い可能性があるため、Bレーン候補として確認する。root p系は制作資料DB寄りなので、本文素材として無理にA/Bへ流さない。