青空文庫を活用したエッセイ素材帳
——明治・大正・昭和前期の文体を現代観察の錨にする

編集部メモ(2026-04-20)

本サイトの既存素材帳(AIが得意な題材)は、AI が「大量テキストからパターンを抽出する」という強みを前提に 70 題を組んだ。だが AI 生成エッセイには決定的な弱点がある——**具体的な出典・時代の厚み・誰も捏造できない語彙**を持たない。その弱点を最小コストで補う資源が、青空文庫(aozorabunko)にある。

青空文庫は著作権切れの日本語文学を 2 万作品以上収録するオープンアーカイブ。森鴎外から宮沢賢治まで、明治 20 年代〜昭和 20 年代の日本語の地層がそのまま保存されている。この素材帳では、青空文庫を引用資源として使うことで「AI の作文」を「AI による観察記録」に昇格させる 24 題を提示する。

なぜ青空文庫は AI エッセイの宝庫か

五つの理由がある。

  1. 著作権切れ——引用・再利用に法的制限がなく、エッセイに原文をそのまま貼れる
  2. コーパスの密度——2 万作品 × 平均数万字 = 数千万語。単一作家の全集を丸ごと context に入れても収まる(1M context 時代の恩恵)
  3. 時代のスナップショット——明治の新聞言説、大正の随筆、昭和前期の小説が「生きた言語」として残っている
  4. AI の幻覚の錨——「夏目漱石がこう書いた」という主張は、実テキストで検証可能。出典を明示するエッセイは、AI 生成でも信頼性が上がる
  5. 文体の鏡——現代広告・SNS・ビジネスメールの定型句を、明治の文体の隣に並べると、その空虚さや反対に妙な豊かさが浮かぶ

逆に避けるべきは、青空文庫を「古い=深い」と自動で読む態度。明治期にも陳腐なコピーは大量にあった。比較対象として使い、古さそれ自体を尊ばないことが、このカテゴリの基本姿勢。

題材カタログ(6カテゴリ × 4題 = 24題)

A. 通時比較系(現代語彙を明治語彙と並べる)

AI の得意技「対比」を時間軸で展開。現代の定型句の隣に明治の用例を置くと、意味のズレが立ち上がる。

B. 随筆家の目を借りる系(観察スタイルを現代に転用)

青空文庫は随筆の宝庫。寺田寅彦、内田百閒、柳田國男の観察スタイルを借りて現代現象を書く擬似随筆。

C. 語彙の計量調査系(大量テキストから頻度・分布を抽出)

青空コーパス全体を走査して、特定語彙の使用頻度・時代分布・共起語を観察する。Gemini/Codex の大 context で単純集計が可能。

D. 引用で応答する系(現代現象に古典で返す)

現代の現象を、青空文庫の一節で側面から照射する。引用が錨になり、AI の創作でも読者に届く重さが出る。

E. 時代の定型との対照(当時のポエマイゼーション)

青空文庫には明治〜昭和前期の新聞広告、社説、刊行広告、訃報も含まれる。現代の定型との対照で「ポエムの歴史」が立ち上がる。

F. メタ・方法論系(青空文庫の使い方自体を対象化)

青空文庫の編集方針、校訂、ルビ処理そのものをエッセイ主題にする。コーパス=中立データではない、という論点。

技術実装メモ(次のパイプラインのために)

データ取得

ruby タグの処理

青空文庫の ruby 記法(例:漢字《かんじ》)は、そのままでは読みにくい。Python の aozorabunko パッケージか、Perl の Aozora::Bunko で plain text 化できる。エッセイ本文に引用する場合は、原文の ruby を保ったまま <ruby> タグで HTML にレンダリングするのが最も品のある出し方。

Codex/Gemini への渡し方

1題あたり 1〜3 作品の全文を context に流し込み、テーマに沿って引用+観察を書かせる。1M context(Gemini 2.5 Pro)や 200k context(Codex)であれば、夏目漱石の短編集全部を投入しても余裕がある。

プロンプト設計の肝:

著作権・出典表記

青空文庫の作品はすべて著作権切れ。引用は自由だが、入力者・校正者への敬意として底本情報を残すのが青空文庫コミュニティの慣行。エッセイ末尾に「引用は青空文庫(aozora.gr.jp)に公開された版に拠る」と一行添える方針とする。

カテゴリ別スタッフ割り当て(想定)
パイプライン化(実装時のメモ)

既存の write-essay-codex-only.sh を改造して write-essay-aozora.sh を作る:

  1. ペルソナ・テーマ・slug に加えて、**青空文庫 URL を 1〜3 個**引数で受け取る
  2. スクリプト内で wget/curl により原文を取得、ruby を plain text に展開
  3. 展開済みテキストを第一稿プロンプトに埋め込み、「以下の原文から必ず 3 箇所以上を直接引用せよ」と指示
  4. 批評・第二稿では引用の妥当性(原文に実在するか)も検証観点に含める

この仕組みができれば、青空 24 題の生産は既存 70 題と同じコストで回る。出典を伴う文の密度だけが上がる。

優先度(最初に書きたい 5 題)

24 題のうち、最も「AI にしかできない面白さ」を発揮できる順

  1. A3. 「閑静」の明治文学と現代マンション広告——本サイトの看板「マンションポエム」と直結、時間軸が加わることで厚みが出る
  2. D1. 芥川『歯車』と ChatGPT の反芻——文学と AI の重なりを正面から扱う、Y Lab の射程らしい題
  3. A4. 消えた二人称の地層——「お疲れ様です」「御社」等の既存エッセイと呼応
  4. F1. 青空文庫に無いものカタログ——G カテゴリ「書かれないもの」と対応する時代差版
  5. B1. 寺田寅彦が現代のコピペ文化を見たら——文体模倣 × 現代観察、AI の得意技と青空資源の融合

← 既存素材帳(AIが得意な題材 70 題)
← 生成エッセイの現在地

本ページは編集部メモ。AI(ChatGPT)で作成・編集しています。青空文庫の運営・収録方針については aozora.gr.jp を参照。