コンピュータサイエンス × 文学

文学を数える機械は、何を読み損なうのか

感情分析器が「悲しみ」と判定した段落を思い浮かべてほしい。その段落が信頼できない語り手の自己演出だったとしたら、どうなるか。機械は正しく答えを出した。でも文学的には、かなり粗い誤読に近い。

これが問題の核心だ。計算が文学を呑み込むかどうか、ではない。計算は何をつかめて、何をこぼし落とすのか。その境界線はどこにあるのか。

反復から考えてみる。ある語が特定の章にだけ不自然に多い。ある人物の発話の近傍に似た比喩が集中している。こうした偏りは検出できる。機械は、数えることにかけてはきわめて誠実だ。

だが、検出された反復がそのまま意味になるわけではない。同じパターンでも、語り手の執着を示す場合もあれば、自由間接話法による意識のにじみである場合もある。ジャンルの慣習のこともあれば、アイロニーへの布石のこともある。機械が見つけるのは意味そのものではなく、意味が発生していそうな傷や継ぎ目に近い。

だから手続きはこうなる。計算で偏りを拾い、人間がその箇所を精読して局所文脈を戻し、歴史・制度・ジャンル・版の事情を重ねる。機械が投げた目印を人間が現場検証する。「ハイブリッド推論」と呼べば聞こえはいいが、実態は読解の労働が別の場所へ移ることにすぎない。

さらに言えば、コンピュータサイエンスは物語を状態遷移やグラフや系列として記述するのが得意だ。しかしそこで捉えられるのはストーリーの骨格であって、語りの厚みではない。誰が何を知っているのか。誰の知覚を経由して世界が提示されるのか。語り手の信頼性がどう撹乱されるのか。文学研究が長く見てきたのは、そうしたディスクールの制御だった。

計算的に言い換えれば、視点・知識状態・発話主体・時間の参照枠という複数の潜在変数が重なった、不完全観測の問題に近い。現状の計算的方法がそれをきれいに同定できるかといえば、心もとない。できるのは「このあたりで何かが起きている」と指し示すことくらいだ。計算は解釈機械というより、探索のためのヒューリスティクスだ。優秀な読者というより、勘のいい索引係に近い。

もう一つ、見落としがちだが本当はかなり政治的なのが前処理だ。トークン化、正規化、コーパス整備は技術的な下準備に見える。しかしその段階で、研究仮説のかなりの部分がすでに実装されている。地の文と会話文をどう分けるか。版の差異を消すのか残すのか。何をコーパスに含め何を外すのか。そこには「何を文学として数えるのか」という判断が埋め込まれている。データは自然物ではなく、歴史的・制度的な選別の結果だ。

比喩、アイロニー、語調のずれ。これらは形式化できずに取り残された残差ではない。意味生成の中枢そのものだ。意味は語の表面だけから生まれない。誰が語るのか、読者が何を期待するのか、ジャンルが何を許すのか、直前までに何が積み上がっているのか。その多層的な相互作用から立ち上がる。

では計算モデルは何の装置なのか。意味を決定する装置ではない。どの曖昧性なら特徴量に落ち、どの曖昧性が設計の外へこぼれ落ちるのかを、半ば実験的に露出させる装置だ。何をつかめたか以上に、何をつかめなかったかが見える。モデルの成功より、失敗の輪郭のほうが豊かな情報を与えることさえある。

計算は文学の意味を回収する万能機ではない。せいぜい、読解の足元に補助線を引く道具だ。しかし限界条件を自覚して引かれた補助線は、文学を機械に明け渡すためではなく、文学がどこで機械の手をすり抜けるのかを見やすくするために、十分に役立つはずだ。