コンピュータサイエンス × 言語学

計算は問いの粗さを暴く

一晩で百万文を分析できる。それがコンピュータサイエンスの言語学への贈り物だと思っているなら、話が逆だ。

計算が言語学に持ち込んだ本質は、速さではない。「あなたは何をやっているのか」を白状させることだ。何を観測対象とするのか。どこで単位を切るのか。何をもって仮説の当否を決めるのか。そうした判断を、言語学者は長いあいだ暗黙のうちに運用してきた。計算はそれを外に出す。曖昧さを消すのではなく、曖昧さがどこに残っているかを露出させる。

ただし「計算的言語学」とひとまとめにすると議論が死ぬ。三つは区別しなければならない。コーパス検索や可視化を支える計算基盤。統計モデルや機械学習で仮説を扱う推論基盤。文法形式と計算複雑性で理論の記述可能性を定める形式基盤。同じ「計算的」でも、何を保持し、何を切り捨てているかは根本から異なる。

音韻研究で見るとわかりやすい。音声コーパスは、自然発話の変異音を研究者の耳と勘から切り離す。それ自体は補助技術だ。だが確率モデルや学習アルゴリズムが入った瞬間、補助技術ではなくなる。規則ベースか制約ベースか。カテゴリカルか勾配的か。抽象表象と音声実現をどう結ぶか。モデルは理論の中心に踏み込んでくる。

ここで注意が要る。予測が当たることと、理論が正しいことは別の話だ。音響分布には、知覚も話者属性も会話状況も相互行為も折り重なっている。モデルの成功をそのまま理論の真理と読み替えるなら、モデルと生成過程を混同している。機械学習はしばしば、この混同を見えにくくする。

統語論ではいっそうはっきりする。コーパス頻度は使用の統計であって、能力文法の記述ではない。「何が生成可能か」という制約と、「その中で何がよく現れるか」という分布バイアスは、別の問いだ。形式基盤が文法的に許容される構造を記述し、推論基盤はその上に処理負荷やジャンルや社会変異がどう乗っかるかを見る。この役割分担を崩すと、何を言っているのかわからなくなる。

意味論でも同じ構図だ。分布表現や埋め込みは語彙意味や意味変化の記述に強い。しかし量化、否定、照応、含意といった合成性と推論規則が中心になる問題では、それだけでは足りない。形式意味論が積み上げてきた構文―意味写像の議論と接続する必要がある。分布意味論を万能と見なすのは、道具の得意な領域を間違えることだ。

語用論や談話研究では、計算化の限界がそのまま前景に出る。発話行為、含意、ターン交替を扱うとき、ラベル付けの段階から理論が深く入り込む。データは自然に存在するのではなく、解釈を埋め込んで構築される。会話データでは重複発話、修復、中断、視線、身振りも本体だ。要約や対話生成の性能を語用論的説明能力と呼ぶことはできない。

少数言語研究にも同じ問いが来る。変異は誤差ではなく、地域、年齢、階層、スタイル、アイデンティティに条件づけられた体系的な信号だ。少数言語のデータは「保存物」である前に、コミュニティに属する実践であり資源でもある。協働、データ主権、利益還元は研究倫理の付録ではなく、研究設計そのものに組み込まれる問題だ。

結局、コンピュータサイエンスが言語学に与える最大の拡張は、理論とデータと推論と評価のあいだのインターフェースを明示し、異なる種類の証拠を同じテーブルで比較可能にすることにある。ただしそのテーブル自体が中立ではない。コーパスは代表性を自動的に保証しない。アノテーションは理論から自由ではない。

だから最後に問うべきは、予測精度が何ポイント伸びたかではない。形式化によって言語学の争点をどこまで精密に言い換えられたか。どの対立が評価指標の差にすぎず、どの対立が本当に理論的な不一致なのかを、どこまで切り分けられたか。

計算は答えを与えない。問いの粗さを暴く。そこにこそ、言語学にとっての価値がある。