コンピュータサイエンス × 地域研究

計算は、地域の前でバグを吐く

地図があり、統計があり、テキストがある。だから回して、分類して、可視化する。そこそこ動く。

問題は、その「そこそこ」が案外もろいことではない。もっと根本的なことだ。そもそも何を差異として数えるかという、実装の前提が問われている。

東南アジアの国境地帯を考えてほしい。行政地図は人口と所属を国民国家の離散的カテゴリに整える。だが現地では、交易、通婚、季節移動、宗教実践が日常的に境界をまたぐ。GISに固定境界を前提とした空間データ構造を与えると、気持ちよく破綻する。

これはデータが足りないのではない。カテゴリ設計そのものが歴史的にずれているのだ。

地域固有性とは変数の多さではない。境界線の引き方が誰かの都合で決まっていること、そしてその都合がモデルの中に静かに埋め込まれていること。GISやネットワーク分析の本当の仕事は、既存の境界線を高精細に描き直すことではなく、越境的な実践や制度上は見えなくても実践上は太いノードを検出することにある。

言語処理でもこの問題は露骨になる。標準語中心のコーパスで育ったモデルは、方言、混成語、コードスイッチングをノイズとして扱う。翻訳は便利だが、その便利さは生活世界に埋め込まれた差異を親切に、そして乱暴に標準化する。低資源言語処理が性能改善の課題にとどまらないのはそのためだ。何を消さずに残せたかが、精度と並ぶ評価の一部でなければならない。

時間も同じだ。現在の行政区分や統計分類は、植民地統治、戦争、体制転換の積み重なりの上に置かれた制度的成果物である。アーカイブは中立なデータベースではなく、誰が何を記録し、何を欠損として残したかという生成過程を抱えた記録装置だ。きれいな予測ほど危うい、とはそういうことである。モデルの外に追い出したラベルの由来が、予測の信頼性を静かに腐食する。

フィールドワークをここに置き直すと、その意味が変わる。現地確認ではなく、要件定義以前の営みだ。何をデータと呼ぶか、どのラベルが妥当か、何を記録すると危険で、何を記録しないと現実が消えるか。参与観察や協働設計なしにはこうした判断は見落とされる。

倫理設計も周辺条件ではない。データの公開と可視化は現地社会に新たな追跡可能性と暴露リスクを持ち込む。再現可能性を唯一の善にすれば、守るべき人より複製しやすいデータが優先される。誰が、どこから、何の資源で地域を見ているのか。それ自体が分析条件だ。

だから地域研究はコンピュータサイエンスに面白い対象を供給する分野ではない。表現、分類、学習、比較、公開という計算の基本操作に、批判的な再設計要求を突きつける。

地域研究は応用先ではない。計算の前提を疑わせる、きわめて強力なデバッグ環境なのである。