データが増えるほど、政治は見えなくなる
SNS投稿の一億件のログがある。それで政治がわかるか。
答えは「いいえ」ではなく、「問いの立て方がまずい」だ。精度の問題ではない。そもそも何が観測されているのか、誰も問わないまま、分析が始まってしまっている。
政治学の概念の多くは、計算可能な観測対象に落ちてこない。動員とは何か。ポピュリズムとは何か。敵対性とは何か。これらを自然言語処理で分類できたとき、それは概念を測定したのではなく、ラベルを貼っただけかもしれない。高精度な分類器は、妥当な操作化の保証にはならない。
SNS上の言説が政治的動員を駆動するのか。それとも既存の政党、労組、官僚制、地方組織を通ってはじめて政治的効果を持つのか。ここを問わずに「オンラインの盛り上がりが社会を変えた」と言っても、計算は政治に接続していない。インターフェース層を眺めているだけだ。
政治的に重要なものほど、ログに出にくい。非公開の交渉、官僚制内部の実装、執行段階の裁量、抑圧装置の運用。これらは記録されない。見えないから重要でないのではない。重要だからこそ見えにくく設計されている場合すらある。データが「ない」のではなく、データに「なりにくい」のだ。
比較政治の文脈ではさらに深刻になる。権威主義体制や国家能力の低い環境では、デジタル痕跡そのものが、監視・検閲・自己検閲を経て生成されたものかもしれない。観測過程が権力依存であり、データ生成機構が内生的に歪んでいる。先進民主主義に偏った学習データの問題は、単なるサンプル不足ではない。歪みの構造が違う。
制度についても同じ問題がある。CSの発想では制度をルール集合として書きたくなる。だが現実の制度は、歴史的経路依存に引きずられ、非公式な慣習で補われ、執行能力の不足や例外処理で歪む。仕様書どおりには実装されない。CSが制度設計の万能性を語るより、制度運用のログ、逸脱、裁量の分布を可視化する観測装置として機能するほうが誠実だろう。
倫理もまた、分析の後に付け足すものではない。政治データの処理は、監視コストの再配分であり、誰を高リスク主体とみなすかという政策判断そのものに入り込む。精度を最大化することが、目標ではあり得ない。説明責任、監査可能性、異議申し立て可能性、被害最小化が、設計の要件として組み込まれなければならない。
では、CSは政治学に何をもたらせるのか。政治を全部見えるようにする魔法ではない。何が観測可能で、何が潜在変数として残り、その観測可能性自体がどの制度と権力配置によって作られているのかを、執拗に示すこと。見えるものを増やすだけでなく、なぜそれしか見えないのかを問うこと。
その地点ではじめて、計算は政治に接続する。政治とは、そのくらい面倒な対象なのだ。