コンピュータサイエンス × データサイエンス

コンピュータサイエンスの呪い

パイプラインに載せた瞬間、データは「整った」ように見える。

欠測も、ラベルノイズも、制度が埋め込んだバイアスも、スキーマが揃うと消えたかのように錯覚する。これがコンピュータサイエンスの呪いだ。誤ったものを、安定して、速く、大規模に回す能力。これほど立派で、これほど危うい能力もない。

そもそも「データサイエンスとは大量データに計算をかける営みだ」という説明自体がおかしい。現実のデータは素直ではない。測定の癖を引きずり、何が記録されるかすら制度や運用に左右される。データサイエンスとはそうした不完全な断片に計算可能な表現を与え、アルゴリズムに載せ、その出力を人間の意思決定へ接続する営みだ。そして実務では、この最後の接続がもっとも都合よく省略される。

モデル構築の段階でも同じことが起きる。AUCの高い分類器が介入方策の根拠になるとは限らない。予測可能性と政策的妥当性は一致しない。AutoMLは探索を速める一方で、識別仮定や選択バイアスの問題を背景に退かせる。計算機の上では似たオブジェクトに見えても、守るべき意味は違う。

コンピュータサイエンスがデータサイエンスに貢献するとは、高速化や自動化を輸出することではない。どの統計的主張が実装のどこで保たれ、どこで壊れうるかを仕様として明示することだ。「速く回る」より「何が壊れずに回っているか」を言えることが重要だ。

説明可能性も見栄えの問題ではない。障害時に何が観測でき、責任をどこまで追跡でき、改善に必要なログが残っているか。観測可能性と監査可能性の問題だ。再現性も同様で、コンテナ化やバージョン管理だけでは足りない。データは変化し、前処理の自由度は大きく、同じコードから異なる結論が生まれることも珍しくない。

決定的なのは、出力が予測値で終わらないことだ。しきい値の設定、誤分類コスト、人間の介入範囲——モデルの値は意思決定プロトコルに埋め込まれて初めて社会的意味を持つ。評価すべきはスループットではなく、どのような意思決定手続きが実装され、その質がどう変わったかだ。

必要なのは、データ生成過程の監査、統計的妥当性、説明責任、意思決定上の価値を、壊れやすさを含めて可視化する計算アーキテクチャの設計だ。どこで失敗しうるか、誰にコストを負わせるか、どの前提の上でしか成立しないかを仕様として書き込む。地味で遅い作業だ。だがその遅さこそ、現実を相手にする技術の最低限の礼儀だろう。