予測が当たるほど、人は死ぬ
AUCが0.92のモデルがある。それで死亡率は下がったのか。
答えはわからない。誰も測っていないからだ。
これが、コンピュータサイエンスを公衆衛生に持ち込むときに起きていることの本質である。測りやすいものが目的の顔をする。精度が上がる。論文になる。現場に届かない。
そもそも予測精度という問い方がおかしい。
公衆衛生が問うべきは、罹患率が下がったか、DALYが改善したか、健康格差が縮小したかである。AUCは手段であって、目的関数ではない。これは概念の混乱ではなく、仕様誤りだ。しかも派手に壊れない。うまく動いているように見えるから、余計に厄介である。
予測は部品である。
感染症の流行予測も、受診中断リスクの推定も、熱中症アラートも、それ自体に公衆衛生的価値はない。価値は介入の先にある。その介入が何を変え、誰の健康成果を変えたか。そこではじめて立ち上がる。偽陰性は重症化の見逃しを招く。偽陽性は不要な行政負荷を生む。分類性能の数字はその損失を語れない。
必要なのはエンドツーエンドの設計である。サーバの出口ではなく、生活の出口まで見通すこと。介入効果、政策シミュレーション、実装条件を追いながら、住民の生活に届くまでを評価すること。
ここで問いがずれる。
機械学習は個人のランキングを好む。誰が高リスクか。誰を先に診るか。だが疾病負荷の大きな削減は、しばしば高リスク者の特定よりも、曝露分布そのものをずらす介入から生まれる。リスクの高い人を当てるより、リスクが広がる地形を変えるほうが効くことがある。
電子カルテから個人の発症確率を推定する技術は確かに貢献である。だがそれだけでは、医療版レコメンドシステムにとどまりかねない。小地域サーベイランス、保健資源の配置、ワクチンの到達度改善、環境規制の評価まで視野に入れ、自治体、学校、職場、生活圏といった単位で設計を考える必要がある。個人を予測する技術から、分布を動かす技術へ。論点はそこへ移る。
公平性は後付けのラベルではない。
公衆衛生データは、整然としたセンサ網ではない。アクセス格差、所得、在留資格、言語といった条件に歪められた観測過程の産物である。医療アクセスの低い人ほど記録に現れにくい。見えないことは、困っていないことを意味しない。
データを統合するほど、選択バイアスは増幅しうる。公平性評価を最後に添えるだけでは不十分だ。年齢、所得、地域、在留資格で層別化し、介入効果の異質性や格差の絶対差まで見なければならない。住宅、労働、差別、保険制度といった社会的決定要因は、説明変数であると同時に、変えるべき対象でもある。
もう一つのずれがある。
予測モデルが答えるのは「何が起きそうか」である。政策が知りたいのは「何を変えると何が起きるか」である。この二つは違う問いだ。差の差分析、時系列介入分析、合成コントロール、因果推論の手法群は地味だが、政策の問いに近い。公衆衛生で必要なのは未来の当てっこよりも、変えられるレバーの同定である。
因果がわかれば終わりでもない。現場はアルゴリズムより忙しい。到達度、採用率、忠実度、現場負担を測らなければ、計算上の最適解は実行不能な解に終わる。予算、人員、法制度、住民の受容性を最初から制約として含まない最適化は、社会的には閉じていない。
倫理もプライバシーだけではない。監視をどこまで正当化できるか。スティグマや差別的執行の危険をどう抑えるか。便益と負担は誰に配分されるか。そこまで含めて設計されてこそ、公衆衛生システムは正当性を持つ。
結局、コンピュータサイエンスは公衆衛生において、高精度な予測器を供給する技術として使われるべきではない。集団の健康改善と格差縮小を目的関数に据えた社会技術システムの方法論として捉え直されるべきである。
予測器、監視器、最適化器は、それ自体では価値を持たない。因果推論、政策介入、実装評価、公平性評価という上位の意思決定系に埋め込まれてはじめて正当化される。
有効性は単一のベンチマークでは測れない。因果的妥当性、外的妥当性、実装可能性、倫理的正統性。その複数の条件を同時に満たしてはじめて、公衆衛生の文脈で「使える」と言えるのである。