コンピュータサイエンス × 医学

医学とコンピュータサイエンスの間で何かが取り違えられている

医療AIの論文を読んでいると、ある奇妙な光景に気づく。AUCが0.02改善した。コンペで上位に入った。そこで終わる。

患者が助かったかどうかは、書いていない。

これは不誠実さの話ではない。問いの設定が最初からずれている、という話だ。「コンピュータサイエンスは医学に何を持ち込めるか」と聞かれれば、多くの人は「よく当たる分類器」と答える。だがそもそも「当たる」とは何に対して当たることなのか。そこを問い直さないと、精度が上がるほど現場が困る、という逆転が起きる。アラートの精度が上がった結果、アラートが増えすぎて誰も見なくなる。賢い部品が、鈍いシステムを作る。

問題は予測精度ではなく、計算モデルの設計思想だ。

病気は静止画ではない。敗血症も、心不全も、急性腎障害も、刻一刻と状態が変わる。観測できるのはその一断面にすぎず、見えない潜在状態が水面下で動き続けている。なのに多くのモデルは、患者を「ある時点のデータの束」として扱う。スナップショットに分類ラベルを貼り、それを予測する。病態を映しているようで、実は病態の影を映している。

必要なのは、患者が「いまどの状態にいて、どの方向に遷移しつつあり、どの介入がその軌道を変えうるか」を問えるモデルだ。当たるモデルではなく、扱えるモデル。相関ではなく、介入可能な単位。この転換がなければ、高リスク患者を発見しても「で、何をすればいいのか」という問いに答えられない。予後予測と治療効果推定は、似ているようで全く別の問題だ。

データの扱い方も同じ罠にはまりやすい。ゲノム、病理画像、CT、電子カルテ、ウェアラブル。これらを「マルチモーダルデータ」と一括りにして、一つのテーブルに並べてfusionする。便利な言葉だが、粗雑さを隠している。ゲノムは分子の記述であり、CTは臓器の形態であり、ウェアラブルは生活の時系列だ。階層が違う。それを一枚の表に溶かすのは、豪快な寄せ鍋から具材の区別を消すようなものだ。栄養は残っても、構造は失われる。

診断支援の評価も、文脈を外すとおかしくなる。スクリーニングと救急トリアージと専門外来では、同じ病名を予測するにしても意味が違う。見逃しと拾いすぎのコストが違い、事前確率が違う。AUCという指標が無意味なのではない。ただ、AUCだけで語り切れると思うのは機械側の都合だ。偽陽性が誘発する追加検査、偽陰性がもたらす取り返しのつかなさ、過剰診断が現場の処理能力を削る影響。それらを込みにして初めて「使える」が見えてくる。だからこそ評価の単位は、classifier benchmarkingからutility-awareなシステム評価へ移らなければならない。

妥当性の問題も深刻だ。単一施設のretrospective benchmarkで動くことは、単体テストに通ったにすぎない。外部施設で動くか。前向き運用で崩れないか。可能ならRCTまで含めて、転帰が改善するか。そこまで行って初めて、「役に立つかもしれない」が「役に立つ」に近づく。見るべき指標は、モデル精度だけでなく、死亡率、再入院、QOL、費用対効果だ。地味だが、地味な指標ほど現場に残る。

倫理と安全の話になると、公平性・透明性・説明可能性という抽象名詞が並びがちだ。だが現場で実際に問題になるのは、自動化バイアス、アラート疲れ、データドリフト、フェイルセーフの欠如といった泥臭い論点だ。新しいAIの話をしているつもりが、古典的な安全工学の課題に戻ってくる。この皮肉は、むしろ健全だと思う。

「AIが最適治療を決める」という方向に急ぐのも危うい。抗菌薬、輸液、人工呼吸管理は、外れたときの被害が大きく、不可逆だ。完全自動化よりhuman-in-the-loopの意思決定支援として設計するほうが今は妥当で、それは技術の限界というより制度の現実だ。責任と安全を支える制度が、なお人間を前提としている。技術だけが先に進み、制度が追いつかない構図は、医療ではありふれている。

コンピュータサイエンスが医学に向かうとき、問いはこうなる。どの患者集団に対して、どの意思決定を、どの程度安全に改善できるのか。「予測できるか」ではない。その厳しい問いに耐えることが、医学に入るコンピュータサイエンスの成熟だ。

病態に整合した計算モデルを組み、介入仮説を導き、それが臨床転帰を改善することを示す。そこまで到達して初めて、医学研究としての重みが生まれる。