コンピュータサイエンス × 生物学

精度が上がるほど、生物学から遠ざかる

単一細胞RNA-seqの論文を開くと、必ずきれいなUMAPが載っている。点の群れが色分けされ、クラスターに名前がついている。美しい。でも、そのクラスターは何なのか。

「細胞型」だと多くの論文は言う。だが待ってほしい。表現空間で近い点の集合は、自動的に細胞型の存在を意味しない。細胞は静止した点群ではなく、系譜と履歴を背負い、組織という文脈のなかで状態遷移している主体だ。埋め込み図の美しさは、その問いに答えていない。

これが、「計算生物学」が陥りやすい罠の核心だと思う。

精度が高いほど良い、とCS側は考える。AUC、再現率、汎化性能。指標は明快で、比較しやすい。だが生命現象の前では、この問いかけ方そのものがずれている。「どこまで当たるか」より先に問うべきは、「どの計算表現が生命のどの階層に対応し、モデルへの操作のうち何が実験の介入に相当するのか」という設計の問題だ。

生物は、高次元データを安定供給する装置ではない。進化という不可逆な履歴の堆積の上に成り立ち、発生という多層的な過程を経て、環境との相互作用のなかで絶えず姿を変える。工学的に最適設計されたモジュールではなく、試行錯誤の末に残った冗長で可塑的な実装の集積だ。「唯一の正解モデル」を選び抜く姿勢は、そもそも生物の事情と噛み合わない。同じ機能が異なる実装で成立し、種をまたげば分布も容易にずれるからだ。

観察の単位が変わると、問題はさらに深刻になる。

分子、細胞、個体、生態系。計算機の側から見れば、どれもノードかサンプルに見える。だが独立同分布の仮定も、ノイズの構造も、観測可能性も、階層ごとに根本的に異なる。scRNA-seqのクラスターの話はその一例にすぎない。状態空間モデル、系譜追跡、ライブイメージング、摂動データを接続して初めて、分子表現から細胞状態、さらに個体表現型への不完全な写像を推論できる。

生態学では、この問題がより露骨になる。種間相互作用は固定エッジではない。環境条件、密度依存性、生活史段階によって、重みも符号も変わる。しかも観測は、調査努力や見つけやすさに強く歪められている。派手な可視化でそれを覆い隠してはいけない。観測過程を明示した階層モデルで潜在ダイナミクスを復元する。そういう節度が要る。

遺伝子から表現型への写像も、単純な関数近似では扱えない。エピスタシス、遺伝的背景、可塑性、発生バイアスが絡む。相関から因果を一意に立ち上げることは難しい。だからCS由来の因果推論も、受動観測だけで完結する知的機械としてではなく、ノックアウトやCRISPR、実験進化といった介入と結びついたときに初めて力を持つ。計算は因果を自動抽出する魔法ではない。どの介入が何を識別可能にするかを評価し、実験計画を導く理論として機能するものだ。

要するに、CSが生物学に貢献できるのは、複雑さを華やかに描写することではない。階層間の不完全な写像を形式化し、進化・発生・生態という制約のもとで反証可能な仮説を組み立てること。生命の不揃いさを消さずに扱うための補助線として計算を用いること。

精度を上げるほど生物学に近づく、という信念を疑うことからしか、長く残る仕事は始まらない。