地質記録は、壊れたログだ
データが多ければ、わかることが増える。そう信じている人は多い。でも地球科学を見ていると、その前提が崩れる。
氷床コアを掘る。堆積物を採取する。同位体比を測る。これだけやっても、過去の環境は「復元」できない。できるのは、せいぜい「推定」だ。それも、かなり怪しい推定である。
なぜか。
保存されているのは、過去そのものではない。圧縮され、欠損し、書き換えられた出力だ。侵食が記録を削り、続成作用が信号を変え、保存条件の偏りが地域差を生む。私たちが手にしているのは、観測演算子と保存過程を幾重にも経た痕跡にすぎない。
そしてここが本当の問題なのだが、データが少ないことは実は核心ではない。
核心は、異なる過去が同じ地質記録を生みうる、ということだ。同一の観測パターンの背後に、複数の生成過程が並び立つ。どれだけデータを積み上げても、一意には決まらない。「ビッグデータ不足」として語られがちなこの困難は、実際には「そもそも同定できない」という、より根源的な問題だ。
だから、異種データを統合すれば理解が進むとも限らない。何が直接観測で、何が推定値か。どこに前処理が入り、どのバイアスが混入したか。そこを整理しないままデータを横に並べると、理解ではなく誤解が積み上がる。
コンピュータサイエンスがここで貢献できるとしたら、まずデータ表現の設計だろう。多様なデータを一つの形式に押し込めることではない。時間・空間解像度、観測誤差か年代誤差か構造的不確実性か、測定値か推定値か——そうした違いを保ったまま扱える知識表現が必要だ。
推論の設計も同じ発想で考えるべきだ。粒度分布や同位体比から古環境を推定するとき、分類器でラベルを振ることは有用かもしれない。しかし本質に近いのは、どのような潜在過程がその観測を生成したかを記述する生成モデルだ。ベイズ推論や確率的プログラミング、物理インフォームドな表現学習が有望なのは、層序学的整合性や保存則を制約として埋め込めるからである。精度だけ高いブラックボックスより、反事実的な問いや外挿に耐える推論系の方が、この領域では価値が高い。
シミュレーションと観測をつなぐ話もある。堆積・侵食・輸送の前進モデルで候補となる履歴を生成し、観測との適合から事後分布を更新する。目指すべきは、唯一の「正しい過去」を当てることではない。どの仮説クラスがどの観測集合と両立し、どこから先が識別不能なのかを定量化することに価値がある。真理の一点推定より、無知の輪郭を描く方が重要な場面がある。
多尺度性という難題もある。短期の極端事象が長期層序に爪痕を残し、長期の構造運動が局所堆積の境界条件を規定する。解像度を上げれば理解が深まるとは限らない。支配的な不確実性が年代モデルや保存バイアスにあるなら、計算格子だけ細かくしても推論可能性はほとんど改善しない。イベント、トレンド、局所場、広域場を別々の状態変数として結びつける階層モデルが必要だ。
結局、地球科学を「データの多い応用先」として見ている限り、貢献には限界がある。偏りある観測から潜在的な地球過程を復元する計算論的推論科学として捉え直す必要がある。観測演算子、逆問題、生成モデル、多尺度結合、不確実性の階層——それらを明示的に扱ってはじめて、「地球科学に機械学習を使った」のではなく、「地球科学に根差した計算研究をしている」と言えるのだろう。
少なくとも、議論の出発点はそこにある。