計算機は教師の何を代替しようとしているのか
「精度97%」という数字は輝かしい。だが誰も問わない。何の97%なのか、と。
教育にAIが導入されるたび、まず登場するのは性能表だ。モデルが答案を正しくラベルした割合。それは確かに測れる。研究論文としても整理しやすい。ところが授業の側から見れば、そこで本当に聞きたいのは別の問いである。誰の、どの授業の、どの瞬間の何を支援するのか。
AかBか、ではない。そもそも「計算機が教育を支援する」という問い方がすでにずれている。
授業はデータを出力する装置ではない。教師と生徒と教材と時間と教室の空気が絡み合い、理解は隣の生徒のつぶやきにまで左右されながら動いていく。そこに計算機を差し込むなら、賢い機械としてではなく、授業実践に接続された支援アーキテクチャとして設計し直す必要がある。本稿が中学校理科の自由記述回答に絞るのはそのためだ。
ここで最適化すべきは、テスト得点の最大化ではない。
教育学が問うのは、学習者がいまどのような概念理解の位置にあり、そこからどう動きうるか、という状態の問題だ。理科であれば、正誤の二分法より、どんな誤概念を持ち、因果をどう結び、観察事実と理論語彙がどこでずれているかを捉えることが重要になる。NLPモデルの役割は、答案に最終判定を下すことではない。教師が見落としやすい理解の傾向を拾い、授業内対話に仮説を差し込むことにある。
返すべき出力も変わってくる。個人の序列ではなく、「力の向きと運動方向の混同がクラスの複数名にみられる」という誤概念の分布だ。教師はそれを手がかりに、次の発問列を変え、実験配置を調整し、板書を組み替える。計算機は判断を代替する自律系ではなく、教師の実践知を増幅する意思決定支援系として位置づく。
自動化よりも補助線。この地味さこそ、長く機能する条件かもしれない。
もうひとつ、外しがちな罠がある。言語資本の問題だ。
中学生の言語化能力には大きな差がある。表面的によく書けた文章を高理解の代理指標として扱えば、モデルは概念理解ではなく、家庭や文化に分布するまったく別の資源を学習してしまう。文章が巧みな生徒を「理解している」と判定し、うまく表現できない生徒を「理解していない」と読むなら、それは理科の話ではない。だから対象も、単元末の総括的評価より、授業途中の短い自由記述の方が望ましい。そして出力も、教師が「この記述はこうも読める」と差し戻せる余地を残した、解釈可能な中間表現として設計される必要がある。
精度と妥当性も、別物だ。ラベル予測性能が高くても、それが概念理解を本当に捉えているとは限らない。教師の形成的評価と整合するか。面接で学習者の推論過程を確かめたとき説明可能か。その情報をもとに授業を改善した後、理解状態の遷移に変化が見られるか。静的なベンチマークの優劣では教育的価値は測れない。
公平性も、統計的補正だけでは足りない。障害のある生徒、日本語指導を必要とする生徒にとっては、入力段階ですでに不利が埋め込まれている。「分析不能」を「低理解」と読み替えるのは粗雑だ。口頭説明や図式表現といった複数の入力経路を、設計の最初から組み込む必要がある。
学校現場はインフラと労働によって成り立っている。教員の運用負荷、端末やネットワーク、データガバナンス、ベンダーロックインの回避。これらを仕様に含まない研究は、学校では容易に再現不能になる。教室は実験室ではなく、毎日が本番だからだ。そこではモデル単体の性能以上に、それがどの制度のなかで、誰の手によって、どの判断過程に接続されるかが成果を左右する。
アルゴリズムは主役ではない。制度と運用に支えられた脇役だ。脇役の設計を誤れば、全体は容易に損なわれる。
倫理も付録ではない。過度な監視を避けること、説明可能であること、異議申し立てができること。これが欠ければ、支援システムはたちまち管理装置へ変質する。
もちろん、自由記述で捉えられるものには限界がある。沈黙も感情も協働も身体性も、テキストだけでは読めない。この手法は教育の全体を代表しない。授業省察のための、限定的だが有効な計算的補助線。そう位置づけたとき、この技術はもっとも健全に教育へ接続される。