辛口レビュー：4社のAIに同じ質問を投げた日（第一稿）

全体要旨：実験設計と「言わないことリスト」の物証は強い。核は「差は内容ではなく、何を言わないかの選択にある」で、これは前作#1の構文の式化と同じ強度を持つ。ただし、表の説得力に頼りすぎて、思考の道筋が断片的に並んでいる。中央値の理由付けカードと、人間アドバイザーへの転写カードの間が滑っている。シライ自身の関与開示も、#1の自己反省より弱い。「6項目は私が書いた」だけでは温度が足りない。

列の見出しが揃っていない。「字数」と「構成順序」と「ヘッジ位置」は性質が違う(量・順序・位置)のに同列で並ぶので、読者は何を比較しているのか掴みづらい。観察軸を「収斂する項目」と「分岐する項目」の二群に分けて配置するか、あるいは表を二つに割ったほうがいい。シライの実装者の手つきなら、ログを並べて見せた後に「ここまでは一致、ここから分岐」と区切る書き方ができる。

temperatureは全社0.7に揃え、system promptは空。3回ずつ投げて分散も見る。

3回で分散を語るのは弱い。本筋ではないにせよ、シライの実装者キャラなら「3回では分散の議論はできないので、ここでは中央寄りの傾向だけを見る」と一言予防線を張るのが自然。手抜きを表に出す書き方のほうが信用される。

4社とも訓練データに同じインターネットの家計言説を吸っているから。

「吸っている」「統計的重心」「アーキテクチャ差は分散には効くが」あたりがLLMくさい。シライのカードに置くなら、もっと泥臭い。「同じCommon Crawlを学習に使えば、同じ家計ブログの順位が上に来る」「日本語の家計記事はSEO上位の数十本がほぼ同じことを書いている」のような、訓練データのソース面の具体に寄せたほうが説得力が出る。

forbid: 個別銘柄の固有名(S&P500、トヨタ等) ...

10項目がきれいに揃いすぎている。実際のYAMLはもっと汚いはず——コメントが入っていたり、過去のインシデント由来の謎条項があったり。「2024年のXX件以来この行が入っている」のような、リストの考古学的な層を一行入れると、これが本物に見える。今は教科書の例題のように見える。

AIの差を観察すると、人間の差の正体も同じ形に見えてくる。各人の個性は、何を言うかより、何を言わないかで決まっている。

「同じ形に見えてくる」は前作#1の「同じ漢字が別の中身を運んでいる」に比べて遠回し。シライの観察なら、もっと具体的に書ける——「タカハシのほうのリストは紙に書かれていないが、面談簿を百本見れば抽出できる。AIのリストはYAMLで30行。媒体が違うだけで、構造は同じ」のように、媒体の差まで降りる。

社内のCSアンケートで「役に立たなかった」コメントの3割が、この「具体性のなさ」を指している。

シリーズ全体の禁則「偽精度の数字」に該当しかける。「3割」は実測か概算か。実測ならその一行を入れる(「3ヶ月分のNPSフリーコメントを目視分類した結果」など)、概算なら「目視で繰り返し見る」程度に下げる。シライの口は数字に対して厳しいキャラなので、ここで雑にすると人物がぶれる。

10項目のうち6項目は私が書いた。残り4項目は法務レビューで足された。

#1の自己反省は「システムプロンプトのその一行を、結局そのまま残した」までcommit IDの話まで降りた。今回はそこまで降りていない。書いた6項目のうちどの一行が一番判断に迷ったか、コミットログから引いてくる。あるいは、4項目が法務で足された経緯——どんなインシデントが背景にあって足されたか——のうち一つを開示する。観察者と設計者を兼ねていることを、もう一段具体に降ろす。

私の手元には、削るボタンと足すボタンしかない。

結末が比喩で閉じている。#1批評の指摘と同型——シライの結末は事務的でいい。「明日10時の朝会、議題3番目、所要15分、私が説明担当」のような、業務スケジュールの一行で終わるほうが、シライの身体に合う。

残す：4社の出力が中央値に収斂する観察。差が「言うか言わないか」のラインの位置だという発見。自社の「言わないことリスト」をYAMLで開示する物証。観察者と設計者の兼任の自己反省。
削る：表の雑な列構成、教科書的な中央値の説明、3割という曖昧な数字、結末の比喩。
加える：表を「収斂列/分岐列」に二分する見せ方、リストの考古学(過去インシデントの一行)、設計者としての具体的な迷い(コミットの一行)、結末を業務スケジュールで閉じる。

辛口レビュー——「4社のAIに同じ質問を投げた日」（第一稿）について

辛口レビュー
——「4社のAIに同じ質問を投げた日」（第一稿）について