辛口レビュー
——「4社のAIに同じ質問を投げた日」(第一稿)について

全体要旨:実験設計と「言わないことリスト」の物証は強い。核は「差は内容ではなく、何を言わないかの選択にある」で、これは前作#1の構文の式化と同じ強度を持つ。ただし、表の説得力に頼りすぎて、思考の道筋が断片的に並んでいる。中央値の理由付けカードと、人間アドバイザーへの転写カードの間が滑っている。シライ自身の関与開示も、#1の自己反省より弱い。「6項目は私が書いた」だけでは温度が足りない。

1. 表の体裁が雑

model | 字数 | 構成順序 | S&P500 | NISA上限 | ヘッジ位置

列の見出しが揃っていない。「字数」と「構成順序」と「ヘッジ位置」は性質が違う(量・順序・位置)のに同列で並ぶので、読者は何を比較しているのか掴みづらい。観察軸を「収斂する項目」と「分岐する項目」の二群に分けて配置するか、あるいは表を二つに割ったほうがいい。シライの実装者の手つきなら、ログを並べて見せた後に「ここまでは一致、ここから分岐」と区切る書き方ができる。

2. 「temperature 0.7・3回」の根拠が曖昧

temperatureは全社0.7に揃え、system promptは空。3回ずつ投げて分散も見る。

3回で分散を語るのは弱い。本筋ではないにせよ、シライの実装者キャラなら「3回では分散の議論はできないので、ここでは中央寄りの傾向だけを見る」と一言予防線を張るのが自然。手抜きを表に出す書き方のほうが信用される。

3. 中央値の説明カードが教科書的

4社とも訓練データに同じインターネットの家計言説を吸っているから。

「吸っている」「統計的重心」「アーキテクチャ差は分散には効くが」あたりがLLMくさい。シライのカードに置くなら、もっと泥臭い。「同じCommon Crawlを学習に使えば、同じ家計ブログの順位が上に来る」「日本語の家計記事はSEO上位の数十本がほぼ同じことを書いている」のような、訓練データのソース面の具体に寄せたほうが説得力が出る。

4. 「言わないことリスト」が出来すぎ

forbid: 個別銘柄の固有名(S&P500、トヨタ等) ...

10項目がきれいに揃いすぎている。実際のYAMLはもっと汚いはず——コメントが入っていたり、過去のインシデント由来の謎条項があったり。「2024年のXX件以来この行が入っている」のような、リストの考古学的な層を一行入れると、これが本物に見える。今は教科書の例題のように見える。

5. 人間アドバイザーへの転写カードが甘い

AIの差を観察すると、人間の差の正体も同じ形に見えてくる。各人の個性は、何を言うかより、何を言わないかで決まっている。

「同じ形に見えてくる」は前作#1の「同じ漢字が別の中身を運んでいる」に比べて遠回し。シライの観察なら、もっと具体的に書ける——「タカハシのほうのリストは紙に書かれていないが、面談簿を百本見れば抽出できる。AIのリストはYAMLで30行。媒体が違うだけで、構造は同じ」のように、媒体の差まで降りる。

6. 「具体性のなさ」のCS数字

社内のCSアンケートで「役に立たなかった」コメントの3割が、この「具体性のなさ」を指している。

シリーズ全体の禁則「偽精度の数字」に該当しかける。「3割」は実測か概算か。実測ならその一行を入れる(「3ヶ月分のNPSフリーコメントを目視分類した結果」など)、概算なら「目視で繰り返し見る」程度に下げる。シライの口は数字に対して厳しいキャラなので、ここで雑にすると人物がぶれる。

7. 自己反省カードの弱さ

10項目のうち6項目は私が書いた。残り4項目は法務レビューで足された。

#1の自己反省は「システムプロンプトのその一行を、結局そのまま残した」までcommit IDの話まで降りた。今回はそこまで降りていない。書いた6項目のうちどの一行が一番判断に迷ったか、コミットログから引いてくる。あるいは、4項目が法務で足された経緯——どんなインシデントが背景にあって足されたか——のうち一つを開示する。観察者と設計者を兼ねていることを、もう一段具体に降ろす。

8. 結末の「ボタンしかない」

私の手元には、削るボタンと足すボタンしかない。

結末が比喩で閉じている。#1批評の指摘と同型——シライの結末は事務的でいい。「明日10時の朝会、議題3番目、所要15分、私が説明担当」のような、業務スケジュールの一行で終わるほうが、シライの身体に合う。

総括——残すべき核

残す:4社の出力が中央値に収斂する観察。差が「言うか言わないか」のラインの位置だという発見。自社の「言わないことリスト」をYAMLで開示する物証。観察者と設計者の兼任の自己反省。
削る:表の雑な列構成、教科書的な中央値の説明、3割という曖昧な数字、結末の比喩。
加える:表を「収斂列/分岐列」に二分する見せ方、リストの考古学(過去インシデントの一行)、設計者としての具体的な迷い(コミットの一行)、結末を業務スケジュールで閉じる。

← 第一稿
第二稿(改稿版)→
← シリーズ目次に戻る

このページの辛口レビューはAIによる独立の読者視点として生成されました。生成日: 2026-05-01。