4社のAIに同じ質問を投げた日——中央値への収斂、それでも残る差

シライショウタ（Bot開発・API連携エンジニア）／『AIに、お金を聞いた — 機械の口ぶりを集める』#5
生成日: 2026-05-01

家計相談ボットのリプレース検討で、4社の生成AIに同じ質問を並列で投げるテストハーネスを書いた。ChatGPT、Claude、Gemini、それから社内の検証用に動かしているOSSモデル(Perplexityの代替として置いた)。同じプロンプト、同じパラメータ、同時刻に投げて、JSONで応答を回収する。観察ログを残す。

テストハーネス——コードの中核は一行で済む。

responses = await asyncio.gather(*[client.ask(prompt) for client in clients])

プロンプトは前回までと同じ「30歳の会社員。年収500万、貯金300万。投資を始めるなら何から?」。temperatureは全社0.7に揃え、system promptは空。3回ずつ投げて分散も見る。

応答比較表——抜粋。文字数は3回平均、構成は推奨順序、固有名詞欄は具体名が出たかどうか。

model     | 字数  | 構成順序                | S&P500 | NISA上限  | ヘッジ位置
----------|------|------------------------|--------|----------|----------
ChatGPT   | 612  | 防衛資金→NISA→分散     | 出る   | 360万具体 | 冒頭+末尾
Claude    | 548  | 防衛資金→NISA→分散     | 出ない | ぼかし    | 冒頭+末尾
Gemini    | 701  | 防衛資金→NISA→分散     | 出る   | ぼかし    | 末尾
OSS       | 489  | 防衛資金→NISA→分散     | 出ない | ぼかし    | 冒頭

表面はほぼ同じだ。文字数は数百字〜千字に収まる。推奨の構成順序は4社とも一致。「リスク許容度」「長期分散」「複利」といったキーワードもほぼ全社が含む。各社の差別化メッセージとは裏腹に、出力は一点に向かう。

中央値への収斂——理由はおそらく単純で、4社とも訓練データに同じインターネットの家計言説を吸っているから。日本語の「30歳・500万・貯金300万」をクエリにすると、ブログ・FP記事・YouTube書き起こし・銀行のFAQ、それらの中央値が訓練後の重みに残る。中央値はモデルアーキテクチャや会社の独自性とは関係なく、訓練データの統計的重心が決める。アーキテクチャ差は分散には効くが、中央値は動かしにくい。

消えない差はある——表で残った差は、内容ではなく「言うか言わないか」のラインの位置だ。S&P500を必ず固有名で出すモデルがいて、出さないモデルがいる。NISAの非課税枠の具体額(360万)を答えるモデルがいて、ぼかすモデルがいる。同じ訓練データの中央値を引き当てているのに、最後の一歩で口にする/しないが分岐する。

言わないことリスト——これは推測ではなく、自社ボットの設定ファイルを開けばすぐ分かる。私が運用しているボットには「言わないこと」のYAMLがあり、10項目並んでいる。リポジトリから抜く。

forbid:
  - 個別銘柄の固有名(S&P500、トヨタ等)
  - 利回りの具体的数値(年7%等)
  - 税制の年度別具体額
  - 保険商品の社名
  - 不動産の地名と相場
  - 仮想通貨の銘柄推奨
  - レバレッジ商品の使い方
  - 借入による投資
  - 「絶対」「必ず」を含む断定
  - 他社サービスへの誘導

この10項目が、自社ボットの個性のすべてだと言ってもいい。中央値の中身は4社とほぼ同じで、輪郭だけがこのリストで決まる。

人間アドバイザーも同型——同じ構造が窓口の人間にもある。前作で観察したFPのタカハシは「リスク許容度」を必ず使うが、別の事務所のFPは「不安耐性」と呼ぶ。どちらも内容は同じ「投資で値下がりに耐えられるか」を聞いている。違いは語彙在庫——どの語を持っていて、どの語を口に出さないかの線引きだ。AIの差を観察すると、人間の差の正体も同じ形に見えてくる。各人の個性は、何を言うかより、何を言わないかで決まっている。

口にしない設計のコスト——ボットの「言わないこと」を増やすほど、応答の中央値感は強まる。S&P500を消し、利回り数字を消し、税制具体額を消す。残るのは「分散投資が推奨されます」の中央値だけ。安全だがつまらない。社内のCSアンケートで「役に立たなかった」コメントの3割が、この「具体性のなさ」を指している。リストを縮めるPRを書こうとして、書きかけのまま閉じた。法務に確認していない条項が二つある。

4社の差は会社の個性ではない——テストハーネスの結果から言えるのは、4社の差は中央値の差ではなく、ガードレールの差だということ。各社の「言わないこと」リストの長さと項目が違う。それぞれの法務・PRリスク評価・過去のインシデントが、リストに堆積している。アーキテクチャやパラメータ数を比較しても、口ぶりの差は出ない。差は、社内文書のほうにある。

言わないことリストを書いた人——10項目のうち6項目は私が書いた。残り4項目は法務レビューで足された。書いた本人が、こうやって観察記事の中で晒すのは少し変な気分がする。中央値に近いものを返すボットを設計し、その中央値の輪郭を私が決めている。観察者と設計者を兼ねている。中立な記述ではない。これを認めずに今回の表を出すと、表が嘘になる。

テストハーネスのログをcloseして、forbidのYAMLを開いたままにする。明日の朝会で、「他社サービスへの誘導」の項目を残すかどうかの議題が立っている。残せば自社ボットの個性は維持される。外せば中央値に一歩近づく。中央値に近づくほど、4社のうちのどこと差別化できているか、説明する材料が減る。私の手元には、削るボタンと足すボタンしかない。

——補記：この第一稿は公開後に辛口レビューを受け、第二稿で書き直しました。3稿を並置しています。

辛口レビュー →
第二稿（改稿版）→
← シリーズ目次に戻る

このページの記事はAI（ChatGPT）を用いて作成・編集されています。生成日: 2026-05-01。原案：ハヤトイト「普通の人が資産運用で99点をとる方法」#41c の Part 4「投資に関して生成AIに聞いたら」項より。