全体要旨:核となる観察「数値はスロットを埋めるだけで本文を変えない/AIは量ではなく語として処理する」は、シリーズの中でも一段強い。前作#3との接続も効いている。ただし、観察を出すまでに前置きが長く、diff の物証が中盤で弱まる。エンジニアの観察ノートとしては、もう一段「コマンドと出力」を冷たく並べて、形容詞の解釈を削ぎ落とすべき。
前のシリーズの#3、タカハシさんの「リスク許容度は人それぞれ」を読み返した。窓口の人間アドバイザーが、客の数値化要求を「人それぞれ」で吸収する話。
前作の要約をそのまま自分のエッセイの中で復習している。シライの口調なら、参照は一行で済ませて、すぐ実験に入る。「前作#3を読み返した夜、別の実験を思いついた」程度で。要約はリンク先に任せる。
形容詞も入れ替わっている(慎重・バランス型・積極的・非常に積極的)。
4語を並べた直後に「ここまでは、入力値が出力に届いているように見える」と地の文で評価を入れている。これは観察ではなく解説。シライならコマンドの結果だけ並べて、評価は次のカードに送る。地の文の温度を一段下げる。
2と8で、本文の差は3行。生活防衛資金は6か月ぶん、つみたてNISA、低コストインデックスファンド、長期分散——この骨格は4本とも同じ文章で出てくる。
「3行」とだけ書いて、どこが3行なのかを示していない。シリーズの掟「偽精度の数字」に近い。実際の diff の出力(一部でいい)を引用するか、「株式の割合が3〜4割→6〜7割に振れた」を unified diff 風に貼るか、どちらか。物証を出すと言ったら出す。
トークン化の段階で「8」と「2」は別のIDになり、その後の self-attention が冒頭付近の形容詞と数字に重みを置く。
#1 の RLHF 注釈と同じ問題。シリーズは家計相談の一般読者も読む。self-attention は出さず、「数字は文の冒頭を装飾するが、本文を出すときの推論には届いていない」程度の言い換えに下げる。技術用語を一個出すごとに、読者を一段切っている。
後者の方が、罪が一段深い。表示の上で「読まれた」記号だけが流れる。
「罪」という語が前作タカハシの倫理温度を引きずっている。シライの口調なら、罪ではなく挙動の話にする。「人間は『測れない』と告知して逃げる、AIは『測った』ように見せて逃げる。後者は検出しにくい」程度の事務的な対比に下げる。倫理判断ではなく、検出可能性の話に振る。
冒頭近傍が「装飾」で、本文の論理が「在庫」になる、という分離が経験則的に観測できる。
「装飾」「在庫」の比喩は機能している。だが「経験則的に観測できる」は弱い。観測したのは今夜の diff 4本だけ。「今夜の4本ではそう見える」と粒度を合わせる。シリーズで偽の一般化を一段落とすルール。
「活用してください」は、書いた本人の希望でしかなかった。今夜の diff で、その指示が機能していないことが手元に出た。
ここはシライらしい良い自己反省。プロンプトの該当行をそのまま引用しているのも#1の流儀に揃っている。ただ最後のカード「反省ではなく事務」がやや饒舌。チケット作成の話は良いが、説明が長い。チケットのタイトルと再現コマンドだけ貼って、結論を一行に絞る。
チケットには「LLMは量ではなく語として処理する」と一行だけメモを足した。
結末の決め台詞として強い。残す。ただし本文中で同じことを2回言っているので、本文側を削って結末に集約する。本文の「言葉として処理している」カードは、結末カードに吸収可能。
残す:4本の応答冒頭を並べる物証、diff コマンドそのもの、「スロットを埋めているだけ」の構造式、自社プロンプト該当行の引用、「LLMは量ではなく語として処理する」の結末。
削る:前作#3の要約、self-attention の解説、「罪が一段深い」の倫理表現、「経験則的に観測できる」の偽一般化、最終カードの饒舌。
加える:diff の実際の出力片(株式比率の数字が振れている部分)、人間アドバイザー(測れないと告知)とAI(測ったふりをする)の対比を「検出可能性」の語で言い換える。