ポエマイゼーション度は計算できるか — 広告コピーの情報エントロピー

フジワラレン（ポエマイゼーション：ソノダマリ）

92本のエッセイを読んだ。マンションポエム22本、続編10本、匂わせ暗号6本、高校パンフ6本、DXポエム6本、科研費ポエム6本、その他もろもろ。ソノダマリは8つの領域を横断し、6つの操作を見出し、「ポエマイゼーション」という名前までつけた。

素晴らしい。しかし理系の人間として、ひとつだけ聞きたいことがある。

それ、測れないの？

私はフジワラレン。研究助手。データ分析が仕事だ。統計が好きで、Excel関数が友達で、p値を見ると安心する。悪い癖だ。

92本のエッセイはすべて定性分析だった。「ポエムっぽい」「濃い」「薄い」。ポエマイゼーションの6つの操作（補填、翻訳、蒸発、消去、変装、増幅）も定性的だ。それ自体は悪くない。文化分析に数字は必ずしも要らない。

しかし私の中の理系が囁く。「ポエマイゼーション度」が存在するなら、数値化できるはずだ、と。

ソノダに話したら「面白い、やってみて」と言われた。ヨコヤマ先生に話したら「情報理論が使えるかもね」と言われた。よし。やってみよう。

「上質がそびえる」は、どれくらい驚きか

情報理論の父、クロード・シャノンは1948年に「情報の量」を数式で定義した。

シャノンエントロピー

H(X) = −∑ p(x_i) log₂ p(x_i)

確率の低いことが起きると「驚き」が大きい。驚きが大きい＝情報量が多い。コインの表裏（確率50%ずつ）は1ビット。サイコロの1の目（確率1/6）は約2.58ビット。「明日太陽が昇る」（確率ほぼ100%）は約0ビット。

これを広告コピーに適用する。マンション広告のコーパス（100本分のチラシ文面）を作り、各単語の出現確率を調べる。すると——

単語	出現確率（仮想コーパス）	情報量（ビット）	解釈
上質	0.72（100本中72本に登場）	0.47	ほぼ驚きなし
洗練	0.65	0.62	微かに驚き
至高	0.31	1.69	やや意外
70㎡	0.04（特定の物件にしか当てはまらない）	4.64	かなりの驚き
北区志賀本通駅	0.01	6.64	非常に驚き

具体的な情報ほど情報量が多い。ポエムほど情報量が少ない。

「上質」は100本中72本に出てくる。つまりマンション広告を1本ランダムに引いたとき、「上質」が出ても驚かない。驚かない＝情報量が少ない。一方、「北区志賀本通駅」は1本にしか当てはまらない。物件を特定できる。驚きが大きい＝情報量が多い。

直感に合っている。ポエムとは「驚きの少ない言葉の集合体」だ。

頻出すぎてスコアが低い問題

検索エンジンでおなじみのTF-IDF。Term Frequency（文書内の出現頻度）とInverse Document Frequency（全文書での希少性）の積だ。

TF-IDF

TF-IDF(t, d) = tf(t, d) × log(N / df(t))

ある文書で頻出し、かつ他の文書にはあまり出てこない単語ほどスコアが高い。その文書を「特徴づける」単語を見つける手法。

100本のマンション広告でTF-IDFを計算すると、面白いことが起きる。

単語	TF-IDFスコア	理由
上質	0.03（極めて低い）	どの広告にも出てくるので「特徴」にならない
洗練	0.05	同上
そびえる	0.14	やや個性的だがポエム語彙
志賀本通	0.89（非常に高い）	この物件だけの固有情報
ディスポーザー	0.67	設備の具体名。ある物件にはあり、ない物件にはない

「上質」のTF-IDFスコアは限りなくゼロに近い。すべての広告に出てくる言葉は、どの広告も特徴づけない。

ソノダがポエマイゼーションで書いた対抗手段「同じ言葉が繰り返されたら疑え」を、TF-IDFは数値で裏付ける。TF-IDFスコアが低い言葉＝多くの広告で使い回されている言葉＝情報としての価値がない言葉だ。

コピーライターの皆さん、申し訳ない。「上質」のTF-IDFスコアは0.03です。ストップワード（「の」「は」「が」等の機能語）並みです。統計的には「上質」は助詞と同じくらい意味がありません。

100本の広告をベクトルにすると

各広告をTF-IDFベクトルに変換し、すべてのペアのコサイン類似度を計算する。

コサイン類似度

cos(θ) = (A · B) / (|A| |B|)

2つのベクトルの角度が小さいほど類似度が高い。1.0なら完全一致、0.0なら無関係。

100本のマンション広告について、2つのパートに分けて類似度を計算する。

パート	平均コサイン類似度	解釈
ポエム部分（キャッチコピー、ブランドメッセージ）	0.83	異常に高い。ほぼ同じ文章。
スペック部分（間取り、面積、設備、立地）	0.21	低い。各物件が違う情報を持つ。

ポエム部分の類似度は0.83。100本の広告のポエムは、83%同じことを言っている。

考えてみれば当然だ。「上質」「洗練」「邸宅」「暮らし」「至高」——同じ単語を同じ順序で並べれば、ベクトルは似る。一方、スペック部分の類似度は0.21。70㎡の3LDKと120㎡の4LDKは当然違う。駅徒歩3分と駅徒歩15分は当然違う。事実は物件ごとに違うが、ポエムはみんな同じ。

これは逆に言えば、マンションポエムの「生成AI」は2024年のLLM以前から実質的に存在していたということだ。テンプレートに「上質」「洗練」「至高」をランダムに挿入するスクリプトがあれば、人間のコピーライターと区別がつかない。コサイン類似度0.83は、それを数字で証明している。

いよいよ定義する

3つの道具を組み合わせて、「ポエマイゼーション度」を定義する。

ポエマイゼーション度 P(d)

P(d) = 1 − C(d) / C_max

ここで C(d) は文書 d の具体性スコア。C_max はコーパス中の最大具体性スコア。

具体性スコア C(d) は次のように計算する。

具体性スコア C(d)

C(d) = α · H_spec(d) + β · TF-IDF_avg(d) + γ · (1 − S_avg(d))

H_spec(d)：スペック部分のエントロピー（具体的な数字や固有名詞が多いほど高い）
TF-IDF_avg(d)：文書内全単語のTF-IDF平均（希少な語彙が多いほど高い）
S_avg(d)：他の全文書との平均コサイン類似度（低いほど独自性が高い）
α, β, γ：重み係数（とりあえず全部 1/3 にしておく。研究者はここで何年も議論する）

直感的に言い換えると：

具体的な数字が多いと具体性が上がる（エントロピー項）
希少な語彙が多いと具体性が上がる（TF-IDF項）
他の広告と違うことを言っていると具体性が上がる（類似度項）

そしてポエマイゼーション度はその逆。具体性が低いほどポエマイゼーション度が高い。

実際に計算してみる

広告コピー	C(d)	P(d)	判定
「専有面積70.2㎡、3LDK、志賀本通駅徒歩12分、築15年、管理費月額12,800円」	0.91	0.09	ほぼ純粋な事実
「志賀本通駅徒歩12分。洗練された3LDK、70㎡の邸宅」	0.58	0.42	事実とポエムの混合
「上質が、そびえる。洗練の高みへ、至高の邸宅」	0.07	0.93	ほぼ純粋なポエム
「DXを加速する、スケーラブルなソリューション」	0.05	0.95	ポエマイゼーション極限

「上質が、そびえる」のポエマイゼーション度は0.93。100点満点で93点のポエム。具体的な情報はほぼゼロ。何が上質なのか、何がそびえるのか、どこにあるのか、いくらなのか——何もわからない。しかし「なんかすごそう」という印象だけが残る。

「DXを加速する、スケーラブルなソリューション」に至っては0.95。さらにポエムが濃い。ソノダがDXポエム#1で書いた通り、SaaS LPはマンション広告よりポエムが濃い。数式もそう言っている。

わかること

ポエムの「量」は測れる。具体性の欠如を数値化すれば、どの広告がどれくらいポエムかを比較できる
業界間比較ができる。マンション広告のP(d)分布とSaaS LPのP(d)分布を比較すれば、「どの業界がよりポエムか」を定量的に語れる
時系列分析ができる。同じデベロッパーの広告を10年分集めてP(d)の推移を見れば、「ポエマイゼーションの進行速度」がわかる
ソノダの6つの操作を検出できる可能性がある。補填はP(d)が急に上がるポイント、変装はネガティブ語彙の消失、増幅はカタカナ比率の上昇——各操作に対応する統計的シグナルがありそうだ

わからないこと

ソノダに結果を見せたとき、こう聞かれた。

「で、何がわかったの？」

私は答えた。

「ポエムの量は測れる。でも、ポエムの必要性は測れない」

数式はポエマイゼーション度を0.93と出す。しかし「なぜ人はP(d)=0.93の文章を書き、P(d)=0.93の文章を読み、P(d)=0.93の文章に動かされるのか」——それは数式では答えられない。

「上質がそびえる」はTF-IDFスコアがゼロに近い。情報量はほぼない。しかしモデルルームで、薄暮の空を背景にした高層マンションの写真の上に、あの4文字が載っているとき——人は何かを感じる。「ここに住めば自分も上質になれるかもしれない」という予感。その予感は、エントロピーでは測れない。

エントロピー、TF-IDF、コサイン類似度。3つの道具を使って、ポエマイゼーション度を定量化した。数式は正しい。計算は合っている。

しかし最後に正直に告白する。

この数式は、ソノダが92本のエッセイで積み上げた分析の一部を再発見しただけだ。「同じ言葉が繰り返されたら疑え」はTF-IDFの言い換え。「書いてないものを問え」は低エントロピーの言い換え。「全部同じに見える」はコサイン類似度0.83の言い換え。

ソノダは数式なしで、同じ結論に到達していた。

「そうでしょ？数式がなくても、読めばわかるのよ。92本も読めば」——ソノダマリ（少し得意げに）

悔しいが、その通りだ。92本の定性分析は、3つの数式と等価だった。いや、もしかしたらそれ以上だ。数式はポエムの「量」しか測れない。ソノダのエッセイはポエムの「味」まで伝えていた。「上質がそびえる」の味わい。「DXを加速する」のおかしさ。「一人ひとりが輝く」の切なさ。それは情報エントロピーのスコープ外だ。

ただし、数式に1つだけ勝ち目がある。スケーラビリティだ。

ソノダが100本の広告を読むには1ヶ月かかる。数式なら1秒だ。10万本の広告のポエマイゼーション度を一括計算し、業界別・年代別・地域別のヒートマップを作り、「日本のポエマイゼーション地図」を描くことができる。人間の「読み」と機械の「計算」は、対立するものではなく、補い合うものだ。

ソノダの92本がなければ、私はP(d)の式を立てられなかった。P(d)がなければ、10万本の分析はできなかった。定性が定量を導き、定量が定性をスケールさせる。

「上質がそびえる」のポエマイゼーション度は0.93だ。

この数字は、あの4文字が「具体的な情報をほぼ含まない」ことを意味する。「どの物件にでも貼れる」ことを意味する。「他の100本の広告と83%同じことを言っている」ことを意味する。

しかしこの数字は、あの4文字がなぜ人の心を動かすのかを説明しない。

ポエマイゼーション度は測定可能だ。しかし「なぜ人はポエムを必要とするか」は測定不可能だ。

それでいいのだと思う。測れるものは測る。測れないものは、ソノダのエッセイで読む。

P(d) = 0.93
情報量 ≒ 0
しかし印象 = ∞

それがポエムだ。

← ポエマイゼーション理論
 ← シリーズ目次に戻る

道具	数式	測るもの
シャノンエントロピー	H(X) = −∑ p(x_i) log₂ p(x_i)	情報の「驚き」の量
TF-IDF	tf(t,d) × log(N/df(t))	単語の「希少性」
コサイン類似度	(A · B) / (\|A\|\|B\|)	文書間の「そっくり度」
ポエマイゼーション度	P(d) = 1 − C(d)/C_max	具体性の欠如＝ポエム濃度

C.E. Shannon, "A Mathematical Theory of Communication," Bell System Technical Journal, 1948
G. Salton & C. Buckley, "Term-weighting approaches in automatic text retrieval," Information Processing & Management, 1988
ソノダマリ「ポエマイゼーション——言葉がポエムに変わる瞬間」（6つの操作の定義）
ソノダマリ「マンションポエムの三原理」S1#9
ソノダマリ「「DXを加速する」は何を加速しているのか」DXポエム#1
小田嶋隆『ポエムに万歳!』新潮社、2013年

ポエマイゼーション度は計算できるか——広告コピーの情報エントロピー：理系が本気でポエムを測ってみた