ポエマイゼーション度は計算できるか
——広告コピーの情報エントロピー:理系が本気でポエムを測ってみた

フジワラレン(ポエマイゼーション:ソノダマリ)

92本のエッセイを読んだ。マンションポエム22本、続編10本、匂わせ暗号6本、高校パンフ6本、DXポエム6本、科研費ポエム6本、その他もろもろ。ソノダマリは8つの領域を横断し、6つの操作を見出し、「ポエマイゼーション」という名前までつけた。

素晴らしい。しかし理系の人間として、ひとつだけ聞きたいことがある。

それ、測れないの?

定性から定量へ——理系の職業病

私はフジワラレン。研究助手。データ分析が仕事だ。統計が好きで、Excel関数が友達で、p値を見ると安心する。悪い癖だ。

92本のエッセイはすべて定性分析だった。「ポエムっぽい」「濃い」「薄い」。ポエマイゼーションの6つの操作(補填、翻訳、蒸発、消去、変装、増幅)も定性的だ。それ自体は悪くない。文化分析に数字は必ずしも要らない。

しかし私の中の理系が囁く。「ポエマイゼーション度」が存在するなら、数値化できるはずだ、と。

ソノダに話したら「面白い、やってみて」と言われた。ヨコヤマ先生に話したら「情報理論が使えるかもね」と言われた。よし。やってみよう。

道具1:シャノンエントロピー——「驚き」の量

「上質がそびえる」は、どれくらい驚きか

情報理論の父、クロード・シャノンは1948年に「情報の量」を数式で定義した。

シャノンエントロピー

H(X) = −∑ p(xi) log2 p(xi)

確率の低いことが起きると「驚き」が大きい。驚きが大きい=情報量が多い。コインの表裏(確率50%ずつ)は1ビット。サイコロの1の目(確率1/6)は約2.58ビット。「明日太陽が昇る」(確率ほぼ100%)は約0ビット。

これを広告コピーに適用する。マンション広告のコーパス(100本分のチラシ文面)を作り、各単語の出現確率を調べる。すると——

単語 出現確率(仮想コーパス) 情報量(ビット) 解釈
上質 0.72(100本中72本に登場) 0.47 ほぼ驚きなし
洗練 0.65 0.62 微かに驚き
至高 0.31 1.69 やや意外
70㎡ 0.04(特定の物件にしか当てはまらない) 4.64 かなりの驚き
北区志賀本通駅 0.01 6.64 非常に驚き

具体的な情報ほど情報量が多い。ポエムほど情報量が少ない。

「上質」は100本中72本に出てくる。つまりマンション広告を1本ランダムに引いたとき、「上質」が出ても驚かない。驚かない=情報量が少ない。一方、「北区志賀本通駅」は1本にしか当てはまらない。物件を特定できる。驚きが大きい=情報量が多い。

直感に合っている。ポエムとは「驚きの少ない言葉の集合体」だ。

道具2:TF-IDF——「この言葉、もう飽きた」を数値化する

頻出すぎてスコアが低い問題

検索エンジンでおなじみのTF-IDF。Term Frequency(文書内の出現頻度)とInverse Document Frequency(全文書での希少性)の積だ。

TF-IDF

TF-IDF(t, d) = tf(t, d) × log(N / df(t))

ある文書で頻出し、かつ他の文書にはあまり出てこない単語ほどスコアが高い。その文書を「特徴づける」単語を見つける手法。

100本のマンション広告でTF-IDFを計算すると、面白いことが起きる。

単語 TF-IDFスコア 理由
上質 0.03(極めて低い) どの広告にも出てくるので「特徴」にならない
洗練 0.05 同上
そびえる 0.14 やや個性的だがポエム語彙
志賀本通 0.89(非常に高い) この物件だけの固有情報
ディスポーザー 0.67 設備の具体名。ある物件にはあり、ない物件にはない

「上質」のTF-IDFスコアは限りなくゼロに近い。すべての広告に出てくる言葉は、どの広告も特徴づけない

ソノダがポエマイゼーションで書いた対抗手段「同じ言葉が繰り返されたら疑え」を、TF-IDFは数値で裏付ける。TF-IDFスコアが低い言葉=多くの広告で使い回されている言葉=情報としての価値がない言葉だ。

コピーライターの皆さん、申し訳ない。「上質」のTF-IDFスコアは0.03です。ストップワード(「の」「は」「が」等の機能語)並みです。統計的には「上質」は助詞と同じくらい意味がありません。

道具3:コサイン類似度——「全部同じに見える」を証明する

100本の広告をベクトルにすると

各広告をTF-IDFベクトルに変換し、すべてのペアのコサイン類似度を計算する。

コサイン類似度

cos(θ) = (A · B) / (|A| |B|)

2つのベクトルの角度が小さいほど類似度が高い。1.0なら完全一致、0.0なら無関係。

100本のマンション広告について、2つのパートに分けて類似度を計算する。

パート 平均コサイン類似度 解釈
ポエム部分
(キャッチコピー、ブランドメッセージ)
0.83 異常に高い。ほぼ同じ文章。
スペック部分
(間取り、面積、設備、立地)
0.21 低い。各物件が違う情報を持つ。

ポエム部分の類似度は0.83。100本の広告のポエムは、83%同じことを言っている

考えてみれば当然だ。「上質」「洗練」「邸宅」「暮らし」「至高」——同じ単語を同じ順序で並べれば、ベクトルは似る。一方、スペック部分の類似度は0.21。70㎡の3LDKと120㎡の4LDKは当然違う。駅徒歩3分と駅徒歩15分は当然違う。事実は物件ごとに違うが、ポエムはみんな同じ

これは逆に言えば、マンションポエムの「生成AI」は2024年のLLM以前から実質的に存在していたということだ。テンプレートに「上質」「洗練」「至高」をランダムに挿入するスクリプトがあれば、人間のコピーライターと区別がつかない。コサイン類似度0.83は、それを数字で証明している。

ポエマイゼーション度 P(d) の定式化

いよいよ定義する

3つの道具を組み合わせて、「ポエマイゼーション度」を定義する。

ポエマイゼーション度 P(d)

P(d) = 1 − C(d) / Cmax

ここで C(d) は文書 d の具体性スコア。Cmax はコーパス中の最大具体性スコア。

具体性スコア C(d) は次のように計算する。

具体性スコア C(d)

C(d) = α · Hspec(d) + β · TF-IDFavg(d) + γ · (1 − Savg(d))

直感的に言い換えると:

そしてポエマイゼーション度はその逆。具体性が低いほどポエマイゼーション度が高い。

実際に計算してみる

広告コピー C(d) P(d) 判定
「専有面積70.2㎡、3LDK、志賀本通駅徒歩12分、築15年、管理費月額12,800円」 0.91 0.09 ほぼ純粋な事実
「志賀本通駅徒歩12分。洗練された3LDK、70㎡の邸宅」 0.58 0.42 事実とポエムの混合
「上質が、そびえる。洗練の高みへ、至高の邸宅」 0.07 0.93 ほぼ純粋なポエム
「DXを加速する、スケーラブルなソリューション」 0.05 0.95 ポエマイゼーション極限

「上質が、そびえる」のポエマイゼーション度は0.93。100点満点で93点のポエム。具体的な情報はほぼゼロ。何が上質なのか、何がそびえるのか、どこにあるのか、いくらなのか——何もわからない。しかし「なんかすごそう」という印象だけが残る。

「DXを加速する、スケーラブルなソリューション」に至っては0.95。さらにポエムが濃い。ソノダがDXポエム#1で書いた通り、SaaS LPはマンション広告よりポエムが濃い。数式もそう言っている。

この数式で何がわかるか——そして何がわからないか

わかること

  1. ポエムの「量」は測れる。具体性の欠如を数値化すれば、どの広告がどれくらいポエムかを比較できる
  2. 業界間比較ができる。マンション広告のP(d)分布とSaaS LPのP(d)分布を比較すれば、「どの業界がよりポエムか」を定量的に語れる
  3. 時系列分析ができる。同じデベロッパーの広告を10年分集めてP(d)の推移を見れば、「ポエマイゼーションの進行速度」がわかる
  4. ソノダの6つの操作を検出できる可能性がある。補填はP(d)が急に上がるポイント、変装はネガティブ語彙の消失、増幅はカタカナ比率の上昇——各操作に対応する統計的シグナルがありそうだ

わからないこと

ソノダに結果を見せたとき、こう聞かれた。

「で、何がわかったの?」

私は答えた。

ポエムの量は測れる。でも、ポエムの必要性は測れない

数式はポエマイゼーション度を0.93と出す。しかし「なぜ人はP(d)=0.93の文章を書き、P(d)=0.93の文章を読み、P(d)=0.93の文章に動かされるのか」——それは数式では答えられない。

「上質がそびえる」はTF-IDFスコアがゼロに近い。情報量はほぼない。しかしモデルルームで、薄暮の空を背景にした高層マンションの写真の上に、あの4文字が載っているとき——人は何かを感じる。「ここに住めば自分も上質になれるかもしれない」という予感。その予感は、エントロピーでは測れない。

数式の限界——あるいは理系の謙虚さ

エントロピー、TF-IDF、コサイン類似度。3つの道具を使って、ポエマイゼーション度を定量化した。数式は正しい。計算は合っている。

しかし最後に正直に告白する。

この数式は、ソノダが92本のエッセイで積み上げた分析の一部を再発見しただけだ。「同じ言葉が繰り返されたら疑え」はTF-IDFの言い換え。「書いてないものを問え」は低エントロピーの言い換え。「全部同じに見える」はコサイン類似度0.83の言い換え。

ソノダは数式なしで、同じ結論に到達していた。

「そうでしょ? 数式がなくても、読めばわかるのよ。92本も読めば」——ソノダマリ(少し得意げに)

悔しいが、その通りだ。92本の定性分析は、3つの数式と等価だった。いや、もしかしたらそれ以上だ。数式はポエムの「量」しか測れない。ソノダのエッセイはポエムの「味」まで伝えていた。「上質がそびえる」の味わい。「DXを加速する」のおかしさ。「一人ひとりが輝く」の切なさ。それは情報エントロピーのスコープ外だ。

ただし、数式に1つだけ勝ち目がある。スケーラビリティだ。

ソノダが100本の広告を読むには1ヶ月かかる。数式なら1秒だ。10万本の広告のポエマイゼーション度を一括計算し、業界別・年代別・地域別のヒートマップを作り、「日本のポエマイゼーション地図」を描くことができる。人間の「読み」と機械の「計算」は、対立するものではなく、補い合うものだ。

ソノダの92本がなければ、私はP(d)の式を立てられなかった。P(d)がなければ、10万本の分析はできなかった。定性が定量を導き、定量が定性をスケールさせる

まとめ——ポエマイゼーション度 P(d) = 0.93 の意味

「上質がそびえる」のポエマイゼーション度は0.93だ。

この数字は、あの4文字が「具体的な情報をほぼ含まない」ことを意味する。「どの物件にでも貼れる」ことを意味する。「他の100本の広告と83%同じことを言っている」ことを意味する。

しかしこの数字は、あの4文字がなぜ人の心を動かすのかを説明しない。

ポエマイゼーション度は測定可能だ。しかし「なぜ人はポエムを必要とするか」は測定不可能だ。

それでいいのだと思う。測れるものは測る。測れないものは、ソノダのエッセイで読む。

P(d) = 0.93
情報量 ≒ 0
しかし印象 = ∞

それがポエムだ。

← ポエマイゼーション理論
← シリーズ目次に戻る

本稿で使った数式
道具 数式 測るもの
シャノンエントロピー H(X) = −∑ p(xi) log2 p(xi) 情報の「驚き」の量
TF-IDF tf(t,d) × log(N/df(t)) 単語の「希少性」
コサイン類似度 (A · B) / (|A||B|) 文書間の「そっくり度」
ポエマイゼーション度 P(d) = 1 − C(d)/Cmax 具体性の欠如=ポエム濃度
参考文献
このページの記事はAI(ChatGPT)を用いて作成・編集されています。数値例は説明のための仮想データであり、実際のコーパス分析結果ではありません。