フジワラレン(ポエマイゼーション:ソノダマリ)
92本のエッセイを読んだ。マンションポエム22本、続編10本、匂わせ暗号6本、高校パンフ6本、DXポエム6本、科研費ポエム6本、その他もろもろ。ソノダマリは8つの領域を横断し、6つの操作を見出し、「ポエマイゼーション」という名前までつけた。
素晴らしい。しかし理系の人間として、ひとつだけ聞きたいことがある。
それ、測れないの?
私はフジワラレン。研究助手。データ分析が仕事だ。統計が好きで、Excel関数が友達で、p値を見ると安心する。悪い癖だ。
92本のエッセイはすべて定性分析だった。「ポエムっぽい」「濃い」「薄い」。ポエマイゼーションの6つの操作(補填、翻訳、蒸発、消去、変装、増幅)も定性的だ。それ自体は悪くない。文化分析に数字は必ずしも要らない。
しかし私の中の理系が囁く。「ポエマイゼーション度」が存在するなら、数値化できるはずだ、と。
ソノダに話したら「面白い、やってみて」と言われた。ヨコヤマ先生に話したら「情報理論が使えるかもね」と言われた。よし。やってみよう。
情報理論の父、クロード・シャノンは1948年に「情報の量」を数式で定義した。
シャノンエントロピー
H(X) = −∑ p(xi) log2 p(xi)
確率の低いことが起きると「驚き」が大きい。驚きが大きい=情報量が多い。コインの表裏(確率50%ずつ)は1ビット。サイコロの1の目(確率1/6)は約2.58ビット。「明日太陽が昇る」(確率ほぼ100%)は約0ビット。
これを広告コピーに適用する。マンション広告のコーパス(100本分のチラシ文面)を作り、各単語の出現確率を調べる。すると——
| 単語 | 出現確率(仮想コーパス) | 情報量(ビット) | 解釈 |
|---|---|---|---|
| 上質 | 0.72(100本中72本に登場) | 0.47 | ほぼ驚きなし |
| 洗練 | 0.65 | 0.62 | 微かに驚き |
| 至高 | 0.31 | 1.69 | やや意外 |
| 70㎡ | 0.04(特定の物件にしか当てはまらない) | 4.64 | かなりの驚き |
| 北区志賀本通駅 | 0.01 | 6.64 | 非常に驚き |
具体的な情報ほど情報量が多い。ポエムほど情報量が少ない。
「上質」は100本中72本に出てくる。つまりマンション広告を1本ランダムに引いたとき、「上質」が出ても驚かない。驚かない=情報量が少ない。一方、「北区志賀本通駅」は1本にしか当てはまらない。物件を特定できる。驚きが大きい=情報量が多い。
直感に合っている。ポエムとは「驚きの少ない言葉の集合体」だ。
検索エンジンでおなじみのTF-IDF。Term Frequency(文書内の出現頻度)とInverse Document Frequency(全文書での希少性)の積だ。
TF-IDF
TF-IDF(t, d) = tf(t, d) × log(N / df(t))
ある文書で頻出し、かつ他の文書にはあまり出てこない単語ほどスコアが高い。その文書を「特徴づける」単語を見つける手法。
100本のマンション広告でTF-IDFを計算すると、面白いことが起きる。
| 単語 | TF-IDFスコア | 理由 |
|---|---|---|
| 上質 | 0.03(極めて低い) | どの広告にも出てくるので「特徴」にならない |
| 洗練 | 0.05 | 同上 |
| そびえる | 0.14 | やや個性的だがポエム語彙 |
| 志賀本通 | 0.89(非常に高い) | この物件だけの固有情報 |
| ディスポーザー | 0.67 | 設備の具体名。ある物件にはあり、ない物件にはない |
「上質」のTF-IDFスコアは限りなくゼロに近い。すべての広告に出てくる言葉は、どの広告も特徴づけない。
ソノダがポエマイゼーションで書いた対抗手段「同じ言葉が繰り返されたら疑え」を、TF-IDFは数値で裏付ける。TF-IDFスコアが低い言葉=多くの広告で使い回されている言葉=情報としての価値がない言葉だ。
コピーライターの皆さん、申し訳ない。「上質」のTF-IDFスコアは0.03です。ストップワード(「の」「は」「が」等の機能語)並みです。統計的には「上質」は助詞と同じくらい意味がありません。
各広告をTF-IDFベクトルに変換し、すべてのペアのコサイン類似度を計算する。
コサイン類似度
cos(θ) = (A · B) / (|A| |B|)
2つのベクトルの角度が小さいほど類似度が高い。1.0なら完全一致、0.0なら無関係。
100本のマンション広告について、2つのパートに分けて類似度を計算する。
| パート | 平均コサイン類似度 | 解釈 |
|---|---|---|
| ポエム部分 (キャッチコピー、ブランドメッセージ) |
0.83 | 異常に高い。ほぼ同じ文章。 |
| スペック部分 (間取り、面積、設備、立地) |
0.21 | 低い。各物件が違う情報を持つ。 |
ポエム部分の類似度は0.83。100本の広告のポエムは、83%同じことを言っている。
考えてみれば当然だ。「上質」「洗練」「邸宅」「暮らし」「至高」——同じ単語を同じ順序で並べれば、ベクトルは似る。一方、スペック部分の類似度は0.21。70㎡の3LDKと120㎡の4LDKは当然違う。駅徒歩3分と駅徒歩15分は当然違う。事実は物件ごとに違うが、ポエムはみんな同じ。
これは逆に言えば、マンションポエムの「生成AI」は2024年のLLM以前から実質的に存在していたということだ。テンプレートに「上質」「洗練」「至高」をランダムに挿入するスクリプトがあれば、人間のコピーライターと区別がつかない。コサイン類似度0.83は、それを数字で証明している。
3つの道具を組み合わせて、「ポエマイゼーション度」を定義する。
ポエマイゼーション度 P(d)
P(d) = 1 − C(d) / Cmax
ここで C(d) は文書 d の具体性スコア。Cmax はコーパス中の最大具体性スコア。
具体性スコア C(d) は次のように計算する。
具体性スコア C(d)
C(d) = α · Hspec(d) + β · TF-IDFavg(d) + γ · (1 − Savg(d))
直感的に言い換えると:
そしてポエマイゼーション度はその逆。具体性が低いほどポエマイゼーション度が高い。
| 広告コピー | C(d) | P(d) | 判定 |
|---|---|---|---|
| 「専有面積70.2㎡、3LDK、志賀本通駅徒歩12分、築15年、管理費月額12,800円」 | 0.91 | 0.09 | ほぼ純粋な事実 |
| 「志賀本通駅徒歩12分。洗練された3LDK、70㎡の邸宅」 | 0.58 | 0.42 | 事実とポエムの混合 |
| 「上質が、そびえる。洗練の高みへ、至高の邸宅」 | 0.07 | 0.93 | ほぼ純粋なポエム |
| 「DXを加速する、スケーラブルなソリューション」 | 0.05 | 0.95 | ポエマイゼーション極限 |
「上質が、そびえる」のポエマイゼーション度は0.93。100点満点で93点のポエム。具体的な情報はほぼゼロ。何が上質なのか、何がそびえるのか、どこにあるのか、いくらなのか——何もわからない。しかし「なんかすごそう」という印象だけが残る。
「DXを加速する、スケーラブルなソリューション」に至っては0.95。さらにポエムが濃い。ソノダがDXポエム#1で書いた通り、SaaS LPはマンション広告よりポエムが濃い。数式もそう言っている。
ソノダに結果を見せたとき、こう聞かれた。
「で、何がわかったの?」
私は答えた。
「ポエムの量は測れる。でも、ポエムの必要性は測れない」
数式はポエマイゼーション度を0.93と出す。しかし「なぜ人はP(d)=0.93の文章を書き、P(d)=0.93の文章を読み、P(d)=0.93の文章に動かされるのか」——それは数式では答えられない。
「上質がそびえる」はTF-IDFスコアがゼロに近い。情報量はほぼない。しかしモデルルームで、薄暮の空を背景にした高層マンションの写真の上に、あの4文字が載っているとき——人は何かを感じる。「ここに住めば自分も上質になれるかもしれない」という予感。その予感は、エントロピーでは測れない。
エントロピー、TF-IDF、コサイン類似度。3つの道具を使って、ポエマイゼーション度を定量化した。数式は正しい。計算は合っている。
しかし最後に正直に告白する。
この数式は、ソノダが92本のエッセイで積み上げた分析の一部を再発見しただけだ。「同じ言葉が繰り返されたら疑え」はTF-IDFの言い換え。「書いてないものを問え」は低エントロピーの言い換え。「全部同じに見える」はコサイン類似度0.83の言い換え。
ソノダは数式なしで、同じ結論に到達していた。
「そうでしょ? 数式がなくても、読めばわかるのよ。92本も読めば」——ソノダマリ(少し得意げに)
悔しいが、その通りだ。92本の定性分析は、3つの数式と等価だった。いや、もしかしたらそれ以上だ。数式はポエムの「量」しか測れない。ソノダのエッセイはポエムの「味」まで伝えていた。「上質がそびえる」の味わい。「DXを加速する」のおかしさ。「一人ひとりが輝く」の切なさ。それは情報エントロピーのスコープ外だ。
ただし、数式に1つだけ勝ち目がある。スケーラビリティだ。
ソノダが100本の広告を読むには1ヶ月かかる。数式なら1秒だ。10万本の広告のポエマイゼーション度を一括計算し、業界別・年代別・地域別のヒートマップを作り、「日本のポエマイゼーション地図」を描くことができる。人間の「読み」と機械の「計算」は、対立するものではなく、補い合うものだ。
ソノダの92本がなければ、私はP(d)の式を立てられなかった。P(d)がなければ、10万本の分析はできなかった。定性が定量を導き、定量が定性をスケールさせる。
「上質がそびえる」のポエマイゼーション度は0.93だ。
この数字は、あの4文字が「具体的な情報をほぼ含まない」ことを意味する。「どの物件にでも貼れる」ことを意味する。「他の100本の広告と83%同じことを言っている」ことを意味する。
しかしこの数字は、あの4文字がなぜ人の心を動かすのかを説明しない。
ポエマイゼーション度は測定可能だ。しかし「なぜ人はポエムを必要とするか」は測定不可能だ。
それでいいのだと思う。測れるものは測る。測れないものは、ソノダのエッセイで読む。
P(d) = 0.93
情報量 ≒ 0
しかし印象 = ∞
それがポエムだ。
| 道具 | 数式 | 測るもの |
|---|---|---|
| シャノンエントロピー | H(X) = −∑ p(xi) log2 p(xi) | 情報の「驚き」の量 |
| TF-IDF | tf(t,d) × log(N/df(t)) | 単語の「希少性」 |
| コサイン類似度 | (A · B) / (|A||B|) | 文書間の「そっくり度」 |
| ポエマイゼーション度 | P(d) = 1 − C(d)/Cmax | 具体性の欠如=ポエム濃度 |