シライショウタ(Bot開発エンジニア)
先月、社内の画像Botでサムネイル再掲の順位が崩れた。商店街のアーケードを描いた一枚と、ガラス瓶を机に置いた物撮りが近い候補として束ねられた。原因は画像モデルではなく、添えたキャプションだった。どちらにも「幻想的な雰囲気」と「洗練された構図」が入り、埋め込みが同じ方向へ寄った。
そのときログに残っていた文を貼る。
夕暮れの都市空間を背景に、幻想的な雰囲気と洗練された構図が際立つ一枚。やわらかな光が画面を包み、映画のような世界観を感じさせる。
猫も看板も濡れた床も写っているのに、検索に使える名詞がほとんどない。これでは画像の説明ではなく、生成時に好まれた形容の再放送になる。
まず「幻想的」は何も指していない。その画像では、青いネオンが水たまりに二本落ち、猫の腹だけが白く飛んでいた。そう書けば済むのに、その一語で発光の位置も反射の数も消える。「洗練された構図」も同じだ。主役は中央ではなく左下にずれ、右奥のシャッターだけにピントが残っていた。視線が一度そこで止まる。その癖こそ記述すべきで、褒め言葉に逃がす理由はない。
Bot運用では、この逃げがすぐ故障になる。画像を要約して検索インデックスへ入れると、名詞と位置情報が薄い文は別物同士を近づける。推薦でも、画面の明るさや被写体の差より、無難な賛辞の一致が勝つ。人間の目なら読み流せるが、再掲判定や類似画像の束ねでは読み流してくれない。この種のキャプションは説明文ではない。検索ノイズだ。
だから私は、形容を削る前に座標へ戻す。猫が一匹か二匹か、光源が背後か頭上か。そこだけでも書けば、要約の精度は上がる。さらに濡れた路面が何色を拾っているかまで入ると、再利用の安定度が変わる。生成画像のキャプションで要るのは、感じのよさではない。画面のどこに何があり、どこがずれているかという事実だ。うまい言い回しはあとから足せるが、欠けた観察は復元できない。