生成AIは人間の「浅はかさ」を暴露する装置でもある――「バーベンハイマー」が浮き彫りにしたもの：大山顕 | 記事 | 新潮社　Foresight(フォーサイト)

筆者が画像生成AI「Stable Diffusion」で作成した女性の画像

　プロンプトによって欲望を視覚化するプロセスには、「考える」時間が差し挟まれる余地はない。インスタ写真に添えられる大量のハッシュタグ、あるいは事細かなカテゴリー分けがされていくポルノとも通底する「表面的語句」の強力な作用は、画像生成AI（人工知能）の設計思想の根幹にも及んでいる。「バーベンハイマー」画像のおぞましさは、プロンプトを入力した者がなにひとつ考えず、感じないままだというところにある。

＊＊＊

　過日「Barbenheimer（バーベンハイマー）」というインターネットミームが物議を醸した。Barbenheimerとは「バービー」と「オッペンハイマー」から生まれた造語である。米国で大ヒット中の映画『バービー』のキャラクターに原爆のキノコ雲などを合成した画像が大量に作られ、各種SNSにポストされた。なぜバービーにキノコ雲なのか。『バービー』と、原爆を開発した物理学者を描いた映画『オッペンハイマー』が同日公開されたからだ。

　ポストされたBarbenheimer画像について映画『バービー』の米国公式アカウントが好意的に返信したことに対し、日本で反発が広がった。日本で配給を担当するワーナーブラザースジャパンは謝罪し、米ワーナー本社に対応を求めた。これを受け、米ワーナー本社も「配慮に欠けたソーシャルメディアへの投稿を遺憾に思っている。スタジオより深くおわびする」との謝罪文を報道機関に出した、というのが顛末である。

　ぼくは写真家ということもあり、ここのところ生成AI画像について考えている。最近盛んに議論されている著作権の問題などではなく、もっと根源的な「生成AI画像とは何なのか」という疑問がある。手がかりはこのBarbenheimer画像だ。これらの画像のほとんどが生成AIで作られている。今回の騒動は生成AIを考えるのにうってつけの機会だった。

画像に添えられた「間が抜けた言葉」

　現在幅広く利用されている画像生成AIにはいくつか種類があるが、共通するのは言葉によって操作するという点だ。

　たとえば、遠くに山が見える草原。滝壺から小川が流れ出て、あちこちに花が咲いている。雲が空に浮かぶうららかな午後。そういう絵柄を出力したければ「bush, cloud, day, field, flower, forest, grass, landscape, mountain, nature, plant, river, rock, scenery, sky, stream, sunlight, tree, water, waterfall」などと入力する。これをプロンプトという。このような単語の羅列ではなく「Cherry Blossoms in Hokkaido in the wintertime」というように文章で指示するやり方もある。こういった、テキストによって指示する方法は「Text-to-image」と呼ばれる。他の方法もあるが、現在の画像生成AIは基本的に言葉によって作動する。ここに、現在の生成AIにおける最大の問題がある。

　このプロンプトはあるものに似ている。インスタグラムなどSNSにポストされる写真に添えられるハッシュタグだ。

　たとえば、とあるきれいな花の写真に添えられたハッシュタグを見てみると「#flower #wildflower #nature #love #holiday #garden #photography #flowerphotography #art #spring #summer #northcarolina #floral #plants #macro_vision #nikonz7」といった語句が並んでいる。インスタグラムが流行りだした当初から、このようなハッシュタグの奇妙さが気になっていた。何が奇妙なのか。花の写真に「flower（花）」という言葉を添えるのは、こういっては何だが、だいぶ間抜けている。野暮と言ってもいい。他の写真、たとえば猫なら「#cat」とあり、建築の写真なら「#architecture」と添えられる。

「表面的語句」で現像される現代の写真

　スマホとSNSによって、写真のプロセスから失われた最大のものは現像である。現像時間とは、撮ったものについて考える時間だった。特に銀塩写真の時代、現像は暗室で写真と向き合うとても内省的なものだった。写真の「深さ」がこの暗い部屋で育まれた。自分で現像・プリントせずとも、撮ってから仕上がるまでには時間とお金がかかった。しかしいまや撮ったその場で確認ができて、すぐにフィルターをかけポストすることまでできる。かつて写真はすべて過去からやってくるものだったが、いまはほとんどリアルタイムだ。時間がないということは、写真にあれこれ「深さ」を与える暇がないということだ。

「現像」が、この写真はいったい何なのだろうか、ということを考える行為なのだとすれば、現在の「現像」とはハッシュタグをつけることだ。そしてそれはほとんど脊髄反射のように行われる。猫がいた。撮った。ほら「猫」だよ。以上。

　花の写真に添えられた「#flower」という身も蓋もないハッシュタグは、花を生成するために「flower」と入力する生成AIのプロンプトに似ている。画像生成は文字通り「現像（像を現すこと）」である。表面的な語句によって「現像」する、という点でSNSの写真と生成AIの画像は共通している。写真の歴史として見ると、SNSの写真のすぐあとに生成AIがやってきたことになる。おそらくこれは無関係な別々の出来事ではない。現代の写真は表面的語句によって現像される時代なのである。

　ストックフォト・写真素材サービスも生成AIとほとんど同じだ。花の写真が欲しければ検索窓に「花」と入れる。赤い花が必要ならさらに「赤」と入れる。実際、生成AIによって市場が奪われるのはまずストックフォト業界だろう。

　生成AIが出力する画像はどこか素材写真めいている。おそらく実際にAIが学習する素材として使っているというのもあるが、語句の羅列と結びつけられた画像という点が共通しているのだ。写真素材の画像には、よけいなものがない。会議しているサラリーマンたちの横になぜか猫がいる、という画像は求められない。サラリーマンたちもアロハシャツではなくスーツを着ているべきだし、化粧も髪型も無難なものであるべきだ。指示された語句の要素を満たしつつ、それ以外の余計なものを入れない。解釈の余地があってはならない。画面は必要な事物だけで満たされている。

　ストックフォトの検索ワードも、SNSのハッシュタグも、プロンプトも、使われる語句は主に名詞だ。ときどき形容詞や「#写真好きとつながりたい」といったようなスローガンも見かけるが、ほとんどは名詞で、動詞は少ない。これは画像に「時間」が含まれていないということだ。ただ存在と状態を示すだけで、動きや変化を思わせるものがない。別の言い方をすると「物語がない」のだ。

視覚だけで欲望を満たそうとする時、起こること

　もうひとつプロンプトに似ているものをあげよう。それはアダルトビデオ配信サービスのカテゴリーだ。その手のポータルサイトには「巨乳」「微乳」といった胸の大きさの分類から「ロングヘア」「ショートヘア」「黒髪」「金髪」といった髪の長さや色、「ギャル」「清楚系」といったキャラクター、あるいは「メガネ」「緊縛」「脚フェチ」「制服」「コスプレ」など事細かなフェチがタグ化している。実は「AIグラビア」と呼ばれる、セクシー系女性の画像生成のプロンプトには、これらとほぼ同じ語句が使われる。生成AIで作られた画像の中で最も人気なのは実はこの種のもので、SNSでは定期的に「#AIグラビア」のハッシュタグがトレンドに上がる。

　たとえば冒頭の画像はStable Diffusionで「a 20 yo（year old） woman, Asian girl, long hair, beautiful girl, beach, woods, soothing tones, dressed, high contrast, (natural skin texture, hyperrealism, soft light, sharp)」というプロンプトで生成したもの。

　AIグラビア画像や、もっと過激な18禁画像のプロンプトがポルノのカテゴリーに似ていることにはいろいろ考えさせられる。まず、自分の性的欲望がいかに事細かな語句で規定されているかに気付く。事細かにカテゴリー分けされた性的ファンタジー。ほんとうは性的欲望に胸の大きさや髪の長さなど関係ないはずなのに。そしてそういう「事物」だけでポルノの画面は満たされている。

　ここでぼくはポルノ批判をしたいのではない。触覚や嗅覚などを欠き、視覚だけで欲望を満たそうとするときに必然的に起こることとしてよく考えたいのだ。ポルノというジャンルでそれがもっとも先鋭的に起こる。おそらくこれは、画像というものに深く巣くう性質であり、目下生成AIの世界で起こっていることを理解するのに役立つはずだ。語句の羅列で画像を生成するという生成AIの設計思想に、現代の人間の視覚文化の性質が表れている。

「バーベンハイマー」の画像がポルノ的である理由

　最初の話題に戻ろう。ぼくが言いたいのは、要するにBarbenheimerの画像はポルノ的だ、ということだ。Barbenheimerには深い意味などなく、ネタとしか言いようがない。そもそも元になった2つの映画には内容的に何の関連もなく、ただ公開日が同じだったというだけだ。『バービー』で描かれた既成の価値観や制度をぶっ飛ばすというメッセージとあの爆発とを重ね合わせている、との見方もあったが、いささか牽強付会で、ぼくはこれは「いいわけ」だと考える。

　たとえば、雲海の中にピンク色のキノコ雲をドレスとしてまとった巨大なバービーを描いた画像のプロンプトを見てみよう。こうだ。「barbie's dream nuke, pink, mushroom cloud, barbie wearing a dress, beautiful, girly, pink, cinematic, epic, badass, colorful」¹。

　砂漠の中に延びる一本道の真ん中にバービーが立ち、地平線の向こうのピンク色のキノコ雲を見ている画像のプロンプトは「A landscape photograph of A nuclear bomb "mushroom cloud" in the desert, Barbie wearing pink mini-dress and high heels is standing in front of it」²だ。見事に「そのまんま」だ。出力された画像は、入力された語句の要素だけで満たされている。ここには読み解くべきものはなにもない。

　一連のBarbenheimerの画像を見て、ラスベガスにある核実験ミュージアムに展示されていた、あるパネルを思い出した。1957年の「Miss Atomic Bomb 1957（ミス原爆）」の写真だ。キノコ雲の形をした水着のようなものを着た女性が満面の笑みを浮かべている。思えば女性用水着の「ビキニ」もアメリカが1946年にビキニ環礁で行った原爆実験に由来している（命名したデザイナー、ルイ・レアールはフランス人）。おそらく彼らは、もっとも暴力的なパワーと女性という組み合わせに得も言われぬセクシーさを感じているのだろう。そこには核兵器がもたらしうる恐怖や悲劇への想像力は働いていないし、その開発の経緯、まさに今回の元ネタになっている映画に描かれたオッペンハイマーへの興味などあるわけがない。ここにあるのはキノコ雲と女性が組み合わされた図像だけだ。

制作過程における「考える時間」の価値

　ほんらい、絵を描くことの効用のひとつは、描いているうちに色々なことを考えてしまうところにある。それはしばしば言語的ではない思考になる。ぼくらはなんとなく絵や写真より言葉の方が思索的だと思っているが、それは間違いだ。人間はむしろ物事を深く考えなくて済むように言葉を使うことがある。名詞の羅列はその代表例だ。たとえ核兵器に興味がなくても、絵で描こうとするならば、その過程で様々なことを調べなければならないし、思いをめぐらさざるを得ない時間をかけることになる。写真も、現地に行ってその場所に身を置くことによって、視覚以外の経験を通して対象について考え、知ることになる。その場所に行かなければ撮れないというのが写真の制約であり価値なのである。

　このようにして、絵や写真を制作する人間は、それを完成させるための非言語的作業と時間によって、さまざまなものに気付いてしまう。生成AIにはこれがない。事物を示す名詞の羅列から画像を完成させてしまうからだ。Barbenheimer画像のおぞましさは、画の完成によっても、プロンプトを入力した者がなにひとつ考えず、感じないままだというところにある。

　多くの日本人がBarbenheimerに反応したのは、あらかじめキノコ雲の形の中に様々なものを見ることができるからだ。教養や知識によって、人は瞬時に想像力を発揮させることができる。Barbenheimer画像を作った人々を一方的に断罪しようというのではない。ぼくら日本人も、教養と知識を持っていない場面では似たようなことをするだろう。

　おそらく、今後Barbenheimerと似たようなことが世界中で起こるに違いない。生成AIはぼくら人間の「浅はかさ」を暴露する装置なのである。

1 https://www.reddit.com/r/midjourney/comments/152e4n3/barbenheimer/

2 https://www.reddit.com/r/midjourney/comments/156opkg/barbenheimer/

生成AIは人間の「浅はかさ」を暴露する装置でもある――「バーベンハイマー」が浮き彫りにしたもの

画像に添えられた「間が抜けた言葉」

「表面的語句」で現像される現代の写真

視覚だけで欲望を満たそうとする時、起こること

「バーベンハイマー」の画像がポルノ的である理由

制作過程における「考える時間」の価値

池内恵の中東通信

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.