プロンプトに含まれる比喩表現を反映した画像生成を可能にするフレームワークが登場！

dataset 2023年08月31日

3つの要点
✔️ linguistic metaphors(言語的比喩)からvisual metaphors(視覚的比喩)を含んだ画像を生成するHuman-AI collaboration frameworkを提案
✔️ 6476枚のvisual metaphorsを含んだ画像で構成されたデータセットであるHAIVMet(Human-AI Visual Metaphor)を作成
✔️ 実験の結果、既存モデルよりもうまくvisual metaphorsを表現できていることがわかった

I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create Visual Metaphors
written by Tuhin Chakrabarty, Arkadiy Saakyan, Olivia Winn, Artemis Panagopoulou, Yue Yang, Marianna Apidianaki, Smaranda Muresan
(Submitted on 24 May 2023 (v1), last revised 14 Jul 2023 (this version, v2))
Comments: ACL 2023
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Human-Computer Interaction (cs.HC)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

visual metaphors(視覚的比喩)は、画像を通してメッセージや創造的なアイデアを伝えるために使われる強力な表現技法であり、linguistic metaphors(言語的比喩)と同様に広告や創作などで頻繁に用いられてきました。

加えて近年では、広告や創作において生成AIを用いることが一般的になってきており、こうした表現技法を用いることでより説得力のある画像生成が可能になります。

一方、MidJourneyやStable Diffusionに代表される近年の拡散モデルをベースにした生成AIは、VAEやGANと比較して高品質な画像を生成できる反面、プロンプト上のlinguistic metaphorsがもつ抽象性をうまく捉えることができないことが指摘されており、こうした問題からvisual metaphorsを含んだ画像を生成することが困難であるという問題点がありました。

本稿ではこの問題点を解決するために、 大規模言語モデルと拡散モデルを組み合わせたHuman-AI collaboration frameworkを構築することで、6476枚のvisual metaphorsを含んだ画像で構成されたデータセットであるHAIVMet(Human-AI Visual Metaphor)を作成し、visual metaphorsを含んだ画像を生成することを可能にした論文について紹介します。

生成AIの問題点

MidJourneyやStable Diffusionなどの拡散モデルをベースにした大規模な生成AIは、入力プロンプトを条件として高品質な画像を生成することができることから、注目を集めています。

しかし、本論文で提案しているlinguistic metaphorsからvisual metaphorsを含んだ画像を生成するタスクにおいて、モデルはまずプロンプトの暗黙的な意味とそれに関連するオブジェクトとの関係を識別し、生成された画像でそれらを組み合わせる方法を見つけることが求められます。

こうしたタスクが既存の生成AIには困難であることの例として、下の図(左は通常のDALL・E2、右は本フレームワークを用いたDALL・E2によって生成された画像)をご覧ください。

これは「My bedroom is a pig sty(私の寝室は豚小屋である)」というプロンプトを与えた際の生成モデルの出力を比較したものになりますが、これは"私の寝室は散らかった状態である"というlinguistic metaphorsを含んだプロンプトになります。

この入力に対し、通常のDALL・E2はピンク色の部屋(おそらく豚の肌色に起因している)に豚のおもちゃが置かれた画像を生成するだけであり、豚小屋＝散らかった状態という比喩を捉えられていないことがわかります。

一方で、本フレームワークを用いたDALL・E2ではこれらを表現した画像が生成できており、この例から、既存の生成AIの限界と本フレームワークの有効性が読み取れます。

Human-AI collaboration framework&Human-AI Visual Metaphor dataset

本論文では下図に示すHuman-AI collaboration frameworkにより、 6476枚のvisual metaphorsを含んだ画像で構成されたデータセットであるHAIVMet(Human-AI Visual Metaphor)を作成しました。

本データセットの作成手順は以下のとおりです。

画像として生成しやすいした際に表現しやすいlinguistic metaphorsを選択する
大規模言語モデルを使用し、時には専門家に協力したもらうことで、visual metaphorsと関連するオブジェクトの関係を捉えた画像を出力するためのプロンプト(=visual elaboration)を生成する
拡散ベースのモデルを使用し、専門家によって低品質な画像をフィルタリングすることで、visual elaborationからvisual metaphorsを含んだ高品質な画像を生成する

一つずつ見ていきましょう。

Visually Grounded Linguistic Metaphors

全てのlinguistic metaphorsを画像としてレンダリングできるわけではないことを考慮して、筆者たちははじめに、画像として生成した際に表現しやすいlinguistic metaphorsを手作業で選択しました。

例えば、"love"は二人が手を繋ぎ、その上にハートをつけることで、"confusion"は疑問符として、"idea"は頭の上に電球を光らせることで表現することができます。

一方でにおいや音などの非視覚的な現象を表すものは、画像で表現することが難しいため排除されています。

Visual Elaboration Generation with Chain-of-Thought Prompting

生成モデルは、暗黙的な比喩表現をモデル化できないため、linguistic metaphorsを含んだプロンプトに対してうまく機能しないという問題点がありました。

そこで筆者たちは、言語モデルの推論能力を向上させるためのプロンプト手法であるChain-of-Thought(CoT) Promptingに着目しました。

これはモデルが問題を複数のステップに分解する方法であり、本フレームワークではInstruct GPT-3を用いてlinguistic metaphorsの暗黙的な比喩と関連するオブジェクトを引き出すプロンプトを生成するためにCoT Promptingを使用しています。

本論文では、CoT Promptingを用いたこの一連の流れにより生成されたプロンプトをvisual elaborationと呼んでおり、このプロンプトを使用することでモデルがより良いvisual metaphorsを含んだ画像を出力するのに役立つことを発見しました。

しかし、本アプローチは高品質なプロンプトが得られる一方で、生成されたvisual elaborationが全て完璧であるとは限らないため、比喩的な言語の研究をしている3人の専門家にアノテーターとして、不完全なvisual elaborationに対して編集を加えるように協力してもらいました。

プロンプトの編集の一例を下図に示します。

図の2枚の画像は、「The news of the accident was a dagger in her heart(その事故の知らせは彼女のハートに短剣を突き刺した)」というvisual metaphorsを含んだ文章を元に、visual elaborationとそれを専門家に編集してもらったプロンプトからDALL・E2に生成させた画像になります。

図aは前述したアプローチにより生成された"An illustration of a heart with a dagger stuck into it, dripping with blood and pain in the woman's eyes."というプロンプトから出力された画像ですが、元の文章に含まれた比喩がうまく表現できていないことがわかります。

一方、図bは上記のプロンプトを専門家が編集した"An illustration of a woman receiving a phone call and her heart with a dagger stuck into it, dripping with blood and pain in the woman's eyes."というプロンプトから出力された画像ですが、元の文章の比喩をうまく表現できていることがわかります。

Visual Metaphor Generation and Human Quality Check

最後に、前述したステップで生成されたプロンプトを入力としてDALL・E2に複数の画像を生成させた後、生成された各画像に対して専門家が元のlinguistic metaphorsを正確に表現できているかをチェックしました。

このようにして収集されたデータセットには、1540個のユニークなlinguistic metaphors(およびそれらに関連するvisual elaboration)と6476枚の画像が含まれており、筆者たちはこのデータセットをHAIVMet(Human-AI Visual Metaphor)と名付けました。

Evaluation

本論文では、作成したHAIVMetを評価するために、HAIVMetに含まれる画像を前述したHuman-AI collaboration frameworkを使って生成したプロンプトを用いて既存モデルに出力させた画像と比較する検証を行いました。

検証に使用したモデルは以下のとおりです。

LLM-DALL・E2: Human-AI collaboration frameworkを使って生成したプロンプトを入力としたDALL・E2
LLM-SD: Human-AI collaboration frameworkを使って生成したプロンプトを入力としたStable Diffusion
LLM-SD-Structured: LLM-SDに加えて、先行研究で用いられたdissusion methodを使用
DALL・E2: 通常のDALL・E2
SD: 通常のStable Diffusion

結果を下図に示します。

図の左列のMetaphorの文はHAIVMetの画像とペアになっているlinguistic metaphorsであり、それ以外の各モデルの画像はMetaphorの文を入力とした時に生成された画像を示しています。

図よりHAIVMetの画像が文に含まれる比喩をうまく表現できていることが確認でき、一番下の段を例に挙げると、「Books are the mirror to the soul(本は魂を映す鏡である)」という比喩表現は本・鏡・魂(通常は人として描かれる)を組み合わせることが求められますが、HAIVMetがこれら全ての要素をうまく表現できていることがわかります。

加えて注目すべきは、本論文で提案したHuman-AI collaboration frameworkを採用したLLM-DALL・E2、LLM-SD、LLM-SD-Structuredが生成した画像が、完璧ではないにしてもうまく比喩表現を捉えている点であり、本フレームワークの有効性を実証する結果となりました。

まとめ

いかがだったでしょうか。今回は、大規模言語モデルと拡散モデルを組み合わせたHuman-AI collaboration frameworkを構築することで、6476枚のvisual metaphorsを含んだ画像で構成されたデータセットであるHAIVMet(Human-AI Visual Metaphor)を作成し、visual metaphorsを含んだ画像を生成することを可能にした論文について解説しました。

本論文で収集されたデータセットの膨大な情報は、現在の画像生成AIの限界を把握し、かつ将来的に比喩を含めたより表現力の高いモデルを構築するための非常に重要なリソースになると考えられます。

加えて筆者たちは、生成された画像のvisual metaphorsの品質とプロンプトのフレーズ間の関係や、その効果がモデル間でどのような違いを生むのかについてさらに検証すると言及しており、今後の進展が非常に楽しみです。

今回紹介したデータセットや実験結果の詳細は本論文に載っていますので、興味がある方は参照してみてください。