DALLE-2が独自言語を獲得！？

深層学習 2022年08月03日

3つの要点
✔️ DALL·E2が扱う独自言語をブラックボックス方式で調査
✔️ 独自言語としての一貫性に疑問
✔️ モデルの解釈性とセキュリティに課題

Discovering the Hidden Vocabulary of DALLE-2
written by Giannis Daras, Alexandros G. Dimakis
(Submitted on 1 Jun 2022)
Comments: Published on arxiv.
Subjects: Machine Learning (cs.LG); Computation and Language (cs.CL); Cryptography and Security (cs.CR); Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

2021年から2022年にかけて、Text-to-Imageと呼ばれる文章から画像を生成する技術が次々に発表され、注目を集めています。そして、より身近なものになっています。これまでは、文章から画像を生成する技術は一般には提供されておらず、敷居が高いものでした。しかし、2022年6月に「DALL·E mini」という画像生成システムが提供されたことで、画像生成を試すことができるようになりました。Twitter上でもDALL·E miniで生成されたさまざまな画像がツイートされています。この記事をご覧の方の中にも、DALL·E miniを利用した方は多いかもしれません。DALL·E2やImagenと比べると完成度は劣ると思いますが、文章からイメージされる画像が生成されるという体験に驚いた方も多いのではないでしょうか。

年月	モデル名	開発チーム
2021年1月	DALL·E	OpenAI
2021年12月	GLIDE	OpenAI
2022年4月	DALL·E2	OpenAI
2022年5月	Imagen	Google
2022年6月	Parti	Google

今回は、この注目を集めている画像生成モデルのうち「DALL·E2」に関する論文をご紹介します。この論文では、DALL·E2において、一見すると意味が分からない文章（absurd prompt）を入力した時に、それらの文章と生成される画像に一定の関連があることを見つけました。つまり、DALL·E2では、人間には意味が分からない文章（）であっても、DALL·E2独自の語彙が存在しているということがわかりました。

例えば、「Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons」という文章をDALL·E2に入力すると、下図の画像が生成されます。この結果から、DALLE-2には独自の語彙を扱っており、「Apoploe vesrreaitais」が「鳥」を意味し、「Contarra ccetnxniams luryca tanniounons」は「虫：を意味することがわかりました。つまり、このプロンプトは、DALLE-2独自の語彙では「鳥が虫を食べる」ということを意味していると考えられます。

DALL·E2の独自言語を見つける方法

DALL·E2が扱う言語を見つけるため実施された方法はブラックボックス方式です。入力する文章と出力される画像から、単語やその単語の連なりの関係性を探す方法がとられています。

例えば、「vegetables（野菜）」という言葉の意味を知りたい場合は、次のような文章をDALL·E2に入力します。

- 「A book that has the word vegetables written on it. （野菜という言葉が書かれた本）」
- 「Two people talking about vegetables, with subtitles. （野菜について話す2人、字幕付き）」
- 「The word vegetables is written in 10 languages. （10種類の言語で書かれた野菜という言葉）」

DALL·E2は、これらの入力に対して、文章が記載された画像を生成することが多いようです。しかし、DALL·E2の論文や、他のいくつかの報告にあるように、記載されている文章は、人間には意味が分からないものであるようです。例えば、DALL·E2に「Two farmers talking about vegetables, with subtitles.」という文章を入力すると、下図(a)のような画像が生成されます。この図(a)からわかるように、人間には全く理解できない単語が並んでいます。

しかし、この論文で分かったのは、この単語には意味があり、DALL·E2独自の語彙と言えるものであるということです。この論文では、図(a)で生成された画像にある単語である「VICOOTESS」と「Apoploe vesrreaitais」をDALL·E2に入力ています。すると、図(b)(c)が示すように「Vicootess」が野菜を意味し、「Apoploe vesrreaitais」は鳥を意味しているように見えます。つまり、図(a)は、農業従事者2人が自分たちの野菜を傷つける鳥について話しているように見えます。

このように、DALL·E2によって生成された画像内の単語から再度DALL·E2で画像を生成してみると、DALL·E2が扱う単語には一貫性（意味）があると考えられます。

ただし、この論文では、このような手法が常に有効とは限らないとも指摘しています。つまり、一貫性のないランダムな画像が生成されることもあるようです。なお、APIを介してDALL·E2にクエリアクセスすることができます。

DALL·E2の独自言語の特徴

DALL·E2で見られた独自の語彙に特徴を調べるために、いくつか実験しています。まずDALL·E2が扱う独自の語彙が、人間が扱う言語と同じように2つの単語を使って1つの文で構成できるかどうかです。「鳥」を表す「Apoploe vesrreaitais」と「虫」あるいは「害虫」を表す「Contarra ccetnxniams luryca tanniounons」の2つの単語を使って「Apoploe vesrreaitais eating Contarra ccetnxniams luryca tanniounons」という文章を作成し、DALL·E2に入力しています。その結果、下図のように「鳥が虫を食べている」という画像を生成することが確認できました。常にこのような画像が生成されるわけではありませんが、このような画像が生成されることもあるということを確認しました。

次に「鳥」を表す「Apoploe vesrreaitais」に画像のスタイルを表す単語（Painting、Cartoon、3-D rendering、line art）を追加し、「Apoploe vesrreaitais」が視覚的な概念に対応するかどうかを調べています。結果は下図のようになり、(c)(d)のように「鳥」ではなく「飛んでいる昆虫」に変わってしまうことがあるようです。

さらに、生成された画像中のテキストと、そのテキストから生成される画像の整合性についても調べています。例えば、上述したように、「Two farmers talking about vegetables, with subtitles.」という文章を入力すると、農業従事者2人が自分たちの野菜を傷つける鳥について話しているような画像を生成されました。DALL·E2に入力した「vegetables（野菜）」という言葉だけでなく、生成された画像には、シチュエーションに最もらしいと考えられる「Apoploe vesrreaitais（鳥）」という言葉も追加されていました。つまり、一見すると意味不明に思えたDALL·E2による単語（Apoploe vesrreaitais）が、DALL·E2によって可視化してみると、意味のある単語（鳥）になっていたことがわかります。

別の例として「Two whales talking about food, with subtitles.（食べ物について話している2匹のクジラ、字幕付き）」という文章をDALL·E2に入力すると、下図(左)のように2匹のクジラと「Wa ch zod ahaakes rea」のような文章が生成されます。この文章をDALL·E2に入力すると、下図(右)のように「シーフード」が表示され、元の生成画像とセリフとして整合性があるものとわかります。このように、決して関連のない文章が生成されるわけではなく、シチュエーションに適した整合性のある文章が生成されているようです。

DALL·E2の課題

引き続き研究が必要と考えられるテーマにも言及されています。まずこの論文でDALL·E2の独自言語として扱っている単語（Apoploe vesrreaitais など）は、比較的一貫性のある単語を選んでいるようです。DALL·E2に入力するたびに意味するものが変わることが多いとしています。つまり、Apoploe vesrreaitais が常に同じ「鳥」を意味しているわけではなく、別の動物などを意味することもあるようです。

この点は、Twitterでも話題になっており、独自言語と判断して良いのかという議論が研究者の中でも意見が分かれているようです。Twitter上では、今回紹介した単語に対して、全く異なる挙動になるという判例が報告されています（関連ツイート ※英語）。

この論文では、このような振る舞いは、モデルの解釈性やセキュリティの観点から大きな懸念があるとし、人間が期待するような振る舞いをするロバストな画像生成モデルを作成するためには、これらの現象を理解する、より基礎的な研究が必要と述べています。

まとめ

世界中を驚かせた画像生成モデルが、新たに「独自言語」を獲得しているかもしれないと話題性の高い論文でした。すでに多くのWebメディアでも紹介されているように、それだけ、革新的であり、非常に注目度の高い技術と言えるかもしれません。しかし、DALL·E2だけでなく、Imagenも含めて、これらの高性能な画像生成モデルには、理解できない現象も多く、予期せぬ悪用も懸念されます。そのため、一般公開はされていない状況です。研究としては機械学習の可能性を感じる面白い技術ですが、実用にはもう少し時間がかかるかもしれません。とはいえ、この1年の進歩は目まぐるしく、今後がますます楽しみですね。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。