推論過程を書き出すホワイトボードを与えることで、LLMの視覚的推論能力が大きく向上！？

Prompting Method 2024年12月26日

3つの要点
✔️ LLMの視覚的推論能力を引き出す新たなプロンプトテクニックであるWhiteboard-of-Thought(WoT)を提案
✔️ ASCIIアートを用いて、CoTなどの既存手法との比較実験を実施
✔️ 実験の結果、WoTの使用によって大幅な性能の向上が確認された

Whiteboard-of-Thought: Thinking Step-by-Step Across Modalities
written by Sachit Menon, Richard Zemel, Carl Vondrick
(Submitted on 20 Jun 2024)
Comments: Project website: this http URL
Subjects: Computation and Language (cs.CL); Artificial Intelligence(cs.AI); Computer Vision and Pattern Recognition(cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

はじめに

近年、ChatGPTに代表される大規模言語モデル(Large Language Models, LLM)はChain-of-Thought(CoT)によってテキスト中の中間の推論部分を表現することにより、算術や記号の推論において優れた結果を出すことが知られています。

一方で、広範囲のマルチモーダルな事前訓練を行ったとしても、人間が視覚的推論によって簡単に解決できるようなテキストクエリに回答できないという課題が残っており、多くの研究者の頭を悩ませてきました。

本稿ではこうした背景から、LLMの視覚的推論能力を引き出すためのシンプルなプロンプトテクニックとして、LLMに推論ステップを画像として書き出すホワイトボードを提供するWhiteboard-of-Thoughtを提案し、ASCIIアートを含む視覚的推論能力を測るベンチマークにおいてその有効性を実証した論文について解説します。

Introduction

"Which lowercase letter is a circle with a vertical line touching it to the right going down?"

(円の右側に縦線が接し、下に向かう小文字はどれか?)

あなたがこの問題の文章を読んだ際、まず頭の中に円を描き、次に線を加えて、最終的に「q」という文字を想像するのではないでしょうか？

人間はこのような視覚的推論を得意としており、言葉を使った推論と画像を使った推論を容易に織り交ぜて問題を解決したりアイデアを伝えたりしています。

一方で、本論文の著者が最新のLLMであるGPT-4o(OpenAI et al., 2023)はこの問題を解くことができるのかを検証した結果を下図の左に示します。

GPT-4oは答えが「b」であると誤答しており、この結果は視覚的推論や空間的推論を含むタスクでは、人間にとっては非常に簡単な問題であってもLLMには困難であることを示しています。

本論文ではこの課題を解決するために、マルチモーダル大規模言語モデル(Multimodal Large Language Models, MLLM)を活用し、MLLMに中間的な思考を表現するホワイトボードのような明示的なビジュアルを作成し推論する能力を与えることで、視覚的推論に似た能力を引き出す手法を提案しています。

Whiteboard-of-Thought

本論文のゴールは、MLLMに画像を作成する能力を持たせ、それを視覚的に処理することで前述したような視覚的推論を伴うタスクを処理できることであり、そのために新しいプロンプトテクニックであるWhiteboard-of-Thought(WoT)を提案しています。

本手法の手順を、下図の右に示します。

本手法では、MatplotlibやTurtleのような一般的なPythonライブラリを使用して、視覚的推論に使用するためのイメージ(図のVisualization Image)を作成します。

そのためにMLLMに対して、

"You write code to create visualizations using the {Matplotlib/Turtle} library in Python, which the user will run and provide as images. Do NOT produce a final answer to the query until considering the visualization."

(PythonのMatplotlib/Turtleライブラリを使って可視化するためのコードを書き、それをユーザーが実行して画像として提供します。可視化を考慮するまではクエリに対する最終的な回答を作成しないでください。)

というプロンプトを入力します。

その後、LLMは可視化ライブラリとPython Interpreterを使用して画像を生成し、その画像をMLLMが本来持っているマルチモーダルな推論能力に用いることで、最終的な答えを出力するという流れになっています。

Experiments

本論文では、Whiteboard-of-Thought(WoT)の有効性を実証するために、大規模ベンチマークBIG-Benchから、ASCIIアートのテキストグラフィックとして表現された情報の認識精度を測定する実験を行いました。

ASCII Understanding

ASCIIアートは、私たち人間が無意識のうちに脳内で処理している視覚的推論能力の高さを浮き彫りにするものであり、何らかの自然言語的解釈を持つ文字(例：記号としての「＝」)を視覚的文脈で解釈し、その配置と空間的関係(例：水平線としての「＝＝＝」)に注力する必要があります。

人間にとってこれらの一連の処理は無意識に処理されていますが、前述したように既存のMLLMにとっては非常に困難なタスクであり、本タスクにおける認識精度を測定することで、WoTの有効性を実証しました。

本実験でははじめに、実験に用いるためのASCIIアートを作成するために以下のPythonのコードを用意しました。

その後、コードを実行することで、下図に示すようにMNIST・Words・Kanjiの3種類のASCIIアートの描画を行なっています。

また、提案手法のWoTに加えて、通常のプロンプトによる推論であるDirectとChain-of-Thoughtによる推論であるCoTを用意し、それぞれの認識精度の比較を行いました。(全ての手法において、MLLMとしてGPT-4oを使用しています)

本実験結果を下図に示します。

本結果より、通常のプロンプトおよびステップバイステップでの推論は、ASCIIアートの認識タスクに対してほとんど効果がないことが分かります。

一方で提案手法であるWoTにおいては、全てのタスクにおいて大幅な性能向上ができていることが確認できました。

これは、WoTによってMLLMに擬似的なホワイトボードを提供することで、モデル自身が視覚化された情報を検討できるようになり、MLLMの潜在的な視覚的推論能力が引き出されたからであると推測でき、WoTの有効性が実証される結果を得ることができました。

まとめ

いかがだったでしょうか。今回は、LLMの視覚的推論能力を引き出すためのシンプルなプロンプトテクニックとして、LLMに推論ステップを画像として書き出すホワイトボードを提供するWhiteboard-of-Thoughtを提案し、ASCIIアートを含む視覚的推論能力を測るベンチマークにおいてその有効性を実証した論文について解説しました。

本論文で行われた実験は、視覚的推論と空間的推論を必要とする複数のタスクにおいて、Whiteboard-of-Thoughtの有効性を実証するものであり、今後MLLMの性能が向上し続けるについれて、WoTの性能も同様に向上することが期待されます。

このことについて筆者は、"As computer vision advances, our method will only grow more useful.(コンピュータビジョンが進歩するにつれて、我々の手法はより有用性を増していくだろう)"と発言しており、今後の進展が非常に楽しみな分野であると言えるでしょう。

今回紹介したWhiteboard-of-Thoughtや行われた実験の詳細は本論文に載っていますので、興味がある方は参照してみてください。