Mind's Eye：シミュレーションを利用した物理的推論能力向上のためのプロンプト拡張

Large language models 2023年09月27日

3つの要点
✔️ 言語モデルの物理的推論能力を調査するベンチマークデータセットUTOPIAを提案
✔️ 物理シミュレーションの結果をプロンプトに反映し，言語モデルの推論能力の向上を図るMind’s Eyeという手法を提案
✔️ 既存の推論能力向上手法を上回る性能を実現

Mind's Eye: Grounded Language Model Reasoning through Simulation
written by Ruibo Liu, Jason Wei, Shixiang Shane Gu, Te-Yen Wu, Soroush Vosoughi, Claire Cui, Denny Zhou, Andrew M. Dai
(Submitted on 11 Oct 2022)
Comments: Published on arxiv.
Subjects: Computation and Language (cs.CL); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

導入

昨今，大規模言語モデルは様々なタスクで超人的な性能を達成してきていますが，様々な欠点も報告されています．そのような欠点の一つに，物理世界の知識や経験の欠如に起因した推論能力の低さがあります．

人は，物理世界に生きており，様々な経験を通して物理的な推論能力を向上させていくものですが，現状の言語モデルは学習手法の性質上，言語情報のみからしか物理世界の現象を把握することができません．そのため，物理法則的に誤った推論をしてしまう可能性があるのです．

この問題に対処するべく，複数の対策が考案されています．例えば，プロンプトを工夫して，言語モデルに段階的に推論させるようにする方法があります．しかし，これでは言語モデルの内部に蓄えられた知識のみに完全に依存してしまうことになります．言語モデルの外部の知識を積極的に利用する方法として，検索によって知識を補強する手法もありますが，書き言葉で表現された知識は，依然としてバイアスがあるものです．

このような問題に対して，本論文では，現状の言語モデルがどの程度物理法則を理解しているか調査し，シミュレーションを利用して物理的推論能力を向上させる方法を提案します．

物理世界を正しく理解することは，人間レベルの推論能力にとってだけでなく，汎用的で身体性を持った知能のためにも重要であり，その点に貢献する論文です．

データセットUTOPIA

現在の言語モデルがどの程度物理的な概念や法則を理解しているかを調査するため，ベンチマークとしてのデータセットUTOPIAを提案しました．

このデータセットは，高校物理の教科書などから選ばれた６つの代表的なシーン（運動，摩擦，自由落下，投射，衝突，斜面）において，物体がどのように運動するかを問うものです．実世界において人間がするような知覚能力を調査するために，絶対数ではなくて相対関係（より大きい，など）で問題文が記述されています．また，質問に対する答えは物理エンジンによって計算できるようになっており，データセットの拡張は容易です．

UTOPIAのサンプルは次の表のとおりです．表の一番右側にある通り，39種類のサブタスクが用意されています．

Mind’s Eye

また，物理シミュレーションを利用して物理的推論応力を向上させるシステムMind’s Eyeを提案しました．これは，次のような構造になっています（下図）．

Mind’s Eyeは，Text-to-code converter，Physics simulation engine, Foundation modelの三つの構成要素からなっています．

Text-to-code converter

テキストで表現された内容を物理エンジンであるMuJoCoに入力するためには，テキストからXMLファイルに置き換える処理が必要です．そのために，質問文テキストが与えられたら，それをMuJoCoで検証できるようなXMLファイルを出力する言語モデルを学習させます．質問文テキストとXML表現のデータ20万個を使用し，デコーダ型の言語モデルをゼロから自己回帰的に訓練します．

Simulation augmented prompting

レンダリングのためのXMLファイルを受け取ると，物理エンジンがそれを実行し，その結果をMind’s Eyeの３つ目の構成要素であるfoundation modelに対するプロンプトに記載します（上図の右側青字部分）．

実験

既存の言語モデルを評価するため，UTOPIAの39種類のサブタスクそれぞれに対して100サンプルを用意し，合計3900個の事例で評価を行います．

評価対象の言語モデルはGPT3とPaLMです．

結果は次のグラフのようになりました．

このうちの，青と橙の棒グラフがMind’s Eyeによってプロンプトを拡張する前のモデルの性能になります．青がzero-shot，橙がfew-shotの場合です．

言語モデルのモデルサイズが大きくなるほどに性能は上がりますが，特にfew-shotの場合において，性能の向上の度合いが頭打ちになるのがわかります．

これは，zero-shotに対して，few-shotを行うことでin-context learningを効率化することができても，実世界と結びついた物理的推論能力の欠如がボトルネックとなり，性能の上昇を阻んでいると考えられます．

これに対して，紫，赤のグラフがMind’s Eyeによってプロンプトを拡張した場合のモデルの性能になります．紫がzero-shot，赤がfew-shotの場合です．

Mind’s Eyeによる拡張のおかげで，推論能力を大幅に増大させることができているのがわかります．

モデルサイズが小さいモデルでも，Mind’s Eyeを用いることで，それを用いていない大きなモデルよりも，物理的推論性能が高まることもわかります．

このことは，推論から試行を切り離すことの効果を示しています．物理世界に根ざしたドメイン特化のシミュレーションを外部ツールとして利用させ，言語モデル自体には推論のみに集中させます．こうすることによって，言語モデルのサイズは劇的に小さくて済むようです．

各種テクニックとの比較

ここでは，言語モデルの推論能力を向上させるための各種手法との比較を行います．

比較対象としては，”Let’s think step by step”と伝えるZero-shot Reasonerなどのプロンプト改良手法に加えて，外部知識の検索を行うRAGなどの手法を使用します．

比較対象の手法においては，基本的にGPT-3 175Bモデルを使用しています．

結果は次の表のようになりました．提案手法のMind’s Eyeは，zero-shot，few-shotのいずれの場合においても他の手法を上回る精度を示していることがわかります．

また，GPT-3 1.3Bと175Bに関して比べると，単にモデルサイズを大きくするよりも，Mind’s Eyeによる拡張をした方が効果が高いことがわかります．

まとめ

今回の論文で紹介されていたMind’s Eyeと言う手法は，シミュレーションを使用して試行を行い，その結果を言語モデルのプロンプトに与えることで，言語モデルに秘められた推論能力を開花させるというものでした．この手法は，物理シミュレーション以外にも応用が効くものであり，他の分野でも広く使われる手法となるでしょう．