最新AI論文をキャッチアップ

大規模言語モデルの役割を再定義、LLM-Moduloフレームワークによる計画と推論タスクへの新しいアプローチ

大規模言語モデルの役割を再定義、LLM-Moduloフレームワークによる計画と推論タスクへの新しいアプローチ

Large language models

3つの要点
✔️ 大規模言語モデルの自律的な推論や完璧な計画生成には限界があることを指摘
✔️ 大規模言語モデルを高度な認知タスク、また問題解決の補助ツールとして活用する方法を提案
✔️ 新しいフレームワーク「LLM-Modulo」を通じて、大規模言語モデルの能力を計画と推論の問題解決に統合する方法を提案

LLMs Can't Plan, But Can Help Planning in LLM-Modulo Frameworks
written by Subbarao Kambhampati, Karthik Valmeekam, Lin Guan, Kaya Stechly, Mudit Verma, Siddhant Bhambri, Lucas Saldyt, Anil Murthy
(Submitted on 2 Feb 2024 (v1), last revised 6 Feb 2024 (this version, v2))
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code:  

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

概要

現在注目を集めている大規模言語モデルは、インターネット全体から集められた膨大なデータに基づいて学習され、驚くべき言語能力を発揮しています。そして、これらのモデルは、単なるテキスト生成だけではなく、複雑な計画や推論のような高度な認知タスクにも対応できると期待されています。しかし、最近の大規模言語モデルに関する多くの研究によって、少しずつその限界もわかってきています。実際には、瞬時に次の言葉を生成することはできても、根本的な推論を自立的に行うわけではありません。本質的には巨大な「システム1(下図)」として機能し、原則に基づいた推論を行うよりも、瞬時に次の言葉を予測することに特化しています。

しかしながら、それでもなお、大規模言語モデルの推論能力に関する研究は続いています。大規模言語モデルを「高級翻訳者」としてのみ利用すべきだという意見もありますが、大規模言語モデルはそれ以上の潜在能力を秘めています。完璧ではないにせよ、人間の知識を反映した近似的な情報源として、特に「システム2(上図)」タスクの解決において貴重な資源となり得ると考えられます。

この論文では、大規模言語モデルが計画や推論タスクにおいてどのような役割を果たすことができるのか、そしてそれらがどのように有用であるかを探ることを目的としています。特に自動計画コミュニティで研究されている計画タスクに焦点を当て、大規模言語モデルが自ら計画を立てることはできないものの、計画の生成や外部モデルベースの検証と組み合わせることで、有効な支援を提供できる可能性があることを論じています。つまり、大規模言語モデルを計画や検証の主体としてではなく、人間や他のシステムの補助として利用することの有益性を強調しています。そして、この論文では、これを実現するため、計画と推論に向けた新しいフレームワーク「LLM-Modulo」を提案しています。 

大規模言語モデルに関する誤解を解き、その真の能力と限界を理解することで、大規模言語モデルをより効果的に活用し、より複雑な問題解決に役立てることができます。この論文は、過度な期待と過小評価の間で揺れる大規模言語モデルの評価について、現実的な見解を提供するものと期待されます。

大規模言語モデルの限界

この論文では、大規模言語モデルの計画能力と自己検証能力の限界についても触れています。大規模言語モデルが発表された直後は、様々な期待が寄せられ、楽観的な見解が多かったものの、最近の研究では、大規模言語モデルが自律的に実行可能な計画を立てる能力に疑問を投げかけています。

実際、GPT-4のような最先端の大規模言語モデルでさえ、生成した計画のうち、エラーなく実行可能できたものは、わずか12%であることがわかっています。この結果は、大規模言語モデルのバージョンにかかわらず一貫しています。

さらに、ドメイン内のアクションやオブジェクトの名前が変更されると、大規模言語モデルのパフォーマンスはさらに悪化します。標準的なAIプランナーのパフォーマンスには何の影響も与えない変更です。これは、大規模言語モデルが計画よりも計画の近似的な検索を行っている可能性が高いことをさらに示しています。

また、大規模言語モデルは計画を検証し、自己批判を通じて改善することに制約があることも示されています。大規模言語モデルは、一度に正しい解を生み出せない場合でも、反復的なプロンプティングにより精度を向上させる可能性があると考えられていますが、この考え方は、正確性の検証が生成よりも簡単であるという仮定に基づいています。しかし、この仮定には批判的な意見も存在しています。特に、大規模言語モデルが近似的な検索を行っている場合、推論タスクの複雑さは大規模言語モデルのパフォーマンスに影響しないというものです。

最新の研究では、大規模言語モデルが自身の解答を批判し、それに基づいて改善する能力には限界があることが明らかにされています。例えば、グラフ彩色問題の解決において、大規模言語モデルは直接モードでの解答が苦手であり、解答の検証も得意ではないことが示されています。さらに、反復モードで自身の解答を自己批判しても、正しい彩色を認識できず、間違った解答を選んでしまうことがあり、パフォーマンスは悪化することも報告されています。

このような結果から、大規模言語モデルが自己改善するために自身で計画を生成し、それらを自己批判して改善し、さらにそれを用いて自身を微調整することが困難であることがわかります。これらの発見は、大規模言語モデルはの計画中心の限界を浮き彫りにし、今後の研究や開発において考慮すべき重要な点を提供します。

また、最近の研究では、大規模言語モデルが完璧な計画やその検証を保証できないことが明らかにされており、この点を深堀りすることで、なぜ文献にそうした批判が多く見られるのかが理解できます。計画に関しては、実行可能な計画を作るには、適切な知識とそれを組み立てる能力が必要です。しかし、大規模言語モデルが提供する一般的な計画知識を実行可能な計画と混同するケースが多くあります。例えば、「結婚式の計画」のような抽象的な計画は実際には実行の意図がないため、混同されやすいです。実際には、大規模言語モデルが計画能力を持つとする研究でも、特定のドメインやタスクではサブゴール間の相互作用を無視したり、人間が介入して「修正」することが示唆されています。

しかし、大規模言語モデルを効果的に活用する方法もあります。人間がループ内でモデルを検証し、洗練することで、大規模言語モデルは世界のダイナミクスやユーザーの好みに関する豊富な情報源となり得ます。

自己検証に関しても、大規模言語モデルの能力には限界があります。特定のタスクでは、検証者がほぼ不可能であるか、外部検証に依存しています。例えば、Thoughts of Tree(ToT)のようなアプローチは、大規模言語モデルによる反復的なバックプロンプトに依存し、外部検証者が受け入れる解決策が見つかるまで続けますが、本質的には問題固有のプロンプトプライミングに過ぎません。結局、外部検証者の健全性が保証の鍵となります。しかし、これには相当な労力が必要です。

これらの課題に対して、「LLM-Modulo」のような原則的なフレームワークが提案されています。これは、知識源としての大規模言語モデルの利用に新たなトレンドをもたらし、過去の知識ベースAIシステムとの類似点を示しています。大規模言語モデルは、特定の人間が不便を感じることなく、問題固有の知識を取得できるようにする新しい方法を提供します。しかしながら、「どのように堅牢な計画を立てるか」という問題は依然として残ります。全体的なアプローチとフレームワークを通じて、大規模言語モデルの限界を理解し、それを超える方法を模索することが重要です。

LLM-Moduloフレームワークによる堅牢な計画 

計画と推論の分野における大きな疑問に応えるため、ここでは「LLM-Modulo」フレームワークにスポットライトを当てます。これは、大規模言語モデルが自ら計画や推論を行うことに疑問を呈する一方で、計画や推論タスクを解決する上で大規模言語モデルが果たす建設的な役割を強調しています。驚くべきアイデアと潜在的な解決策の生成能力を持つ大規模言語モデルを、モデルベースの検証者や専門家と組み合わせることで、新しい可能性が広がります。下図は、LLM-Moduloフレームワークの概念図を表しています。

このフレームワークは、多岐にわたる計画や推論タスクに対して効果的なアプローチを提供し、自動計画コミュニティが長年取り組んできた問題にも焦点を当てています。基本構造はシンプルながらもパワフルな「生成-テスト-批評」のループで、大規模言語モデルが問題仕様から計画候補を生成し、批評家がこれを評価します。特に注目すべきは、大規模言語モデルが生成する計画は、外部批評家によって健全性が保証されるため、より高品質な合成データを生み出し、大規模言語モデルのさらなる改善に役立つ点です。

設計上の考慮事項では、「生成-テスト」モデルを採用し、大規模言語モデルが外部の批評家と直接やり取りする点を強調しています。これにより、大規模言語モデルは批評家を満足させる解決策を推測・生成する役割を担います。また、大規模言語モデルが計画候補だけでなく、ドメインモデルや問題の削減戦略、問題仕様の洗練においても貢献できることを認識しています。これらの能力を活用することで、大規模言語モデルは計画プロセスにおいて多様な役割を果たすことができます。

最後に、このアーキテクチャは人間の役割を慎重に限定し、ドメインの専門家がモデルを引き出すための大規模言語モデルとのやり取りや、エンドユーザーが大規模言語モデルと協力して問題仕様を洗練させるプロセスを取り入れています。計画の内部ループにおける人間の直接的な関与は避けられ、これにより複雑な計画問題に対する効率的で実行可能な解決策を提供しています。

このLLM-Moduloフレームワークの核心には、計画や推論問題に対して、大規模言語モデルによって生成された解決策を評価する「批評家」が存在します。これらの批評家は、厳格な制約と柔軟な制約を用いて、提案された計画の適合性を審査します。厳格な制約には、因果関係やタイムラインの正確性、リソースの適切な利用など、計画の正確性を検証する要素が含まれます。特に、PDDL計画問題においては、モデルベースの検証手法として知られるVALを用いることができます。一方で、柔軟な制約は、スタイルや説明可能性、ユーザーの好みといったより抽象的な要素を考慮に入れています。

このフレームワークでは、大規模言語モデルが直接的に厳格な批評家の役割を果たすことはできませんが、柔軟な批評家の一部の機能を模倣することで貢献する余地があります。これにより、スタイル批評家が大規模言語モデルに基づくことも可能になり、フレームワーク全体の健全性は批評家の評価基準から保証されます。

批評家たちは、厳格な基準(モデルベース)と柔軟な基準(場合によっては大規模言語モデルベース)の両方を用いて、計画候補の適合性を評価します。全ての厳格な批評家が現在の計画に同意した場合、それは有効な解決策としてエンドユーザーや実行者に提供されます。不満足な場合、批評家は「もう一度試して」というシンプルなフィードバックから、具体的な問題点を指摘する詳細なフィードバックまで、様々な形で指摘を行います。

また、LLM-Moduloフレームワーク内で大規模言語モデルは「再構成者」としても機能します。多くの記号モデルベースの検証者は特殊な形式で動作するため、提案された計画をこれらの特殊な表現に変換する必要があります。この変換プロセスを支援するのが、再構成者モジュールです。大規模言語モデルは異なる構文表現間での形式変更に長けており、この能力を活かして検証者に対する入力の準備を助けます。

計画や推論タスクの解決において、バックプロンプト(メタ)コントローラーが果たす役割は極めて重要です。このシステムは、多様な批評家からのフィードバックを一元化し、大規模言語モデルが新しいアイデアや解決策を生み出すための改良されたプロンプトへと加工します。特に、柔軟性と厳格性を兼ね備えた批評家の意見が混在する状況では、このメタコントローラーが批評を一貫したフィードバックに集約することで、より精度の高い結果を得ることができます。

バックプロンプトコントローラーの処理手順は、単純なラウンドロビン方式の選択から、大規模言語モデルの支援を受けた要約プロンプトの作成、さらにはプロンプトの多様化戦略の適用に至るまで、多岐にわたります。これにより、大規模言語モデルは暗黙の検索空間の異なる領域から次の候補解を探索することが可能になります。このアプローチは、思考の木(ToT)プロンプトシステムのような戦略にも類似しており、より広範な可能性の探求を促進します。

また、このフレームワークは、計画問題を解決した後、得られた解決策を合成データコーパスに追加し、それを用いて機械学習モデルの微調整を行います(下図(6, 7))。このサイクルは、将来の問題解決の精度を向上させることを目指しています。

このアプローチの背後には、タスク固有のデータに基づく微調整がAIの推論や計画能力の向上に寄与するという、広く認められた原則があります。たとえば、ブロックワールドの問題解決策を用いてモデルを微調整することで、同様の問題に対するより精度の高い解決策を導き出せるようになります。

しかし、この技術の魅力的な側面は同時に大きな挑戦も提示しています。特に、微調整に使用するデータの出所です。一つの革新的な解決策として、LLM-Moduloフレームワークでは、機械学習モデル自身が合成データを生成し、そのデータを基に自己微調整を行うという方法が提案されています。これにより、モデルは自己改善のループを形成し、その推測性能を段階的に向上させることができます。

しかし、AIが自身の解決策を完全に検証できないという課題があります。過去には、信頼性のある合成データを生成するために外部のプランジェネレータを用いることが一般的でした。LLM-Moduloフレームワークでは、この問題を解決するために、AIベースのフレームワークを活用して正確性を保証した合成データを生成する新しい手法を提供します。

前述の通り、大規模言語モデルへの繰り返しプロンプトに人間が関与することは避けています。これは、人間にとって時間がかかりすぎるためです。代わりに、モデルベースまたは大規模言語モデルサポートの自動検証器を用いて、計画批判プロセスを管理しています。このフレームワークは、「ドメインごとに1回」「問題ごとに1回」の人間とのやり取りに依存しています

まとめ

この論文は、計画や推論といったタスクにおける大規模言語モデルの可能性について、過度な楽観や悲観ではなく、現状を理解するための新しい視点を提供しています。大規模言語モデルが単独で計画を立てる能力は持たないものの、信頼性の高い外部モデルと組み合わせることで、計画タスク解決のキープレイヤーになり得ると主張しています。その主な役割は、粗大な知識の提供と、実行可能な計画案の提示にあります。

大規模言語モデルだけで計画や自己検証ができるという以前の主張を批判し、それらがなぜ誤解を招く可能性があるのかを掘り下げています。また、実行可能なプランを生み出す過程で、大まかな知識取得とその混同がどう影響するかを指摘しています。

さらに進んで、大規模言語モデルのアイデア生成と知識提供の能力を、外部検証器と組み合わせてより強固で表現力のある計画を作成する手法として、LLM-Moduloフレームワークを提案しています。このフレームワークは、従来の記号的プランナーの制限を超える一方で、その確実性を保持するアプローチです。

この論文では、AlphaGeometryやFunSearchといった成功例と同様、新しい「ニューロシンボリック」アーキテクチャの可能性を示唆しています。これらの例から、LLM-Moduloフレームワークが、計画と推論の未来において重要な役割を果たす可能性があることがわかります。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
Takumu avatar
インターネット広告企業(DSP、DMP etc)や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする