【RL-GPT】 Mincraftで通常の数倍の速さでダイヤモンドを取得するフレームワークが登場

機械学習 2024年04月18日

3つの要点
✔️ RL-GPTは、大規模言語モデル（LLM）と強化学習（RL）を組み合わせた新しいフレームワークです。
✔️ RL-GPTでは、高速と低速の2つのエージェントが連携してタスクを行います。
✔️ RL-GPTは従来の手法よりも優れた性能を示し、Minecraftのゲームでは1日以内にダイヤモンドを取得することができます。

RL-GPT: Integrating Reinforcement Learning and Code-as-policy
written by Shaoteng Liu, Haoqi Yuan, Minda Hu, Yanwei Li, Yukang Chen, Shu Liu, Zongqing Lu, Jiaya Jia
(Submitted on 29 Feb 2024)
Comments: Published on arxiv.
Subjects: Artificial Intelligence (cs.AI); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

RL-GPTは、大規模言語モデル（LLM）と強化学習（RL）を組み合わせた新しいフレームワークです。

LLMは、プログラミングのさまざまなツールを使いこなすことができますが、複雑なロジックや正確な制御には苦労します。RL-GPTでは、高速と低速の2つのエージェントが連携してタスクを行います。

低速エージェントはプランを立て、高速エージェントはそのプランに基づいて実際のコーディングを行います。これにより、効率的にタスクを達成することができます。

RL-GPTは従来の手法よりも優れた性能を示し、Minecraftのゲームでは1日以内にダイヤモンドを取得することができます。通常のプレイスタイルや運の要素にもよりますが、多くのプレイヤーがMinecraftでダイヤモンドを見つけるのにかかる時間は比較的一般的に3日〜7日ほどかかると考えています。

はじめに

この論文は、オープンワールド環境でタスクをマスターするAIエージェントの構築に関する内容です。これは、AI研究における長年の目標の一つです。大規模言語モデル（LLM）の出現により、この目標が実現される可能性が高まりました。LLMは、コンピュータツールの利用や検索エンジンの操作などに熟練していますが、オープンワールドの具体的な環境ではまだ制限があります。例えば、ビデオゲームで子供と戦うなどのタスクにおいて、LLMはまだ不十分です。そのため、強化学習（RL）が注目されています。RLは、インタラクションから学習するための効果的な方法であり、LLMの「練習」を促進するのに有望です。

しかし、RLを使用する場合、大量のデータや専門家のデモンストレーション、LLMのパラメータへのアクセスが必要であり、効率が低いことが課題です。これを解決するために、LLMとRLを統合する新しいアプローチが提案されています。これにより、LLMエージェントがRLのトレーニングパイプラインをツールとして使用できるようになります。このフレームワークは、RL-GPTと呼ばれ、LLMを強化するために設計されています。このアプローチにより、RLとLLMが連携してタスクを解決することが可能になります。

上図は、RL-GPTの概要図です。環境の最適化後、LLM エージェントは最適化されたコード化されたアクションを取得し、RL は最適化されたニューラルネットワークを実現し、RL-GPT は最適化されたコード化されたアクションとニューラルネットワークの両方を取得します。

提案手法

RL-GPTは3つの主要なコンポーネントで構成されています。

(1) 低速エージェントは与えられたタスクを複数のサブアクションに分解し、どのアクションを直接コード化できるかを判断します。
(2) 高速エージェントはコードの記述とRLの設定を行います。
(3) 反復メカニズムは低速エージェントと高速エージェントの両方を調整し、RL-GPTの全体的な性能を向上させます。

RL-GPTの中で、RLインターフェースは以下のコンポーネントを提供します：学習タスク、環境のリセット、観察スペース、アクションスペース、そして報酬機能。これにより、RLとCode-as-policyの統合が可能になります。低速エージェントはGPT-4を使用しており、与えられたタスクをサブアクションに分解し、コード化できるかどうかを判断します。一方、高速エージェントもGPT-4を使用しており、低速エージェントからの命令をPythonコードに変換し、環境からのフィードバックを受けて修正します。2つのループ反復メカニズムを使用することで、高速エージェントと低速エージェントの最適化を行います。また、タスクプランナーを導入し、複雑なタスクに対応します。これらのコンポーネントを組み合わせることで、RL-GPTは複雑なタスクに対応し、効率的なタスク学習を実現します。

全体的なフレームワークは、低速エージェント (オレンジ色) と高速エージェント (緑色) で構成されます。低速エージェントはタスクを分解し、「どのアクション」を学習するかを決定します。高速エージェントは、低レベルの実行用のコードとRL構成を作成します。

実験

まず、研究で使用された環境として、MineDojoと呼ばれるフレームワークが紹介されています。MineDojoは、Minecraftゲーム内で様々なタスクを設定するための先駆的なフレームワークであり、木を切ったり、アイテムを作成したりするような長期的なタスクも含まれています。続いて、研究で採用された手法について説明されています。RL-GPTと呼ばれる手法は、GPT-4というAIモデルを使用しています。この手法では、近接ポリシー最適化（PPO）が採用され、環境との相互作用からデータをサンプリングし、確率的勾配上昇を使用してエージェントのポリシーを最適化します。

主な結果として、RL-GPT手法が他のベースライン手法よりも優れた性能を示したことが述べられています。

MineDojoのタスクにおいて、RL-GPTは最も高い成功率を達成しました。

Minecraft でのダイヤモンドの入手タスクの主な結果です。タスクの既存の強力なベースラインは、専門家データ (VPT、DEPS)、サブタスク用の手作りポリシー (DEPSOracle) を必要とするか、トレーニングに膨大な数の環境ステップが必要です (DreamerV3、VPT)。本研究の手法は、ほんの少しの人的事前作業だけでサブタスクを自動的に分解して学習することができ、優れたサンプル効率でダイヤモンドを取得することができます。

DreamerV3、VPT、DEPS、およびPlan4MCなどの既存手法との比較が行われ、RL-GPTが8%以上の成功率を達成したことが示されています。

さまざまなエージェントがログの収集方法を学習する方法のデモンストレーションです。このプロセスをより詳細に見ると、RL-GPTはまず、ログの収集に関連するすべてのアクションをコーディングしようとしますが、最初の反復では成功率は0%です。その後、RL-GPTは木を目指して20回攻撃するアクションを選択し、次にそれを実行します。しかし、LLMにとって木を見つけるのは難しすぎることがわかり、エージェントはより細かいアクションを選択するように指示されます。最終的に、RL-GPTはコーディングナビゲーションと攻撃の組み合わせで正しい解答を見つけ、その後の反復ではパフォーマンスが向上します。これにより、RL-GPTがタスクを効率的に学習し、成功率を向上させるプロセスが示されています。

さらに、この研究では、RL-GPTがMinecraft内の様々なタスクにおいて優れた性能を発揮した理由や、将来的な応用についても考察されています。これにより、この研究がゲーム内のAIトレーニングだけでなく、現実世界の問題にも応用できる可能性があることが示唆されています。

結論

この研究では、大規模言語モデル（LLM）と強化学習（RL）を組み合わせた新しい手法であるRL-GPTを提案しています。これにより、Minecraftなどの複雑なゲーム内で困難なタスクに取り組むエージェントを強化することが可能です。RL-GPTは、タスクを高いレベルのコーディングと低いレベルのRLベースのアクションに分割することで、従来のRLメソッドや既存のGPTエージェントよりも優れた効率を示します。これにより、Minecraftなどの難しいタスクで良好なパフォーマンスが得られます。

将来の展望としては、RL-GPTの応用範囲が広がることが期待されます。例えば、この手法を用いて他のゲームや現実世界の問題に対処することが可能です。また、RL-GPTの改良や新たな応用方法の開発が行われることで、より高度なタスクにも対応できる可能性があります。