人間の直感的な理解を機械に学習させる方法とは

機械学習 2023年12月25日

3つの要点
✔️ 物理世界と対話できるロボットを設計するために、複雑な物理問題を効率的に学習する方法の提案しています。
✔️ ビー玉を CME の中心に移動する問題を題材として、機械に学習させる手順を解説しています。
✔️ 物理エンジンから物理概念が得られるエージェントを設計しています。

Data-Efficient Learning for Complex and Real-Time Physical Problem Solving using Augmented Simulation
written by Kei Ota, Devesh K. Jha, Diego Romeres, Jeroen van Baar, Kevin A. Smith, Takayuki Semitsu, Tomoaki Oiki, Alan Sullivan, Daniel Nikovski, Joshua B. Tenenbaum
(Submitted on 14 Nov 2020 (v1), last revised 16 Feb 2021 (this version, v2))
Comments: Under submission
Subjects: Machine Learning (cs.LG); Artificial Intelligence (cs.AI); Robotics (cs.RO)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

要約

この論文では、深層強化学習アルゴリズムが円形迷路内のビー玉を効率的にナビゲートする方法を学習する取り組みが紹介されています。通常の強化学習では難解なこのタスクに対して、実際のシステムと対話し、データから推定されたパラメーターで物理エンジンを初期化し、ガウス過程回帰を使用して物理エンジンの誤差を修正します。これにより、非常に複雑な環境で数分以内にビー玉を動かす方法を学習できるハイブリッドモデルが提案されています。

図１

導入

この論文は、柔軟でデータ効率が高く、一般化可能な方法を持つ人工知能によるロボット設計の目標に焦点を当てています。物理世界との対話において、事前定義されたモデルとデータ駆動のアプローチを組み合わせ、予測と実際の観測の残差を学習してモデルを更新します。論文では円形迷路の環境を通じて、提案されたアプローチがサンプル効率的な学習に成功し、リアルタイムの物理制御に適用可能な新しいフレームワークを紹介しています。主な貢献は、機械学習モデルで強化された物理エンジンを使用するハイブリッドモデルやCME（Circular Maze Environment）におけるサンプル効率的な学習の実証などが挙げられます。

問題の定式化

ビー玉を CME の中心に移動する問題を考えます。目標は、エージェントが環境の物理学の初期知識として物理エンジンを使用するモデルベースの設定で、シミュレーションから現実への問題を研究することです。

この論文ではこの設定のもとで、以下の3つの質問を解答することを試みています。

① 物理システムで効率的に学習するためのモデルベースの sim-to-real アーキテクチャには何が必要か。

② データ効率の高い方法で動作および学習する sim-to-real エージェントを設計するにはどうすればいいか。

③ エージェントのパフォーマンスと学習は、人間がこれらのタスクを解決する方法を学習する方法とどのように比較されるか。

sim-to-real ... simulation to real

研究ではCMEをテスト環境とし、提案された技術がロボットシステムで汎用的に利用できることが期待されています。エージェントの目標は、コントローラを使用してビー玉のダイナミクスの正確なモデルを学習し、CMSが状態に基づいてアクションを選択できるようにすることです。物理エンジン（f^PE）、残差力学モデル（f^GP）、実システムモデル（f^real）を組み合わせて、MuJoCoを物理エンジンとして使用します。

アプローチ

学習エージェントを設計するためのアプローチは、人間の物理的推論に触発されています。つまり、人は数回の試行で新しい操作タスクを解決できます。これは主に、人間がすでに学んだ物理学の概念に依存しているためです。同様の原理に従って、物理エンジンから物理概念が得られるエージェントを設計します。提案されたアプローチは、図 2 に概略的に示されています。

図２

この論文では、物理エンジンを使用してシミュレーション環境と実際の環境のギャップを埋め、sim-to-realエージェントを設計する方法が提案されています。物理エンジンの初期パラメータをランダムに設定し、進化戦略（CMA-ES）を用いてシミュレーションと実際の環境の残差からこれらのパラメータを推定します。残りの誤差はガウス過程回帰を使用して補正され、最終的にNMPCポリシーを使用して実際の環境を制御します。シミュレーションと実際の環境のギャップは物理エンジンの近似とシステムレベルの問題に起因し、これらをパラメータ推定とガウス過程回帰を通じて補正する手法が提案されています。

A：物理エンジン

この論文では、MuJoCoを物理エンジン（PE）として使用し、ビー玉の動きを制約したリング状の環境（CME）を考えます。ビー玉の半径方向の動きは無視され、角度位置のみが考慮されたモデルが構築されます。ただし、シミュレーションでエージェントのパフォーマンスを研究するために、ビー玉に制約のない完全なモデルも作成されます。

2つの異なる物理エンジンモデルが構築され、RLモデルに適した縮小物理エンジン（f ^PE _red）とシミュレータの完全な内部状態を使用するモデル（f ^PE_full）が紹介されます。これらのモデルの違いは、ビー玉の位置に関する点であり、これはシミュレーション研究において実際のシステムの近似として機能します。実験は"sim-to-sim"と呼ばれ、エージェントが複雑な環境で初期化されたときに物理エンジンにどれだけうまく適応できるかを評価するために行われます。

sim-to-sim ... simulation to simulation

B：モデル学習

離散時間システムを考えます。

ここで、x_k ∈ R⁴は状態を表し、u_k ∈ R² はアクションを表し、e_k は離散時刻 k ∈ [1, ..., T] における対角共分散を持つ標準化ホワイトガウスノイズであると仮定します。提案されたアプローチでは、式 (1) の未知のダイナミクス f が計算されます。アルゴリズム中の 1 は CMS ダイナミクス f ^real を表し、次の 2 つのコンポーネントの合計としてモデル化されます。

ここで、f ^PE_redは前のセクションで定義した物理エンジンモデルを示し、f ^GP は実際のダイナミクスとシミュレーターダイナミクスの間の残差を学習するガウスプロセスモデルを示します。モデルの精度を向上させるために、f ^PE _red と f ^GP の両方の成分を学習します。このアプローチは、アルゴリズム 1 の擬似コードとして提示され、次のように説明されます。

・（１）物理パラメータの推定

まず、実際のシステムの物理パラメータを推定します。実際のシステムで物理パラメータを直接測定することは困難であるため、CMA-ES を使用して MuJoCo の 4 つの摩擦パラメータを推定します。アルゴリズム 1 で説明したように、まず、 NMPC コントローラーを使用して実際のシステムで複数のエピソードを収集します。次に、CMA-ES を使用して、実際のシステムとシミュレーションにおけるビー玉の動きの差を最小限に抑える最適な摩擦パラメーター µ^∗ を次のように推定します。

ここで、D は実際のシステムで収集された遷移を表し、W_µ は重み行列です。その値は 1 であり、状態 x_k+1 におけるビー玉 θ_k+1 の角度位置項にのみ関係します。

・（２）ガウスプロセスを使用した残差モデル学習

このセクションの冒頭で説明したモデリングの制限により、物理パラメーターを推定した後、シミュレーターと実際のシステムの間に不一致が残ります。より正確なモデルを取得するために、標準の線形カーネルを使用して周辺尤度最大化を介してガウス過程 (GP) モデルをトレーニングし、次の L ^GPを最小化することで 2 つのシステム間の残差を学習します。

実際のシステムで軌跡を収集した後、推定された物理パラメーターµ∗を使用して物理エンジンをリセットし、シミュレーター推定値を生成します。このプロセスでは、GPが入出力関係f^GP(x^real_k,u^real_k) = x^real_k+1 − x^sim_k+1を学習し、ビー玉の位置と速度について2つの独立したGPモデルがトレーニングされます。 GPモデルは、実際のシステムにおいてデータ予測の精度とデータ効率の点で最適であることが確認されました。

・（3) モーター動作のモデリング

CMSのtip-tiltプラットフォームでは、hobby-gradeのサーボモーターが位置制御モードで動作し、長い整定時間を持つコントローラーを使用しています。このため、制御アルゴリズムの計算によるアクションの作動遅延が発生し、物理エンジンとの不一致が生じます。この問題に対処するために、モーターの逆モデルを学習します。この逆モデルは、tip-tiltプラットフォームのモーターに送信されるアクションを予測し、制御信号を生成します。逆モーターモデルは、モーターの正弦波入力でCMSを励起してモーター応答データを収集することによって学習されます。

C：iLQR を使用した軌道の最適化

モデルベース制御において、計算効率の高い方法でコントローラー設計の最適化問題を解決するために、反復LQR（iLQR）アルゴリズムを使用します。最適な解を生成できる他の最適化ソルバーも存在しますが、iLQRが効率的な解決法を提供します。形式的には、次の軌道最適化問題を解き、特定のタイムステップ[T-1]にわたって制御ukを操作します。

状態コストについては、次のように、ターゲット状態 x_target (現在のケースではビー玉に最も近いゲート) から測定された状態誤差の二次コスト関数を使用します。

ここで、行列 W はさまざまな状態に使用される重みを表します。制御コストについては、次の方程式で与えられる二次コストも使用して制御にペナルティを与えます。

iLQR最適化において、コスト関数のスムーズなバージョンの導入はiLQRの動作に変更をもたらさなかった。離散時間ダイナミクスとコスト関数を使用して、システムの軌道に対する局所線形モデルと二次コスト関数を計算し、これらを反復的に解いて最適な制御入力とローカルゲイン行列を得ます。この最適化の解は、基準軌道と呼ばれ、実験ではW=diag(4, 4, 1, 0.4)およびλ_u=20の重みを使用し、学習の開始時に経験的に1回だけ調整されました。

D：非線形モデル予測制御を用いたオンライン制御

実際のシステムではビー玉の動きを制御するのは難しく、静摩擦や遅延などの問題が影響します。このため、オンラインのモデルベースのフィードバック制御が必要で、軌道追跡MPCコントローラーを使用します。iLQRベースのNMPCコントローラーはリアルタイムでシステムを制御し、制御信号は最小二乗追跡コスト関数によって生成されます。

制御レートは30 Hzで、事前計算された軌道を使用してオプティマイザをウォームスタートし、並列計算を使用して時間制約を満たすために計算が行われます。

図３

実際の軌道 (赤)、CMA-ES を使用して推定された物理的特性を使用した予測軌道 (青)、および sim-to-sim 実験でのデフォルトの物理的特性を使用した軌道 (緑) の比較。軌道は、ランダムな初期点からランダムなポリシーで生成されます。

実験

このセクションでは、提案したアプローチが CMS 上でどのように実行されるか、またそれが人間のパフォーマンスとどのように比較されるかをテストします。

A：CMA-ESを用いた物性推定

このセクションでは、sim-to-simおよびsim-to-real設定で物理パラメータ推定の動作を示します。sim-to-sim実験では、CMA-ESが十分な精度でパラメータを生成し、推定されたパラメータが異なるダイナミクス間のギャップを埋めることが確認されました。シミュレーションからリアルへの実験でもCMA-ES最適化によりボール位置の誤差が減少しました。ただし、静摩擦に関する課題が残り、初回のCMA-ESパラメータ推定の後にGP回帰で微調整が必要です。

B：実システムでの制御性能

sim-to-simエージェントはCMA-ES微調整で良好なパフォーマンスを示し、実際のシステムでは残差学習を導入しました。CMA-ESはSIM間の転送に適していますが、ロボットに適用する場合は内部モデルと現実のダイナミクスの差異があります。CMA-ESモデルをデータ駆動型で拡張し、GP残差モデルを使用して反復的に改善しました。トレーニングデータ量が増えるにつれて、モデルは特に外側および内側のリングでパフォーマンスを向上させ、各リングでの制御時間が短縮されました。

図４

C.：人間のパフォーマンスとの比較

参加者と学習モデル（CMAESおよびCMA-ES+GP1）に同じCMEタスクを与え、参加者はジョイスティックでビー玉を迷路内に誘導しました。参加者の解答時間はわずかに減少しましたが、統計的な差はありませんでした。モデル学習も同様に進み、時間の減少が統計的には有意ではありませんでした。内側のリングでの課題は難しく、人間とモデルが同様にそのリングで時間を費やしていました。対照的に、SACアルゴリズムはシミュレーションで最短距離を学び、内側のリングでの時間を最小限に抑えました。

結論と今後の取り組み

論文では、認知科学から得た知見を基に、ビー玉を複雑な円形迷路で効率的に制御するエージェントの構築方法を提案しています。物理エンジンの初期化とガウス過程回帰モデルを使用して、実際のシステムで物理パラメータを推定し、iLQRとMPCを組み合わせてビー玉を制御します。このアプローチは従来の強化学習よりもデータ効率が高く、数分以内にビー玉をタスクに適応させることができることが示されました。柔軟性があり、他の物理制御タスクにも応用可能です。今後は一般性や異なる迷路への応用を検証し、汎用ロボティクス最適化ソフトウェアと統合してより効果的に使用することを目指しています。

物理エンジンの初期化やガウス過程回帰モデルの活用など、実際の物理パラメータ推定に焦点を当て、iLQRとMPCを組み合わせてデータ効率性を向上させる点は興味深いです。

特に、従来の強化学習よりも高いデータ効率性を達成し、数分以内にビー玉を新しいタスクに適応させることができるという結果は、実用的な価値があると言えます。柔軟性があり、他の物理制御タスクにも応用可能という点も強みです。

将来の展望として、一般性や異なる迷路への応用を検証し、汎用ロボティクス最適化ソフトウェアと統合することで、提案手法の有用性を更に高められる可能性があります。全体として、認知科学と物理学の原則を組み合わせたアプローチが、ロボティクスにおいて新たな進展をもたらす可能性があると感じられます。