盲目のAIが環境の地図を学習するという興味深い発見
3つの要点
✔️ モグラネズミのような盲目の動物でさえ、環境の地図を構築し適切な経路を選択すると報告されている
✔️ 同様に、GPSとコンパスだけを与えた盲目の人工知能が、環境の地図を獲得し適切な経路選択をするのかを調査
✔️ 盲目の人工知能の記憶に地図が出来上がることを多様な実験で解明
EMERGENCE OF MAPS IN THE MEMORIES OF BLIND NAVIGATION AGENTS
written by Erik Wijmans, Manolis Savva, Irfan Essa, Stefan Lee, Ari S. Morcos, Dhruv Batra
(Submitted on 30 Jan 2023)
Comments: Accepted to ICLR 2023
Subjects: Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV); Machine Learning (cs.LG); Robotics (cs.RO)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
ハムスター、オオカミ、チンパンジー、コウモリのような知的な動物は環境の地図を学習し、適切な経路を選択し行動していると報告されています。
そのため、ロボットが知的な行動をするには、自己位置を特定し、環境地図を作ることが重要と考えられています。
一方で、ニューラルネットワークのような機械学習によって、あるゴールに向かって移動するタスクを解かせた場合、明示的な地図作りの仕組みがなくとも、うまくゴールに到達できます。
この仕組みはまだ解明されておらず、この仕組みの理解は学問的にも実用的にも重要と言えます。
そこで、今回紹介する論文では、地図作りの仕組みが創発的な現象であるかを調査しています。
本論文の新規性は、盲目であるという非常に厳しい条件下でゴール地点までの進捗に応じた報酬をAIに与えるだけで自然と地図を学習するか(地図の創発が起きるのか)という着眼点とそれを明確にするために、多様で効果的な実験を提案した点にあります。本論文での発見は以下になります。
- 驚くべき行動計画能力:新しい環境で驚くほどうまくゴールに到達(成功率は約95%)
- 長期的な記憶の活用:エピソード内で過去の経験を約1,000ステップ記憶
- 知的な行動の発現:ショートカットの学習
- 環境の地図と衝突検知ニューロンの発現:AIの学習した内部表現から環境の地図と衝突検知ニューロンが示唆される
- 選択的でタスク依存の地図:探索的な遠回りを忘れる
本論文はICLR2023のOutstanding Paperに選ばれた論文になります。
驚くべき行動計画能力
実際の家の3Dのレプリカを用いて、AIの行動計画タスクの性能を評価しました。直径0.2m、高さ1.5mの筒をAIの物理的実体とみなして、レプリカの家の中で移動させるシミュレーションを行います。
問題設定
エピソード毎に、AIの環境をランダムに初期化します。ゴール地点は(xg, yg, zg)です。AIは4つの行動ができます。0.25m前に進む、10度左に回る、10度右に回る、ゴール到達宣言です。最大2000回行動できる設定としました。
AIが行動する環境の例を図1に示します。図1の青い立方体がスタート地点、赤い立方体がゴール地点になります。記憶力ではなく汎化能力を確認するため、見たことのない環境でゴールに到達できるかを評価しています。
AIはゴールまでの相対的な位置(Δx,Δy,Δz)とゴールの相対的な方向(Δθ)を与えられます。これはGPSとコンパスを与えられた状態と言えます。モグラネズミは盲目の動物ですが、通った経路を統合しながら、地球の磁場を捉えることで、自己位置を特定できるとされており、GPSとコンパスを与えられたような状態と言えます。
今回は行動計画能力の評価のために、二つの評価指標を設定しました。一つは「成功(Success)」であり、ゴールの0.2m以内でAIがゴール到達宣言できれば、成功になります。もう一つは「最短パス長(SPL)」です。これは、成功するまでの経路が短いほど効率的な行動をとっているという指標です。
AIのアルゴリズム
AIの行動はLong Short Term Memory(LSTM)モデルに基づき決まります。ここで、LSTMの入力としてゴール地点(xg, yg, zg),ゴールまでの相対位置(Δx, Δy, Δz)、ゴールの方向 Δθ、ゴールに近いかどうかの指標min(||(xg,yg,zg)-(Δx, Δy, Δz)||,0.5)を与えます。それぞれ32次元に写像され、学習された以前の行動の32次元の埋め込みと連結され、160次元のLSTM入力になります。LSTMの出力は、全結合層に入力され、行動空間の分布と価値関数の推定値を出力します。このLSTMのモデルパラメータを強化学習PPO(Proximal Policy Optimization)で最適化します。この時の報酬はゴールまでの進捗です。
評価結果
比較対象は、昆虫から発想を得た行動計画アルゴリズムBugです。Bugはゴールの方向に向かって基本まっすぐ進むアルゴリズムで壁に当たったら、壁に沿って進むアルゴリズムです。
壁に沿って進む際には、左回りで進むか、右回りで進むかの選択の余地がありますが、今回は常に右回りなBug-Always Rightと常に左周りなBug-Always Leftを評価しています。さらに、理想的なBugアルゴリズムとして、ゴールまでの距離が最短となるように、適宜左回り、右回りを選択した場合をClarivoyant Bugとして評価しています(どちら回りで進めばいいかをBugが学習できるわけではなく、できたとした場合の性能を見ています)。
Bug-Always Right(白抜き黒)、Bug-Always Left(橙色)、Clarivoyant Bug(水色)とAI(Agent、青色)の行動経路を比較した例を図2に示します。
この例を見ると、Clairvoyant Bugは、Bug-Alway RightとBug-Alway Leftと経路が重なるので、縞々に見える経路がClairvoyant Bugの経路になりますが、非常に効率よくゴールに到達していることが分かります。左回りだけ、右回りだけの場合())は、ゴールまで行く際に遠回りして見える経路があります。一方で提案のAI(Agent)は、比較的スムーズな経路を選択できていることが分かります。
深度センサーを持ち視力を持つと見なせるAI(Sighted)と比べた性能を表1に示す。
提案する盲目のAI(Blind)は、Clairvoyant Bugには劣りますが、視力を持つAI(Sighted)に比べ、ゴール到達成功率(Success)が高く、ゴールまでのパスの長さ(SPL)も短いです。
長期的な記憶の活用
どのようにAIが記憶を活用しているかを調査しました。具体的には、短期記憶(直近のステップで衝突したかの情報)を活用しているのか、長期記憶(数百ステップ前に衝突したかの情報)を活用しているのかを調べるため、記憶の長さと性能評価指標の関係を見ました。
図3に、記憶の長さと性能評価指標の関係を示します。LSTMに過去のステップの情報を活用できないように細工して評価した結果です。
2評価指標SPL, Successどちらも、1000ステップ程の記憶の長さになるまで、性能は飽和しません。つまり、提案するAIは長期記憶を活用して性能向上を達成していると考えられます。
知的な行動の発現
どんな情報を記憶しているのかを調査するため、プローブ実験を行いました。この実験は、図4に示す緑の球で表されるスタート地点から赤の球で表されるゴール地点までAIに行動計画させ、ゴールに到達したAIの記憶を引き継いだまま、スタート地点から再度ゴール地点を目指させるものです。
その結果、最初にAIが通った経路は、青い経路で示される経路ですが、再度スタート地点からゴールを目指した場合、紫の経路を通りました。ショートカットできることが分かります。目の見えない盲目のAIであるはずですが、あたかも目が見えているような経路を選択しています。
環境の地図と衝突検知ニューロンの発現
AIが学習したニューロンから障害物があるかないかを分類できれば、環境の地図(障害物がない経路が通行可能な経路であり、ここでの地図は通行可能な経路を示したものであるから、地図と等価)が出来上がります。障害物の有無を予測しAIの記憶から抽出した地図を図5に示します。
濃いグレーが障害物無し(Navigable)、薄いグレーが障害物有り(Non-navigale)です。AとBの2例を図5に示していますが、正解(Ground Truth)と予測(Prediction)はおおむね似ています。
次に、どのように衝突がAIの内部表現(LSTMのニューロン)で構造化されているかを調べました。AIが学習したニューロンを特徴量に、衝突有無を分類するスパースな線形分類器を再学習し、衝突有無の分類に影響度の高い10個のニューロンを抽出しました。さらに、t-SNEを用いて2次元特徴空間に低次元化し、行動をクラスタリングした結果を図6に示します。
色は衝突有無を示し、緑は未衝突、赤は衝突を表します。矢印は直前の行動を示し、Forwardは前に進む、Turn Rightは右に回る、Turn Leftは左に回る行動を表します。クラスタリングした結果、前に進む-衝突無(Forward-No Collision)、前に進む-衝突(Forward-Collided)、回る-衝突無(Turn-No Collision)(2クラスタ)のクラスタに分かれました。数字と対応する画像はシーンを表します。
前に進む-衝突のクラスタ、前に進む-衝突無のクラスタができたことから、前に進むことによる衝突有無を検知するニューロンが発現したことが示唆されます。
選択的でタスク依存の地図
AIの記憶が限られることから、AIは重要な情報を記憶し、不要な情報は忘れると考えられます。AIがどんな情報を記憶しているか調べるため、記憶から過去の位置を予測できるか調査しました。具体的には、現在のLSTMの出力から、過去の位置を予測するネットワークを学習し、予測誤差を確認します。予測誤差が高い位置ほど、よく覚えているとみなすことができます。
過去の位置の予測誤差(小さいほど、過去の位置をよく思い出せている)を図7に示します。
横軸は過去のステップ数、縦軸は予測誤差です。線の色は、過去の位置の分類(どんな経路か)を表します。緑(Exit)は、ループするような経路のラスト10%のステップ(ループの出口)、橙(Excursion)は、ループするような経路(ぐるっと一周して元の位置に戻ってくるような経路を人が見て分類)に含まれる位置です。青(Non-Excursion)は、ループしない経路に含まれる位置です。
基本的には過去にさかのぼるほど予測誤差は大きくなっていきますが、経路によって予測誤差の大木佐は変化しました。ループするような経路に含まれる位置の予測誤差は大きく、ループしない経路に含まれる位置の予測誤差が小さいです。
ループするような経路は遠回りしている経路といえるので遠回りしてしまったと見なせますが、AIはそのような経路を忘れ、そうでない経路をよく覚えていることが分かります。
一方、ループの一部であっても、ループの出口にあたる経路は予測誤差が小さくなっていることから、また同じループに入ってしまわないよう目印として記憶した経路と解釈できると思われます。
おわりに
今回紹介した論文では、盲目のAIにゴールに近づいたことに対する報酬を与え、スタートからゴールまでの経路を計画させ行動させるタスクを解かせると、盲目のAIは環境の地図を学習することが示されました。
長期的な記憶をうまく活用し、ゴールまで行ければショートカットを選択できるようになり、遠回りの経路は目印だけ覚えて忘れ、衝突を検知できるようになり、壁に沿うような移動を覚え、盲目であること感じさせない驚くべきゴール到達能力を示しました。
今回は新しいアルゴリズムを提案した論文というわけではありませんが、認知科学者にもAI研究者にも興味深い問いの設計、それに答えるための巧みな実験、それらを明確に記述した論文は優秀な論文として評価されています。
本論文は、通常の論文には普通見られない、あたかも大衆向けの記事のような興味深い見出しを並べた構成でユニークでした。細かい実験設定については付録に具体的に記述することで、問いの答えをハイライトしつつ、技術詳細を明確に記述しています。
AIのトップカンファレンスの一つであるICLRというと、数学的な理論による理解や新規性、有効性の高い技術が評価される先入観がありましたが、今回紹介した論文のようなアプローチによる行動学習の科学的理解が高く評価されることを見ると、今後も人間、動物の科学的理解を促進するAIを用いた研究が出てくるかもしれません。
この記事に関するカテゴリー