RGB画像からの6次元物体検出が可能に

今回紹介するのは、6Dのラベル付き教師データなしに、6次元物体検出を高速に行う事ができるという画期的な手法です。6次元情報が分かると主にロボット操作やVRなどに有用です。論文ではアノテーションや深度センサいらずで簡単に学習、さらにリアルタイム処理を実現しており実用的な内容になっています。

論文:Implicit 3D Orientation Learning for6D Object Detection from RGB Images

6次元物体検出とは

移動ロボット操作やVRのような応用のためのコンピュータビジョンシステムで最も重要とされる構成要素の一つが、6次元情報です。

基本的な物体検出というと、画像中のxy座標だけを扱いますが、それだけではロボットが物を扱ったりできません。3次元空間の座標xyzに加え、X軸・Y軸・Z軸方向の移動という3つの動きを加えた6つの動きに対応できるのが6次元になります。6つの自由度、6DoFという風にも呼び、3次元において剛体が取り得る動きの自由度とも考えれます。この6次元情報が扱えるとロボットアーム(ロボットが物を掴む)などに有用です。

下の図で言うと左3 次元、右が6次元です。

【出典】いらすとや

6次元物体検出の難しさ

6次元物体検出は先行研究はいくつもありますが、遮蔽物があって対象となる物体が隠れてしまうケースや、さまざまな種類の背景、動的な画像の変化といった典型的な課題に対しては弱いといった問題があります。また必要な学習時間やデータの量でも効率的ではありません。

実用化するためにはこれを簡単に学習し、高速に推定しなければなりません。これを実現しよう!というのが今回の論文です。論文では、単一のRGB画像からの6次元物体検出(3次元座標+3軸方向推定)の新手法が提案されています。6Dのラベル付き教師データがなくても学習可能という点でかなり画期的なアイデアです。

RGB画像から物体の姿勢情報を推定するのが難しいのは、それぞれの画像で背景が異なっていたり、また物体が部分的に隠れている事が主な原因であると考えられます。これらの影響を排除するために、独自のAugmented AEという枠組みを用いて姿勢推定を行う方法を提案しています。  

本提案

6D物体検出 (6D Object Detection)の基本的な考え方としては、 XYZ空間で物体検出と姿勢推定を同時実⾏する事と定義できます。

論文では、RGB画像をSSD1などの既存の物体検出手法に入力し、対象物体を検出、その後、検出された領域から独自のアルゴリズムAugmented AE(AutoEncoder)を用いて、姿勢情報を推定しています。

具体的なタスクとしては大きく以下の3つに分かれます。

(1)準備
対象物体のあらゆる姿勢の画像をCADデータから合成し、これらをAugmented AEに学習させる。さらに合成した画像の潜在表現をAugmented AEで計算しデータベースに蓄積しておく。

(2)検出
RGB画像をSSD1などの既存の物体検出手法に入力し、物体を切り出し検出。

(3)推定
検出した領域をAugmented AEに入力して、得られた潜在表現と(1)で計算したデータベースにある潜在表現の誤差を計算する事で、結果を出力。

Augmented AEとは

この論文で重要なのが、Augmented AEです。Augmented AEは背景や遮蔽を含んだ物体画像を入力した時に、背景や遮蔽を取り除いて対象物体だけが映る画像(図1)を出力するように訓練された独自のアルゴリズム(CNN)です。

このネットワークを訓練するには、「背景を含む物体画像」と「物体だけが映る画像」のペアの教師データが必要です。
そこでCADデータとランダムに集めた背景用画像を元に対象物体のあらゆる姿勢の画像を合成したものを学習させました。このアイデアはいろいろな半現実的な設定(ランダムな照明状況、背景、飽和などで増大しました)でレンダリングされた景色でモデルを訓練することによって、実像に一般化されるという仮説に基づいてます。

さらに、合成された画像のそれぞれの潜在表現を計算し、データベースに蓄積しておきます。

推定・結果

推定時にはSSDなどの高スピードで多種類の物体を検知できる物体検出器によって切り取られた領域をAugmented AEに入力し潜在表現を得ます。最後に事前に取得したデータベースにある計算済みのそれぞれの潜在表現の集合から、入力した潜在表現と類似したものを検索し、結果を出力するという流れになっています。

2つのデータセットで検証した結果、従来手法と比べて一番良いといいうわけではありませんでした。ただし、合成データのみ使用/シンプルに構成されておりアノテーションや深度センサいらず/リアルタイム処理を実現/という点を考慮するとなかなかなすごい事であると言えます。

デモ動画はこちら