画像ベースの深度マップを点群に変換し擬似LIDARとして表現する３D検出法

論文 2019年05月30日

論文：Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

自動運転を実現するには、車両の周囲の物体を3次元で視覚化して検出することが不可欠です。

例えば、人は車を運転するとき、脳は即座に周囲を3Dで視覚化し、車の周りにあるものをスキャンし、潜在的な危険を評価しています。自動運転においても、何が起きているのかを視覚情報（カメラ）から把握し、危険を回避する必要があるため、高度なセンサーを使用して車の近くの物体を正確かつ高速に検出することが求められてきます。

現在、自動運転における環境認識センシング技術としてかかせないのは、LIDAR（Light Detection and Ranging）です。LIDARはレーザーを使用して周囲の3D点群マップを作成し、高速で物体の距離を測定します。しかし高価で、1台の車あたり10,000ドルのコストが必要だといわれているのです。さらに、これらのセンサーは自動車の屋根に固定されているため、風の抵抗が大きくなり、エネルギー効率も良くありません。

一方、より安価なステレオカメラは非常に手頃な価格（LIDARより数桁安い）で動作し高密度の深度マップを作成しますが、精度は低いと考えられています。

発表された論文では、ステレオベースとLIDARベースの精度のギャップの原因は、推定された深度の品質（データの品質）ではなく、その表現であると考え、ステレオカメラから画像ベースの深度マップを擬似LIDAR表現（LIDARセンサーから来る3D点群にある程度似ている表現）に変換するための方法を提案してます。