D2-Net:困難な画像条件下で信頼性の高いピクセル対応を見つける新手法

【論文】D2-Net: A Trainable CNN for Joint Description and Detection of Local Features

スケールが変わっても画像上に特徴的に現れる点「キーポイント(特徴点)」を呼びます。

このような、画像間の特徴点の対応関係を確立することは、基本的なコンピュータビジョンにけるタスクの1つです。

例えば写真をとる角度を変えた場合に認識される特徴点がガラッと変ってしまい、どの特徴点同士を繋ぎ合わせるべきか分からなくなってしまいます。画像の角度や拡大率などで変化しない、頑健な特徴点を認識できなければなりません。そのため、各特徴点が識別できる表現方法が非常に、重要になります。

2004年には、コロンビア大学の D.LoweがDistinctive Image Features from Scale-Invariant Keypointsという論文を発表し、画像から特徴点の検出と特徴量の記述を行うという方法を提案しています。

基本的な考え方としては「画像の角度や拡大率などで変化しない、頑健な特徴点」を検出(特徴点の検出)し、それをなるべく「識別しやすい表現方法」で表現(特徴点の記述)することによって、画像における特徴点の認識を行うというものです。

 

今回の研究では、上述のような研究を発展させた、困難な画像条件下で信頼性の高いピクセルレベルの対応を見つけるという問題に取り組みます。論文では、単一の畳み込みニューラルネットワークが二重の役割を果たすアプローチを提案しています。密な特徴検出器と特徴記述子に基づいており、検出と記述の間の全てのパラメータを共有し同時に最適化されるというものです(下図参照)。

この論文において重要なのは、画像間の特徴点を抽出するために、記述子(deacriptors)を使い複数の特徴マップを横断させているところです。

D2-Netモデル概要

記述子は、空間位置においてn個の特徴マップ全てを横断します。これらの特徴マップを使用して、記述子(特定のピクセル位置にあるすべてのマップのスライス)を計算し、特徴点(マップのローカル最大値として)を検出します 。

最終的に、特徴検出器は特徴記述子と緊密に結合されます。それにより、検出された特徴点はマッチングによく適しているはずの局所的に異なる記述子を持つピクセルに対応するというわけです。

同時に、このタスクでは、CNNのより深い層からの特徴マップを使用することで、より信頼性の高い情報が得られるまで延期されるようになっています(検出は低レベルの画像構造では行われません)。これにより高いレベルの情報に基づく特徴検出と記述の両方が可能になります。

実験では、日中の照明の変化や質感の弱いシーン など、様々な困難な状況でもベースラインと同等かそれ以上のパフォーマンスが発揮できるようになっています。

以下の例では、困難な条件(大きな視点の変化/照明の変化/カメラ位置確認の難しいシーンなど)でのいくつかの良好なマッチングが確認されています。