異なる画像モダリティにわたるイメージ整列方法

【論文 】Image Alignment in Unseen Domains via Domain Deep Generalization  


図1 異なる画像モダリティにわたる画像配置方法

ドメイン適応(Domain Adaptation)は、転移学習(Transfer Learning)と呼ばれる学習手法の一種で、十分な教師ラベルを持つドメイン(Source Domain、ソースドメイン)から得られた知識を、十分な情報がない目標のドメイン(Target Domain、ターゲットドメイン)に適用することで、目標ドメインにおいて高い精度で働く識別器などを学習します。ドメイン適応は現在、機械学習において人気のある研究トピックの1つになっています。

その中でも、見た目が異なる画像間でもある程度正確に位置合わせを行うというタスクがあります(上記の図1参照)。イメージの位置合わせ( image alignment)は、特に、臨床事象の追跡、臨床診断、外科的処置の追跡など、多数の医療用途において重要な役割を果たしています。

しかしながら、多くの医療アプリケーションでは、プライバシーや配置状況など画像収集プロセスにおいて制限があるめ、トレーニング画像とテスト画像の両方が同じ条件下で収集するのが難しいという課題があります。

この論文では、トレーニングにおいて、RGB画像のような収集可能な画像のみを必要とし、テスト段階において(例えば深度マップまたはX線画像のような領域において)それらを異なるモダリティ画像に一般化するイメージ整列方法を提案しています。

提案手法

提案されたアーキテクチャは、2つの主な構成要素を用いたンドツーエンド方式で設計されています。(1)一つはCNNを用いた特徴抽出器で、整列精度を最大にするためにできるだけ識別可能なランドマーク点の特徴を抽出することです。

(2)もう一つはDeep Generative Flowsと呼ばれる1で抽出した特徴を目に見えない新しいドメインで一般化するためのものです。元の画像空間内の特徴を直接学習し一般化するのではなく、各データポイントがガウス分布として表される学習潜在空間で最適化を行っています。

ソース領域の画像空間における画像を潜在空間におけるその潜在表現にマッピングする関数を学習するように定式化され、潜在空間における新しい目に見えない分布とソースドメインの分布との間の距離を算出し、これらを最小化していきます。

実験

学習したモデルは他のターゲットドメインからのデータがなくても、ランドマークの一般化されたテンプレート特徴を効率的に抽出し、異なるドメインでも高精度かつロバストに検出することができます。ソースのデータは収集が容易なRGBハンドイメージで、ターゲットドメインは深度マップとX線イメージで構成されています。

図3 実験で使用されたいくつかの画像例

実験では、NYUのHand Pose RGB画像(図3(C))を学習し、NYUのHand Pose Depth(図3(D))とX線画像(X)でテストしています。

従来の方法と比較して、提案されたモデルは目に見えない新しい領域(すなわち深度とX線画像)の中のランドマーク点をロバストに検出していることがわかります。