足したり引いたりしてマルチなラベルを取得するfew-shot学習 

論文:LaSO: Label-Set Operations networks for multi-label few-shot learning

画像認識の分野において、深層学習を用いた手法が大きな成果をあげていますが、これはimage Net等のデータセットに大きく依存しています。

このようなデータセットに依存している場合、既存のクラスへ含まれない新たなクラスへの対応が難しくなります。例えばデータセットに含まれないようなクラス(新しい商品など)に対応しようとした場合、それらの新しいクラス画像を大量に用意する必要があり、非常にコストがかかります。

こういったシナリオに対応する手法として、few-shot学習というものが知られています。

Few-Shot学習は、認識したい画像のクラスが訓練データに含まれていなくても認識できるようにモデルを学習させることを目指します。

few-shot学習の人気は高まっていますが、現在の研究のほとんどは、単一の(クラス)ラベルを扱いマルチラベルは扱いません(マルチラベル分類では、一つの事例が複数のクラスに同時に分類されます。)

この研究では、マルチラベルなFew-shot学習を実現するため、複数のラベルを持つサンプルを合成する新しい手法を提案しています。2つの入力から抽出されたラベルの集合(“犬、羊、人、猫”と”犬、羊、人、猿”)を入力ラベルとします。共通部分(“犬、羊、人”)を取る、二つを組み合わせる(“犬、羊、人、猫、猿”)などの操作を学習させることにより、学習していないラベル付けに対しても適切な操作をすることにより新たなラベルを生成することを可能にします。

モデル

 

具体的にはXとY2枚の画像をInceptionV3で特徴抽出し、そこからそれぞれのラベルの和集合の推論( XとYの共通部分を持ってくる)、積集合の推論(XもYもどちらも含むものを受け取る) 、差集合の推論(Xにもあるものからyにもあるものを差し引く)を行います。

これらの集合演算は、トレーニング中には見えないラベルに一般化され、マルチラベルなfew‐shot学習を容易にします。

例えば、応用として、上図に示した状況を考えてみてください。野生動物に対する(マルチラベルな)分類子を構築するとします。動物園に行って、それぞれの動物の写真を何枚か撮ります。しかし、すべての動物はケージに入れられており(図 (a))、このfew-shotで訓練された分類器は、野生の動物への一般化に多少の困難を伴うように見えます(図2 (c))。この場合、Aとbから共通項目である”ケージ”の特徴を抜き出し、aからbの特徴を抜きだすことで、新しい”野生動物”というラベルを獲得しています。

結果

以下ではAとBの二つの入力に対して2つの共通部分を持ってきた結果が示されています。

各操作について、左から3つの成功例、右に1つの失敗例が示されています。間違っているところは赤で強調表示されています。

以下はAからBを差し引いたものです。

こちらはAとBに両方含まれているラベルです。

自然画像は本質的にマルチラベルなので、将来においてこのような研究はさらに探求されていきそうです。

この記事をシェアする