AI版ウォーリーを探せ!?どんな小さなヒントも見逃さない画像認識モデル !

防犯カメラやセンサー、顔認証システムなど、人物認証は現代ではなくてはならない技術の一つになりました。従来の人物認証問題に対して、多くのシステムでは”畳み込みニューラルネットワーク(CNN)”を用いていますが、この論文では人物の再識別問題に対して最適化されたモデルが提案されています。

参考論文 : Omni-Scale Feature Learning for Person Re-Identification

再識別問題 : re-identification problem(ReID)とその課題

これまでの画像認識技術では、男性の年齢や服の色、もしくはそれらの組み合わせを認識することで “特定人物の認識”を可能にしていました。しかし、より実用的なシチュエーションを考えた場合、例えば”夏に白いTシャツを着ている若い男性”はありふれており、それらをさらに詳しく認識する技術が必要になってきます。

こういった”似てるけど違う人物”を考慮したのが人物再識別問題です。人物を照合するため、一度個別のカメラに映った人物を、視点が重複しない別のカメラで認識します。

この技術は、例えばフェイスブックで採用されている自動タグ付け機能のように、一度手動でタグ付けした画像内の人物を別の写真でアップロードした時に自動で識別し再度タグ付けを行う機能で必要不可欠なものです。

一方、近年では、ResNetのようなCNNをベースとしたモデルが人物認識のために広く使用されてきました。しかし、CNNモデルは元々、画像の”分類”を目的として作製されたモデルであり、人物再識別問題に必要な”即座の人物識別”には最適化はされていませんでした。提案されたモデルでは、ResNetを最識別問題に最適化させ、より詳細なデータ(服のロゴや上半身の大きさ)なども考慮に入れることで、”オムニスケール(大局的と1特徴だけでではなく局所的特徴も考慮したもの)”の視点でのデータを統合し、人物の特定を行うことを実現しています。

「OSNet」の新展性

現在でも、再識別問題に関する実用例 ・研究例は数多く報告されていますが、大きく2つの課題が依然として残っています。

1.”若い白いTシャツを着た男性”という特徴量を用いて識別を行なった場合、人物の前面が入力されると、背中側をカメラで識別しようとするときにリュックをもっている人だと背中のほとんどが隠れてしまい、識別が困難になる。

2.似ている服を着た人がいた場合、カメラが遠くの視点から人物を認識するとほとんど同じ人に見える。

オムニスケールは、大きさの異なる情報がそれぞれ混ぜ合わさって構成されているため、次のような実験の失敗から考察することができます。

例えば、入力画像(左)が与えられた時、大域的な特徴(若い男性、白いTシャツとグレイの半ズボンの組み合わせ)という特徴をとった場合、正解画像(中央)と偽造者(右)の区別はつきません。そこで、局所的な特徴(靴やTシャツのマーク)まで考慮に入れると、偽造者(右)の画像が間違いであることがわかります。

識別したい人を識別し、偽造者(似た背格好をしている人を”偽造者”と呼ぶことにする)を区別するために、局所的な特徴(オムニスケール)まで入れた人物全体の詳細な理解が必要となるのです。

これまでこのようなオムニスケールの特徴量まで考慮に入れたモデルは存在しません。論文では、これらオムニスケール特徴量抽出のアイデアを用いた新しいモデル(OSNet)を提案しています。

「OSNet」モデル概要

従来とは異なる部分として(1)軽量化と(2)オムニスケールの特徴理解の2つがあります。

(1)軽量化

上記モデル図の通り、オムニスケールを計算する「OSNet」の畳み込み層は通常の畳み込み層とは異なり、Convolutionレイヤを二つに分割することによって、計算コストとパラメータ数(次元数)を減らしています。

 

(2)オムニスケールの特徴理解

重要なのは、より詳細なオムニスケールの特徴を理解させる試みとして、「新たな残差ブロックの提案」と「Aggretion Gate(統合ゲート)」を導入しているところです。

(1)軽量化で提案されたレイヤを組み合わせ、新たな残差ブロックとAggretion Gateの実装を行うことで以下のようなボトルネックアーキテクチャを実現しています。

新たな残差ブロックとして、以下の関数を導入しています。

従来の残差関数に t : 特徴量の大きさ分だけ累乗し足し合わせることにより、定量的に”どの程度大域的か局所的かを”表現します。

加えて、AG(Aggregation Gate)は、”新たな残差ブロック”の統合に対応した全結合層としての役割を果たします。パラメータに対して重み付けを学習させ、”異なるスケールの情報”をどのように統合するかを最適化します。

これにより、”同じ色のTシャツを着ている”特徴は、”同じロゴのTシャツを着ている”特徴より範囲が広く同一人物である可能性を認識しやすくなり、”同じ色のTシャツ”という特徴を優先して学習を行います。

(1),(2)のシステムにより、人物画像認識に特化した軽量化かつより精度の高いモデルを実現しています。

実験結果

このOSNetを用いて、画像認識を行うと以下のような感じになります。

人物画像の確率分布をロゴや足元などの詳細から違いを分析し、大域的に見た場合では判別できない特徴から、PersonAとPersonBを区別しています。従来モデルの最古精度と比較し、8[%]の向上が可能であることがわかりました。

また、「OSNet」は学習データを用いた特徴量抽出により、以下のような識別を行うことも可能です。パーセンテージはモデルの表示した確率の精度を表しており、パラメータ統合前であれば各要素をさらに高精度で判別することが可能です。指名手配犯の検知などを自動化することなどにも使えそうです。

 

「OSNet」は優れた性能を発揮しているため、再識別問題だけでなく、例えば欠損のある画像から直接同一人物を認識するなどより実用的なタスクへの応用が期待できるのではないでしょうか。