人によるデータのラベリングなしで最高水準の顔認識モデルを学習！顔認識におけるデータ不足を克服する「Caption-Supervised Face Recognition」

Face Recognition 2020年11月11日

3つの要点
✔️ 顔認識モデルのさらなる精度改善において、より大規模データセットが必要だが、人によるラベル付けが負担
✔️ ラベル付けの負担を軽減するため、Webで収集したキャプションから自動でラベル付けが可能な大規模データセットとその学習手法を提案
✔️ 提案手法によって、人によるラベル付けなしで顔認識モデルを学習し、LFWで99.65％と高い性能を達成

Caption-Supervised Face Recognition: Training a State-of-the-Art Face Model without Manual Annotation
written by Qingqiu Huang, Lei Yang, Huaiyi Huang, Tong Wu, Dahua Lin
(Submitted on Aug 2020)
Comments: Accepted at ECCV2020
Subjects: Computer Vision and Pattern Recognition (cs.CV)
Paper Official Code COMM Code

概要

2019年に顔認識元年と言われて以降、顔認識サービスの実用化が急速に進んでいます。しかし、最先端の顔認識モデルは、主に大規模なラベル付きのデータセットで学習されており、さらに精度改善するためには、このラベル付きデータセットの不足が大きなボトルネックになります。ご存知のように、正確にラベル付けされたデータを大量に用意するのは非常に労力がかかります。データセットの規模が大きくなるにつれて、ラベル付け作業のコストが膨らみ、ラベルの品質管理も難しくなります。そのため、人がラベル付けする負担を軽減する効率的な方法が求められています。

これまでも検索エンジンを使用してWebからデータを収集し、学習済みモデルでクラスタリングするなど半自動の方法は、いくつかの大規模データセットの開発で検討されてきました。しかし、これらの方法では混入するノイズやバイアスが性能に大きな悪影響を与えることが分かっています。

そこで、この論文では、この問題に対処するため、Web上で利用可能な膨大なキャプション付きの画像を活用する代替方法を提案しています。キャプション付きの画像はWeb上で広く入手でき、キャプションには画像内の被写体の名前が含まれていることがよくあります。このデータを効率的に活用することで、人によるラベル付け作業の負担を大幅に減らすことができます。

しかし、この方法でもキャプションに複数の名前が含まれている場合や写真に複数の人物が含まれている場合などノイズが多く含まれる可能性があります。

そこで、今回提案する手法では、選択的な伝播（Selective Propagation）とキャプション駆動型の拡張（Caption-Driven Expansion）という方法を利用してラベル付きデータを段階的に拡張する方法を導入しています。この方法によって、30.5万人の被写体からの630万個の顔を含むキャプション付き画像の大規模データセット「MovieFace」を構築しています。また、人によるラベル付けなしで顔認識モデルを学習し、LFWで99.65％と高い性能を達成しています。この手法は、キャプションを利用することでラベル付けの負担を軽減し、高性能な顔認識モデルが構築できる可能性を示しています。

続きを読むには

(4476文字画像10枚)

AI-SCHOLARに
登録いただく必要があります。

1分で無料で簡単登録する

または

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。