SF-MASK：低解像度の監視カメラ映像でマスクを着用した顔を分類するベンチマークデータセット

Face Recognition 2023年01月04日

3つの要点
✔️ 既存の公開データセットで欠落しているデータを発見
✔️ 欠落しているデータを補い、監視カメラ利用を想定した新しいデータセットを構築
✔️ 既存の公開データセットよりも高い精度を達成

A Masked Face Classification Benchmark
written by Federico Cunico, Andrea Toaiari, Marco Cristani
(Submitted on 23 Nov 2022)
Comments: Accepted at T-CAP workshop @ ICPR 2022
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

COVID-19の流行とともに、WHOがガイドラインを提示して、世界中でマスクの着用が推奨されてきました。また、各国の大学や研究機関が研究成果によって、マスクが手軽かつ有効な感染防止の方法であることが示されました。欧米では、ワクチン接種を条件にマスク着用が不要になっているものの、依然として、日本を含む一部の国や地域、あるいは、屋内や公共交通機関など限られた環境では、マスクが推奨されています。そして、なんと2020年には520億個の使い捨てマスクが生産され、市場規模は2030年までに2,800億円に達すると予想するレポートも存在しています。いずれにせよ、いまだ多くの場面でマスクの着用が求められているようです。そして、マスク着用が求められる場面で着用忘れを防ぐために、マスクの着用をチェックするサービスも提供されています。

このような状況からマスクを着用している顔と、着用していない顔を分類する技術の開発も進められています。特に、監視カメラの映像からマスクを着用している顔と、着用していない顔を分類することは最も難しいタスクの一つです（ここでは、あくまで技術的な検証をしており、実社会でのプライバシーや倫理の問題までは議論されていません）。下図のように、顔のサイズが小さく、顔の一部が隠れていたり、様々な顔の向き（正面を向いている、下と向いている等）、様々なマスクの種類が存在します。

この論文では、これらの問題に対応するため、顔のサイズが小さく、顔の一部が隠れていたり、様々な顔の向き、様々なマスクの種類などに対応した新しいデータセット「SF-MASK」を構築しています。SF-MASKは、すでに公開されているマスク関連のデータセットを収集して構築しています。また、既存のデータセットに不足しているデータを分析し、不足しているデータを補完することで、より完成度の高いデータセットにしています。ここからは、SF-MASKの詳細とその有用性を見ていきます。

SF-MASKとは？

SF-MASKは、従来のマスク着用を含む顔画像のデータセットをもとに構築しています。下表は、今回利用しているデータセットとそのデータセットに含まれる画像の構成です。Maskはマスクを着用している画像、No-Maskはマスク未着用の画像、Wrong-Maskはマスクは着用しているが、鼻が出ていたり、顎に着けていたり、正しく着用されていない画像を表しています。また、今回は、監視カメラの利用を想定して、低解像度の画像（64 × 64ピクセル以下）を利用しており、それらの画像をSmallとしています。

表からわかるように、画像数が多い大規模データセットである「Face Mask Label Dataset（FMLD）」、集団の画像が多く、一人一人の顔のサイズが小さいデータセット「Moxa3K」、様々な種類のマスクを着用しているデータセット「Medical Mask」「Face Mask Dataset（FMD）」「Medical Mask Dataset（MMD）」など、あらゆるケースを想定して、さまざまなデータセットを利用しています。

SF-MASKは、まず全てデータセットを1つに集約しています。Maskは49,146枚、No-Maskは47,503枚、Worng-Maskは1,747枚になります。次に、構造的類似度（SSIM）を適用して重複の可能性がある画像を取り除き、64 × 64ピクセル以下の画像のみを残しています。最終的に、Maskは9,055枚、No-Maskは12,620枚、Wrong-Maskは1701枚になっています。なお、データセットに含まれる画像サイズの分布は以下のようになっています。

　SF-MASKのデータセットのサンプルは下図のようになっています。色分けされた領域の大きさは、データセット内の構成割合を表しています。

また、上図からわかる通り、SF-MASK内には、SF-Mask Test Setというテスト用のデータセットが作成されています。今回、監視カメラで利用するケースを想定してテストしているため、イタリアのヴェローナ大学ICE Labにある複数の監視カメラで撮影したビデオシーケンスから1,077枚の画像を取得してテスト用のデータセットを作成しています。その内訳はMaskが584枚、No-Maskが270枚、Wrong-Maskが223枚です。

さらに、SF-MASKをCounting Gridで分析してみると、監視カメラの撮影条件下でよく見られる「上から撮影した画像」がほとんど含まれていないことがわかりました。そこで、この論文では、監視カメラの条件下でうまく機能するように、不足している画像を合成し、データセットに加えています。上図では「Synthetic」とされています。下図は、合成された画像のサンプルです。マスクの種類や人種など多様性も担保されていることがわかります。

これらは、MakeHumanとBlenderを使用して、様々な年齢、人種、性別、服装を持つような12,000を超える合成人体を作成し、SF-MASKと同じ画像サイズとなるように調整しています。

合成したデータの有用性についても分析しています。合成したデータを含まないSF-Maskの学習データours（no synth）、合成したデータ（synthetic）、SF-MASKのテストデータ（test）をランダムにサンプリングし、ResNet-50で特徴量を抽出した後、カーネルPCAを適用しています。下図は可視化したものです。

（a）では、synthetic（緑）が加わることで、ours（no synthetic）（青）が無い領域を網羅しており、データの多様性の不足を補っていることがわかります。（b）では、synthetic（緑）が加わったことでtest（赤）と重なる領域が増え、test（赤）に対して高い網羅性を獲得していることがわかります。

従来のデータセットと比べると？

2つの実験をしています。1つ目は従来のデータセットとSF-MASK（w/ synth、w/o synth）の学習データの有用性を評価しています。具体的には、4つのモデル（Resnet-50、VGG19、MobileNetv2、EfficientNet）をそれぞれ7つのデータセット（MMD、FMD、Medical Mask、FMLD、Moxa3K、Ours(no synth.)、Ours）で学習し、ICE Labで取得したデータセットでテストしています。Ours(no synth.)は、合成した画像を含めないデータセット、Oursは合成した画像を含めるデータセットです。

上述したようにICE Labで取得したテスト用のデータセットは、イタリアのヴェローナ大学 ICE Labにある複数の監視カメラで撮影したビデオシーケンスから取得した1077枚の画像（Mask：584枚、No-Mask：270枚、Worng-Mask：223枚）です。この論文の目的である監視カメラでの利用を想定しています。

結果は下表です。合成データを含むデータセットOursでは、すべてのモデルにおいて、従来のデータセットより高い精度を示しています。MobileNetとEfficientNetでは、合成データを含まないデータセットOurs（no synth.）においても従来のデータセットと比べて精度が向上しています。

論文では、Oursにおいて、より高い精度が得られている理由として、従来のデータセットには含まれていなかった「上から撮影した画像」のような監視カメラ特有の画角の画像を補完したことが良い影響を与えたと考察しています。なお、RMFRDのみのデータセットで学習したモデルを試していない理由は、RMFRDには、No-Maskの画像が含まれておらず、他のデータセットと公平に比較ができないためとしています。

2つ目の実験では、精度に最も影響を与えるデータセットを調べるために、leave-one-out方式の実験をしています。具体的には、SF-MASKから特定のデータセットを抜いて学習し、その抜いたデータセットとSF-MASK Test Setに対する性能を評価しています。モデルは全てResNet-50を用いています。結果は下表です。Dataset Left Outは抜いたデータセットです。

表からFMLDが抜かれた場合、精度がもっとも低下していることがわかります。これはFMLDが最も大規模なデータセットであるため、その分、影響が大きいとしています。なお、この実験でもRMFRDは、No-Maskの画像が含まれておらず、他のデータセットと公平に比較ができないため、除外しています。

まとめ

2019年以降、COVID-19が猛威を奮っています。一方で、ワクチンが開発されてからは、欧米ではマスクを着用しないことが一般的になりつつあり、日本においても、屋外では原則着用不要と発表されました（厚生労働省）。しかし、依然として、定期的に感染者が増加しており、手軽で効果的な感染防止の手段がマスク着用であることから、一定の国や地域、施設では室内など一定の環境下ではマスクの着用を求めています。そして、これらの国や地域、施設では、マスク着用忘れを防止するため、マスクの未着用を検知するシステムも導入しています。この論文では、このようなケースを想定して、監視カメラの映像からマスク着用を検出するモデル構築に有用な新しいデータセット「SF-MASK」を公開しています。

従来のデータセットを収集し、マスクの色や形状など様々な種類を集めた上で、不足しているデータを分析し、合成することでより汎化性が高いデータセットを構築しています。今回は監視カメラの映像を利用することを想定していますが、従来のデータセットでは、上からのアングルで撮影されている画像が少なかったため、合成し、データセットに加えています。この論文ではCOVID-19が研究の動機となっていますが、将来的に新たな感染症が拡大することは十分にあり、データセットの整備や研究が進むことは未来の社会にとって有意義なものと考えられます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。