顔認識から年齢推定まで、ChatGPT-4を活用した生体認証技術の可能性

Large language models 2024年05月23日

3つの要点
✔️ 大規模言語モデルの生体認証タスクへの応用を検証。
✔️ GPT-4を用いた顔認識、性別検出、年齢推定の性能を評価し、プライバシー保護を回避するアプローチを提案。
✔️ GPT-4は高い性能を示すものの、誤認識のリスクや敏感情報の漏洩リスクを指摘し、さらなる堅牢性の研究の必要性を提案。

ChatGPT and biometrics: an assessment of face recognition, gender detection, and age estimation capabilities
written by Ahmad Hassanpour, Yasamin Kowsari, Hatef Otroshi Shahreza, Bian Yang, Sebastien Marcel
(Submitted on 5 Mar 2024)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

最新の技術進歩の中でも、大規模言語モデルの登場が大きな注目を集めています。これらの進化したAIは、ChatGPTのようなモデルを通じて、医療、教育、さらにはデザインといった幅広い分野での応用可能性を示しています。特にChatGPTは、その多様性と高い性能で知られ、文章の要約から画像生成まで、私たちの想像を超える方法で利用されています。ヘルスケアでは、患者の要約や早期疾病の予測に貢献し、教育分野では独自の学習資料の作成を可能にしています。さらに、デザインや医療ビジュアライゼーションのためのビジュアル作成においても、その有用性を示しています。

しかしながら、ChatGPTの能力は、生体認証の領域では、まだ十分に探究されていません。この論文では、その生体認証関連のタスクにおけるChatGPTの潜在能力に焦点を当てています。個人情報などのプライバシーに関わる情報への対応として、ChatGPTは直接的な回答を避けるセーフガードを備えていますが、この論文では、この制限を回避し、顔の特徴認識や年齢推定といった分析を可能にする新たなアプローチを提案しています。

このプロセスを通じて、ChatGPTの解釈能力の精度をさらに向上させることを目指しています。初回の応答分析に続き、感情分析を用いてフィードバックを評価し、AIの反応に含まれる微妙なニュアンスを捉えることで、より高い精度を目指しています。プロセスの概要は下図のとおりです。この反復的な分析プロセスは、ChatGPTが生体認証タスクにおいて優れた性能を発揮することを示し、大規模言語モデルがこの領域で果たすことができる役割の可能性を示唆しています。

生体認証のためのCHATGPT

この論文ではGPT-4を活用し、生体認証技術の新たな可能性を探っています。顔の検出から始まり、性別検出、年齢推定、そして顔認識に至るまで、応用範囲な実験を行っています。下図はGPT-4が顔を検出し、カウントした例です。

直接的な質問への回答を避けるGPT-4のプライバシー保護メカニズムを回避するために、この論文では「AIによって生成された画像」と明示することで、より深い分析を引き出すアプローチを採用しています。この工夫によって、各画像が同一人物のものかどうかを判断するための新しい方法を提案しています。

各タスク（顔認識、性別検出、年齢推定）に対し、GPT-4のセーフガードを回避し、より精確な回答を得るための特別なプロンプトを設定しています。GPT-4からの回答は、さらなる分析のためにGPT-4自身にフィードバックされています。このプロセスを通じて、GPT-4が提供する情報の質と精度を精査し、生体認証タスクにおけるその性能を徹底的に評価しています。

顔認識

この論文は、多様な顔画像を提供するLFW、AgeDB、CFP-FPの3つのデータセットを用いてGPT-4の能力を評価しています。これらのデータセットは、GPT-4が顔を正確に識別し、実際の人物とAIによって生成された人物の顔を区別する能力を検証するのに理想的です。下表は、この3つのベンチマークデータセットに対して評価されたGPT-4の精度を示しています。

GPT-4は顔認識のための学習がされているわけではありませんが、この表に示された結果は、顔認証のために事前学習された顔認識モデルであるMobileFaceNetと同等の性能を達成できることを示しています。これは、AIがいかにして複雑な生体認証タスクに対処できるかを示しています。

なお、下図（左）は、GPT-4が一致するペアとして正しく識別したペアを示し、下図（右）は、非マッチングペアであるにもかかわらずGPT-4が誤って一致するペアとして分類した2つのペアを示しています。これらのサンプルが示すように、GPT-4は各プロンプトに対して説明を提供しています。これは顔認識の説明可能性研究に役立つかもしれませんが、偽陽性の場合に誤解を招く出力を生成する可能性もあります。

性別検出

GPT-4は性別検出においても優れた性能を示していますた。Kaggleで公開されているデータセットを使用して行われた厳格な評価では、GPT-4は100%の精度率を達成しています。これは、全年齢範囲にわたる2,700枚の男性画像と2,700枚の女性画像を含むバランスの取れたデータセットに基づくものです。同じデータセットを用いて、DeepFaceモデルで性能評価した結果は99%です。下図は、DeepFaceモデルが正しい分類に失敗した2つの例を示していますが、GPT-4はこれを正確に識別しています。

さらに、Eyes-2-Face技術を用いて生成された合成顔に対する性別検出のテストでは、GPT-4は男性と女性の特徴が混在する複雑な画像を分析することで、性別分類アルゴリズムの限界に挑戦しています。下図に示された例では、男性と女性の目の領域の特徴を混合して作成された合成顔を利用することで、これを実証しています。

この例は、標準的な性別識別子に一致しない特異な顔の特徴を持つアルゴリズムに挑戦するために役立つと考えられます。この論文では200枚の合成顔のセットに対してテストを実施し、DeepFaceアルゴリズムを使用して得た結果と同じような結果を示しています。

年齢推定

年齢推定の能力を評価するために、UTKFaceデータセットを利用し、GPT-4を400枚の実際の顔画像にテストしました。評価では、様々な年齢層を代表する画像を使用しています。各画像について、GPT-4は被写体の年齢範囲を推定するよう要求されます。評価基準はシンプルで、GPT-4の推定範囲内に実際の年齢が含まれる場合は正確とみなし、それ以外の場合は不正確とみなしています。結果として、400枚の画像のうち、GPT-4は299枚を正確に分類し、その正確率は74.25%に達しています。下図は、正確な分類をした例を示しています。

また、下図には不正確な分類をした例を示しています。

次に、E2F-GANによって生成された合成顔を使用して検証しています。この論文では、特別に設計された100枚のAI生成顔を含むデータセットを使用し、GPT-4の認識と分類能力を制御された条件下で評価しています。評価の結果、GPT-4のパフォーマンスは正確性だけでなく、精度と信頼性の観点でも期待を超える結果となっています。特に、このテストフェーズを通じて、GPT-4は合成顔の処理と分類において一切の誤りを示さず、AI生成イメージの取り扱いにおいて高いレベルの熟達度を示しています。下図は、合成顔に対する年齢推定の例を示しています。

まとめ

この論文では、ChatGPTなどの大規模言語モデルの生体認証タスクへの適用性を検証しています。特に、ChatGPTの生体認証関連タスクにおける能力に焦点を当て、顔認識、性別検出、年齢推定の能力を検討します。生体認証は機密情報と見なされるため、ChatGPTは直接的なプロンプトには答えず、そのためにこの論文ではその保護をバイパスするプロンプティング戦略を作成し、生体認証タスクの能力を評価しています。

GPT-4は、顔認識タスクにおいて異なる顔の特徴を効果的に区別する能力を持ち、各顔の特徴を正確に述べることができます。また、性別検出においても、特に難しい年齢層に対しても高い正確性を示しています。年齢推定に関しては、精密な値ではなく、年齢範囲を予測する傾向がありますが、特に若い人口に対しては実際の年齢に近い予測が得られています。これらの実験結果は、GPT-4が生体認証アプリケーションとして、有望な性能を発揮することを示し、大規模言語モデルおよび基礎モデルが生体認証における重要な役割を果たす可能性があること示唆しています。

一方で、GPT-4の使用には注意すべき点にも言及されています。認識タスクにおいては、誤認識のシナリオでも説得力のあるもっともらしい説明が生成されることがあります。また、生体認証情報は敏感な情報であるため、直接的なプロンプトには回答しないよう設計されています。しかし、プロンプトエンジニアリングにより、大規模言語モデルが脆弱になり、敏感な情報を漏洩する可能性があることも示唆されています。今後の研究では、大規模言語モデルの堅牢性に関する詳細な調査も必要になると考えられます。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。