ChatGPTによる顔認証の精度と透明性の向上、ソフトバイオメトリクスの新展開

Large language models 2024年04月08日

3つの要点
✔️ 顔認証における大規模言語モデルの適用性：ChatGPTとGPT-4を使用して顔認証の可能性を調査。異なる条件下での性能評価と公開ベンチマークとの比較を実施し、コードをGitHubで公開。
✔️ ソフトバイオメトリック属性の推定と分析：ChatGPTの性別、年齢、民族性などの属性推定能力を評価。対話を通じて、AIの説明可能性と透明性を強化する方法を調査。
✔️ 対話型AIの応用と進化：顔認証とソフトバイオメトリクスの推定におけるChatGPTの使用から、AI技術の将来の方向性と人間中心のAI設計への洞察を提供。

How Good is ChatGPT at Face Biometrics? A First Look into Recognition, Soft Biometrics, and Explainability
written by Ivan DeAndres-Tame, Ruben Tolosana, Ruben Vera-Rodriguez, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia
(Submitted on 24 Jan 2024 (v1), last revised 27 Feb 2024 (this version, v2))
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computers and Society (cs.CY); Machine Learning (cs.LG)

code：

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。

概要

ChatGPTが現代社会における最も話題のキーワードの一つであることは間違いありません。このAIチャットボットは、OpenAIによって開発され、人間との対話を会話形式で行うことが可能です。質問に答えたり、テキストを要約したり、間違いを訂正したり、提案を提供したり、コードの作成やデバッグを行うなど、多岐にわたるタスクをこなすことができます。2022年11月の公開以来、ChatGPTは速いペースで成長し、公開からわずか2ヶ月で月間利用者数が1億人を超える歴史的な記録を打ち立てています。実際に、ChatGPTは既に多くの実用的な応用で成功を収めています。

しかし、ChatGPTのこの類い稀な成功の背景には、近年における大規模言語モデルの急速な進歩があります。これらの進歩は、医療から教育、コーディングに至るまで、幅広い分野での印象的な能力を提供しており、さらに、人間とのより良い対話を実現するために、モデルを微調整する技術も進化しています。

GPT-1から始まり、OpenAIによるトランスフォーマーアーキテクチャの導入は、長期依存性の扱いにおいて従来の技術を超越する新たな可能性を切り拓いています。この進化の途上、GPT-3は、1750億のパラメータを搭載し、モデルのスケールアップがタスク非依存の性能向上に寄与することを実証しました。ChatGPTへのGPT-3モデルの統合は、この技術の可能性をさらに押し広げました。しかし、この分野の探求はOpenAIだけに限られません。GoogleやMeta AIなど他の大手企業も、PaLMやLLaMAなどの独自の大規模言語モデルを発表しています。

しかしながら、これらのモデルは主にテキストベースであり、Google Bardのようなチャットボットはいくつかの制限があります。特に、顔画像の扱いに関する制約や、Pythonを使用した実験の実施が困難である点が挙げられます。

この論文では、顔認証やソフトバイオメトリック属性の推定など、顔のバイオメトリクスに関連するタスクにおけるChatGPTの有用性を検証しています。これは、ポーズ、年齢、照明、表情といった要因による大きな挑戦を伴う、非常に困難な領域です。さらに、この研究では、これらの技術の進化を支える科学的な基盤とともに、ChatGPTを用いた実験の詳細や成果を共有し、技術の透明性と説明可能性の向上にも貢献しています。

下図は、この論文で行われた研究の概要です。ChatGPTが顔認証、ソフトバイオメトリクスの推定、および結果の説明可能性などのタスクを実行する能力に焦点を当てています。

実験におけるChatGPTの設定とその主な特徴

OpenAIは、ChatGPTへのアクセスを2つの主要な方法で提供しています。1つは対話型のチャットボットインターフェース、もう1つはAPIを通じた方法です。どちらも同様の機能を持っていますが、APIはPythonを用いた広範囲にわたる実験を簡単に実行できるシンプルなインターフェースを提供しています。そのため、この論文では、APIを使用して実施されましたが、適切な設定を迅速に探るために初期段階ではチャットボットインターフェースも活用しています。最新の大規模言語モデル（GPT-4）を利用するためには、現在、プレミアムサブスクリプションが必要であり、画像やその他のファイル形式の扱い、OpenAIのその他の製品の利用が可能になります。最大トークンは「1,000トークン」に設定しています。また、画像の詳細度は「高」に設定しています。

さらに、顔の生体認証の性能を向上させると同時に、ChatGPTの使用を最適化してコストと時間を削減するため、いくつかの構成を検証しています。

1つ目は画像構成です。2つのオプションが考慮されています。まず、比較する2つの顔画像を1つの画像にマージする構成（下図（左））、さらに4x3のマトリクスに集約した構成（下図（右））が考慮されています。

2つ目はプロンプト構成です。これは分析する上で最も重要な観点です。まず、画像の最初の構成ケース、つまり画像内で1組の顔を比較する場合に焦点を当てて、顔認証タスクのためのプロンプトデザインを行なっています。まず下図のように、OpenAIの推奨に従って、2つの顔画像が同じ人物かどうかを特定するよう求める詳細なプロンプトを作成しています。しかし、ChatGPTが公式に顔認識機能を提供していないため、次に示すように回答が拒否されています（青色が入力プロンプトで、黒色がChatGPTの回答）。

そこでこの論文では、この回答が実生活の身元に関するプライバシー上の懸念によって実装されている可能性があると仮定し、初期のプロンプトを修正し、次に示すように、これらがAIによって生成された人物であることを示すように修正しています。

上記のように修正されたプロンプトを使用することで、ChatGPTから肯定的な回答を得ることができています。これにより、顔の画像が同一人物からのものかどうかを示し、また、その決定の説明可能性を提供しています。

しかしながら「彼らは顔の構造、髪型、および他の可視的特徴によって判断すると、異なる人物であるように見えます」とするものの、「2つの画像が同一人物を描いているかどうかについての結論は推測的である」とも述べています。出力結果に対して、顔認識タスクとしての利用を防いでいるようにも取ることができます。

その後、この論文では入力として提供される情報の量を減らし、システムが顔認識タスクを実行していると認識するのを防ぐことも試みています。しかし、ChatGPTはこれを検知し、否定的な回答をしています。

また、ChatGPTの出力を制限することも試みています。特に、回答を「はい」または「いいえ」とするように制限し、信頼度も合わせて出力するようにしています。

修正されたプロンプトを使用することで、ChatGPTは質問に対して明確で簡潔な回答を提供することができています。このプロンプトが顔認証実験で使用されたものです。この構成をもとに、マトリックス戦略のための別のプロンプトを作成しています。このプロンプトでは、マトリックス内の比較の位置と各セルの参照方法も指定しています。

この論文では、ChatGPTの他の顔生体認証タスクへの応用可能性も探求しています。これには、ソフトバイオメトリックスの推定や結果の説明性などが含まれます。この目的を達成するために、複数のプロンプトが検討されました。顔のソフトバイオメトリックスの推定に関しては、まずChatGPTがこのタスクをどの程度の精度と属性の変動性でこなせるかを見るための一般的なプロンプトから始めました。下図は、考慮されたプロンプトとChatGPTが異なる顔画像に対して提供した結果を示しています。

一般的に、ChatGPTは正確な結果を伴い、多様なソフトバイオメトリックスを提供する能力があることがわかります。ChatGPTの性能を定量的に評価するために、人気のあるMAADFaceデータベースで考慮されている顔の属性を含むプロンプトを提案しています。これにより、最先端のアプローチとの直接比較が可能になります。次に、ChatGPTが顔のソフトバイオメトリックスを推定する能力を評価するための提案されたプロンプトを提供しています。

最後に、ChatGPTを使用した決定の説明可能性に関しては、顔認証タスクに使用された同じプロンプトを考慮し、ChatGPTがその決定を下す理由を評価する最終質問を追加しています。

実験結果

この論文では、顔認証技術の精度を測るために、ArcFace、AdaFace、ChatGPTの3つのモデルを比較しています。特に、ChatGPTの性能は、画像を一括（4x3）および個別（1x1）に評価する2つの方法で検証しています。これらのモデル間の比較には、コサイン距離を用いて類似性を測定し、等誤差率（EER）を算出しています。また、ChatGPTの場合は、その出力から直接得られる信頼度をカスタムメトリックとして用いてEERを取得しています。

異なる顔認証シナリオをカバーする2つの主要グループに分けて提示されています。一方は、制御された環境（LFW）、監視シナリオ（QUIS-CAMPI）、極端な条件（TinyFaces）を含むアプリケーションシナリオです。もう一方は、人種の偏り（BUPT）、ポーズの変化（CFP-FP）、年齢差（AgeDB）、遮蔽（ROF）など、顔認証の一般的な課題を強調したシナリオです。

顔認証（Face Verification）タスクにおける、ChatGPTと主要な顔認証システムのAccuracyは下表のようになっています。「ChatGPT 4x3」は、同じプロンプト内に12の顔比較を含む画像設定を指し、「ChatGPT 1x1」はプロンプトごとに単一の顔比較の場合を表しています。

また、下表は顔認証（Face Verification）タスクにおける、ChatGPTと文献にある人気の顔認証システムが達成した等誤差率（％）を表しています。

一般的に、ArcFace（平均精度95.44%、EER 6.19%）とAdaFace（平均精度95.80%、EER 5.59%）のような最先端モデルは、全体的に優れたパフォーマンスを示しています。一方で、ChatGPTはより一般的なタスク向けに開発されたため、顔認証タスクでは性能が低下する傾向にあります。特に、画像をマトリックス形式で提示した場合は平均精度66.23%、EER 34.96%と低下し、個別に比較した場合は平均精度80.19%、EER 21.19%となっています。

さまざまなデータベースでのパフォーマンス分析から、ChatGPTの性能は画像の品質やポーズの変化、比較対象間のドメインの違いに大きく左右されることがわかります。。例えば、LFWデータベースでは、良好な画像品質と一貫したポーズのため、ChatGPTは最先端モデルに近いパフォーマンス（精度93.50%、EER 8.60%）を達成しています。しかし、監視シナリオや品質が極端に低い条件では、ChatGPTのパフォーマンスは大きく低下しています。

また、人種の偏り、ポーズ、年齢、遮蔽などの課題を扱うデータベースでは、類似のパフォーマンス低下が見られています。これは、ChatGPTが異なる人口統計グループ間で大きなバイアスを示すことも明らかにしています。たとえば、下表からわかるように、BUPTデータベースでの評価では、異なる民族性と性別に対して非常に異なるパフォーマンスが観察され、白人女性グループはEER 14.94%に対し、インド人女性グループではEER 30.88%という結果になっています。

これらの結果から、ArcFaceやAdaFaceのような専門の顔認証モデルが高い精度を誇る一方で、ChatGPTは画像品質や課題の複雑さによりパフォーマンスが大きく変動することが明らかになっています。また、ChatGPTのバイアス問題は、顔認証技術の適用にあたって重要な検討事項です。

また、顔認証タスクにおける結果の説明可能性をChatGPTがどのように高めるかも分析しています。下図には、提案されたプロンプトと、異なる顔認証データベースの例のいくつかに対してChatGPTが提供した出力が示されています。ChatGPTの反応は、正しいもの（左列）と間違ったもの（右列）に分けられます。

正しい答えと間違った答えの両方で、ChatGPTは画像の特徴に基づいて決定を合理化する能力を示しています。例えば、ほとんどの場合、顔認証タスクのためのChatGPTの出力スコアは、顔の毛や肌の色といったソフトバイオメトリック属性に関連しています。さらに、目の色、顔の形、または鼻の形といったより詳細な属性に焦点を当てる能力を示し、粗いディテールと細かいディテールの両方を扱う熟練度を示しています。

注目すべきは、ChatGPTが顔の表情を予測に考慮しているにもかかわらず、これは考慮すべきではない変数属性であるという事実です。さらに、モデルは画像間の時間的差異を認識し、この情報を予測に取り入れています。

間違った答えについては、予測が間違っていても、ChatGPTによって提供されるいくつかの説明が、画像の人物を正確に記述していることがわかります。

さらに、LFWおよびMAAD-Faceデータベースのソフトバイオメトリクス推定タスクのために達成された結果を示しています。下表は、LFWデータベースにおけるソフトバイオメトリクスの性別、年齢、民族の推定に対して、ChatGPTが達成したAccuracy（%）を示しています。

下表は、データベースで考慮されている47のソフトバイオメトリック属性の推定において、MAAD-Faceデータベース上でChatGPTが達成したAccuracy（%）を示しています。

また、下図は提案されたプロンプトでChatGPTによって提供された出力のいくつかの例を示しています。

LFWデータベースで達成された結果を分析すると、ChatGPTは、性別分類（94.05% 対 98.23%）では、FairFaceを下回りますが、年齢分類（72.87% 対 67.88%）および民族分類（88.25% 対 87.48%）でFairFaceを上回っています。これらの結果は、特定の顔の属性分類におけるChatGPTの可能性を証明しています。

より広範な評価のために、47の異なる属性で注釈を付けられたMAAD-Faceデータセットを考慮します。カスタムモデル（ResNet-50）は、大多数の属性（平均精度87.28%）で優れた性能を発揮しています。一方で、ChatGPTは平均的な性能が低い（平均精度76.98%）ものの、いくつかの顔の属性で優れています。

ChatGPTがより良い性能を発揮する最も顕著なソフトバイオメトリック属性のいくつかは、性別分類（精度96.30%）、いくつかの民族（白人 - 83.90%の精度、黒人 - 97.50%の精度）、帽子をかぶるなどのアクセサリーにあります。こ特定のタスクのために学習されたモデルは一般的により良い結果を達成しますが、ChatGPTは事前の学習がないタスクに対して有望な結果と有用性を示しています。

まとめ

この論文では、顔認証や特徴推定などの顔バイオメトリクスタスクにおけるChatGPTの性能を徹底的に検証しました。様々なデータベースを用いた実験を通じて、専門的に学習されたモデルと比較し、ChatGPTがこれらのタスクにおいて一定の精度を示すことが確認されました。特に、ゼロトレーニングの状態での初期評価ツールとしての可能性が浮かび上がっています。例えば、LFWデータベースにおける顔認証で約94%、MAAD-Faceデータベースにおける性別推定で約96%、年齢や民族推定においてもLFWで73%や88%という印象的な結果を達成しています。

さらに、ChatGPTは結果の説明をテキスト出力で提供することができ、分析の透明性と理解を深めることに貢献しています。この研究から、ChatGPTは特定の条件下での顔バイオメトリクスタスクにおいて、即座に使用可能な有効なツールであることが示されています。

今後の研究では、ChatGPTだけでなく、他の人気のあるチャットボットが顔バイオメトリクスの分野でどのような性能を発揮するかについても検討される予定です。この分野におけるAIの進化と応用の可能性はまだまだ広がりを見せており、引き続き注目が集まると考えられます。

なお、コードはGithubに公開されています。

この記事に関するカテゴリー

Takumu: インターネット広告企業（DSP、DMP etc）や機械学習スタートアップで、プロジェクトマネージャー/プロダクトマネージャー、リサーチャーとして働き、現在はIT企業で新規事業のプロダクトマネージャーをしています。データや機械学習を活用したサービス企画や、機械学習・数学関連のセミナー講師なども行っています。