利用 ChatGPT 提高面部识别的准确性和透明度，这是软性生物识别技术的新发展

大型语言模型 08/04/2024

三个要点
✔️ 大规模语言模型在人脸识别中的适用性：使用 ChatGPT 和 GPT-4 研究人脸识别的潜力。进行了不同条件下的性能评估以及与公共基准的比较，并在 GitHub 上发布了代码。
✔️ 软生物识别属性估计和分析：评估 ChatGPT 估计性别、年龄和种族等属性的能力。研究如何通过对话提高人工智能的可解释性和透明度。
✔️ 交互式人工智能的应用与发展：将 ChatGPT 用于人脸识别和软生物特征估计，为人工智能技术的未来发展方向和以人为本的人工智能设计提供启示。

How Good is ChatGPT at Face Biometrics? A First Look into Recognition, Soft Biometrics, and Explainability
written by Ivan DeAndres-Tame, Ruben Tolosana, Ruben Vera-Rodriguez, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia
(Submitted on 24 Jan 2024 (v1), last revised 27 Feb 2024 (this version, v2))
Subjects: Computer Vision and Pattern Recognition (cs.CV); Artificial Intelligence (cs.AI); Computers and Society (cs.CY); Machine Learning (cs.LG)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

毫无疑问，ChatGPT 是现代社会最受关注的关键词之一。这款由 OpenAI 开发的人工智能聊天机器人可以与人类进行对话式互动。自 2022 年 11 月发布以来，ChatGPT 的发展速度非常快，发布仅两个月就创造了月用户过亿的历史记录。这创造了自发布以来短短两个月月活用户就超过 1 亿的历史记录。事实上，ChatGPT 已经在许多实际应用中取得了成功。

然而，在 ChatGPT 取得巨大成功的背后，是近年来大规模语言模型的飞速发展。这些进步为从医学、教育到编码等广泛领域提供了令人印象深刻的能力，也为微调模型以更好地与人类互动提供了不断发展的技术。

从 GPT-1 开始，OpenAI 引入的转换器架构为超越传统技术处理长期依赖关系开辟了新的可能性。在这一演进过程中，拥有 1,750 亿个参数的 GPT-3 证明了扩展模型有助于提高与任务无关的性能；将 GPT-3 模型集成到 ChatGPT 中进一步推动了这一技术的潜力。然而，这一领域的探索并不局限于 OpenAI：谷歌和 Meta AI 等其他领先公司也发布了自己的大规模语言模型，如 PaLM 和 LLaMA。

不过，这些模型主要基于文本，而谷歌巴德等聊天机器人有一些局限性。特别是在处理面部图像方面的限制，以及使用 Python 进行实验的困难。

本文探讨了 ChatGPT 在人脸生物识别相关任务中的实用性，如人脸识别和软生物识别属性的估计。这是一个极具挑战性的领域，由于姿势、年龄、光线和面部表情等因素的影响，面临着巨大的挑战。此外，这项研究还通过分享 ChatGPT 实验的细节和结果，以及支撑这些技术发展的科学基础，提高了技术的透明度和责任感。

下图概述了本文开展的研究，重点是 ChatGPT 执行人脸识别、软生物识别估计和结果问责等任务的能力。

ChatGPT 设置及其在实验中的主要功能

OpenAI 主要通过两种方式提供对 ChatGPT 的访问：一种是通过交互式聊天机器人界面，另一种是通过 API。这两种方式的功能相似，但 API 提供了一个简单的界面，可以轻松执行大量基于 Python 的实验。因此，本文使用了 API，但在早期阶段也使用了聊天机器人界面，以快速探索适当的设置。目前需要高级订阅才能访问最新的大规模语言模型（GPT-4），该模型可处理图像和其他文件格式，并可访问 OpenAI 的其他产品。令牌的最大数量设定为 "1,000 个令牌"。图像细节级别也设置为 "高"。

此外，还在测试几种配置，以优化 ChatGPT 的使用，从而降低成本和缩短时间，同时提高面部生物识别的性能。

首先是图像组成：我们考虑了两种方案。首先是将两张需要比较的人脸图像合并成一张图像（见下图（左）），然后是将两张图像合并成一个 4x3 矩阵（见下图（右））。

其次是提示结构。这是需要分析的最重要方面。首先，人脸识别任务的提示设计侧重于图像的第一种配置情况，即比较图像中的一对人脸时。首先，如下图所示，我们按照 OpenAI 的建议创建了一个详细的提示，要求用户识别两张人脸图像是否为同一个人。然而，由于 ChatGPT 并未正式提供面部识别功能，因此如下图所示，用户的答案被拒绝（蓝色为输入提示，黑色为 ChatGPT 答案）。

因此，本文假定这些回复可能是出于对现实生活中身份隐私的担忧而实施的，并修改了初始提示，以表明这些是人工智能生成的人，如下所示。

使用上述修改过的提示后，ChatGPT 做出了积极的回应。这表明面部图像是否来自同一个人，同时也为做出决定提供了依据。

不过，虽然 "从面部结构、发型和其他可见特征来看，这两张图像似乎是不同的人"，但它也指出 "关于这两张图像是否描绘的是同一个人的结论是推测性的"。可以认为，这妨碍了该系统作为人脸识别任务的输出结果的使用。

随后，论文还试图减少作为输入的信息量，防止系统识别出自己正在执行人脸识别任务。然而，ChatGPT 检测到了这一点，并做出了否定的回应。

我们还尝试限制 ChatGPT 的输出。特别是，我们将答案限制为 "是 "或 "否"，同时限制置信度。

通过使用修改过的提示，ChatGPT 能够对问题提供简洁明了的回答。人脸识别实验中就使用了这一提示。在此基础上，我们还创建了另一个矩阵策略提示。该提示还指定了比较在矩阵中的位置以及每个单元格的引用方式。

本文还探讨了 ChatGPT 在其他面部生物识别任务中的潜在应用。这些应用包括软生物识别估计和结果的可解释性。为了实现这一目标，我们考虑了几种提示。对于面部软生物识别的估算，我们从一般提示开始，看看 ChatGPT 能在多大程度上以高准确度和属性可变性完成这项任务。下图显示了所考虑的提示和 ChatGPT 针对不同人脸图像提供的结果。

为了定量评估 ChatGPT 的性能，我们提出了包括流行的 MAADFace 数据库中考虑的面部属性的提示。这样就能与最先进的方法进行直接比较。接下来，我们将提供一个建议的提示来评估 ChatGPT 估算面部软生物识别的能力。

最后，关于使用 ChatGPT 所做决定的责任问题，我们考虑了与人脸识别任务相同的提示，并增加了最后一个问题，以评估 ChatGPT 做出决定的原因。

实验结果

本文比较了 ArcFace、AdaFace 和 ChatGPT 这三种模型，以衡量人脸识别技术的准确性。其中，ChatGPT 的性能使用两种方法进行验证，即对图像进行整体（4x3）和单独（1x1）评估。在这些模型之间进行比较时，使用余弦距离来测量相似度，并计算出相等错误率（EER）。在 ChatGPT 的情况下，EER 是直接使用其输出的置信度作为自定义指标得出的。

它主要分为两组，涵盖不同的人脸识别场景。一组是应用场景，包括受控环境（LFW）、监控场景（QUIS-CAMPI）和极端条件（TinyFaces）。另一个是突出人脸识别常见挑战的场景，如种族偏见（BUPT）、姿势变化（CFP-FP）、年龄差异（AgeDB）和屏蔽（ROF）。

下表显示了 ChatGPT 和主要人脸验证系统在人脸验证任务中的准确性。ChatGPT 4x3 "指的是在同一提示中进行 12 次人脸比对的图像设置，而 "ChatGPT 1x1 "指的是每次提示只进行一次人脸比对的情况。

下表还显示了 ChatGPT 和文献中流行的人脸识别系统在人脸验证任务中取得的相同错误率（%）。

一般来说，ArcFace（平均准确率 95.44%，EER 6.19%）和 AdaFace（平均准确率 95.80%，EER 5.59%）等最先进的模型显示出更好的整体性能。另一方面，ChatGPT 是为更一般的任务而开发的，因此在人脸识别任务中表现较差。特别是，当图像以矩阵格式呈现时，平均准确率和 EER 分别下降到 66.23% 和 34.96%，而单独比较时，平均准确率和 EER 分别下降到 80.19% 和 21.19%。

对不同数据库的性能分析表明，ChatGPT 的性能在很大程度上取决于图像质量、姿势变化和比较之间的领域差异。例如，在 LFW 数据库中，由于良好的图像质量和一致的姿势，ChatGPT 的性能接近最先进的模型（准确率 93.50%，EER 8.60%）。但是，在监控场景和质量极低的条件下，ChatGPT 的性能明显较低。

在处理种族偏见、姿势、年龄和屏蔽等问题的数据库中也发现了类似的不良表现。这也揭示了 ChatGPT 在不同人口群体之间存在明显的偏差。例如，从下表可以看出，在 BUPT 数据库评估中，不同种族和性别的表现非常不同，白人女性群体的 EER 为 14.94%，而印度女性群体的 EER 为 30.88%。

这些结果表明，虽然 ArcFace 和 AdaFace 等专业人脸识别模型具有很高的准确率，但 ChatGPT 的性能却因图像质量和任务复杂度的不同而存在很大差异。ChatGPT 的偏差问题也是人脸识别技术应用中的一个重要考虑因素。

它还分析了 ChatGPT 如何提高人脸识别任务结果的可解释性。下图显示了针对不同人脸识别数据库中的一些示例提出的提示和 ChatGPT 提供的输出；ChatGPT 的回答分为正确（左列）和错误（右列）。

无论是正确答案还是错误答案，都证明了 ChatGPT 根据图像特征做出合理判断的能力。例如，在大多数情况下，ChatGPT 在面部识别任务中的输出分数与面部毛发或肤色等软性生物识别属性有关。此外，它还显示了专注于眼睛颜色、面部形状或鼻子形状等更详细属性的能力，表明了处理粗细节和细细节的能力。

值得注意的是，尽管 ChatGPT 在预测时考虑了面部表情，但这是一个不应该考虑的可变属性。此外，该模型还能感知图像之间的时间差，并将这一信息纳入预测。

对于错误答案，我们可以看到，即使预测是错误的，ChatGPT 提供的一些描述也准确地描述了图像中的人物。

此外，它还显示了在 LFW 和 MAAD-Face 数据库中进行软生物识别估计任务所取得的结果。下表显示了 ChatGPT 在 LFW 数据库中进行软生物识别性别、年龄和种族估计时取得的准确率（%）。

下表显示了 ChatGPT 在 MAAD-Face 数据库中估算 47 种软生物识别属性时达到的准确率（%）。

下图还显示了 ChatGPT 在建议提示中提供的一些输出示例。

对 LFW 数据库取得的结果进行的分析表明，ChatGPT 在性别分类（94.05% 对 98.23%）方面不如 FairFace，但在年龄分类（72.87% 对 67.88%）和种族分类（88.25% 对 87.48%）方面优于 FairFace。这些结果证明了 ChatGPT 在特定面部属性分类方面的潜力。

为了进行更广泛的评估，我们考虑了标注有 47 种不同属性的 MAAD-Face 数据集。自定义模型（ResNet-50）在大多数属性上表现良好（平均准确率为 87.28%）。另一方面，ChatGPT 的平均性能较低（平均准确率为 76.98%），但在多个人脸属性上表现出色。

ChatGPT 在性别分类（准确率为 96.30%）、某些种族（白人--准确率为 83.90%，黑人--准确率为 97.50%）和配饰（如戴帽子）等软生物识别属性方面表现较好。为这一特定任务训练的模型通常能取得更好的结果，但 ChatGPT 在没有事先学习的任务中也表现出了良好的结果和实用性。

摘要

本文全面测试了 ChatGPT 在人脸识别和特征估计等人脸生物识别任务中的性能。通过在各种数据库上的实验，证实与经过专业训练的模型相比，ChatGPT 在这些任务中表现出了一定的准确性。特别是，它作为零训练条件下的初始评估工具的潜力已经显现。例如，它在 LFW 数据库的人脸识别中取得了约 94% 的令人印象深刻的结果，在 MAAD-Face 数据库的性别估计中取得了 96% 的结果，在 LFW 的年龄和种族估计中分别取得了 73% 和 88% 的结果。

此外，ChatGPT 还能提供解释结果的文本输出，有助于提高分析的透明度和更好地理解分析结果。这项研究表明，ChatGPT 是一种有效的工具，在特定条件下可立即用于面部生物识别任务。

未来的研究将考察 ChatGPT 以及其他流行聊天机器人在面部生物识别领域的表现。人工智能在这一领域的发展和潜在应用仍在不断扩大，并将继续吸引人们的关注。

代码可在Github上获取。