赶上最新的AI论文

Social-MAE 是一种社交人工智能,它利用自我监督学习来解读情绪、笑声和个性

Social-MAE 是一种社交人工智能,它利用自我监督学习来解读情绪、笑声和个性

三个要点
✔️ Social-MAE 是一个自我监督的多模态模型,整合了人脸和语音处理
✔️ 使用 VoxCeleb2 进行预训练,并应用于情绪识别、笑声检测和个性估计
✔️ 在实验中取得了比现有方法更高的准确率,证明了在理解社交行为方面的有效性

Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
written by Hugo BohyMinh TranKevin El HaddadThierry DutoitMohammad Soleymani
(Submitted on 24 Aug 2025)
Comments: 5 pages, 3 figures, IEEE FG 2024 conference

Subjects: Computer Vision and Pattern Recognition (cs.CV)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

人类的社交行为和情绪表达是通过面部表情和声音等多种方式传递的。
传统的研究都是通过视觉或语音等单一模态来估计情绪和行为,但要准确理解实际社交情况,就需要结合两种模态的多模态处理。

然而,很难准备大规模的情绪和社会行为标签数据,传统的方法依赖于在通用数据上训练的模型的迁移学习或在小规模数据上的训练。

本研究中提出的 Social-MAE 是一种基于变换器的多模态自监督学习模型,它以同时处理人脸和语音的掩码自动编码器(MAE)为基础。
该模型在大型社交互动数据集 VoxCeleb2 上进行了预训练,随后被应用于情绪识别、笑声检测和明显个性估计等下游任务。

结果,Social-MAE 实现了最先进的性能,证明了自我监督学习在整合多模态信息方面的有效性。

建议的方法

Social-MAE 是一种多模态自动编码模型,其结构扩展了现有的 CAV-MAE。
它的一个显著特点是使用八帧而不是单帧作为视频输入,这样就能高精度地捕捉面部表情的时间变化。

其架构是,音频和视频分别由一个基于变压器的专用编码器进行处理,然后由一个联合编码器进行整合。
除了 MAE 机制(屏蔽部分输入并重建缺失部分)之外,该系统还结合了对比度学习,使音频和视频之间的特征表示保持一致。

这样,既能提取不同模态之间的共同信息,又能保留每种模态特有的表征。
VoxCeleb2 是一个大型音频和视频数据集,用于训练,并通过自我监督学习从无标签数据中获取表征。

这种方法可以对社会行为识别的特定表征进行预训练,并提供灵活性和多功能性,以适应少量标记数据的各种下游任务。

实验

为了证实所提方法的有效性,我们在三个下游任务中将其性能与 CAV-MAE 和现有基线进行了比较。

首先,在情绪识别方面,我们使用 CREMA-D 数据集对六种不同的情绪进行了分类,包括愤怒、喜悦和悲伤。
结果显示,Social-MAE 的 F1 得分为 0.837,优于现有模型。

接下来,利用 ChaLearn First Impressions 数据集进行的表观人格估计回归预测了外向性和合作性等大五特征。
Social-MAE 的平均准确率达到了 90.3%,尽管历时较少,但与传统方法不相上下。Social-MAE 的平均准确率达到了 90.3%。

此外,它在 NDC-ME 数据集上检测笑声和微笑的 F1 得分为 0.776,明显优于基于 CNN 的传统方法。

这些结果证实,自监督预训练和多帧处理的引入极大地提高了社会行为理解的性能。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们