自己教師あり学習で感情・笑い・性格を読み解く社会的AI『Social-MAE』の挑戦

LLM-Paper 2025年10月02日

3つの要点
✔️ Social-MAEは顔と声を統合的に処理する自己教師ありマルチモーダルモデル
✔️ VoxCeleb2で事前学習し、感情認識・笑い検出・性格推定に適用
✔️ 実験で既存手法を上回る精度を達成し、社会的行動理解の有効性を示した

Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
written by Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani
(Submitted on 24 Aug 2025)
Comments: 5 pages, 3 figures, IEEE FG 2024 conference
Subjects: Computer Vision and Pattern Recognition (cs.CV)

概要

人間の社会的行動や感情表現は、顔の表情と声といった複数のモダリティを通じて伝達されます。
従来は視覚あるいは音声の単一モダリティで感情や行動を推定する研究が進んできましたが、実際の社会的状況を正確に理解するには、両者を組み合わせたマルチモーダルな処理が求められとのこと。

しかし、感情や社会的行動に関する大規模なラベル付きデータを用意することは難しく、従来手法は汎用データで学習したモデルの転移学習や、小規模データでの訓練に依存してきました。

本研究で提案された Social-MAE は、Transformerを用いたマルチモーダル自己教師あり学習モデルであり、顔と音声を同時に処理するマスクドオートエンコーダ（MAE）に基づいています。
大規模な社会的相互作用データセットVoxCeleb2で事前学習を行い、その後に感情認識、笑いの検出、見かけの性格推定といった下流タスクに適用。

その結果、Social-MAEは最先端の性能を達成し、マルチモーダル情報を統合する自己教師あり学習の有効性を示しました。