
自己教師あり学習で感情・笑い・性格を読み解く社会的AI『Social-MAE』の挑戦
3つの要点
✔️ Social-MAEは顔と声を統合的に処理する自己教師ありマルチモーダルモデル
✔️ VoxCeleb2で事前学習し、感情認識・笑い検出・性格推定に適用
✔️ 実験で既存手法を上回る精度を達成し、社会的行動理解の有効性を示した
Social-MAE: A Transformer-Based Multimodal Autoencoder for Face and Voice
written by Hugo Bohy, Minh Tran, Kevin El Haddad, Thierry Dutoit, Mohammad Soleymani
(Submitted on 24 Aug 2025)
Comments: 5 pages, 3 figures, IEEE FG 2024 conference
Subjects: Computer Vision and Pattern Recognition (cs.CV)
概要
人間の社会的行動や感情表現は、顔の表情と声といった複数のモダリティを通じて伝達されます。
従来は視覚あるいは音声の単一モダリティで感情や行動を推定する研究が進んできましたが、実際の社会的状況を正確に理解するには、両者を組み合わせたマルチモーダルな処理が求められとのこと。
しかし、感情や社会的行動に関する大規模なラベル付きデータを用意することは難しく、従来手法は汎用データで学習したモデルの転移学習や、小規模データでの訓練に依存してきました。
本研究で提案された Social-MAE は、Transformerを用いたマルチモーダル自己教師あり学習モデルであり、顔と音声を同時に処理するマスクドオートエンコーダ(MAE)に基づいています。
大規模な社会的相互作用データセットVoxCeleb2で事前学習を行い、その後に感情認識、笑いの検出、見かけの性格推定といった下流タスクに適用。
その結果、Social-MAEは最先端の性能を達成し、マルチモーダル情報を統合する自己教師あり学習の有効性を示しました。
提案手法
Social-MAEは、既存のCAV-MAEを拡張した構造を持つマルチモーダル自動符号化モデルです。
特徴的なのは、映像入力として単一フレームではなく8フレームを用いる点であり、表情の時間的変化を高い精度で捉えられるようになっています。
アーキテクチャは、音声と映像をそれぞれTransformerベースの専用エンコーダで処理し、その後ジョイントエンコーダにより統合。
入力の一部をマスクして欠損を再構成するMAEの仕組みに加え、音声と映像間の特徴表現を整合させるコントラスト学習を組み合わせて学習を行います。
これにより、モダリティ間の共通情報を抽出するとともに、各モダリティ特有の表現も保持可能。
訓練には大規模な音声・映像データセットVoxCeleb2を用い、自己教師あり学習によりラベルなしデータから表現を獲得しました。
この手法により、社会的行動認識に特化した表現を事前に学習し、少量のラベル付きデータで多様な下流タスクに適応できる柔軟性と汎用性を実現しています。
実験
提案手法の有効性を確認するため、3つの下流タスクにおいてCAV-MAEや既存のベースラインと性能を比較しました。
まず、感情認識ではCREMA-Dデータセットを用い、怒り・喜び・悲しみなど6種の感情分類を実施。
その結果、Social-MAEはF1スコア0.837を達成し、既存モデルを上回る精度を示しました。
次に、ChaLearn First Impressionsデータセットを用いた見かけの性格推定では、外向性や協調性などビッグファイブ特性を回帰的に予測。
Social-MAEは平均90.3%の精度を達成し、少ないエポック数にもかかわらず従来手法に匹敵する成果を得ました。
さらに、NDC-MEデータセットでの笑いや微笑の検出では、F1スコア0.776を達成し、従来のCNNベース手法を大きく上回ったとのこと。
これらの結果から、自己教師ありでの事前学習と複数フレーム処理の導入が、社会的行動理解の性能を飛躍的に高めることが確認されました。
この記事に関するカテゴリー