多人对话视频生成的新发展：麻省理工学院数据集和基线模型 "CovOG"

27/08/2025

三个要点
✔️ 新建立的用于多人对话的 "多人交互式会话数据集"
✔️ 提出了基线模型 "CovOG"，用于生成具有暂停集成和语音控制功能的自然对话视频
✔️ 在定量评估和用户调查中表现优于传统方法、证明了生成多人对话的有效性

Multi-human Interactive Talking Dataset
written by Zeyu Zhu, Weijia Wu, Mike Zheng Shou
(Submitted on 5 Aug 2025)
Comments: 9 pages, 4 figures, 4 tables
Subjects: Computer Vision and Pattern Recognition (cs.CV)

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

概述

由于传统的语音驱动视频生成研究仅限于单个说话者或人脸领域，本文提出了一项新任务--多人对话视频生成，其目标是生成多人之间的自然对话。

研究的重点是构建多人类互动对话数据集（MIT），这是一个 12 小时的高分辨率数据集。
该数据集收集了涉及 2 到 4 人的对话视频，并自动分配姿势估计和语音状态分数，以全面捕捉与多人对话相关的语音、听力和手势的互动。

此外，作者还开发了一个基线模型 CovOG 来应对这一新挑战。
CovOG 融合了多人姿势编码器（MPE）和交互式音频驱动程序（IAD），前者集成了每个人的姿势特征，后者根据语音特征控制面部动作，从而自然再现说话和聆听的角色变化。IAD。

这样就能生成模拟采访和脱口秀等真实场景的视频，为今后的研究发展奠定了重要基础。

拟议方法

拟议方法的核心是基线模型 "CovOG"，它是现有单人生成模型 "AnimateAnyone "的扩展。

首先，多人体姿态编码器（MPE）具有一种机制，可在卷积网络中分别处理每个人剪切出来的姿态，然后进行整合。
这样，系统就能灵活应对人数的波动，并在生成整体对话场景的同时，保持每个人的独立肢体动作。

接下来，IAD（交互式音频驱动程序）将每个说话者的语音特征和 "说话分数 "作为输入，并控制面部动作和表情。
当说话者说话时，该机制会使嘴部动作与语音同步；当说话者是听众时，该机制会产生点头和微笑等自然反应。

此外，CovOG 还使用参考图像来保持人的身份，并结合姿势和语音条件来生成视频。
这些创新技术能够生成多人对话视频，而传统的 "纯面部 "或 "单发言人 "模型则无法做到这一点，从而极大地扩展了视频合成的潜力，将自然互动纳入其中。

实验

在实验中，CovOG 的性能在麻省理工学院的数据集上进行了测试，并与传统方法进行了比较。

评估使用了表示图像质量的 SSIM 和 PSNR 以及衡量运动一致性的 FVD。
结果表明，CovOG 的表现始终优于 AnimateAnyone 和 ControlSVD 等代表性方法，而且质量稳定，特别是在多人对话情况下。
切除实验从数量上证明了这两个模块的有效性，切除 MPE 会导致整体姿势控制的丧失，而切除 IAD 则会导致不自然的面部动作。

在用户研究中，CovOG 在角色一致性、与音频的同步性和整体视频自然度方面也获得了很高的评价。
此外，在一项 "跨模态实验 "中，结合了不同视频中的身份、姿势和音频，CovOG 保持了时间上的流畅性和空间上的一致性，证明了它的多功能性。

这些结果表明，所提出的模型适用于再现逼真的多人对话。