
複数人会話映像生成の新展開!MITデータセットとベースラインモデル『CovOG』
3つの要点
✔️ 複数人会話を対象とした「Multi-human Interactive Talking Dataset」を新規に構築
✔️ ベースラインモデル「CovOG」を提案し、ポーズ統合と音声制御で自然な会話映像を生成
✔️ 定量評価とユーザ調査で従来手法を上回り、多人数会話生成に有効性を示した
Multi-human Interactive Talking Dataset
written by Zeyu Zhu, Weijia Wu, Mike Zheng Shou
(Submitted on 5 Aug 2025)
Comments: 9 pages, 4 figures, 4 tables
Subjects: Computer Vision and Pattern Recognition (cs.CV)
概要
本論文では、従来の音声駆動型映像生成研究が一人の話者や顔領域に限定されてきた点を問題視し、複数人の自然な会話を対象とする新しい課題「Multi-Human Talking Video Generation」を提案。
研究の中心は、12時間規模の高解像度データセット「Multi-human Interactive Talking Dataset(MIT)」の構築にあります。
このデータセットは、2~4人の人物が参加する会話動画を収集し、ポーズ推定と発話状態のスコアを自動付与することで、多人数の会話に伴う発話・傾聴・ジェスチャーといった相互作用を網羅的に捉えています。
さらに、著者らはこの新しい課題に取り組むためのベースラインモデル「CovOG」を開発しました。
CovOGは、人物ごとのポーズ特徴を統合する「Multi-Human Pose Encoder(MPE)」と、音声特徴に基づいて顔の動きを制御する「Interactive Audio Driver(IAD)」を組み込み、話す・聞くの役割交代を自然に再現することを可能に。
これにより、インタビューやトークショーのような現実的なシナリオを模した映像生成が可能となり、今後の研究発展に資する重要な基盤が提示されています。
提案手法
提案手法の中心は、ベースラインモデル「CovOG」であり、これは既存の単一人物向け生成モデル「AnimateAnyone」を拡張したものです。
まず、MPE(Multi-Human Pose Encoder)は、人物ごとに切り出されたポーズを畳み込みネットワークで個別に処理し、その後に統合する仕組みを持ちます。
これにより、人数が変動しても柔軟に対応でき、各人物の独立した身体動作を保ちながら全体的な会話シーンを生成できます。
次に、IAD(Interactive Audio Driver)は、話者ごとの音声特徴と「speaking score」を入力とし、顔の動きや表情を制御。
この機構によって、話者が発話中は口の動きを音声と同期させ、聞き手である場合にはうなずきや笑顔といった自然な反応を生み出せます。
さらに、CovOGは参照画像を用いて人物のアイデンティティを維持しつつ、ポーズと音声の条件を組み合わせて動画を生成するとのこと。
これらの工夫により、従来の「顔だけ」や「単一話者」モデルでは不可能であった複数人の会話映像の生成を実現し、自然な相互作用を含む映像合成の可能性を大きく拡張しています。
実験
実験では、MITデータセットを用いてCovOGの性能を検証し、従来手法との比較を行いました。
評価には、画質を示すSSIMやPSNR、動きの一貫性を測るFVDが用いられました。
その結果、CovOGはAnimateAnyoneやControlSVDといった代表的手法を一貫して上回り、特に複数人会話の場面において安定した品質を示したとのこと。
アブレーション実験では、MPEを除去すると全体の姿勢制御が崩れ、IADを外すと顔の動きが不自然になることが確認され、両モジュールの有効性が定量的に示されています。
また、ユーザスタディでも、キャラクターの一貫性や音声との同期、映像全体の自然さにおいてCovOGが高評価を獲得。
さらに、異なる動画からアイデンティティ・ポーズ・音声を組み合わせる「クロスモーダル実験」でも、CovOGは時間的な滑らかさと空間的な一貫性を維持し、汎用性の高さを示しました。
これらの結果は、提案モデルが現実的なマルチスピーカー対話の再現に適していることを実証しています。
この記事に関するカテゴリー