
Mixture of Contextsによる長編動画生成の革新!効率的な文脈保持と高精度生成の実現
3つの要点
✔️ 長時間動画生成を「情報検索」と再定式化し、効率的な文脈保持手法を提案
✔️ Mixture of Contextsにより、関連性の高い文脈のみを動的に参照して計算削減
✔️ 実験で従来比7分の1の計算量と高精度を両立し、数分規模の動画生成を実現
Mixture of Contexts for Long Video GenerationMixture of Contexts for Long Video Generation
written by Shengqu Cai, Ceyuan Yang, Lvmin Zhang, Yuwei Guo, Junfei Xiao, Ziyan Yang, Yinghao Xu, Zhenheng Yang, Alan Yuille, Leonidas Guibas, Maneesh Agrawala, Lu Jiang, Gordon Wetzstein
(Submitted on 28 Aug 2025)
Graphics (cs.GR); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)
概要
本研究は、長時間の動画生成における最大の課題である「長期的な文脈保持」を解決するために提案されました。
従来の拡散変換器(Diffusion Transformer)は自己注意機構に基づいており、シーケンスが長くなると計算量が二乗的に増加するため、数分規模の映像生成は困難でした。
これまでの手法は、履歴を圧縮したり固定的に間引くなどの工夫を行ってきましたが、詳細の欠落や重要文脈の見落としといった問題を抱えていたとのこと。
そこで著者らは、動画生成を「内部情報検索」の問題と再定式化し、クエリごとに関連する履歴だけを動的に参照する仕組みを提案。
この枠組みでは、動画をフレームやショット単位に区切り、それぞれのクエリが最も意味のあるコンテキストを選択します。
さらに、必須の参照点として字幕や局所的なショット情報を常に利用し、物語の連続性や被写体の一貫性を保証。
結果として、計算量を大幅に削減しつつ、数分にわたる長編動画においても高い精度で一貫性を維持できることを示しました。
提案手法
提案手法「Mixture of Contexts(MoC)」は、自己注意の計算を全体に行う代わりに、動的なコンテキスト選択を行う仕組みです。
まず、動画をフレームやショット、字幕といった意味的に一貫したチャンクに分割。
その後、各クエリは平均プーリングで表現されたチャンクの特徴ベクトルと内積を計算し、最も関連性の高い上位k個を選択して注意計算を行います。
さらに、必須リンクとして全ての字幕トークンと、同一ショット内のトークンに常に接続する設計を導入し、局所的な忠実度を確保しつつ、重要な長距離依存関係に計算資源を集中させます。
また、時間方向の因果性を強制することでループ構造を避け、生成過程が破綻しないようにしています。
この仕組みにより、無駄な計算を85%以上削減しながらも、被写体の一貫性や動作の継続性を維持可能となりました。
従来の圧縮や固定スパース化に比べ、柔軟かつ学習可能な文脈選択を実現した点が特徴です。
実験
著者らは、提案手法MoCの有効性を確認するため、シングルショット動画生成とマルチショット動画生成の両方で実験を行いました。
ベースモデルには既存の長文脈生成手法であるLCTを用い、その自己注意層をMoCに置き換えて比較。
評価にはVBenchを使用し、被写体の一貫性、背景の一貫性、動作の滑らかさ、動的度合いなどを指標としました。
その結果、短い動画では密な自己注意と同等以上の精度を維持しつつ、長い動画では計算量を7分の1以下に削減し、生成速度も2.2倍に向上。
特に動作の多様性や場面の一貫性において改善が見られ、従来手法が抱えていた情報圧縮による劣化を克服しました。
さらに、ゼロショット実験でも高い安定性を示し、他の拡散モデルへの適用可能性も確認されました。
これらの結果は、MoCが長編動画生成において効率性と表現力を両立できることを実証しています。
この記事に関するカテゴリー