
LongVie:マルチモーダル制御で実現する1分超高品質動画生成の新時代
3つの要点
✔️ LongVieは1分以上の長尺動画を対象に、時間的一貫性と高画質を両立する生成枠組み
✔️ 統一ノイズ初期化・グローバル正規化・マルチモーダル制御・劣化認識学習を導入
✔️ LongVGenBenchで評価し、既存手法を超える一貫性と品質を達成し有効性を実証
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
written by Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
(Submitted on 5 Aug 2025)
Comments: Project page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV)
概要
本論文は、1分以上にわたる超長尺の動画を高品質かつ制御可能に生成する新しい枠組み「LongVie」を提案しています。
近年の拡散モデルの進歩により、テキストや画像から短い動画を生成する技術は急速に発展しましたが、長時間の動画生成では時間的一貫性の欠如や画質劣化といった課題が顕著です。
従来の手法では、短いクリップを逐次的に生成する自動回帰的なアプローチが用いられてきました。
しかし、この方法ではクリップ間の切れ目で不自然な遷移やちらつきが生じやすく、また画質も時間の経過とともに低下していきます。
本研究では、これらの問題の原因として「ノイズ初期化の独立性」「制御信号のクリップごとの正規化」「単一モダリティ制御の限界」を特定。
そして、それらに対応する解決策として、統一されたノイズ初期化、グローバルな制御信号正規化、マルチモーダル制御、劣化認識型学習を導入することで、従来にない長尺かつ滑らかで高品質な動画生成を実現しています。
提案手法
提案されるLongVieは、自動回帰型の生成枠組みに基づき、複数の新しい技術を組み合わせて長尺動画生成を可能にしています。
第一に「統一ノイズ初期化」により、各クリップが同じ潜在ノイズから生成されるため、クリップ間で一貫した動きと外観が保たれます。
第二に「グローバル制御信号正規化」によって、全動画を通じて制御信号(例:深度マップ)のスケールを統一し、シーン間の不整合を防ぎます。
さらに「マルチモーダル制御」を導入し、密な制御信号(深度マップ)と疎な制御信号(キーポイント)を統合して、構造的な精度と意味的な一貫性の両立を図ります。
ただし密な信号は支配的になりやすいため、LongVieでは「劣化認識型学習戦略」を用いて、密な信号に意図的な弱化や劣化を加え、疎な信号とのバランスを保ちます。
これにより、時間的に滑らかで高品質、かつ制御性の高い動画生成が可能に。
また、この枠組みは動画編集やシーン転送、3Dメッシュからの動画生成といった応用タスクにも拡張可能です。
実験
実験では、まず評価用ベンチマーク「LongVGenBench」が構築されました。
これは、現実世界と合成環境を含む100本の高解像度動画からなり、いずれも1分以上の長さを持つデータセットです。
このベンチマークを用いて、既存の代表的な動画生成モデル(CogVideoX、StreamingT2V、VideoComposerなど)との比較が行われました。
評価指標には、被写体・背景の一貫性、時間的スタイル、ちらつき抑制、画質評価(SSIMやLPIPS)などが用いられました。
その結果、LongVieはほぼすべての指標で従来手法を上回り、特に時間的一貫性と映像品質で顕著な向上。
さらにユーザスタディにおいても、視覚品質、プロンプトとの整合性、時間的な滑らかさのいずれの観点でも最も高い評価を得ました。
加えて、アブレーション実験により、統一ノイズ初期化やグローバル正規化、劣化認識型学習がそれぞれ有効に機能していることが確認。
総じて、提案手法は長尺動画生成における新たな基準を打ち立てたといえます。
この記事に関するカテゴリー