
LongVie:通过多模式控制实现一分钟超高质量视频生成的新时代
三个要点
✔️ LongVie 是一个用于生成一分钟以上视频的框架,兼具时间一致性和高质量
✔️ 引入了统一的噪声初始化、全局归一化、多模态控制和降级识别学习
✔️ 通过 LongVGenBench 进行评估,实现了超越现有方法的一致性和质量,并验证了其有效性演示。
LongVie: Multimodal-Guided Controllable Ultra-Long Video Generation
written by Jianxiong Gao, Zhaoxi Chen, Xian Liu, Jianfeng Feng, Chenyang Si, Yanwei Fu, Yu Qiao, Ziwei Liu
(Submitted on 5 Aug 2025)
Comments: Project page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文提出了一个新框架 LongVie,用于高质量、可控地生成超过一分钟的超长视频。
扩散建模方面的最新进展推动了从文本和图像生成短视频技术的快速发展,但长视频的生成却面临着显著的挑战,如缺乏时间一致性和图像质量下降。
传统方法采用自动回归法,按顺序生成短片。
然而,这种方法容易出现不自然的过渡和片段间歇时的闪烁,而且图像质量会随着时间的推移而下降。
本研究认为,"噪声初始化的独立性"、"控制信号的逐个片段归一化 "和 "单一模式控制的局限性 "是造成这些问题的原因。
然后,通过引入统一噪声初始化、全局控制信号归一化、多模态控制和降级感知学习作为这些问题的解决方案,我们实现了前所未有的长时间、流畅和高质量视频生成。
建议的方法
所提出的 LongVie 基于自动回归生成框架,并结合了几种新技术来实现长视频生成。
首先,"统一噪声初始化 "确保每个片段都由相同的潜在噪声生成,从而保持各片段运动和外观的一致性。
其次,"全局控制信号归一化 "统一了整个视频中控制信号(如深度图)的比例,从而避免了场景之间的不一致。
此外,还引入了 "多模态控制 "来整合密集控制信号(深度图)和稀疏控制信号(关键点),以实现结构准确性和语义一致性。
不过,由于密集信号往往占主导地位,LongVie 采用了 "降级感知学习策略",有意削弱或降级密集信号,以保持与稀疏信号之间的平衡。
这就实现了时间平滑、高质量和可控的视频生成。
该框架还可扩展到视频编辑、场景传输和从三维网格生成视频等应用任务。
实验
在实验中,首先建立了一个评估基准,即 LongVGenBench。
这是一个由 100 个高分辨率视频组成的数据集,包括真实世界和合成环境,所有视频都超过一分钟。
该基准用于将结果与现有的典型视频生成模型(如 CogVideoX、StreamingT2V、VideoComposer)进行比较。
使用的评估指标包括主体/背景一致性、时间风格、闪烁抑制和图像质量评级(SSIM 和 LPIPS)。
结果表明,LongVie 在几乎所有指标上都优于传统方法,尤其是在时间一致性和视觉质量方面有显著改善。
此外,在用户研究中,LongVie 在视觉质量、与提示的一致性和时间流畅性方面都获得了最高评价。
此外,消融实验分别证实了统一噪声初始化、全局归一化和退化感知学习的有效性。
总之,所提出的方法为长视频生成设定了新标准。
与本文相关的类别