赶上最新的AI论文

利用混合语境生成长视频的创新!高效的语境保存和高精度生成

利用混合语境生成长视频的创新!高效的语境保存和高精度生成

三个要点
✔️ 将长时间视频生成重新表述为 "信息检索",并提出一种高效的上下文保留方法
✔️ 上下文混杂法只动态引用相关上下文,从而减少了计算量
✔️ 在实验中实现了几分钟规模的视频生成,不仅准确度高,而且计算复杂度仅为传统方法的七分之一。

Mixture of Contexts for Long Video GenerationMixture of Contexts for Long Video Generation
written by Shengqu CaiCeyuan YangLvmin ZhangYuwei GuoJunfei XiaoZiyan YangYinghao XuZhenheng YangAlan YuilleLeonidas GuibasManeesh AgrawalaLu JiangGordon Wetzstein
(Submitted on 28 Aug 2025)
Graphics (cs.GR); Artificial Intelligence (cs.AI); Computer Vision and Pattern Recognition (cs.CV)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

这项研究旨在解决长时间视频生成中的最大难题:长期上下文保存。

传统的扩散变换器(Diffusion Transformer)基于自注意机制,很难生成数分钟规模的视频,因为计算复杂度会随着序列长度的增加而平方增加。
以前的方法对历史记录进行压缩或固定减薄,但存在细节缺失和重要背景缺失等问题。

因此,作者将视频生成重新表述为一个 "内部信息检索 "问题,并提出了一个框架,该框架只动态引用每次查询的相关历史记录。
在这一框架中,视频被分为帧或镜头,每次查询都会选择最有意义的上下文。

此外,字幕和本地镜头信息始终被用作基本参考点,从而保证了叙事的连续性和主题的一致性。
结果表明,该系统即使在几分钟的长视频中也能保持较高的准确性和一致性,同时大大降低了计算复杂度。

建议的方法

我们提出的方法,即上下文混合法(MoC),是一种动态上下文选择机制,而不是完全计算自我注意力。

首先,视频被分割成语义一致的片段,如帧、镜头和字幕。
然后,每次查询都会计算均值池所代表的块的特征向量和内积,并选择前 k 个最相关的块进行注意力计算。

此外,它还引入了一种设计,即始终将所有字幕标记作为基本链接与同一镜头内的所有标记相连接,从而在确保本地保真度的同时,将计算资源集中在重要的远距离依赖关系上。
此外,通过强制执行时间方向上的因果关系,避免了循环结构,从而使生成过程不会中断。

这种机制减少了 85% 以上的计算浪费,同时保持了主题的一致性和操作的连续性。
与传统的压缩和固定稀疏化相比,它的特点是灵活和可学习的上下文选择。

实验

作者进行了单镜头和多镜头视频生成实验,以证实所提方法 MoC 的有效性。

现有的长文本生成方法 LCT 被用作基础模型,MoC 取代了它的自注意层,以进行比较。
使用 VBench 进行评估,评估指标包括主体一致性、背景一致性、动作流畅性和动态程度。

结果表明,在短视频中保持与密集自我注意相同或更高精度的同时,长视频的计算量减少到了七分之一以下,生成速度提高了 2.2 倍。
特别是在动作的多样性和场景的一致性方面都有所改进,克服了传统方法因信息压缩而导致的性能下降问题。

此外,MoC 在零镜头实验中表现出很高的稳定性,证实了它对其他扩散模型的适用性。
这些结果表明,MoC 在生成长视频方面既高效又富有表现力。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们