赶上最新的AI论文

CogVideo,一个用于从文本中生成视频的开源模型,现在可以使用了

CogVideo,一个用于从文本中生成视频的开源模型,现在可以使用了

视频生成

三个要点
✔️ 提出CogVideo,最大和第一个开源的文本视频生成模型
✔️ 通过将预先训练好的文本-图像生成模型CogView2继承到文本-视频生成模型中,实现高效学习。
✔️ 提出的具有多帧率的分层学习方法,以获得更合适的文本-剪辑对定位。

CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
written by Wenyi HongMing DingWendi ZhengXinghan LiuJie Tang
(Submitted on 29 May 2022)
Comments: 
Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language(cs.CL); Machine Learning(cs.LG)

code:  

 

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

近年来,人们提出了各种处理大规模预训练变换器的模型,为许多任务提出了里程碑式的模型,如用于文本生成任务的GPT-3和用于文本-图像生成任务的DALL-E

然而,由于文本与视频的比例较小等原因,这些大规模模型在视频生成方面的应用很少。然而,这些大规模的模型在视频生成方面的应用并不多,原因是文本和视频之间的数据集很小,而且这些模型无法对复杂的行为进行理解。

本文介绍了CogVideo,这是最大的也是第一个基于现有文本-图像生成模型CogView2的文本-视频生成模型。

CogVideo是一个大型的文本-视频生成模型,有94亿个参数,在540万对文本和视频上进行了训练,然而它是一个开源模型,任何人都可以使用。

视频生成中的现有挑战

文本到视频生成任务的一个主要挑战是生成的视频帧有逐渐偏离输入文本的趋势,因此有可能生成有规律的动作(如汽车直行行驶)或随机的动作(如说话视频中的随机嘴唇动作),但对诸如 "狮子喝水"这样的文本则失败。然而,它以 "狮子在喝水 "这样的文本而失败

这两个例子表明,在前者中,第一个框架为随后的变化提供了足够的信息,而在后者中,则是

  1. 狮子把他的嘴唇靠近玻璃。
  2. 饮水
  3. 放下酒杯

不同的是,模型必须准确地理解 "喝酒 "的行为,以便正确地产生 "喝酒 "的行为。

本文作者假设,难以理解这些行为的原因在于数据集利用的方式

具体来说,虽然有可能从互联网上收集数十亿个高质量的文本-图像对,但对于文本-视频对来说却很难做到,目前最大的文本-视频注释数据集VATEX中只有41250个视频。此外,虽然视频的持续时间有很大的变化,但现有的模型将视频分成大量的、有固定帧数的片段进行训练,这就打破了与视频中的文字在时间上的对应关系,在上面的例子中,同样的文字"喝 "可以用在"拿 "上。如果同样的文字"拿着杯子"、"举起"、"喝下 "和"放下 "被分割成四个独立的片段,那么模型就很难了解 "喝 "这个动作的确切含义。

CogVideo对这一问题的回应是

  • 通过将预先训练好的文本-图像生成模型CogView2继承到文本-视频生成模型中,实现高效学习。
  • 提出了具有多帧率的分层学习方法,以获得更合适的文本剪辑对定位。

这使得生成的高分辨率视频没有任何不适感,如下面的样本所示。

请注意,实际的文本输入是中文,每个样本都是以4秒的32帧为一个片段产生的,其中9帧是为显示目的而统一采样的。(你可以在这里 尝试一下视频生成)。

CogVideo概述。

CogVideo引入了多帧率分层训练,这是一种多帧率分层学习方法,可以在没有不适感的情况下匹配文本和行为,并为视频生成预先训练了文本-图像生成模型。CogView2双通道注意,以继承知识,从

让我们更详细地看一下每一个问题。

多帧率分层训练

该方法总体上遵循VQVAE框架,但其特点是由两个学习阶段组成:顺序生成阶段和递归插值阶段。(见下图)

在图中的顺序生成阶段,关键帧是按顺序生成的,受制于帧率和输入文本,在递归插值阶段,生成的帧被重新输入为双向注意区域,帧被递归插值。(在图中,单向注意区域显示为绿色,双向注意区域显示为蓝色)。

这确保了文本和生成的框架在学习中尽可能地匹配。

双通道关注

大规模的预训练通常需要大型数据集,而开放领域的文本-视频生成需要足够大的数据集,以便模型推断文本-视频的相关性。然而,鉴于所涉及的成本和时间,收集这种高质量的文本-视频对是不切实际的。

现有的研究,如Diffusion ModelNUWA,通过在文本-视频生成训练中加入文本-图像对,取得了良好的效果,但加入图像数据大大增加了训练成本,特别是在大规模预训练中。

因此,与现有的研究相比,本文提出利用预先训练好的图像生成模型Attention-plus,而不是图像数据。(见下图)

具体来说,双通道注意机制只是在每个转换层中的CogView2上增加了一个空间通道和时间通道,这样,所有的CogView2参数在训练时就被冻结了。这样在训练时冻结了CogView2的所有参数,只有新增加的注意力层(上图中的Attention-plus层)的参数可以被训练。

机器评估

在本文中,我们介绍了UCF101Kinetics-600,即视频生成的领先基准,以及Frechet 作为评价指标。
视频距离(FVD)和初始得分(IS)被用来评估模型。

下表显示了由UCF101(左)和Kinetics-600(右)产生的结果。(**表示模型只在UCF101训练数据上进行了训练,而**表示标记器重构结果被用于FVD测试数据上的重力真相)。

如表所示,CogVideo在两项评价指标上得分很高

人的评价

为了进一步评估CovVideo,我们针对CogVideo和开源基线(如基于GAN的模型TGANv2和基于GPT的模型VideoGPT),对90名匿名人士进行了用户调查。

下表显示了从各方面对每个模型进行评估的结果,使用从UCF101的30个类别中随机选择的文本作为输入。

该表显示,49.53%的评分者选择CogVideo为最佳方法,而VideoGPT和TGANv2仅分别得到15.42%和5.6%的支持,这表明了CogVideo的有效性

摘要

情况如何?我们已经描述了CogVideo,它是最大的、第一个用于文本到视频生成的开源预训练转化器模型。

CogVideo是第一个成功利用训练有素的文本-图像模型进行文本-视频生成而不影响其图像生成能力的模型,与现有模型相比,其成功生成的视频更加自然它代表了视频生成研究的一个新方向,因为与现有模型相比,它成功地生成了更自然的视频。

然而,仍然存在一些问题,如模型的大尺寸和由于GPU内存的限制,输入序列的长度有限,这些问题有望通过进一步的研究得到改善。

这里介绍的模型架构和生成的视频样本可以在本文中找到,供感兴趣的人参考。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们