テキストから動画生成が可能なオープンソースモデルCogVideoが登場!
3つの要点
✔️ テキストから動画生成を可能にした最大かつ最初のオープンソースモデルであるCogVideoを提案
✔️ 事前学習したテキスト-画像生成モデルCogView2をテキスト-動画生成モデルに継承することで効率的な学習を実現
✔️より適切なテキストとクリップのペアの位置関係を得るためのマルチフレームレートによる階層的な学習手法を提案
CogVideo: Large-scale Pretraining for Text-to-Video Generation via Transformers
written by Wenyi Hong, Ming Ding, Wendi Zheng, Xinghan Liu, Jie Tang
(Submitted on 29 May 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV); Computation and Language(cs.CL); Machine Learning(cs.LG)
code:
本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。
はじめに
近年、大規模な事前学習済みtransformerを扱った様々なモデルが提案されており、テキスト生成タスクにおけるGPT-3やテキスト-画像生成タスクにおけるDALL-Eなど、多くのタスクにおいてマイルストーンとなるモデルが提案されてきています。
しかし、テキスト-動画間のデータセットが少なく、モデルが複雑な動作の意味を理解できない等の理由から、こうした大規模モデルの動画生成への応用はあまりされてきていませんでした。
本稿では、既存のテキスト-画像生成モデルであるCogView2に基づいた最大かつ最初のテキスト-動画生成モデルであるCogVideoを紹介します。
CogVideoは94億個のパラメータを持ち、540万組のテキストと動画に対して学習された大規模なテキスト-動画生成モデルであるにも関わらず、誰でも使用する事ができるオープンソースモデルになっています。
動画生成における既存の課題
テキスト-動画生成タスクにおける大きな課題として、生成されたビデオフレームが入力テキストから徐々にずれていくという傾向があり、規則的な動き(例:直進する車)やランダムな動き(例:喋る動画のランダムな唇の動き)を生成することは可能ですが、「ライオンが水を飲んでいる」といったテキストでは失敗してしまうといった点が挙げられていました。
この2つの例には、前者では最初のフレームがその後の変化に十分な情報を与えているのに対して、後者では、
- ライオンがグラスに唇を近づける
- 水を飲む
- グラスを置く
という動作を正しく生成するために、モデルが「飲む」という動作を正確に理解しなければならないという違いがあります。
本論文の著者は、こうした動作の理解が困難である理由がデータセットとその活用方法にあると仮定しました。
具体的には、インターネットから数十億の高品質なテキスト-画像ペアを収集することは可能ですが、テキスト-動画ペアにおいては困難であるという点があり、現状最大規模の注釈付きのテキスト-動画データセットであるVATEXには41250のビデオしかありません。また、動画の継続時間は大きく変化するという特徴があるのに対して、既存モデルでは学習のために動画を固定フレーム数の多数のクリップに分割するため、動画中のテキストとの時間的な対応関係が崩れてしまうという問題があり、上の例で言うと、「飲む」と言う同じテキストで「グラスを持つ」、「持ち上げる」、「飲む」、「置く」と言う4つの個別のクリップに分割されると、モデルが「飲む」という動作の正確な意味を学習することが困難になってしまいます。
この問題に対してCogVideoは
- 事前学習したテキスト-画像生成モデルCogView2をテキスト-動画生成モデルに継承することで効率的な学習を実現
- より適切なテキストとクリップのペアの位置関係を得るためのマルチフレームレートによる階層的な学習手法を提案
といった工夫により、下図のサンプルに示すような違和感のない高解像度な動画を生成する事に成功しています。
なお、 実際のテキスト入力は中国語であり、各サンプルは4秒間の32フレームのクリップで生成されており、ここでは表示用に9フレームを一律にサンプリングしています。(動画生成についてはこちらで試すことが出来ます)
CogVideoの概要
CogVideoでは、テキストと動作を違和感なく整合させるためのマルチフレームレートによる階層的な学習手法であるMulti-frame-rate Hierarchical Trainingの導入と、動画生成のために事前学習したテキスト-画像生成モデルCogView2の知識を継承するためのDual-channel Attentionの2つの工夫があります。
それぞれ詳しく見ていきましょう。
Multi-frame-rate Hierarchical Training
本手法では、大枠はVQVAEの枠組みに従いますが、Sequential Generation stageとRecursive Interpolation stageという2つの学習段階で構成されるという特徴があります。(下図参照)
図のSequential Generation stageでは、フレームレートと入力テキストを条件として、キーフレームが順次生成され、Recursive Interpolation stageでは、生成されたフレームを双方向のアテンション領域として再入力し、フレームを再帰的に補間します。(図では、一方向のアテンション領域が緑、双方向のアテンション領域が青で示されています。)
これにより、テキストと生成フレームができるだけ一致するように学習が行われます。
Dual-channel Attention
大規模な事前学習には通常大規模なデータセットが必要であり、オープンドメインのテキスト-動画生成ではモデルがテキストと動画の相関関係を推測するための十分な量のデータセットが必要になります。しかし、こうした高品質なテキスト-動画ペアを収集することは、費用と時間を考えると現実的ではありません。
既存研究であるDiffusion ModelやNUWAでは、テキスト-動画生成の学習にテキスト-画像ペアを追加することで良い結果を達成していますが、画像データを追加することで、特に大規模な事前学習において学習コストが大幅に増加するという問題があります。
そこで本論文では、既存研究とは異なり、画像データの代わりに事前学習済みの画像生成モデルであるAttention-plusを活用することを提案しています。(下図参照)
具体的には、Dual-channel Attention機構により、各transformer層で事前に学習したCogView2にSpatial ChannelとTemporal Channelを追加するだけであり、これによりCogView2のパラメータは全て学習時に凍結され、新たに追加されたattention層(上図のAttention-plus層)のパラメータのみが学習可能になります。
Machine Evaluation
本論文では、動画生成の代表的なベンチマークであるUCF101とKinetics-600、評価指標としてFrechet
Video Distance(FVD)とInception score(IS)を用いてモデルの評価を行いました。
下の表は、UCF101での生成結果(左)とKinetics-600での生成結果(右)になります。(*はUCF101の訓練データに対してのみモデルを学習したことを、**はFVDのテストデータのgraound truthにtokenizerの再構成結果を使用したことを示しています)
表が示すように、CogVideoは2つの評価指標で非常に良いスコアを出していることが確認できます。
Human Evaluation
CovVideoをさらに評価するために、90人の匿名者を対象にCogVideoとGANベースモデルであるTGANv2、GPTベースモデルであるVideoGPTなどのオープンソースベースラインに対してユーザー調査を行いました。
UCF101の30クラスからランダムに選ばれたテキストを入力として、様々な側面から各モデルが評価された結果が下の表になります。
表より、評価者の49.53%がCogVideoを最も優れた手法として選択したのに対し、VideoGPTとTGANv2がそれぞれ15.42%と5.6%しか支持されていないという結果が示され、CogVideoの有効性が実証されました。
まとめ
いかがだったでしょうか。今回は、最大かつ最初のオープンソースのテキスト-動画生成のための事前学習済みtransformerモデルであるCogVideoについて解説しました。
CogVideoは学習済みのテキスト-画像生成モデルを、画像生成能力を損なうことなくテキスト-動画生成モデルに利用する事に成功した最初のモデルであり、既存モデルと比べてより自然な動画を生成する事に成功した事で、動画生成の研究に新しい方向性を示すものとなっています。
しかし、モデルの大規模化やGPUメモリの制限により入力シーケンスの長さに制限があるなど、まだいくつかの課題点があるため、今後の研究による改善が期待されます。
今回紹介したモデルのアーキテクチャや生成された動画のサンプルは本論文に載っていますので、興味がある方は参照してみてください。
この記事に関するカテゴリー