フレーム補間×MAML：MAMLに基づくフレーム補間モデルのメタラーニング

Meta-Learning 2021年03月27日

3つの要点
✔️ 新たなシーンに迅速に対応するためにフレーム補間にMAMLの枠組みを適用
✔️ InnerloopとOuterloopでデータ分布を変える新たなMAMLの知見を示唆
✔️ 各種フレーム補間モデルにおいて，軽量な計算量でPSNR値がベースラインよりも改善

Scene-Adaptive Video Frame Interpolation via Meta-Learning
written by Myungsub Choi, Janghoon Choi, Sungyong Baik, Tae Hyun Kim, Kyoung Mu Lee
(Submitted on 2 Apr 2020)
Comments: Accepted to CVPR2020.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

はじめに

フレーム補間(frame interpolation)は映像を滑らかに見せる技術です．フレーム間の画像を内挿することで，カクカクの映像をヌルヌルにすることができます．実際にはコンピュータでソフト的に前後の画像から連続的な中間画像を作ります．低fpsの動画を高fpsに変換するとき，基本的にフレーム補間が軸になっています．そんなフレーム補間は，歴史あるCV分野の1つですが，昨今ではCNNによって中間画像を算出するのが一般的です．具体的には画像間のフロー(昔からメジャーなのはオプティカルフロー)を算出することで，妥当な補間画像を生成する上でのヒントをゲットします．NVIDIAの研究者によって発表されたSuperSloMoの登場までは，モデルに2枚の画像を入力して1枚の中間画像を出力するのが一般的でしたが，SuperSloMoの登場以降，複数以上の任意枚枚の中間画像を出力するモデルの開発が進んでいます．

しかしながら，既存の高精度なフレーム補間モデルは，サイズが非常に大きく，新たなタスクのデータを学習する際に，追加の計算時間がかかるのがネックです．また，それを解決するためのファインチューニング等もあまり研究されていないのが実情でした．

そんな中，”Scene-Adaptive Video Frame Interpolation via Meta-Learning”では，フレーム補間モデルをメタラーニングさせる手法が提案されました．具体的には，昨今メタラーニング界隈で注目を浴びているMAMLの枠組みをフレーム補間に適用することで，事前学習済みのフレーム補間モデルを新たなタスク動画に対応させることを目論んでいます．本記事ではこの論文について詳しく解説していきます．(尚，本記事で掲載している画像は，MAMLについてはMAML論文からの引用．他はすべてSAVFI論文からの引用です)

MAMLについて

MAML(Model-Agnostic Meta-Learning)は読んで字の如くモデルに依存しないメタラーニングの学習手法です．具体的には，モデルを新たなタスクに対応させるための，Inner loopとOuter loopによって構成されるパラメータ更新のテクニックです．Inner loopの各タスクごとにパラメータ更新を任意回数行い，その後Outer loopによって実際のパラメータ更新を行います．

Inner loop

あるモデルを$f_\theta$($\theta$は学習パラメータ)と仮定し，学習用の新タスクを$T_{i}$と於きます．尚,$\alpha$は学習率です．するとInner Loopは各タスクごとに下式の通り，タスクごとの勾配に対してパラメータ更新を行い$\theta'_{i}$を導出します．これは1回の更新以外にも任意回数の更新でも可能です．

Outer loop

その後Outer loopでは，Inner Loopにて任意回数の更新を行ったモデルに対して，各タスクの勾配をまとめてouterloopの更新を行います．$\beta$はOuter loopの学習率とすると，下式のように定義されます．

損失に関してはinnnerloopにてタスクごとに更新した損失をとっていますが，更新自体は$\theta'_i$ではなくinnerloop更新前の$\theta$を使います．これがMAMLの基本的な考え方となっていますが，数理的な詳細はMAML論文をご参照下さい．以上のMAMLは，モデルに依存せず様々なタスクに適用できる可能性が示唆されています．

フレームワーク

SAVFI論文ではフレーム補間にMAMLの枠組みを適用しています．具体的なフレームワークは上図の通りです．MAMLの数式に則り新タスクの動画を$T_i$と定義されています．また各動画からサンプリングするフレーム郡を$D_{T_{i}}I$, $D'_{T_{i}}I$と定義されています．前者についてはInner Loopを更新するためのデータ，後者についてはOuter Loopを更新するためのデータになっています．原著論文では，この点について下記の通り従来のMAMLとの違いを示されています．

Note that, the biggest difference from our algorithm from the original MAML is that the distributions for the taskwise training and test set, $D_{T_{i}}$ and $D_{T_{i}}$, are not the same. Namely, $D_{T_{i}}$ have a broader spectrum of motion and includes $D_{T_{i}}$ , since the time gap between the frame triplets are twice as large.

("Scene-Adaptive Video Frame Interpolation via Meta-Learning", p6)

即ちInner LoopとOuter Loopにて異なるフレーム間隔のデータを取り扱うことが未踏の領域だと示されています．

MAML×フレーム補間

フレームワーク右図では，具体的な更新処理の流れが記載されています．まずInner loopでは，$D_{T_{i}}I$をフレーム補間モデル$f_{\theta}$に入力することで，下記のように補間画像$\hat{I}_{3}$, $\hat{I}_{5}$を生成します．その後，Inner loopによって，各タスクごとに補間画像とGTとの損失を算出します．

上記のInnerloopにて更新後，Outerloopの損失は，従来のMAML同様にInnerloopにて更新されたモデルに対して各タスクごとに算出されます．尚，Outerloopにて評価に用いる動画はフレーム間隔の近い$D'_{T_{i}}I$となっています．

上記2つの内外のロスを基に記述された擬似コードが下図となっています．上記ロスをMAMLの枠組みに当てはめ，パラメータ更新を行っているのが確認できます．

実験結果

論文では，ベースラインとしてDVF, SuperSloMo, SepConv, DAINの4モデルに対してメタラーニングを実施した際の実験されています．尚，メタラーニング用の学習データとしては，VimeoSeptupletのtrain-splitを用いて実験されています．そして評価には，VimeoSeptupletのtest-split及び，Middlebury-others, HDにて検証されています．尚，SuperSLoMoのように任意枚数補間するモデルについても，フレームワークに落とし込むために，1枚の補間で実験がなされています．具体的には下記3点の実験です．

既存のフレーム補間モデルのMeta-learningによる定量結果
各データセットのフレーム補間の定性結果
InnerLoopの勾配更新・学習率のアブレーション結果

既存のフレーム補間モデルのMeta-learningによる定量結果

表のスコアは画像間のPSNRで，値が高いほど画像間が近似していることを一般に意味します．尚，Re-trainは単純にVimeoSeptupletのtrain-split を用いて，finetuningした結果となっています．ボールドされている部分を見ると，VimeoSeptupletのtest-splitに対しては，各モデルにおいて性能が向上していることが確認できます．また，他の各データセットにおいても，殆どのモデルでMetalearningが有効であることが確認できます．

各データセットのフレーム補間の定性結果

定性的な結果については下図のようになっています．各行の補間結果において，Meta learningによる補間画像が他の列と比べて鮮明でGround Truthに近いことが確認できます．特にSepConvが顕著でブレが減少していることが確認できます．このSepConvについては，HDデータセットによる他の詳細な結果も示されており，補間画像の鮮明性が向上していることが確認できます．この理由として，論文中ではSepConvがオプティカルフローによるワープ変換の機構が無いことが一因の可能性があると示されています．

InnerLoopの勾配更新・学習率のアブレーション結果

こちらはメタラーニングのInnerloopを複数回更新した際のアブレーションです．1回の更新が最も高いPSNRのスコアをマークしたことを意味しています．従来のMAMLとは異なる結果ですが，これは論文中にてInner loopの複数回の更新が各タスクに過学習してしまう可能性，また学習が複雑になる可能性の2点が挙げられています．

尚，Innerloopの学習率を変更した際の結果です．こちらについても，上記の更新回数と同じく高すぎず低すぎない，最適な値の学習率をヒューリスティックに調整することが，最も良い精度を上げることが確認できます．

まとめ

本記事では，MAMLの枠組みにフレーム補間のタスクを適用した論文，について見ていきました．MAMLの汎用性の高さを示すだけでなく，事前学習済みモデルの利用やタスクからサンプルするデータの性質など，従来のMAMLとは異なるセットアップで解析をしているところが新たなMAMLの可能性の探索にも繋がっていると記事執筆者は感じました．従来の補間モデルでは，どういったフローを算出するか，そこから派生してどんなネットワークを作るべきかのみに焦点があたっていたきらいがありますが，この論文の登場によりフレーム補間分野に新たな視点が齎された印象を抱きます．