最新AI論文をキャッチアップ

【コマ撮り画像の高FPS動画化】フレーム補間AI技術RIFE&IFNetの仕組みと活用術

【コマ撮り画像の高FPS動画化】フレーム補間AI技術RIFE&IFNetの仕組みと活用術

Image generation

3つの要点
✔️ RIFE(Real-Time Intermediate Flow Estimation)による低フレームレート動画の高フレームレート化の仕組み
✔️ 
ニューラルネットワーク、IFNet(Intermediate Flow Network)の活用による中間フレーム生成品質向上のアプローチ
✔️ RIFEとIFNetの中間フレーム補間 vs Image to Image vs モーフィング技術 

デジタルペーパークラフトで「和洋折衷」~AI による補間アート~
written by Takahiro Yonemura (P.39)
本論文の掲載に当たり、掲載元より掲載許可を頂いております。

本記事で使用している画像は論文中のもの、紹介スライドのもの、またはそれを参考に作成したものを使用しております。  

はじめに

最近、加速度的にデジタルとアナログが融合し始めています。アナログ素材をデジタル化さえできれば、AI技術で飛躍的な品質向上が行える時代です。

例えば、論考で扱っているペーパークラフトソフト(紙龍)[1]の可動モデルをコマ撮りして3fps(フレーム毎秒)程度の動画を作成します。ただ、いくら細かく連続撮影しても動画は、ぎこちなく見えます。しかし進化中のAI技術、RIFE(Real-Time Intermediate Flow Estimation)を使うと、この3fps程度の動画を24fpsの動画にさえ、変換(補間)可能になりました。

図1 コマ撮り動画とRIFEで補間した動画の比較

いかがですか。低フレームレートの「コマ撮り画像」が、明らかに滑らかな高フレームレート動画へと、変貌しました。AI技術は生成だけではなく、素材の補間分野でも新たな手法として活かされています。

そしてAI技術自体が、ツールのようにニューラルネットワークを用いて品質向上を行います。ここではRIFEが、IFNet(Intermediate Flow Network)を活用して、補間用の中間フレームの品質を劇的に向上させています。

この記事で、RIFEとIFNetの動作原理を解説して、低フレームレート動画を高フレームレート動画に変換(補間)する具体例をご紹介します。 

RIFEによる中間フレームの生成

論考で扱われたRIFE利用のソフトウェア(Flowframes)は、動画フレーム補間用のリアルタイム中間フロー推定アルゴリズムです。従来は、双方向のフレームのオプティカルフローを推定し、それをスケールし反転させて中間フローを近似させていました。しかしアーティファクト(誤りや歪み)を生じる課題がありました。

改善のためにRIFEは、IFNetというニューラルネットワークを使い直接、中間フローを細かく推定し、高速で実行しています。参照論文[2]での実験では、RIFEが複数のベンチマークで高い性能に達し、従来の手法より4~27倍速い処理を行うと示しています。

これらは以下の手順で処理され、中間フレームを生成しています。

入力フレームの取得

フレーム1 フレーム2
図2 連続する2フレーム(コマ撮り画像 Frame A、Frame B)

二つの連続したフレームが入力されてプロセスが始まります。

オプティカルフローの計算

連続する2フレーム間の動きをオプティカルフローを使って推定します。これで各ピクセルがどのように動くかを示す、ベクトル情報を得ます。図はフレーム前後の動きについて、オプティカルフローで推定して可視化したものです。ベクトルが多く表示されて、前後フレーム間の関係性が示されていますね。

オプティカルフローの可視化
図3-1 フレーム1→2のオプティカルフローの可視化
オプティカルフローの可視化
図3-2 フレーム2→1のオプティカルフローの可視化

中間フローの推定(IFNet)

オプティカルフローの情報も基にして、IFNetを使ってフレーム間の中間フローを推定して、各ピクセルの動きを把握しています。

フレームのワーピング

推定されたフローに基づき、各フレームを逆方向にワープして中間位置の画像を得ます。 

フュージョンマップの生成

フュージョンマップ を使って、ワープされたフレームを融合し、最終的な中間フレーム を生成します。これらは以下の式で示される内容です。

・中間フレームの生成

・ワープされたフレームの計算

この手法は一般に、他の手法より高速で、高品質な中間フレーム生成を可能とします。

生成された中間フレーム
図4 生成された中間フレーム

ワープの意味

ワープ(Warping)とは、画像や動画の中のピクセルを変形させる意味です。具体的には、元の位置から新しい位置にピクセルを移動させ、画像やフレームを変形させること。紙の絵を引っ張ったり押したりして形を変えるようなイメージです。 

フュージョンマップとは?

フュージョンマップはAIの一種ではありません。AIが作る重み付きマップで、IFNetのようにAIが用いるツール的な存在です。

フュージョンマップの役割は、ピクセルの融合具合いの決定にあります。各ピクセルをワーピング後のフレーム(Warped Frame A か Warped Frame B)から、どの程度の情報を取り入れるか、重み付け情報となります。

例えば、あるピクセルに対して70%を Warped Frame A から、30%は Warped Frame B から得るという感じに、ピクセルごとの重みを決めたものです。これら重み付け情報を使って2フレームを融合し、中間フレームの生成を実現しています。

フュージョンマップは異なる情報源からのデータを融合し、新しい画像を作り出す方法です。

「異なる情報源からのデータを組み合わせて新しい画像を作り出す点」は、画像生成AIの「Image to Image」と似ています。ですが生成AIそのものと、AIが作るツールとでは、役割や意味が全く異なります。

IFNetの概要と仕組み

IFNetは、中間フロー(intermediate flow)を直接推定するためのニューラルネットワークです。このネットワークは、連続する2フレーム(Frame A、Frame Bなど)の間にある中間フレームの生成用に使われます。

例えば、IFNetが連続する入力フレーム(Frame AとFrame B)と、時間の間隔(t)を受けとったとします。そのとき、フレーム間の中間フロー(ピクセルの動き)と融合マップ(M)を推定。そして、推定した中間フローを使い、入力フレームをワーピング(変形)して、融合マップ(各ピクセルがどのフレームからどれだけの情報を取り入れるかを決定)によって、中間フレームを生成します。

コース・トゥ・ファイン戦略

生成の際には、コース・トゥ・ファインと呼ぶ、低解像度で大まかなフローを推定して、そのあと解像度を上げながらフローを細かく修正していく方式を使っています。

IFNetは大量の画像フレームと、特権蒸留(Privileged Distillation)を用いる学習を行っています。そのため、ある程度の未知のデータも正しく認識可能となりました。 

金属の球体 低解像度 金属の球体 中間の解像度 金属の球体、高解像度
図5 コース・トゥ・ファインのイメージ(低解像度→高解像度)

RIFEとIFNetの動作 vs Image to Image

それぞれの技術や手法、さらに目的とするものが違います。

RIFEとIFNetは協調して中間フレームを生成します。とりわけ動画の滑らかさの向上が目的で、それに焦点を当てた技術です。

画像生成AIによるImage to Imageは、「画像の変換に特化」しています。代表的な例としてGAN(Generative Adversarial Network)と拡散モデルなどを利用して、入力画像から新しい画像を生成します。スタイルの変換、属性(物や人、感情など)の変更で、多様な画像生成を行う技術です。

RIFEとIFNetの中間フレーム補間 vs モーフィング技術

大きな違いは方式と精度です。

中間フレーム補間では、オプティカルフロー(RIFE)とニューラルネットワーク(IFNet、フュージョンマップ)を組み合わせて、圧倒的に正確で自然な中間フレームのリアルタイムな生成を実現するものです。

一方のモーフィング技術は、主に形状変形を使って2つのフレーム間の「変化をスムーズに見せ」ます。特徴点の間のピクセルをシンプルに線形補間して中間フレームとします。そのため複雑な動きの対応には、限界があります。 

図6 モーフィングの例 

実践例

現状はコマ撮りの際、ひとコマ前の画像と半分程度、重なる画像としなければ、フレーム補間が破綻する。しかし、20 枚の画像から、41 フレーム/ 秒で3 秒の滑らかな動画が生成でき、これは特筆に値する生成AI の能力だ。

アナログの素材に、躍動感と生命感を与えられ、生成AI の活用術を確認できた。 

上記は論考の引用ですが、このAI技術も万能ではありません。2フレームの間隔が大きい連続画像だと、補間が不完全になります。これは物体の位置や形状の変化が大きすぎ、基準とするものが減って、オプティカルフローのような動き推定アルゴリズムが動きを捉えられないからです。

とくに回転や複雑な動きが含まれるとき、補間が難しくなります。フレーム間で物体が消えたり現れたりする動画も同様です。

ただ、DAIN(Depth-Aware Video Frame Interpolation)という深度情報を考慮したフレーム補間技術が登場しています。今後の進化に期待できます。

不完全なオプティカルフロー 不完全な中間フレーム
図7 移動ベクトルが短く不規則→不完全な中間フレーム

まとめ

この記事で縁の下の力持ちのような、品質向上に関わるAI技術についてお話ししました。最後は、扱った論考が示す「不易流行の考え方」の引用と実例動画をもってして、締めくくります。 

動的ペーパークラフトの制作には独自ソフトウェア「紙龍」を使い、工作して組み立て、撮影したのち、デジタル環境でフレーム補間を行った。デジタル- アナログ- デジタルの連携による新たな表現技巧が、今後も生み出されていくと筆者は確信している。


デジタルペーパークラフトで「和洋折衷」~AI による補間アート~ 

参照解説文献
[1] 米村貴裕, 古川耕平, ソフトウェア「紙龍」で作るペーパークラフト,NICOGRAPH2012,115-118,2012.
[2] Huang, Zhewei and Zhang, Tianyuan and Heng, Wen and Shi, Boxin and Zhou, Shuchang, Real-Time Intermediate Flow Estimation for Video Frame Interpolation, Proceedings of the European Conference on Computer Vision (ECCV), 2022.

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!
米村貴裕 ( Takahiro Yonemura ) avatar
東京出身、大阪在住。クリエイタで作家、技術者。近畿大学大学院で博士(工学)号を取得し、2001年、大学院在学中にITベンチャー(有)イナズマを起業。現在は同社の代表取締役を務めるかたわら、大学の非常勤講師を務め、地方創生SDGs、芸術科学会正会員としての活動にも携わる。 幅広い作品を執筆し(2024年現在、著書67冊超え)技術系の書籍、記事からSF小説、論考などを手がける。創出作品には、全国マルチメディア祭(インディーズゲーム)・受賞作、第10回文化庁メディア芸術祭、審査委員推薦作品「紙龍」など評価されたものが複数ある。

記事の内容等について改善箇所などございましたら、
お問い合わせフォームよりAI-SCHOLAR編集部の方にご連絡を頂けますと幸いです。
どうぞよろしくお願いします。

お問い合わせする