VideoMix:CutMixを動画タスクで徹底検証!!!

Data Augmentation 2021年03月19日

3つの要点
✔️ CutMixを3種類の動画タスクで比較検証
✔️ VideoMixと呼ばれる時空間方向に拡張したCutMixを提案
✔️ Action Recognition/ Localization / Object DetectionのタスクでVideoMixの汎用性を検証

VideoMix: Rethinking Data Augmentation for Video Classification
written by Taeoh Kim, Hyeongmin Lee, MyeongAh Cho, Ho Seong Lee, Dong Heon Cho, Sangyoun Lee
(Submitted on 7 Dec 2020)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

はじめに

近年，画像タスクのData Augmentation界隈でCutMixが高精度な結果を挙げています．CutMixは2枚の画像を，切り貼り(Cutout＆Mixup)して新たな混合画像を作り出す手法です．学習データに追加された混合画像により，学習データの分布は多様性を獲得し・モデルの正則化効果を生み，ひいては汎化性能が向上することが明らかになっています．そのインパクトは絶大で，画像認識，物体検出，セグメンテーションなどに多大な貢献をもたらしました．近年では，同手法を基にした，境界変化を抑えるCutMixupなる手法も提案されています．

かようなCutMixは，画像タスクでは日の目を浴びているものの，動画をターゲットとした，動画認識タスクなどではあまり研究されてきませんでした(2021年3月-記事作成時点)．もしくは，限定的なデータセットでしか研究されてきませんでした．しかし，本記事で紹介する論文”VideoMix”では，多様な動画タスク・多様なバックボーンモデルを前提として，CutMixの有効性について検証されています．それだけに留まらず，動画タスクに拡張する場合，空間・時間・時空間どのCutMixが最も有効なのかについて議論されています．上記3タイプのCutMixの概要は以下の図の通りです．

動画をCuboid(縦×横×フレーム)に見立てています．チャンネルを省略していることに注意して下さい．左から順に例えるなら，S-VideoMixはテレビのワイプ，T-VideoMixはチャンネルの切替(もしくは番組を遮るコマーシャル)，ST-VideoMixは，一定時間滞留するワイプのようです．このように時間軸(フレーム軸)が介入するだけで，動画におけるDAは複雑化し，検証すべきタイプの数は増加します．そこで，本論文では，このような多様なタイプの動画CutMixをVideoMixと称して新たなDAを提案しています．

本記事では，以下の3点にフォーカスして紹介します．

手法：VideoMixについて
結果：主要な動画タスクにおけるVideoMixの検証
議論：VideoMixはどこを見て学習しているのか？

手法：VideoMixについて

混合画像生成

VideoMixは以下のマスクに基づく数式によって，混合画像を作成します．

$\hat{x}=M \odot x_A + (1-M) \odot x_B$

$\hat{y}=\lambda_M y_A + (1-\lambda_M)y_B$

時間軸の拡張を除けば，CutMix原著とほぼ同じ数式です．$x=\mathbb{R}^{T \times H \times W}$(フレーム数，縦，横)であり, $y$はラベルのone-hotベクトル，$M={0, 1}^{T \times H \times W}$です．簡略化のため，RGBチャンネルを暗黙的に省略していることにご注意下さい．VideoMixは２動画$xa$, $xb$の混合動画$\hat{x}$を作成すると同時に，混合ラベル$hat{y}$でラベリングします．2値マスクとの要素積をとることで，動画の一部が切り貼りされることを表現しています．マスク$M$に関しては，下式のとおりです．

ここで，変数$C=(t1, t2, w1, w2, h1, h2)$を設定することで3タイプのVideomixを表現できることがお分かりになるかと思います．

S-VideoMix :$(t1, t2)=(0, T)$, $(w1, w2, h1, h2)$はランダムにサンプル
T-VideoMix :$(w1, w2, h1, h2)=(0, W, 0, H)$, $(t1, t2)$はランダムにサンプル
ST-VideoMix:(t1, t2, h1, h2, w1, w2)をランダムにサンプル

どのタイプが最も良い(S? T? ST?)

結局の所，どのように変数Cを調整すると良いのでしょうか？Mini-kinetics, SlowOnly-34のバックボーンにてアブレーションの結果を見てみましょう．

結論として，S-VideoMixの空間的なタイプがtop1, top5ともに良い精度を上げたと論文では示されています．この理由として，T-, ST-VideoMixではmixされたビデオの時間が短いことが原因と考察されています．限定されたフレーム数では，動画の意味情報を十分に内包せず，分類モデルに影響を及ぼすことが示唆されています．このため，一般的なVideoMixとして，本論文では残りの実験の全てをS-VideoMixをデフォルト設定として実験されています．

正則化効果についての検証

それでは，VideoMixの正則化効果について見てみましょう．

論文では,Mini-Kineticsによる検証結果が示されております．Slow-only34にて学習し，バリデーションスコアを比較しています．赤線がベースライン，青線がVideomix込です．200epochを越えた段階で，ベースラインと比べて，バリデーション精度が向上しているのが確認できます．

結果：主要な動画タスクにおける検証

ここからは、VideoMixの精度を見るための実験について見ていきましょう。原著論文では数多くの結果がありますが，本記事では，以下の3タスクに絞って解説します．

Action recognition(Kinetics400)
Weakly supervised temporal action localization(WSTAL)
AVA Object Detection

タスクごとの早見表は以下の通りです．Mini-Kineticsとsomething-V2は結果的に主張の強化としての役割が強いので，今回は割愛させて頂きます．

Action recognition

kinetcs400は大規模な動画データセットです．ベーシックな画像分類と同様に,動画シーケンス全体のアクションラベルを推論します．ここでは，SlowOnly-50, SlowFast50にVideoMixを適用したとき，ベースラインと比べてどの程度スコアが向上するのかが確認されています．

I3D系と比べて常に，top1, top5 accが上回っているわけではありませんが，GFlops×viewsにて評価された推論コストを見てみると，計算量の少なさの割に，極端に悪化することなくスコアを維持していることが分かります．特にSlowFast＋VideoMixに関しては，top1-accが76.6とかなり競合的なスコアを叩き出しています．個人的には，I3D系のモデルにVideoMixを何らかの形で入れる場合，どうなるのか見ものです．

Weakly supervised temporal action localization(WSTAL)

こちらのタスクは，アクションの時間間隔を検出するタスクです(ex，”走っている”クラスは14~20フレーム目の範囲内)．しかしモデルの学習には，フレームごとのアノテーションは用いず，動画全体のラベルしか与えません．すなわち，ビデオ全体のクラスラベルのみで学習されたモデルで，入力ビデオ全体のクラスを予測しつつ，最終的にアクションの時間間隔を推測しなければならないタスクです．そのため，weakly supervised(弱い教師)と呼ばれます．このタスクを成功させるためには，動画内の主要なアクションが何なのかを分類し，背景クラスや，関係ない小さなアクションに惑わされないことが重要になります．

THUMOS14のデータセット，I3D系のバックボーンに検証した結果です．同タスクで用いられる他のDAと比べて，VideoMixがmAPにて高精度なスコアを出していることが確認できます．

AVA Object Detection

最後に動画内の物体検出にて，VideoMixを評価しています．フレームごとにBBの位置とアクションラベルを推論します．バックボーンに,Slowonly-50, slowfast-50が比較されており，検出器としてFaster R-CNNのアーキテクチャにて評価されています．VideoMixによって事前学習すると，val mAPのスコアが向上することが確認できます．

議論：VideoMixはどこを見て学習しているのか？

VideoMixによって，多様なタスクの精度がよくなることは確認できましたが，結局のところVideoMixはモデルにどういった影響を与えるのでしょう．

論文中では，VideoMixでは，混合動画内の2つのアクションを同時に認識させることを狙うと示唆されております．下図に示す図はCAM(実際には，論文中で提案された時間方向に拡張されたST-CAM)によって可視化した結果です．

“Playing harmonica”と，”Passing American football”の混合動画が生成され，それぞれのクラスに対してCAMが適用されています．右2列のCAM画像において，勾配カラーの明るい(白い)ところを見ると，"harmonica"のCAMでは，ハーモニカを演奏するときの特徴として，奏者の口と手に注目しているのが分かります(左上付近)．また，"football"のCAMでは，ボールをパスする特徴として，ボールと子供の手に注目しているのが分かります．(真ん中付近)．特に"football"のCAM画像が顕著ですが，混合画像内で子供がボールを持っていないときは，それに対応して画像全体の勾配カラーが暗くなっています．このようにVideoMixは，特徴となるアクションが隠れることにより，モデルが特定の箇所に集中することを防ぎ，過学習を抑えつつ汎化性能の向上につながるのではと示唆されています．

まとめ

本記事では，Videomixについて検証しました．なかでも，空間的なS-VideoMixが最も精度が高く，多様な動画タスクに応用した結果分類スコアの向上に寄与することを確認しました．T-VideoMixやST-VideoMixは，時間的にカットされたミックス動画の意味表現が乏しくなるため，精度がやや下がるのではないかと示唆されました．しかし，データセットによっては，フレーム数が減っても意味表現を保持できるような気がします．こういった時間的なダイナミクスを考慮する方向でも，VideoMixを皮切りにどんどん動画タスクにおけるDAの研究は増加していきそうな予感です．