VideoMix:用视频任务彻底的检证CutMix!

数据增强 19/03/2021

三个要点
✔️ CutMix在三个不同视频任务中的比较验证
✔️ 提出的CutMix在时空方向上的扩展称为VideoMix
✔️ 动作识别/。本地化/对象检测任务，以验证VideoMix的多功能性。

VideoMix: Rethinking Data Augmentation for Video Classification
written by Taeoh Kim, Hyeongmin Lee, MyeongAh Cho, Ho Seong Lee, Dong Heon Cho, Sangyoun Lee
(Submitted on 7 Dec 2020)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

首先

近年来，人们对图像任务的数据增强越来越感兴趣。CutMix是一种通过剪切和粘贴(Cutout & Mixup)来创建两个图像的新混合物的方法。研究表明，在训练数据中加入图像的混合，增加了训练数据分布的多样性，并在模型中产生了正则化效应，从而提高了泛化性能。这种方法的影响是巨大的，它在图像识别、物体检测和分割方面做出了重大贡献。最近，在此基础上提出了一种抑制边界变化的方法--CutMixup。

虽然CutMix已经被用于图像任务，但它在视频识别任务中的研究还不多（2021年3月--写稿时）。或者，它只在有限的数据集上进行了研究。但在本文介绍的"VideoMix"一文中，在各种视频任务和各种骨干模型的假设下，验证了CutMix的有效性。本文还讨论了当扩展到视频任务时，哪种CutMix在空间、时间和时空上最有效。以上三种CutMix的轮廓如下图所示。

视频用一个立方体（长×宽×帧）表示。请注意，省略了渠道。从左到右，S-VideoMix就像电视擦拭，T-VideoMix就像频道切换（或广告打断节目），ST-VideoMix则像擦拭，停留一定时间。随着时间轴（帧轴）的介入，视频中的DA变得更加复杂，需要验证的类型也越来越多。因此，在本文中，我们提出了一种新的DA，用于这种各种类型的视频CutMix，我们称之为VideoMix。

本文主要谈以下三点。

技术：关于VideoMix
结果：VideoMix在关键视频任务中的验证。
讨论：VideoMix在哪里看和学习？

技术：关于VideoMix

混合图像生成

VideoMix使用基于以下蒙版的数学公式创建混合图像。

$hat{x}=M 编码x_A + (1-M) 编码x_B$。

$hat{y}=/lambda_M y_A + (1-/lambda_M)y_B$。

除了延长时间轴外，公式与CutMix原版几乎相同。$x=\mathbb{R}^{T \times H \times W}$。(帧数、高度、宽度)，$y$是标签的一热向量，$M={0, 1}^{T \times H \times W}$。请注意，为了简单起见，隐性地省略了RGB通道；VideoMix创建了两个视频$xa$和$xb$的混合物，并给它们贴上混合物标签$hat{y}$。通过取元素乘积与二进制掩码，我们表示视频的一部分被剪切和粘贴。掩码$M$如下式所示。

这里可以看到，通过设置变量$C=(t1，t2，w1，w2，h1，h2)$，可以表示三种类型的Videomix。

S-VideoMix :$(t1，t2)=(0，T)$，$(w1，w2，h1，h2)$随机取样。
T-VideoMix :$(w1，w2，h1，h2)=(0，W，0，H)$，$(t1，t2)$随机取样。
随机抽取ST-VideoMix:(t1, t2, h1, h2, w1, w2)

哪种类型最好(S?T?ST?)

毕竟如何调剂变量C呢，让我们来看看Mini-kinetics的骨干，SlowOnly-34的消融结果。

综上所述，本文表明S-VideoMix的空间型对top1和top5都能给出较好的精度。其原因被认为是T-和ST-VideoMix中混合视频的持续时间较短。认为有限的帧数不能充分包含视频的语义信息，影响分类模型。因此，作为一般的VideoMix，本文其余实验均采用S-VideoMix作为默认设置。

验证正规化效应

现在我们来看看VideoMix的正则化效果。

在本文中，我们展示了使用Mini-Kinetics的验证结果，用Slow-only34进行训练，并比较验证分数。红线为基线，蓝线为Videomix收录，我们可以看到200个纪元后，验证精度比基线有所提高。

结果：关键视频任务的验证

现在让我们看一个实验，看看VideoMix的准确性.原文中的成果很多，但在本文中，我们将重点关注以下三项工作。我们将重点抓好以下三项工作。

动作识别(Kinetics400)
弱监督时空动作定位(WSTAL)
AVA对象检测

Mini-Kinetics和something-V2对强化这一说法有很强的作用，所以我们暂时省略。

行动识别

kinetcs400是一个大型视频数据集。与基本的图像分类类似，我们推断出整个视频序列的动作标签。在这里，我们看到当VideoMix应用于SlowOnly-50和SlowFast50时，与基线相比，分数提高了多少。

虽然top1-acc和top5-acc的表现并不总是优于I3D，但由GFlops×views评估的推理成本显示，尽管它们的计算复杂度很低，但它们的得分却没有变得极差。特别是对于慢速Fast+VideoMix，top1-acc得分76.6，相当有竞争力。就个人而言，我想看看当VideoMix以某种方式被添加到I3D模型中会发生什么。

弱监督时空动作定位(WSTAL)

这个任务是检测动作的时间间隔（例如，"运行"类在14-20帧的范围内）。然而，我们并没有使用逐帧注释来训练模型，而是只使用整个视频的标签。换句话说，任务是预测整个输入视频的类别，同时最后用一个只对整个视频的类别标签进行训练的模型来猜测动作的时间间隔。因此，它被称为弱监督。为了成功完成这项任务，必须对视频中的主要动作进行分类，不要被背景类或无关的小动作所迷惑。

结果在THUMOS14数据集和I3D骨干上得到验证。我们可以看到，VideoMix在mAP上的得分准确率比在相同任务中使用的其他DA更高。

AVA对象检测

最后，我们评估VideoMix在视频中的对象检测。对于每一帧，我们推断出BB位置和动作标签。我们可以看到，使用VideoMix进行预训练可以提高val mAP的得分。

讨论：VideoMix在哪里看和学习？

我们已经证实VideoMix提高了各种任务的准确率，但VideoMix到底对模型有什么影响？

文中提出VideoMix旨在同时识别混合视频中的两个动作。下图是CAM可视化的结果（实际上是ST-CAM在本文提出的时间方向上的扩展）。

生成了"吹口琴"和"传美式足球"的混合视频，并对每个班级应用CAM。观察右两行CAM图像中明亮（白色）的渐变色，我们可以看到，"口琴"CAM将演奏者的嘴和手作为演奏口琴的特征（靠近左上角）。在"足球"的CAM中，我们可以看到，球员专注于球，孩子的手是传球的一个特点。近中）。这一点在"足球"CAM图像中尤为明显，当孩子在混合图像中不持球时，整个图像的渐变色会相应变暗。这表明VideoMix可以通过隐藏特征动作，防止模型集中在特定位置上，提高泛化性能，同时减少过度训练。

摘要

在本文中，我们对。其中，我们证实空间S-VideoMix的准确率最高，在应用于各种视频任务时有助于分类分数的提高，而T-VideoMix和ST-VideoMix由于缺乏时间切割混合视频的语义表示，准确率略低。有人认为，由于缺乏时间切割混合视频的语义表示，T-VideoMix和ST-VideoMix的准确性可能会略有降低。然而，根据数据集，即使减少帧数，似乎也可以保留语义表示。在考虑这种时间动态的方向上，我感觉从VideoMix开始，对视频任务中DA的研究会不断增加。