时空数据增强致力于视频识别!

数据增强 22/03/2021

3个要点
✔️将图像识别中使用的DataAugmentation扩展到视频识别
✔️将RandAugment和Cutmix扩展到时间方向
✔️第1个视觉。归纳先验(1stVIPriors)和其他小数据集的任务，结果与SoTA具有竞争力

Learning Temporally Invariant and Localizable Features via Data Augmentation for Video Recognition
written by Taeoh Kim, Hyeongmin Lee, MyeongAh Cho, Ho Seong Lee, Dong Heon Cho, Sangyoun Lee
(Submitted on 13 Aug 2020)
Comments: European Conference on Computer Vision (ECCV) 2020, 1st Visual Inductive Priors for Data-Efficient Deep Learning Workshop (Oral)
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

首先

近年来，数据增强（DataAugmentation，DA）已经成为图像识别中不可缺少的一部分。特别是在图像识别比赛中，提出了各种DA，使训练数据的分布尽量接近测试数据的分布，以提高分类精度。不仅旋转、翻转、改变图像的颜色（Invert、Grayscale、colorize），而且将两幅图像混合（mixup）、剪切和粘贴（cutmix）也变得很普遍。然而，这些都是在图像识别任务中研究过的，很少有人考虑过视频识别任务，推断视频的类标签。

本文介绍了图像识别的DA在时间方向上的扩展，研究了什么是视频识别任务的最佳DA方法。将DA应用于视频识别任务的一个关键点是，我们需要从视频的角度来考虑。图像是二维的（垂直和水平），但视频是三维的，增加了一个时间维度。

具体来说，电影在时间上的几何和光学变化。上图是本文所示的图。左图是一段跳伞视频，图像中物体的位置会因为摄像机的旋转而发生变化。右图是一场篮球比赛，相机的闪光灯改变了对比度。视频中往往包含了这种连续图像的质变（扰动）。在本文中，我们将解释被提出的两种方法，将这种时间变化纳入DA。

RandAugment-T：将使用网格搜索来寻找最佳DA的RandAugment扩展到视频。
Cutmix系列的扩展扩展:Cutout, mixup, Cutmix, Cutmixup到视频。

RandAugment-T

RandAugment是通过网格搜索两个参数(N，M)来寻找最佳DA的方法，其中N为DA的数量(变换)，M为Augmentation的程度。这是为图像识别而设计的，所以在视频的情况下，必须对每一帧进行应用。那么，就无法再现上图所示的时空变化，所以看起来就不太高兴了。所以，RandAugment-T提供了三个参数（N、M1、M2）。

N：DA(变换)的数量
M1：增加起始图像的度数
M2：增加最终图像的度数。

M1和M2分别表示在时间端点（开始和结束图像）的增强程度。下面是python中的论文伪代码，显示了np.linspace(...)其中M1和M2由帧数T补充。增强的程度在帧中不断变化。M1和M2的差距越大，Augment度的变化越紧密。

通过调整rotate、shear-x、shear-y、translate-x、translate-y，可以建立相机的几何变换模型，如下文中的（a）所示。通过调整solarize、color、posterize、对比度和亮度，可以建立高性能相机自动拍摄模式下的亮度调整和对比度变化模型，如下图（b）所示。

Cutmix系统的扩展

接下来，本文将广泛应用于图像识别的Cutmix系统扩展到视频版。可见，在时间方向上有各种变化，如下图所示。

对于(a)、(b)、(d)中的字幕，Frame(DA)在特定的时间内随着按键的变化而变化，就像切换电视频道一样，而Cube(DA)则在视频中的某一帧中占据特定的部分一段时间，就像电视擦拭一样。而通过将(DA)改为Cutmix或Cutout，我们可以模拟各种时间扰动，如图所示。至于(e)Fademixup，则表明它是一种通过改变场景来抑制边界处亮度突然变化的DA方法。

遮挡防止注视图像的特定部分。
Fram-Cutout 防止用户注视特定的时间间隔（帧间隔）。
立方-开孔混合型
Cutmix 学习剪切和粘贴图像，以寻找空间位置，进行特征识别。
Frame-Cutmix特征识别可学习寻找时间位置。
立方-切割混合型
(Cutmixup系统是放宽Cutmix边界变化的版本)
FadeMixup 比Cutmix系统更能减轻突然的亮度变化。

三次实验的结果

下面就来讨论一下本文的三个实验，看看以上两个Augment的准确性。以FastSlow网络为骨干。

用UCF101消融
用HMDB-51数据集重新进行实验。
与第一贵宾室的SoTA比较

(此外，与UCF101一样，ECCV2020比赛的数据分割称为1stVIPrior)

计算环境为GTX1080Ti（由Pytorch实现）。当笔者在几乎相同的环境下运行时，大约一天时间就完成了学习。

哪个DA最好？(用UCF101消融)

・RandAugment-T

这是RandAugment-T的结果，其中Baseline是没有DA，Spatial是原来的RandAugment，Temporal+是RandAugment-T，Mix是Spacial和Temporal+的混合。从加粗的分数来看，我们可以看到Temporal+的Top1-acc和Top5-acc的acc都是最高的，虽然Spatial的准确率也有所提高，但是模拟时间变化的Temporal+更准确。Temporal+也比较准确。

Cutmix系统的扩展

表3~5是依次验证Cutout、Cutmix和Mixup。

Cutout的精度（表.2）全面下降。另一方面，我们可以看到Frame(DA)系统在Cutmix(表.4)和Mixup(表.5)中是最高的。这恰恰说明，在视频识别任务中，时间DA会导致更高的分数。此外，Cutout系统也是遍地开花。但是，我们可以确认，作为时间DA的Frame-Cutout和Cube-Cutout比普通Cutout要好。此外，我们可以看到，混合数据的Mixup（表.6）的得分特别高于Cutmix（表.4、5）。笔者认为，由于物体的运动面积比图像的运动面积小，所以空间域的Cut对于视频来说至关重要。

那其他数据集呢？(用HMDB-51数据集重新进行实验)

由于HMDB-51的数据集大小比UCF101小，所以视频识别的整体精度较低。然而，即使在这里，如果我们看一下加粗的分数的行，可以看到时间DAs，如RandAug-T和Cube-(DA)标志着更高的准确性。从上面我们可以看出，走势与UCF101基本相似。

在竞争中与SoTA相比如何？(与第一VIPrior中的SoTA相比如何)

最后，在ECCV2020上举办的第1届VIPrior大赛，与SoTA相比。

从表中可以看出，与第三名的队伍相比，这种方法的得分很有竞争力。虽然他们的成绩并不突出，但第一至第三名的队伍都有骨干，有了第一名到第三名的队伍使用了一个大型的双流网络作为骨干，而我们的队伍只使用了慢速50与DA（RandAug-T & All方法）和一个数据级的集合。这样一个简单而又有竞争力的网络显示了所提出的DA的多功能性。

两个论点

1.时空DA不能多推一下吗？

从前面的结果我们可以看出，时空建模方法具有较高的准确性。然而，简单的空间DA，如Spatial和Cutmix也是相当准确的。如文中所示，时间DA评分没有超过空间DA评分的原因可能有三个。

少量的训练数据。
时间变化在验证数据集中没有得到很好的体现。
数据集必须以乖巧的方式进行修剪。

特别是，UCF101和HMDB-51已经被修剪，以减少相机位置的几何和光学变化。(为了便于研究。)因此，可以期待在空间DA方面有一定的提高。换句话说，如果数据集中包含更多表现不佳的视频，空间DA和时间DA的差异可能会更明显。作为未来的计划，作者计划在Kinetics等大规模视频数据集上测试他们的方法。

2. CAM的核查

可视化与CAM是有用的，可以看到学习的差异。文中的图显示，时间DA，FadeMixup（右）比空间DA，Mixup（左）能更好地在时间上定位画面。可以看到，渐变色在右边切换的比较明显。在本文中，结果表明Cutmix系统也是如此。

摘要

　本文介绍了将广泛用于图像识别任务的DA扩展到视频识别任务的研究。因此，他们发现，模拟时间变化的DA对视频识别是有用的。视频识别仅仅是在简历世界里盘旋的非常有限的视频任务之一。在未来，我们需要思考如何将时空DA扩展到各种任务中，如视频的对象检测、分割和时空定位。本文介绍的研究方式，是对图像世界的空间DA进行时间建模，预计未来会越来越流行。