而且你还可以实时进行!

视频对象分割 24/03/2021

3个要点
✔️ 一种高效的实时视频对象分割模型
✔️ 两大新概念：像素自适应内存和。光聚合编码器来解决传统SOTA模型所面临的问题。
✔️SOTA在两个视频对象分割数据集上的表现。

SwiftNet: Real-time Video Object Segmentation
written by Haochen Wang, Xiaolong Jiang, Haibing Ren, Yao Hu, Song Bai
(Submitted on 9 Feb 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

首先

实时视频对象分割(VOS)旨在给定第一帧的初始注释，对视频的所有帧进行建模分割。然而，为了实现高效的实时VOS，人们已经做出了各种努力。下图中红线的右侧是目前能够以实时VOS所需的帧率运行的机型，但它们的数量非常少，而且精度不高。

上述模型大多注重提高分割的准确性，而忽略了速度。一些基于内存的模型使用非本地参考查询的所有历史帧的匹配。虽然这些方法非常准确，但分割本身的速度很慢。目前已经采用了一些方法来提高分割的速度，但还不能满足实时VOS的需求。换句话说，效率和准确度之间是有取舍的。

最后本文揭示了时空冗余是拖慢实时VOS的瓶颈。为了解决这个问题，我们引入了像素自适应内存(PAM)，它由变化感知的触发器组成，执行每个像素的更新和匹配。有了这一点，所提出的模型SwiftNet能够突破实时VOS的障碍，并在多项基准测试中表现出创纪录的优异性能。

背景资料

单镜头VOS的任务包括两部分：对物体进行分割和对一帧中分割的物体进行匹配。在大多数模块中，对象的分割或多或少都有相似之处。不同的模块采用不同的匹配策略进行参考建模和参考查询。

最后一个参考资料在框架建模方法中，以上一帧或第一帧作为参考，确定当前帧中的对应对象。这种方法由于分割成本低，速度快，但对从一帧中添加/删除对象（对象变化）无效。

全帧法使用的是之前所有帧的数据，因此精度较高，但速度较慢。另一种方法是使用RNN向网络传播相关信息，如STM模型。这种模型对于对象的变化非常有效，因为它们传播了时间信息。参考查询匹配策略通常使用CNN、交叉相关或非局部计算来衡量对象之间的相似性。

SwiftNet

对象 O = [o₁,o₂,.... o_n]帧包含 V= [x₁,x₂.... x_n]在带遮罩的视频序列的情况下y_t当前帧的注释为x_t为当前帧注解前面所有框架V_t-1及其面具[y₁, y₂... y_t-1]使用帧的历史信息 t-1该模型可达M_t-1确立如下：

哪儿I是表示是否使用帧t进行建模的函数，EnR是提取信息的参考编码器，φ是对象建模过程。然后，得到对象定位图，如下图所示I_t是产生。

EnQ是帧查询编码器，而γ是一个x_t编码中。M_t-1表示象素查询匹配函数，它搜索的是

如上图所示x_t首先通过查询编码器。编码是根据当前模型和本地化地图检查的。I_t是产生。局部化地图和查询编码通过解码器，掩码为y_t是获得。一旦获得掩模，则x_t，和y_t，和x_{t-1, y}y_t-1传递给变化感知触发器。如果触发器被激活，即图像中存在变化，它们将被传递给LAE进行每像素的内存更新。这个过程的细节将在下一节介绍。

像素自适应内存(PAM)

PAM由三部分组成，下面分别介绍。

1) 变异意识触发器（VAT）。

我们还加入了历史信息来压缩时间冗余：VAT模块评估每对连续帧的帧间变化，当累积的变化达到一定的阈值时，内存就会更新。我们计算每个像素i的掩模和图像变化，如下所示

然后，在每个像素处，更新整体运行变化P如下。

阈值(量、剂量等)钍_f和钍_m是超参数；当P超过Pth时，会触发该帧的内存更新。

2) 像素化内存更新

框架x_t被触发更新，从存储器Bt中找到第一个高变异性的像素；EnR为x_t在尺寸上(HxWxC/8)的主要特点是K_Q,t和维度(HxWxC/2)价值特征V_Q,t编码如下表所示：较浅的关键特征对高效绘图很有用。此外，k_t含有k个像素的存储器。B_t是维度(k_txC/8)的K_R,t和维度(k_txC/2)的V_R,t编码为接下来，我们定义K_Q,t是扁平化的，余弦相似度计算如下。

一个像素的相似度向量是以矩阵S的第i行的最大相似度值来计算的，如下图所示

对Vp,t进行排序，取与记忆中特征变化最大的前β（约10%）%的像素。然后将相应的KQ,t和VQ,t直接加到存储器B中。

3) 像素记忆匹配

本地化地图I_t和查询值V_Q被解码后得到帧的掩码。如上图所示，为了生成本地化地图。K_Q,t ，我们得到了一个局部的地图K_R,t分别格式化为HWxC/8和C/8xK的大小，然后利用点积的相似性得到I_t是利用点积的相似性计算的。这个点积通过softmax函数得到内存值。V_R,t再乘以所得HWxC/2矩阵为V_R,t并与被激活的功能并列。V_D获得，并将其传递给解码器。

这样一来，所有多余的像素都被去除，与所有以前的帧和像素时的HWxHWT相比，I的大小减少到HWxK。这使得SwiftNet的速度比其他最近的型号更快。

光聚合编码器

EnQ和EnR都使用ResNets进行特征提取，EnR不仅可以从输入图像中提取特征，还可以聚合帧掩码。图像和掩码可以连在一起并进行编码，但在这种情况下，图像帧必须通过EnQ和EnR两次，各一次。x_t在EnQ和EnR中分别进行编码，EnQ为图像生成的特征图由EnR在SwiftNet中使用。这使得SwiftNet的效率非常高。

对于帧掩码聚合，我们采用了一种新的光聚合编码器，如上图所示。上排的蓝色立方体代表EnQ的特征图缓冲区，下排的绿色立方体代表输入掩码的特征图。竖直排列的特征大小相同，并且是连体的。输入掩码的特征变换采用反向子像素(RSP)进行下采样，1x1 conv进行通道调整，RSP可以在不损失很多信息的情况下进行下采样。