而且你还可以实时进行!
3个要点
✔️ 一种高效的实时视频对象分割模型
✔️ 两大新概念:像素自适应内存和。 光聚合编码器来解决传统SOTA模型所面临的问题。
✔️SOTA在两个视频对象分割数据集上的表现。
SwiftNet: Real-time Video Object Segmentation
written by Haochen Wang, Xiaolong Jiang, Haibing Ren, Yao Hu, Song Bai
(Submitted on 9 Feb 2021)
Comments: Accepted to arXiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)![]()
code:![]()
首先
实时视频对象分割(VOS)旨在给定第一帧的初始注释,对视频的所有帧进行建模分割。然而,为了实现高效的实时VOS,人们已经做出了各种努力。下图中红线的右侧是目前能够以实时VOS所需的帧率运行的机型,但它们的数量非常少,而且精度不高。
上述模型大多注重提高分割的准确性,而忽略了速度。一些基于内存的模型使用非本地参考查询的所有历史帧的匹配。虽然这些方法非常准确,但分割本身的速度很慢。目前已经采用了一些方法来提高分割的速度,但还不能满足实时VOS的需求。换句话说,效率和准确度之间是有取舍的。
最后本文揭示了时空冗余是拖慢实时VOS的瓶颈。为了解决这个问题,我们引入了像素自适应内存(PAM),它由变化感知的触发器组成,执行每个像素的更新和匹配。有了这一点,所提出的模型SwiftNet能够突破实时VOS的障碍,并在多项基准测试中表现出创纪录的优异性能。
背景资料
单镜头VOS的任务包括两部分:对物体进行分割和对一帧中分割的物体进行匹配。在大多数模块中,对象的分割或多或少都有相似之处。不同的模块采用不同的匹配策略进行参考建模和参考查询。
最后一个参考资料在框架建模方法中,以上一帧或第一帧作为参考,确定当前帧中的对应对象。这种方法由于分割成本低,速度快,但对从一帧中添加/删除对象(对象变化)无效。
全帧法使用的是之前所有帧的数据,因此精度较高,但速度较慢。另一种方法是使用RNN向网络传播相关信息,如STM模型。这种模型对于对象的变化非常有效,因为它们传播了时间信息。参考查询匹配策略通常使用CNN、交叉相关或非局部计算来衡量对象之间的相似性。
SwiftNet
对象 O = [o1,o2,.... on]帧包含 V= [x1,x2.... xn]在带遮罩的视频序列的情况下yt当前帧的注释为xt为当前帧注解前面所有框架Vt-1及其面具[y1, y2... yt-1]使用帧的历史信息 t-1该模型可达Mt-1确立如下:
哪儿I是表示是否使用帧t进行建模的函数,EnR是提取信息的参考编码器,φ是对象建模过程。然后,得到对象定位图,如下图所示It是产生。
EnQ是帧查询编码器,而γ是一个xt编码中。Mt-1表示象素查询匹配函数,它搜索的是
如上图所示xt首先通过查询编码器。编码是根据当前模型和本地化地图检查的。It是产生。局部化地图和查询编码通过解码器,掩码为yt是获得。一旦获得掩模,则xt,和yt,和xt-1, yyt-1传递给变化感知触发器。如果触发器被激活,即图像中存在变化,它们将被传递给LAE进行每像素的内存更新。这个过程的细节将在下一节介绍。
像素自适应内存(PAM)
PAM由三部分组成,下面分别介绍。
1) 变异意识触发器(VAT)。
我们还加入了历史信息来压缩时间冗余:VAT模块评估每对连续帧的帧间变化,当累积的变化达到一定的阈值时,内存就会更新。我们计算每个像素i的掩模和图像变化,如下所示
然后,在每个像素处,更新整体运行变化P如下。
阈值(量、剂量等)钍f和钍m是超参数;当P超过Pth时,会触发该帧的内存更新。
2) 像素化内存更新
框架xt被触发更新,从存储器Bt中找到第一个高变异性的像素;EnR为xt在尺寸上(HxWxC/8)的主要特点是KQ,t和维度(HxWxC/2)价值特征VQ,t编码如下表所示:较浅的关键特征对高效绘图很有用。此外,kt含有k个像素的存储器。Bt是维度(ktxC/8)的KR,t和维度(ktxC/2)的VR,t编码为接下来,我们定义KQ,t是扁平化的,余弦相似度计算如下。
一个像素的相似度向量是以矩阵S的第i行的最大相似度值来计算的,如下图所示
对Vp,t进行排序,取与记忆中特征变化最大的前β(约10%)%的像素。然后将相应的KQ,t和VQ,t直接加到存储器B中。
3) 像素记忆匹配
本地化地图It和查询值VQ被解码后得到帧的掩码。 如上图所示,为了生成本地化地图。KQ,t ,我们得到了一个局部的地图KR,t分别格式化为HWxC/8和C/8xK的大小,然后利用点积的相似性得到It是利用点积的相似性计算的。这个点积通过softmax函数得到内存值。VR,t再乘以 所得HWxC/2矩阵为VR,t并与被激活的功能并列。VD获得,并将其传递给解码器。
这样一来,所有多余的像素都被去除,与所有以前的帧和像素时的HWxHWT相比,I的大小减少到HWxK。这使得SwiftNet的速度比其他最近的型号更快。
光聚合编码器
EnQ和EnR都使用ResNets进行特征提取,EnR不仅可以从输入图像中提取特征,还可以聚合帧掩码。图像和掩码可以连在一起并进行编码,但在这种情况下,图像帧必须通过EnQ和EnR两次,各一次。xt在EnQ和EnR中分别进行编码,EnQ为图像生成的特征图由EnR在SwiftNet中使用。这使得SwiftNet的效率非常高。
对于帧掩码聚合,我们采用了一种新的光聚合编码器,如上图所示。上排的蓝色立方体代表EnQ的特征图缓冲区,下排的绿色立方体代表输入掩码的特征图。竖直排列的特征大小相同,并且是连体的。输入掩码的特征变换采用反向子像素(RSP)进行下采样,1x1 conv进行通道调整,RSP可以在不损失很多信息的情况下进行下采样。
反向子像素降采样
实验
SwiftNets在DAVIS-17上产生的分割结果。
采用ResNet-18和ResNet-50主干的SwiftNet模型在DAVIS 2017和YouTube-VOS数据集上进行了测试。使用的指标是Jaccard相似度指数(J)和平均边界F-Score(F)来衡量分割的准确性,它们的平均值(J和F)和每秒帧数(FPS)来衡量分割速度。
上表显示了DAVIS-2017数据集的结果。
上表显示了在YouTube-VOS数据集上的结果,其中s和u表示看过和未看过的类,G表示总分,OL表示在线学习。在这两个数据集中,SwiftNet与其他SOTA模型相比,显示出更高的准确性和速度;SwiftNet只是在YouTube VOS数据集的未见类的J-score上落后。
有关实验设置和消融的更多信息,请参考论文。
结论
在本文中,我们引入了两种新方法。本文介绍了像素自适应存储器和光聚合编码器两种新方法,以解决传统VOS模型中的速度-精度权衡问题。基于匹配的VOS中的时空冗余问题,一直是实时VOS模型的瓶颈。因此,本论文为今后在VOS中的工作奠定了坚实的基础,swiftNet由于兼容速度快,效率高,也适合实际应用。
与本文相关的类别