赶上最新的AI论文

而且你还可以实时进行!

视频对象分割

3个要点
✔️
一种高效的实时视频对象分割模型
✔️ 两大新概念:像素自适应内存和。 光聚合编码器来解决传统SOTA模型所面临的问题。
✔️SOTA在两个视频对象分割数据集上的表现。

SwiftNet: Real-time Video Object Segmentation
written by Haochen WangXiaolong JiangHaibing RenYao HuSong Bai
(Submitted on 9 Feb 2021)
Comments: Accepted to arXiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)
 
code: 

首先

实时视频对象分割(VOS)旨在给定第一帧的初始注释,对视频的所有帧进行建模分割。然而,为了实现高效的实时VOS,人们已经做出了各种努力。下图中红线的右侧是目前能够以实时VOS所需的帧率运行的机型,但它们的数量非常少,而且精度不高。


上述模型大多注重提高分割的准确性,而忽略了速度。一些基于内存的模型使用非本地参考查询的所有历史帧的匹配。虽然这些方法非常准确,但分割本身的速度很慢。目前已经采用了一些方法来提高分割的速度,但还不能满足实时VOS的需求。换句话说,效率和准确度之间是有取舍的。

最后本文揭示了时空冗余是拖慢实时VOS的瓶颈。为了解决这个问题,我们引入了像素自适应内存(PAM),它由变化感知的触发器组成,执行每个像素的更新和匹配。有了这一点,所提出的模型SwiftNet能够突破实时VOS的障碍,并在多项基准测试中表现出创纪录的优异性能。

背景资料

单镜头VOS的任务包括两部分:对物体进行分割和对一帧中分割的物体进行匹配。在大多数模块中,对象的分割或多或少都有相似之处。不同的模块采用不同的匹配策略进行参考建模和参考查询。

最后一个参考资料在框架建模方法中,以上一帧或第一帧作为参考,确定当前帧中的对应对象。这种方法由于分割成本低,速度快,但对从一帧中添加/删除对象(对象变化)无效。

全帧法使用的是之前所有帧的数据,因此精度较高,但速度较慢。另一种方法是使用RNN向网络传播相关信息,如STM模型。这种模型对于对象的变化非常有效,因为它们传播了时间信息。参考查询匹配策略通常使用CNN、交叉相关或非局部计算来衡量对象之间的相似性。

SwiftNet

对象 O = [o1,o2,.... on]帧包含 V= [x1,x2.... xn]在带遮罩的视频序列的情况下yt当前帧的注释为xt为当前帧注解前面所有框架Vt-1及其面具[y1, y2... yt-1]使用帧的历史信息 t-1该模型可达Mt-1确立如下:


哪儿I是表示是否使用帧t进行建模的函数,EnR是提取信息的参考编码器,φ是对象建模过程。然后,得到对象定位图,如下图所示It是产生。

EnQ是帧查询编码器,而γ是一个xt编码中。Mt-1表示象素查询匹配函数,它搜索的是


如上图所示xt首先通过查询编码器。编码是根据当前模型和本地化地图检查的。It是产生。局部化地图和查询编码通过解码器,掩码为yt是获得。一旦获得掩模,则xt,和yt,和xt-1, yyt-1传递给变化感知触发器。如果触发器被激活,即图像中存在变化,它们将被传递给LAE进行每像素的内存更新。这个过程的细节将在下一节介绍。

像素自适应内存(PAM)

PAM由三部分组成,下面分别介绍。

1) 变异意识触发器(VAT)。

我们还加入了历史信息来压缩时间冗余:VAT模块评估每对连续帧的帧间变化,当累积的变化达到一定的阈值时,内存就会更新。我们计算每个像素i的掩模和图像变化,如下所示


然后,在每个像素处,更新整体运行变化P如下。


阈值(量、剂量等)fm是超参数;当P超过Pth时,会触发该帧的内存更新。

2) 像素化内存更新

框架xt被触发更新,从存储器Bt中找到第一个高变异性的像素;EnR为xt在尺寸上(HxWxC/8)的主要特点是KQ,t和维度(HxWxC/2)价值特征VQ,t编码如下表所示:较浅的关键特征对高效绘图很有用。此外,kt含有k个像素的存储器。Bt是维度(ktxC/8)KR,t和维度(ktxC/2)VR,t编码为接下来,我们定义KQ,t是扁平化的,余弦相似度计算如下。


一个像素的相似度向量是以矩阵S的第i行的最大相似度值来计算的,如下图所示


对Vp,t进行排序,取与记忆中特征变化最大的前β(约10%)%的像素。然后将相应的KQ,t和VQ,t直接加到存储器B中。

3) 像素记忆匹配


本地化地图It和查询值VQ被解码后得到帧的掩码。 如上图所示,为了生成本地化地图。KQ,t ,我们得到了一个局部的地图KR,t分别格式化为HWxC/8和C/8xK的大小,然后利用点积的相似性得到It是利用点积的相似性计算的。这个点积通过softmax函数得到内存值。VR,t再乘以 所得HWxC/2矩阵为VR,t并与被激活的功能并列。VD获得,并将其传递给解码器。

 

这样一来,所有多余的像素都被去除,与所有以前的帧和像素时的HWxHWT相比,I的大小减少到HWxK。这使得SwiftNet的速度比其他最近的型号更快。

光聚合编码器

EnQ和EnR都使用ResNets进行特征提取,EnR不仅可以从输入图像中提取特征,还可以聚合帧掩码。图像和掩码可以连在一起并进行编码,但在这种情况下,图像帧必须通过EnQ和EnR两次,各一次。xt在EnQ和EnR中分别进行编码,EnQ为图像生成的特征图由EnR在SwiftNet中使用。这使得SwiftNet的效率非常高。

对于帧掩码聚合,我们采用了一种新的光聚合编码器,如上图所示。上排的蓝色立方体代表EnQ的特征图缓冲区,下排的绿色立方体代表输入掩码的特征图。竖直排列的特征大小相同,并且是连体的。输入掩码的特征变换采用反向子像素(RSP)进行下采样,1x1 conv进行通道调整,RSP可以在不损失很多信息的情况下进行下采样。

反向子像素降采样

实验

SwiftNets在DAVIS-17上产生的分割结果。

采用ResNet-18和ResNet-50主干的SwiftNet模型在DAVIS 2017和YouTube-VOS数据集上进行了测试。使用的指标是Jaccard相似度指数(J)和平均边界F-Score(F)来衡量分割的准确性,它们的平均值(J和F)和每秒帧数(FPS)来衡量分割速度。

上表显示了DAVIS-2017数据集的结果。


上表显示了在YouTube-VOS数据集上的结果,其中s和u表示看过和未看过的类,G表示总分,OL表示在线学习。在这两个数据集中,SwiftNet与其他SOTA模型相比,显示出更高的准确性和速度;SwiftNet只是在YouTube VOS数据集的未见类的J-score上落后。

有关实验设置和消融的更多信息,请参考论文。

结论

在本文中,我们引入了两种新方法。本文介绍了像素自适应存储器和光聚合编码器两种新方法,以解决传统VOS模型中的速度-精度权衡问题。基于匹配的VOS中的时空冗余问题,一直是实时VOS模型的瓶颈。因此,本论文为今后在VOS中的工作奠定了坚实的基础,swiftNet由于兼容速度快,效率高,也适合实际应用。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们