赶上最新的AI论文

TrackFormer!使用TransFormer进行多物体跟踪。

Transformer

三个要点
✔️ 使用变压器同时进行物体检测和物体跟踪
✔️ 用于在视频帧之间共享信息。
新概念自回归跟踪查询
✔️ SOTA在多个基准上

TrackFormer: Multi-Object Tracking with Transformers
written by Tim MeinhardtAlexander KirillovLaura Leal-TaixeChristoph Feichtenhofer
(Submitted on 7 Jan 2021)
Comments: Accepted to arXiv.

Subjects: Computer Vision and Pattern Recognition (cs. CV)
  

介绍

对象跟踪是计算机视觉和人工智能的重要应用。然而,与人类不同的是,人类善于同时跟踪多个对象,我们需要一个能够同时跟踪多个独立对象的系统。一种常见的实现方法是首先从单个视频帧中检测对象(使用CNN),然后将不同帧中检测到的对象相互关联。许多多物体跟踪(MOT)技术在如何将不同帧中检测到的物体联系起来方面有所不同。这些包括图优化、使用CNNs生成图像之间的相似度分数以及回归。

以往的MOT模块都是用变压器来做关联对象。这里介绍的MOT模块TrackFormer,使用一个变换器同时检测和关联对象,TrackFormer自动并递归关联视频帧,使帧与帧之间共享更多的信息,使被遮挡的对象能够被。并可识别新的对象。

使用Transformer检测

该模块包括一个CNN骨干网(像ResNet),用于从视频中提取帧级特征;从CNN中提取的特征被编码到一个变压器编码器中。在变压器解码器中,利用编码器的信息对输出嵌入进行解码。最后,解码器的MLP层将解码后的嵌入映射成边界框和类预测。这是目前检测过程的概况。

变换器解码器输出Nobj对象嵌入,用于每帧中可能的对象检测。帧特征采用位置编码,对象嵌入采用Nobj对象查询编码。与位置编码不同的是,对象查询是一个学习参数,可以表示各个对象的空间属性。它还能有效地防止同一对象的多次检测。

探测损失

解码器预测{yi}i=1~Nobj由边界框bi和类预测Ci组成。基于边界框和类预测的损失计算被用于将这些预测与地面真相相匹配。最小损耗映射σˆ由以下公式给出

选择最小化损失Cmatch的指数σˆ。损失Cmatch为以下公式。

其中,第一项为第i类的预测类概率,Cbox为对边界框的错误预测的惩罚,计算公式如下

其中,第一项代表边界盒的L1距离,第二项为广义交汇于联合成本(GIoU)。这里,λl1λiou是给每个项的权重。在找到最优σˆ后,检测损失可以计算如下。

这里,Lbox可以用公式(3)计算。

追踪查询

跟踪查询是额外的嵌入,用于共享相邻帧之间的空间和身份信息。对一个对象的跟踪查询是持续更新的。如图所示,在帧t=0时,检测器产生Nobj 嵌入。

对于每一帧t>0的Nobj嵌入,都会产生额外的嵌入,从而实现物体检测,即非背景检测。因此,t>0的每个解码步骤分别取对象和跟踪查询给出的Nobj+Ntrack嵌入。对式(4)稍加修改,得到新的目标函数,如下图所示

这意味着新的目标函数可以检测新的对象,并跟踪已经检测到的对象,而不会重叠。在Nobj嵌入上检测到新的物体,Ntrack会传递已经检测到的、仍然存在于帧中的物体的信息;Nobj是一个固定的集合,而Ntrack是动态的,当一个物体退出场景时,Ntrack会递减,当一个新的物体出现时,Ntrack会递增。Ntrack是动态的,当一个对象离开场景时递减,或者当发现一个新的对象时递增。Ntrack取决于前一帧t-1的物体检测。

在将前一帧的轨迹查询连接成对象查询之前,它们会通过一个独立的自注意块进行转换。

学习

他们采用了一个两阶段的训练过程,利用相邻两帧视频。第一幅图像用于物体检测,另一幅图像用于跟踪和检测新物体。首先利用式(4)对物体检测进行优化,接下来利用式(5)给出的损失函数对物体进行跟踪并检测新的物体。

如前所述,他们使用一种特殊的双元映射技术来寻找一帧中检测到的物体的对应地真值。现在,为了将Ntrack跟踪身份映射到它们的地面真相,使用前一帧的跟踪查询,它必须内在地包含对象身份信息。追踪查询可以匹配地面真相的标签或背景类。如果没有找到映射,那么就会检测到一个新的对象,就可以使用双元映射技术来映射这个对象。

扩容

1)为了使模型具有鲁棒性,t-1帧从接近t帧的一组帧中取样。

2)一般情况下,一帧中新检测到的物体数量比较少。为了弥补这一点,以概率pFN对跟踪查询进行采样,并在进入解码步骤之前将其删除。这使得模型能够更有效地检测新对象。

同样,为了教会模型删除一个对象,在进入解码步骤之前,概率为pFN添加一个假阳性跟踪查询。

3)随机空间抖动

实验

TrackFormer的性能优于Track R-CNN和PointTrack等最先进的模型,并且能够在MOT17和MOT20数据集上获得SOTA。下面是TrackFormer和Track R-CNN的分割结果对比。

TrackFormer可以让你实现更好的精度。

在具有挑战性的MOT17数据集中,TrackFormer基于MOTA指标的表现优于其他所有模型。

此外,TrackFormer基于MOTSA和IDF1在MOTS20数据集上实现了SOTA。

具体实施细节,请参考原文件。

摘要

变形器已经发展到机器翻译、图像识别、3D点处理,甚至多物体跟踪,TrackFormer通过使用自关注机制实现了端到端的多物体跟踪,省去了图优化等额外操作。TrackFormer已经在具有挑战性的MOTS20和MOT17数据集上证明了自己的实力,在对象检测和分割任务上都取得了令人印象深刻的结果。我们期待着未来在MOT任务中的自我关注应用。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们