
StrongSORT:DeepSORT回来了,更强大了!升级后的追踪模型!
三个要点
✔️ 改进了MOT任务中的早期深度模型DeepSORT,实现了SOTA!
✔️ 提出了两种计算成本较低的后处理方法AFLink和GSI,以进一步提高准确度!
✔️ AFLink和GSI提高了几个模型的准确性,不仅仅是所提出的方法!
StrongSORT: Make DeepSORT Great Again
written by Yunhao Du, Yang Song, Bo Yang, Yanyun Zhao
(Submitted on 28 Feb 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)
code:![]()
![]()
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
介绍
首先,我附上了MOT17和MOT20的准确性比较,这表明了StrongSORT的优越性。现在,VGGNet,一个著名的特征提取器,最近作为RepVGG,一个更强大的版本回归。以类似的标题回归的是StrongSORT:让DeepSORT再次伟大,其中DeepSORT是一个早期的基于深度学习的物体追踪模型,而StrongSORT是对这个早期模型的改进,采用最新的技术实现SOTAStrongSORT是一个通过用最新技术在初始模型上进行改进而实现SOTA的模型。让我们先快速看一下这些改进。
DeepSORT
+BoT:改进的外观特征提取器
+EMA:带有惯性项的特征更新
+NSA:用于非线性运动的卡尔曼滤波器
+MC:包括运动信息的成本矩阵
+ECC:摄像机运动更正
+woC:不采用级联算法
=StrongSORT
+AF链接:仅使用运动信息的全局链接
=StrongSORT+
+GSI内插:通过高斯过程对检测误差进行内插
=StrongSORT++
与其说从根本上改变了结构,不如说是改进了跟踪所需的特征提取、运动信息和成本矩阵的处理。StrongSORT++将AFLink(离线处理)和GSI插值(后处理)应用于改进的StrongSORT,是一个更加精确的模型。我个人认为关键在于此,所以如果你能读到最后,我将很高兴。让我们快速了解一下StrongSORT。
系统定位
本节首先解释了这一方法的系统定位。想了解该方法细节的人可以跳过这一节。深度学习跟踪方法始于DeepSORT。后来,出现了FairMOT和ByteTrack等新方法,并超越了DeepSORT的准确性。在提出新的追踪方法的过程中,出现了两种追踪方法。DeepSORT属于SDE,其检测器是单独准备的。它属于SDE。然而,在本文中,DeepSORT的低准确性并不是因为方法不好,而只是因为它的年龄,其动机是,如果根据此后提出的最新元素技术进行改进,就可以使它变得足够准确。我们有动力去改进它。
改进DeepSORT的原因还有很多。首先,JDE方法的缺点是不容易训练:JDE同时训练检测和跟踪等不同任务的参数,所以模型容易发生冲突,从而限制了准确性。它还需要一个可以同时从检测到跟踪进行训练的数据集,这限制了训练的范围。相比之下,使用SDE,检测和跟踪模型可以被单独优化。最近,诸如ByteTrack这样的模型也被提出来,用于仅基于运动信息的高速跟踪,而没有任何外观信息,但这种模型指出了当目标的运动不简单时无法跟踪的问题。
因此,基于在基于DeepSORT的SDE方法中使用外观特征进行追踪是最佳的动机,提出了StrongSORT。
题外话
在追踪任务中,Tracklet、Trajectory、Kalman filter和global link等术语会出现。我们将简要地谈一谈,但请看看之前介绍的GIAOTracker,它更详细地解释了它们;GIAOTracker提供了对追踪所需的三个步骤的系统理解。这两篇论文的作者也是同一个团队。
DeepSORT
在解释StrongSORT之前,有必要快速回顾一下DeepSORT。在跟踪任务中,在当前帧t检测到的物体和过去0~t-1帧中跟踪到的物体的tracklet(短期轨迹)进行比较,需要进行重新识别,将一个id分配给同一个人。对于这样的关联,利用物体的外观特征和运动信息生成一个衡量异同的成本矩阵,并寻求成本最小的组合。DeepSORT和StrongSORT的概览图如下所示。
特色银行
特征库是Tracklets的外观特征。它需要评估新检测到的物体外观与第t帧中的哪个跟踪点相近。DeepSORT保留了最后100帧的外观特征,因为它们在CNN模型中是如此。CNN模型是一个简单的深度模型,在重新识别数据集MARS上进行了预训练。
卡尔曼滤波器
除了外观特征外,运动信息也很重要。卡尔曼滤波器不是简单的位置接近,而是预测在第t-1帧的物体在第t帧可能出现的位置。预测的Tracklet坐标与检测到的物体之间的距离就是成本。卡尔曼滤波是一种线性卡尔曼滤波,并假定所有物体的噪声相同。
匹配级联
在将检测结果与追踪器相关联时,使用匈牙利算法来评估上述位置信息和外观特征的成本矩阵,以找到最佳组合。DeepSORT还采用了一种匹配级联的算法,这种算法优先将最近检测到的小轨道联系起来。
强化排序
现在让我们进入正题,StrongSort。我们将依次浏览本节开头所示的改进,因为我们的印象是,其中许多改进与GIAOTracker的改进类似。
博特
StrongSORT采用BoT作为更强大的外观特征提取器:与DeepSORT中使用的简单CNN不同,BoT使用ResNeSt50骨干模型,在DukeMTMCreID数据集上预训练。它是一个特征提取器,更能够区分个体之间的特征。
EMA(指数移动平均线)。
EMA是GIAOTracker中提出的一个特征库:DeepSORT特征库保留了100帧的特征,这使得它效率低下,对每一帧的检测噪声高度敏感。相比之下,EMA将过去的特征作为惯性项保留并更新,如下式所示:f是在第t帧检测到的物体的特征,并分配给小轨道 i,e是到第t-1帧为止的小轨道的特征。通过用α加权,特征被有效地更新,并减少了噪音。
NSA Karman
GIAOTracker中也提出了NSA卡尔曼:在DeepSORT中,它是一个简单的线性卡尔曼滤波器,但假设所有检测到的物体具有相同的观测噪声是不现实的。因此,NSA卡尔曼根据检测的置信度,以自适应的方式改变噪声。对于复杂的移动物体,检测器可能对物体的输出信心不足,所以卡尔曼滤波器加强了校正。
ck代表每个对象的信心水平。通过这种方式,可以对各种复杂的物体运动进行位置估计。
MC(与运动成本相匹配)。
DeepSORT将位置信息作为一种成本,但实际上只实验了外观特征作为一种成本,其权重设置为零。与这样的DeepSORT不同,StrongSORT生成了一个λ=0.98的成本矩阵,如下式所示。Aa是外观特征的成本,Am是运动(位置)信息的成本。
其他。
StrongSORT使用一种称为ECC的校正算法来应对相机视角的变化。另外,在匹配成本矩阵时,没有采用DeepSORT中使用的匹配级联,而是作为一个简单的线性分配问题来解决。优先考虑具有较近期观测数据的小轨道的原因是,如果跟踪模型很好,这反而会限制准确性。通过简单地让优秀的跟踪模型做所有的工作,在匹配中没有任何额外的条件,准确性得到了提高。woC指的是放弃mathcing cascade。
AFLink
AFLink是本文中最重要的技术之一。到目前为止,我们已经描述了在线追踪,即实时追踪,其中每一帧都被检测到,并将追踪单元连接在一起。从这里开始,使用离线处理。虽然追踪已经进行到最后一帧,但由于检测错误或遮挡,追踪会中断,在短时间内会产生准确但不完整的追踪信息。这时就需要进行离线处理,即所谓的全局链接,将小追踪器连接在一起,AFLink是一种新的方法。
AFLink被提出来作为第一个不使用外观特征的全局链接机制。例如,在GIAOTracker中提出了一个名为GIModel的全局链接,但它是一个相当沉重的模型,用一个基于ResNet的CNN模型从tracklet的每一帧中提取特征,然后将这些特征输入到Transformer Encoder进行相关性提取。该模型相当重。这样的模型在计算上很昂贵,此外,它对外观特征的依赖使它容易受到噪声的影响,这也被指出是一个问题。
相比之下,AFLink在小追踪 T中使用的唯一信息是检测到的帧数f和当时的位置(x,y);两个小追踪 Ti和Tj的最后30帧的信息Ti=(fk,xk,yk)(k=1~30)在卷积层中被压缩和特征提取,Ti和Tj是否代表相同的信心水平输出是Ti和Tj是否代表同一个人的轨迹的信心水平。首先,时间块对三个特征(f、x、y)中的每一个在七帧之间重复压缩时间序列方向。然后应用一个融合块来压缩这三个特征。综合结果被输入到分类器,分类器用Affine和ReLU将其转换为置信度。整体情况如下图所示。应该注意的是,为这两个小轨道提供了单独的区块。
这本身就有点令人困惑,所以根据源代码显示了一个图表。
时间块只在时间方向(7帧)对每个f,x,y独立进行卷积。与此相反,融合块压缩了在时间方向上压缩的三维特征。实验中使用的AFLink模型如下图所示。
由于AFLink是一个CNN模型,它在实验中对数据集进行了预训练;一个将AFLink作为StrongSORT的进一步离线处理的模型是StrongSORT+。
GSI(高斯平滑插值)插值
另一项重要技术是GSI插值。在这里,后处理是在在线和离线跟踪也已完成后进行的。后处理的一个重要部分是对遗漏的检测进行插值:当然,在SDE中,除非检测器能够检测到物体,否则就无法进行跟踪。以这种方式丢失的轨迹(所有帧的轨迹)可以通过插值来提高精确度。线性插值作为最简单的插值被广泛使用,但它的精度是有限的,因为它没有使用运动信息。下图中的蓝色显示的是线性插值,但它不自然地在检测到的轨迹(Tracked)之间进行插值,没有再现正确的轨迹(GT)。
GSI的核心是一个高斯过程。高斯过程对多维正态分布进行建模,其均值m和协方差K作为a的函数给出,例如,当从a预测b时,对于一些观察到的数据a,b,p(b|a)=N(m(a),K(a))。在这种情况下,我们假设在帧数t和位置信息(x、y、w、h)之间分别有条件的多维正态分布p(x|t)、p(y|t)、p(w|t)和p(h|t)。然后,我们估计(x,y,w,h)在检测失误的帧t。请注意,我们对 每个轨迹 i应用一个高斯过程,在文中表示为pt。
RBF核用于核函数k。分母λ决定了轨迹的平滑性,在本文中被设定为10。图中显示,帧数和位置坐标用正态分布建模,成功地插值了它们之间的检测误差。StrongSORT++是加入了这种AFLink和GSI插值的StrongSORT。让我们在一个实验中看看它的优势。
实验
数据集
实验比较了MOT17和MOT20数据集,这两个数据集是人员跟踪的基准;与MOT17相比,MOT20是一个更具挑战性的数据集,具有密集的跟踪目标。在消融中,MOT17训练数据中每个视频的前半部分被用于训练,后半部分用于验证。
设置模型
外观特征提取器,BoT,是在DukeMTMC数据集上预训练的。检测器YoloX-X是在COCO数据集上预先训练的。抑制重复检测的NMS阈值为0.8,检测置信度阈值为0.6。
AFLink将30个帧和75个像素范围内的小轨道联系起来。如果输出置信度大于0.95,则考虑关联;GSI将最大可能的内插检测失误设定为20帧。
估值指数
追踪的准确性是从不同的角度来评价的MOTA是一个侧重于检测准确性的指标,因为它是根据追踪的假阳性、假阴性和ID切换(IDs)来计算的;IDs是在追踪过程中物体被切换的关联错误;IDF1是一个侧重于追踪过程中IDs匹配的指标,因此,例如,相同数量的IDs将导致一个长而稳定的追踪。HOTA是一个很平衡的评价指标,可以同时评价检测精度(DetA)和跟踪方法(AssA)。
消融
当从基线DeepSORT依次添加机制时,对执行在线跟踪的StrongSORT进行了精度比较。
改进外观特征提取器(BoT)明显改善了IDF1,这表明了外观特征的重要性;增加ECC略微改善了IDF1和MOTA,而相机校正可以提取准确的运动信息。然后,NSA卡尔曼改进了HOTA,但MOTA和IDF1保持不变。当tracklet特征改为EMA时,不仅代表关联准确性的IDF1增加了,而且FPS也提高了,导致速度加快。包括运动信息的成本(Motion Cost)也证实了StrongSORT准确性的提高。最后,StrongSORT在没有匹配级联的情况下执行正常的线性赋值问题,在IDF1中显示出明显的改善,表明级联是没有必要的。
AFLink和GSI。
这里使用StrongSORT和现有的SoTA模型来宣称AFLink和GSI的优势。上面的StrongSORT消融有v1~v6的顺序,这里用的是其中的v1/v3/v6,CenterTrack、TransTrack和FairMOT是现有的方法,AFLink和GSI处理分别加入到六个模型中。使用的模型如下。
AFLink提高了两个模型的准确性。就GSI而言,与AFLink不同,它对更强的跟踪模型更有效。
与线性插值(LI)的比较是针对GSI单独进行的,表明GSI在计算成本略有增加的情况下提高了性能。
如上所述,AFLink和GSI被发现可以提高各种高精度跟踪模型的准确性,而不仅仅是StrongSORT。
MOTChallenge。
最后是与许多SoTA的比较:用MOT17和MOT20进行验证;没有进行FPS的比较,因为很难比较JDE和SDE,因为在SDE模型中检测阶段的处理时间基本上被忽略了。
首先是MOT17,在所有方法中,StrongSORT++在HOTA/AssA/DetA方面取得了第一名,在MOYA/IDs方面取得了第二名,远远领先于第二名的精确度。
MOT20处理更拥挤的情况。其中,StrongSORT++在HOTA/IDF1/AssA中同样取得了第一名的成绩。特别是,它显示了非常低的ID数量。
这些结果是在没有对每个数据的参数进行任何调整的情况下实现的,这表明了该方法的多功能性。
还提醒基线,DeepSORT*是在DeepSORT发表时改进了检测器和超参数的模型,仅这一点就显示了SDE范式的有效性,因为它已经产生了良好的效果。
申请的结果包括在最后。他们显示,闭塞也是正确的ID,但MOT20的拥堵程度很高,很难说。令人印象深刻的是,即使在如此高的拥堵情况下,也能对其进行追踪。
印象
AFLink的动机是,对外观特征的过度依赖使其容易受到噪声的影响,但在这种情况下,运动信息似乎也是严重的噪声。国家安全局的卡曼仍然是好的准确性的驱动力吗?我想进一步研究在什么条件下不再需要外观信息,仅仅通过折叠帧号和坐标。
主体中的StrongSORT,但改进后的技术在某些方面与GIAOTracker相当相似。由于这个原因,没有进行过比较,但就准确性而言,哪个更好?我个人觉得,这种方法在在线追踪之后更有吸引力,比如没有外观信息的全局链接和高斯课程的插值追踪。
摘要
论文介绍了StrongSORT,这是DeepSORT的改进版,除了NSA Kalman、ESA和ECC等在线跟踪的要素技术外,还提出了AFLink和GSI,以进一步提高准确性。论文指出,仍有一些问题需要解决,如执行速度比JDE范式的方法和完全不使用外观信息的ByteTrack慢,由于MOTA稍差,需要更严格地确定阈值,以及AFLink对错误的关联轨迹的准确性会恶化。该公司表示,仍有一些问题需要解决。它期待着未来的改进。
与本文相关的类别