赶上最新的AI论文

StrongSORT:DeepSORT回来了,更强大了!升级后的追踪模型!

StrongSORT:DeepSORT回来了,更强大了!升级后的追踪模型!

物体追踪

三个要点
✔️ 改进了MOT任务中的早期深度模型DeepSORT,实现了SOTA!
✔️ 提出了两种计算成本较低的后处理方法AFLink和GSI,以进一步提高准确度!
✔️ AFLink和GSI提高了几个模型的准确性,不仅仅是所提出的方法!

StrongSORT: Make DeepSORT Great Again
written by Yunhao DuYang SongBo YangYanyun Zhao
(Submitted on 28 Feb 2022)
Comments: Published on arxiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:   

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

介绍

首先,我附上了MOT17和MOT20的准确性比较,这表明了StrongSORT的优越性。现在,VGGNet,一个著名的特征提取器最近作为RepVGG,一个更强大的版本回归。以类似的标题回归的是StrongSORT:让DeepSORT再次伟大,其中DeepSORT是一个早期的基于深度学习的物体追踪模型,而StrongSORT是对这个早期模型的改进,采用最新的技术实现SOTAStrongSORT是一个通过用最新技术在初始模型上进行改进而实现SOTA的模型。让我们先快速看一下这些改进。

DeepSORT
+BoT:改进的外观特征提取器
+EMA:带有惯性项的特征更新
+NSA:用于非线性运动的卡尔曼滤波器
+MC:包括运动信息的成本矩阵
+ECC:摄像机运动更正
+woC:不采用级联算法
=StrongSORT
+AF链接:仅使用运动信息的全局链接
=StrongSORT+
+GSI内插:通过高斯过程对检测误差进行内插
=StrongSORT++

与其说从根本上改变了结构,不如说是改进了跟踪所需的特征提取、运动信息和成本矩阵的处理。StrongSORT++将AFLink(离线处理)和GSI插值(后处理)应用于改进的StrongSORT,是一个更加精确的模型。我个人认为关键在于此,所以如果你能读到最后,我将很高兴。让我们快速了解一下StrongSORT。

系统定位

本节首先解释了这一方法的系统定位。想了解该方法细节的人可以跳过这一节。深度学习跟踪方法始于DeepSORT。后来,出现了FairMOT和ByteTrack等新方法,并超越了DeepSORT的准确性。在提出新的追踪方法的过程中,出现了两种追踪方法。DeepSORT属于SDE,其检测器是单独准备的。它属于SDE。然而,在本文中,DeepSORT的低准确性并不是因为方法不好,而只是因为它的年龄,其动机是,如果根据此后提出的最新元素技术进行改进,就可以使它变得足够准确。我们有动力去改进它。
改进DeepSORT的原因还有很多。首先,JDE方法的缺点是不容易训练:JDE同时训练检测和跟踪等不同任务的参数,所以模型容易发生冲突,从而限制了准确性。它还需要一个可以同时从检测到跟踪进行训练的数据集,这限制了训练的范围。相比之下,使用SDE,检测和跟踪模型可以被单独优化。最近,诸如ByteTrack这样的模型也被提出来,用于仅基于运动信息的高速跟踪,而没有任何外观信息,但这种模型指出了当目标的运动不简单时无法跟踪的问题。
因此,基于在基于DeepSORT的SDE方法中使用外观特征进行追踪是最佳的动机,提出了StrongSORT

题外话

在追踪任务中,Tracklet、Trajectory、Kalman filter和global link等术语会出现。我们将简要地谈一谈,但请看看之前介绍的GIAOTracker,它更详细地解释了它们;GIAOTracker提供了对追踪所需的三个步骤的系统理解。这两篇论文的作者也是同一个团队。

GIAOTracker:一个用于多类、多对象追踪的综合框架

DeepSORT

在解释StrongSORT之前,有必要快速回顾一下DeepSORT。跟踪任务当前帧t检测到的物体过去0~t-1跟踪到的物体的tracklet(短期轨迹)进行比较,需要进行重新识别,将一个id分配给同一个人。对于这样的关联,利用物体的外观特征和运动信息生成一个衡量异同的成本矩阵,并寻求成本最小的组合。DeepSORT和StrongSORT的概览图如下所示。

特色银行

特征库是Tracklets的外观特征。它需要评估新检测到的物体外观与第t帧中的哪个跟踪点相近。DeepSORT保留了最后100帧的外观特征,因为它们在CNN模型中是如此。CNN模型是一个简单的深度模型,在重新识别数据集MARS上进行了预训练。

卡尔曼滤波器

除了外观特征外,运动信息也很重要。卡尔曼滤波器不是简单的位置接近,而是预测在第t-1帧的物体在第t帧可能出现的位置。预测的Tracklet坐标与检测到的物体之间的距离就是成本。卡尔曼滤波是一种线性卡尔曼滤波,并假定所有物体的噪声相同

匹配级联

检测结果与追踪器相关联时,使用匈牙利算法来评估上述位置信息和外观特征的成本矩阵,以找到最佳组合。DeepSORT还采用了一种匹配级联的算法,这种算法优先将最近检测到的小轨道联系起来。

强化排序

现在让我们进入正题,StrongSort。我们将依次浏览本节开头所示的改进,因为我们的印象是,其中许多改进与GIAOTracker的改进类似。

博特

StrongSORT采用BoT作为更强大的外观特征提取器:与DeepSORT中使用的简单CNN不同,BoT使用ResNeSt50骨干模型,在DukeMTMCreID数据集上预训练。它是一个特征提取器,更能够区分个体之间的特征。

EMA(指数移动平均线)。

EMA是GIAOTracker中提出的一个特征库:DeepSORT特征库保留了100帧的特征,这使得它效率低下,对每一帧的检测噪声高度敏感。相比之下,EMA将过去的特征作为惯性项保留并更新,如下式所示:f是在第t帧检测到的物体的特征,并分配给小轨道 ie是到第t-1帧为止的小轨道的特征。通过用α加权,特征被有效地更新,并减少了噪音。

NSA Karman

GIAOTracker中也提出了NSA卡尔曼:在DeepSORT中,它是一个简单的线性卡尔曼滤波器,但假设所有检测到的物体具有相同的观测噪声是不现实的。因此,NSA卡尔曼根据检测的置信度,以自适应的方式改变噪声。对于复杂的移动物体,检测器可能对物体的输出信心不足,所以卡尔曼滤波器加强了校正。

ck代表每个对象的信心水平。通过这种方式,可以对各种复杂的物体运动进行位置估计。

MC(与运动成本相匹配)。

DeepSORT将位置信息作为一种成本,但实际上只实验了外观特征作为一种成本,其权重设置为零。与这样的DeepSORT不同,StrongSORT生成了一个λ=0.98的成本矩阵,如下式所示。Aa是外观特征的成本,Am是运动(位置)信息的成本。

其他。

StrongSORT使用一种称为ECC的校正算法来应对相机视角的变化。另外,在匹配成本矩阵时,没有采用DeepSORT中使用的匹配级联,而是作为一个简单的线性分配问题来解决。优先考虑具有较近期观测数据的小轨道的原因是,如果跟踪模型很好,这反而会限制准确性。通过简单地让优秀的跟踪模型做所有的工作,在匹配中没有任何额外的条件,准确性得到了提高。woC指的是放弃mathcing cascade。

AFLink

AFLink是本文中最重要的技术之一。到目前为止,我们已经描述了在线追踪,即实时追踪,其中每一帧都被检测到,并将追踪单元连接在一起。从这里开始,使用离线处理。虽然追踪已经进行到最后一帧,但由于检测错误或遮挡,追踪会中断,在短时间内会产生准确但不完整的追踪信息。这时就需要进行离线处理,即所谓的全局链接,将小追踪器连接在一起,AFLink是一种新的方法。

AFLink被提出来作为第一个不使用外观特征的全局链接机制。例如,在GIAOTracker中提出了一个名为GIModel的全局链接,但它是一个相当沉重的模型,用一个基于ResNet的CNN模型从tracklet的每一帧中提取特征,然后将这些特征输入到Transformer Encoder进行相关性提取。该模型相当重。这样的模型在计算上很昂贵,此外,它对外观特征的依赖使它容易受到噪声的影响,这也被指出是一个问题。

相比之下,AFLink在小追踪 T中使用的唯一信息是检测到的帧数f和当时的位置(x,y);两个小追踪 Ti和Tj的最后30帧的信息Ti=(fk,xk,yk)(k=1~30)在卷积层中被压缩和特征提取,TiTj是否代表相同的信心水平输出是Ti和Tj是否代表同一个人的轨迹的信心水平。首先,时间块对三个特征(f、x、y)中的每一个在七帧之间重复压缩时间序列方向。然后应用一个融合块来压缩这三个特征。综合结果被输入到分类器,分类器用Affine和ReLU将其转换为置信度。整体情况如下图所示。应该注意的是,为这两个小轨道提供了单独的区块。

这本身就有点令人困惑,所以根据源代码显示了一个图表。

时间块只在时间方向(7帧)对每个f,x,y独立进行卷积。与此相反,融合块压缩了在时间方向上压缩的三维特征。实验中使用的AFLink模型如下图所示。

由于AFLink是一个CNN模型,它在实验中对数据集进行了预训练;一个将AFLink作为StrongSORT的进一步离线处理的模型是StrongSORT+

GSI(高斯平滑插值)插值

另一项重要技术是GSI插值。在这里,后处理是在在线和离线跟踪也已完成后进行的。后处理的一个重要部分是对遗漏的检测进行插值:当然,在SDE中,除非检测器能够检测到物体,否则就无法进行跟踪。以这种方式丢失的轨迹(所有帧的轨迹)可以通过插值来提高精确度。线性插值作为最简单的插值被广泛使用,但它的精度是有限的,因为它没有使用运动信息。下图中的蓝色显示的是线性插值,但它不自然地在检测到的轨迹(Tracked)之间进行插值,没有再现正确的轨迹(GT)。

GSI的核心是一个高斯过程。高斯过程对多维正态分布进行建模,其均值m和协方差K作为a的函数给出,例如,当从a预测b时,对于一些观察到的数据a,b,p(b|a)=N(m(a),K(a))。在这种情况下,我们假设在帧数t和位置信息(x、y、w、h)之间分别有条件的多维正态分布p(x|t)、p(y|t)、p(w|t)和p(h|t)。然后,我们估计(x,y,w,h)在检测失误的帧t。请注意,我们对 每个轨迹 i应用一个高斯过程,在文中表示为pt。

\begin{align*}
  p_t=f^{(i)}(t)+\epsilon, \quad\mathrm{where}\;f^{(i)}\in GP(0,k(\cdot,\cdot))
\end{align*}

RBF核用于核函数k。分母λ决定了轨迹的平滑性,在本文中被设定为10。
\begin{align*}
  k(x,x')=\exp\left(-\frac{{||x-x'||}^2}{2\lambda^2}\right),\quad \lambda=\tau*\log(\tau^3/l)
\end{align*}图中显示,帧数和位置坐标用正态分布建模,成功地插值了它们之间的检测误差。
StrongSORT++是加入了这种AFLink和GSI插值的StrongSORT。让我们在一个实验中看看它的优势。

实验

数据集

实验比较了MOT17和MOT20数据集,这两个数据集是人员跟踪的基准;与MOT17相比,MOT20是一个更具挑战性的数据集,具有密集的跟踪目标。在消融中,MOT17训练数据中每个视频的前半部分被用于训练,后半部分用于验证。

设置模型

外观特征提取器,BoT,是在DukeMTMC数据集上预训练的。检测器YoloX-X是在COCO数据集上预先训练的。抑制重复检测的NMS阈值为0.8,检测置信度阈值为0.6。

AFLink将30个帧和75个像素范围内的小轨道联系起来。如果输出置信度大于0.95,则考虑关联;GSI将最大可能的内插检测失误设定为20帧。

估值指数

追踪的准确性是从不同的角度来评价MOTA是一个侧重于检测准确性的指标,因为它是根据追踪的假阳性、假阴性和ID切换(IDs)来计算的;IDs是在追踪过程中物体被切换的关联错误;IDF1是一个侧重于追踪过程中IDs匹配的指标,因此,例如,相同数量的IDs将导致一个长而稳定的追踪。HOTA是一个很平衡的评价指标,可以同时评价检测精度(DetA)和跟踪方法(AssA)。

消融

当从基线DeepSORT依次添加机制时,对执行在线跟踪的StrongSORT进行了精度比较。

改进外观特征提取器(BoT)明显改善了IDF1,这表明了外观特征的重要性;增加ECC略微改善了IDF1和MOTA,而相机校正可以提取准确的运动信息。然后,NSA卡尔曼改进了HOTA,但MOTA和IDF1保持不变。当tracklet特征改为EMA时,不仅代表关联准确性的IDF1增加了,而且FPS也提高了,导致速度加快。包括运动信息的成本(Motion Cost)也证实了StrongSORT准确性的提高。最后,StrongSORT在没有匹配级联的情况下执行正常的线性赋值问题,在IDF1中显示出明显的改善,表明级联是没有必要的。

AFLink和GSI。

这里使用StrongSORT和现有的SoTA模型来宣称AFLink和GSI的优势。上面的StrongSORT消融有v1~v6的顺序,这里用的是其中的v1/v3/v6,CenterTrack、TransTrack和FairMOT是现有的方法,AFLink和GSI处理分别加入到六个模型中。使用的模型如下。

AFLink提高了两个模型的准确性。就GSI而言,与AFLink不同,它对更强的跟踪模型更有效。

与线性插值(LI)的比较是针对GSI单独进行的,表明GSI在计算成本略有增加的情况下提高了性能。

如上所述,AFLink和GSI被发现可以提高各种高精度跟踪模型的准确性,而不仅仅是StrongSORT

MOTChallenge。

最后是与许多SoTA的比较:用MOT17和MOT20进行验证;没有进行FPS的比较,因为很难比较JDE和SDE,因为在SDE模型中检测阶段的处理时间基本上被忽略了。

首先是MOT17,在所有方法中,StrongSORT++在HOTA/AssA/DetA方面取得了第一名,在MOYA/IDs方面取得了第二名,远远领先于第二名的精确度。

MOT20处理更拥挤的情况。其中,StrongSORT++在HOTA/IDF1/AssA中同样取得了第一名的成绩。特别是,它显示了非常低的ID数量。

这些结果是在没有对每个数据的参数进行任何调整的情况下实现的,这表明了该方法的多功能性。

还提醒基线,DeepSORT*是在DeepSORT发表时改进了检测器和超参数的模型,仅这一点就显示了SDE范式的有效性,因为它已经产生了良好的效果。

申请的结果包括在最后。他们显示,闭塞也是正确的ID,但MOT20的拥堵程度很高,很难说。令人印象深刻的是,即使在如此高的拥堵情况下,也能对其进行追踪。

印象

AFLink的动机是,对外观特征的过度依赖使其容易受到噪声的影响,但在这种情况下,运动信息似乎也是严重的噪声。国家安全局的卡曼仍然是好的准确性的驱动力吗?我想进一步研究在什么条件下不再需要外观信息,仅仅通过折叠帧号和坐标。

主体中的StrongSORT,但改进后的技术在某些方面与GIAOTracker相当相似。由于这个原因,没有进行过比较,但就准确性而言,哪个更好?我个人觉得,这种方法在在线追踪之后更有吸引力,比如没有外观信息的全局链接和高斯课程的插值追踪。

摘要

论文介绍了StrongSORT,这是DeepSORT的改进版,除了NSA Kalman、ESA和ECC等在线跟踪的要素技术外,还提出了AFLink和GSI,以进一步提高准确性。论文指出,仍有一些问题需要解决,如执行速度比JDE范式的方法和完全不使用外观信息的ByteTrack慢,由于MOTA稍差,需要更严格地确定阈值,以及AFLink对错误的关联轨迹的准确性会恶化。该公司表示,仍有一些问题需要解决。它期待着未来的改进。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们