StrongSORT：DeepSORT回来了，更强大了!升级后的追踪模型!

物体追踪 31/12/2022

三个要点
✔️ 改进了MOT任务中的早期深度模型DeepSORT，实现了SOTA!
✔️ 提出了两种计算成本较低的后处理方法AFLink和GSI，以进一步提高准确度!
✔️ AFLink和GSI提高了几个模型的准确性，不仅仅是所提出的方法!

StrongSORT: Make DeepSORT Great Again
written by Yunhao Du, Yang Song, Bo Yang, Yanyun Zhao
(Submitted on 28 Feb 2022)
Comments: Published on arxiv.
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

首先，我附上了MOT17和MOT20的准确性比较，这表明了StrongSORT的优越性。现在，VGGNet，一个著名的特征提取器，最近作为RepVGG，一个更强大的版本回归。以类似的标题回归的是StrongSORT：让DeepSORT再次伟大，其中DeepSORT是一个早期的基于深度学习的物体追踪模型，而StrongSORT是对这个早期模型的改进，采用最新的技术实现SOTAStrongSORT是一个通过用最新技术在初始模型上进行改进而实现SOTA的模型。让我们先快速看一下这些改进。

DeepSORT
+BoT：改进的外观特征提取器
+EMA：带有惯性项的特征更新
+NSA：用于非线性运动的卡尔曼滤波器
+MC：包括运动信息的成本矩阵
+ECC：摄像机运动更正
+woC：不采用级联算法
=StrongSORT
+AF链接：仅使用运动信息的全局链接
=StrongSORT+
+GSI内插：通过高斯过程对检测误差进行内插
=StrongSORT++

与其说从根本上改变了结构，不如说是改进了跟踪所需的特征提取、运动信息和成本矩阵的处理。StrongSORT++将AFLink（离线处理）和GSI插值（后处理）应用于改进的StrongSORT，是一个更加精确的模型。我个人认为关键在于此，所以如果你能读到最后，我将很高兴。让我们快速了解一下StrongSORT。

系统定位

本节首先解释了这一方法的系统定位。想了解该方法细节的人可以跳过这一节。深度学习跟踪方法始于DeepSORT。后来，出现了FairMOT和ByteTrack等新方法，并超越了DeepSORT的准确性。在提出新的追踪方法的过程中，出现了两种追踪方法。DeepSORT属于SDE，其检测器是单独准备的。它属于SDE。然而，在本文中，DeepSORT的低准确性并不是因为方法不好，而只是因为它的年龄，其动机是，如果根据此后提出的最新元素技术进行改进，就可以使它变得足够准确。我们有动力去改进它。
改进DeepSORT的原因还有很多。首先，JDE方法的缺点是不容易训练：JDE同时训练检测和跟踪等不同任务的参数，所以模型容易发生冲突，从而限制了准确性。它还需要一个可以同时从检测到跟踪进行训练的数据集，这限制了训练的范围。相比之下，使用SDE，检测和跟踪模型可以被单独优化。最近，诸如ByteTrack这样的模型也被提出来，用于仅基于运动信息的高速跟踪，而没有任何外观信息，但这种模型指出了当目标的运动不简单时无法跟踪的问题。
因此，基于在基于DeepSORT的SDE方法中使用外观特征进行追踪是最佳的动机，提出了StrongSORT。

题外话

在追踪任务中，Tracklet、Trajectory、Kalman filter和global link等术语会出现。我们将简要地谈一谈，但请看看之前介绍的GIAOTracker，它更详细地解释了它们；GIAOTracker提供了对追踪所需的三个步骤的系统理解。这两篇论文的作者也是同一个团队。

GIAOTracker：一个用于多类、多对象追踪的综合框架

DeepSORT

在解释StrongSORT之前，有必要快速回顾一下DeepSORT。在跟踪任务中，在当前帧t检测到的物体和过去0~t-1帧中跟踪到的物体的tracklet（短期轨迹）进行比较，需要进行重新识别，将一个id分配给同一个人。对于这样的关联，利用物体的外观特征和运动信息生成一个衡量异同的成本矩阵，并寻求成本最小的组合。DeepSORT和StrongSORT的概览图如下所示。

特色银行

特征库是Tracklets的外观特征。它需要评估新检测到的物体外观与第t帧中的哪个跟踪点相近。DeepSORT保留了最后100帧的外观特征，因为它们在CNN模型中是如此。CNN模型是一个简单的深度模型，在重新识别数据集MARS上进行了预训练。

卡尔曼滤波器

除了外观特征外，运动信息也很重要。卡尔曼滤波器不是简单的位置接近，而是预测在第t-1帧的物体在第t帧可能出现的位置。预测的Tracklet坐标与检测到的物体之间的距离就是成本。卡尔曼滤波是一种线性卡尔曼滤波，并假定所有物体的噪声相同。

匹配级联

在将检测结果与追踪器相关联时，使用匈牙利算法来评估上述位置信息和外观特征的成本矩阵，以找到最佳组合。DeepSORT还采用了一种匹配级联的算法，这种算法优先将最近检测到的小轨道联系起来。

强化排序

现在让我们进入正题，StrongSort。我们将依次浏览本节开头所示的改进，因为我们的印象是，其中许多改进与GIAOTracker的改进类似。

博特

StrongSORT采用BoT作为更强大的外观特征提取器：与DeepSORT中使用的简单CNN不同，BoT使用ResNeSt50骨干模型，在DukeMTMCreID数据集上预训练。它是一个特征提取器，更能够区分个体之间的特征。

EMA（指数移动平均线）。

EMA是GIAOTracker中提出的一个特征库：DeepSORT特征库保留了100帧的特征，这使得它效率低下，对每一帧的检测噪声高度敏感。相比之下，EMA将过去的特征作为惯性项保留并更新，如下式所示：f是在第t帧检测到的物体的特征，并分配给小轨道 i，e是到第t-1帧为止的小轨道的特征。通过用α加权，特征被有效地更新，并减少了噪音。

NSA Karman

GIAOTracker中也提出了NSA卡尔曼：在DeepSORT中，它是一个简单的线性卡尔曼滤波器，但假设所有检测到的物体具有相同的观测噪声是不现实的。因此，NSA卡尔曼根据检测的置信度，以自适应的方式改变噪声。对于复杂的移动物体，检测器可能对物体的输出信心不足，所以卡尔曼滤波器加强了校正。

ck代表每个对象的信心水平。通过这种方式，可以对各种复杂的物体运动进行位置估计。

MC（与运动成本相匹配）。

DeepSORT将位置信息作为一种成本，但实际上只实验了外观特征作为一种成本，其权重设置为零。与这样的DeepSORT不同，StrongSORT生成了一个λ=0.98的成本矩阵，如下式所示。Aa是外观特征的成本，Am是运动（位置）信息的成本。

其他。

StrongSORT使用一种称为ECC的校正算法来应对相机视角的变化。另外，在匹配成本矩阵时，没有采用DeepSORT中使用的匹配级联，而是作为一个简单的线性分配问题来解决。优先考虑具有较近期观测数据的小轨道的原因是，如果跟踪模型很好，这反而会限制准确性。通过简单地让优秀的跟踪模型做所有的工作，在匹配中没有任何额外的条件，准确性得到了提高。woC指的是放弃mathcing cascade。

AFLink

AFLink是本文中最重要的技术之一。到目前为止，我们已经描述了在线追踪，即实时追踪，其中每一帧都被检测到，并将追踪单元连接在一起。从这里开始，使用离线处理。虽然追踪已经进行到最后一帧，但由于检测错误或遮挡，追踪会中断，在短时间内会产生准确但不完整的追踪信息。这时就需要进行离线处理，即所谓的全局链接，将小追踪器连接在一起，AFLink是一种新的方法。

AFLink被提出来作为第一个不使用外观特征的全局链接机制。例如，在GIAOTracker中提出了一个名为GIModel的全局链接，但它是一个相当沉重的模型，用一个基于ResNet的CNN模型从tracklet的每一帧中提取特征，然后将这些特征输入到Transformer Encoder进行相关性提取。该模型相当重。这样的模型在计算上很昂贵，此外，它对外观特征的依赖使它容易受到噪声的影响，这也被指出是一个问题。

相比之下，AFLink在小追踪 T中使用的唯一信息是检测到的帧数f和当时的位置（x,y）；两个小追踪 Ti和Tj的最后30帧的信息Ti=（fk,xk,yk）（k=1~30）在卷积层中被压缩和特征提取，Ti和Tj是否代表相同的信心水平输出是Ti和Tj是否代表同一个人的轨迹的信心水平。首先，时间块对三个特征（f、x、y）中的每一个在七帧之间重复压缩时间序列方向。然后应用一个融合块来压缩这三个特征。综合结果被输入到分类器，分类器用Affine和ReLU将其转换为置信度。整体情况如下图所示。应该注意的是，为这两个小轨道提供了单独的区块。

这本身就有点令人困惑，所以根据源代码显示了一个图表。

时间块只在时间方向（7帧）对每个f,x,y独立进行卷积。与此相反，融合块压缩了在时间方向上压缩的三维特征。实验中使用的AFLink模型如下图所示。

由于AFLink是一个CNN模型，它在实验中对数据集进行了预训练；一个将AFLink作为StrongSORT的进一步离线处理的模型是StrongSORT+。

GSI（高斯平滑插值）插值

另一项重要技术是GSI插值。在这里，后处理是在在线和离线跟踪也已完成后进行的。后处理的一个重要部分是对遗漏的检测进行插值：当然，在SDE中，除非检测器能够检测到物体，否则就无法进行跟踪。以这种方式丢失的轨迹（所有帧的轨迹）可以通过插值来提高精确度。线性插值作为最简单的插值被广泛使用，但它的精度是有限的，因为它没有使用运动信息。下图中的蓝色显示的是线性插值，但它不自然地在检测到的轨迹（Tracked）之间进行插值，没有再现正确的轨迹（GT）。

$\begin{align*} p_t=f^{(i)}(t)+\epsilon, \quad\mathrm{where}\;f^{(i)}\in GP(0,k(\cdot,\cdot)) \end{align*}$

RBF核用于核函数k。分母λ决定了轨迹的平滑性，在本文中被设定为10。
$\begin{align*} k(x,x')=\exp\left(-\frac{{||x-x'||}^2}{2\lambda^2}\right),\quad \lambda=\tau*\log(\tau^3/l) \end{align*}$ 图中显示，帧数和位置坐标用正态分布建模，成功地插值了它们之间的检测误差。StrongSORT++是加入了这种AFLink和GSI插值的StrongSORT。让我们在一个实验中看看它的优势。

实验

数据集

实验比较了MOT17和MOT20数据集，这两个数据集是人员跟踪的基准；与MOT17相比，MOT20是一个更具挑战性的数据集，具有密集的跟踪目标。在消融中，MOT17训练数据中每个视频的前半部分被用于训练，后半部分用于验证。

设置模型

外观特征提取器，BoT，是在DukeMTMC数据集上预训练的。检测器YoloX-X是在COCO数据集上预先训练的。抑制重复检测的NMS阈值为0.8，检测置信度阈值为0.6。

AFLink将30个帧和75个像素范围内的小轨道联系起来。如果输出置信度大于0.95，则考虑关联；GSI将最大可能的内插检测失误设定为20帧。

估值指数

追踪的准确性是从不同的角度来评价的MOTA是一个侧重于检测准确性的指标，因为它是根据追踪的假阳性、假阴性和ID切换（IDs）来计算的；IDs是在追踪过程中物体被切换的关联错误；IDF1是一个侧重于追踪过程中IDs匹配的指标，因此，例如，相同数量的IDs将导致一个长而稳定的追踪。HOTA是一个很平衡的评价指标，可以同时评价检测精度（DetA）和跟踪方法（AssA）。

消融

当从基线DeepSORT依次添加机制时，对执行在线跟踪的StrongSORT进行了精度比较。

改进外观特征提取器（BoT）明显改善了IDF1，这表明了外观特征的重要性；增加ECC略微改善了IDF1和MOTA，而相机校正可以提取准确的运动信息。然后，NSA卡尔曼改进了HOTA，但MOTA和IDF1保持不变。当tracklet特征改为EMA时，不仅代表关联准确性的IDF1增加了，而且FPS也提高了，导致速度加快。包括运动信息的成本（Motion Cost）也证实了StrongSORT准确性的提高。最后，StrongSORT在没有匹配级联的情况下执行正常的线性赋值问题，在IDF1中显示出明显的改善，表明级联是没有必要的。

AFLink和GSI。

这里使用StrongSORT和现有的SoTA模型来宣称AFLink和GSI的优势。上面的StrongSORT消融有v1~v6的顺序，这里用的是其中的v1/v3/v6，CenterTrack、TransTrack和FairMOT是现有的方法，AFLink和GSI处理分别加入到六个模型中。使用的模型如下。

AFLink提高了两个模型的准确性。就GSI而言，与AFLink不同，它对更强的跟踪模型更有效。

与线性插值（LI）的比较是针对GSI单独进行的，表明GSI在计算成本略有增加的情况下提高了性能。

如上所述，AFLink和GSI被发现可以提高各种高精度跟踪模型的准确性，而不仅仅是StrongSORT。

MOTChallenge。

最后是与许多SoTA的比较：用MOT17和MOT20进行验证；没有进行FPS的比较，因为很难比较JDE和SDE，因为在SDE模型中检测阶段的处理时间基本上被忽略了。

首先是MOT17，在所有方法中，StrongSORT++在HOTA/AssA/DetA方面取得了第一名，在MOYA/IDs方面取得了第二名，远远领先于第二名的精确度。

MOT20处理更拥挤的情况。其中，StrongSORT++在HOTA/IDF1/AssA中同样取得了第一名的成绩。特别是，它显示了非常低的ID数量。

这些结果是在没有对每个数据的参数进行任何调整的情况下实现的，这表明了该方法的多功能性。

还提醒基线，DeepSORT*是在DeepSORT发表时改进了检测器和超参数的模型，仅这一点就显示了SDE范式的有效性，因为它已经产生了良好的效果。

申请的结果包括在最后。他们显示，闭塞也是正确的ID，但MOT20的拥堵程度很高，很难说。令人印象深刻的是，即使在如此高的拥堵情况下，也能对其进行追踪。

印象

AFLink的动机是，对外观特征的过度依赖使其容易受到噪声的影响，但在这种情况下，运动信息似乎也是严重的噪声。国家安全局的卡曼仍然是好的准确性的驱动力吗？我想进一步研究在什么条件下不再需要外观信息，仅仅通过折叠帧号和坐标。

主体中的StrongSORT，但改进后的技术在某些方面与GIAOTracker相当相似。由于这个原因，没有进行过比较，但就准确性而言，哪个更好？我个人觉得，这种方法在在线追踪之后更有吸引力，比如没有外观信息的全局链接和高斯课程的插值追踪。

摘要

论文介绍了StrongSORT，这是DeepSORT的改进版，除了NSA Kalman、ESA和ECC等在线跟踪的要素技术外，还提出了AFLink和GSI，以进一步提高准确性。论文指出，仍有一些问题需要解决，如执行速度比JDE范式的方法和完全不使用外观信息的ByteTrack慢，由于MOTA稍差，需要更严格地确定阈值，以及AFLink对错误的关联轨迹的准确性会恶化。该公司表示，仍有一些问题需要解决。它期待着未来的改进。