GIAOTracker：一个用于多类、多对象追踪的综合框架

物体追踪 30/11/2022

三个要点
✔️ 提出的多类多目标跟踪（MCMOT）框架分三个阶段
✔️ 在无人机视频跟踪任务中实现比现有跟踪模型更高的精度
✔️ 每种技术都是通用的，可以在其他跟踪方法中轻松实现

GIAOTracker: A comprehensive framework for MCMOT with global information and optimizing strategies in VisDrone 2021
written by Yunhao Du, Junfeng Wan, Yanyun Zhao, Binyu Zhang, Zhihang Tong, Junhao Dong
(Submitted on 24 Feb 2022)
Comments: ICCV 2021
Subjects: Computer Vision and Pattern Recognition (cs.CV)

code：

本文所使用的图片要么来自论文、介绍性幻灯片，要么是参考这些图片制作的。

介绍

这里介绍的论文是关于图像处理人工智能中最直观和令人兴奋的跟踪任务，即从原始视频数据中检测和跟踪单个物体。图像处理人工智能中最常提到的一些任务包括图像分类、物体检测和语义分割。与这些相比，物体追踪对其重要性的解释较少。物体检测无法获得运动信息，而图像分类则受到很大限制，因为它假定图像数据是要分类的物体的代表，并包含在视角内。另一方面，物体追踪从原始视频数据中捕捉到物体的详细时间变化，因此可以获得许多特征，这对数据分析、犯罪预防和机器人控制非常有用。

在这篇文章中，我们将讨论"GIAOTracker：无人机视频中MCMOT（多类多物体追踪）任务的综合框架"，它提出了一个高度准确的物体追踪MCMOT任务的框架。VisDrone 2021 "中的全球信息和优化策略。

MCMOT是一项具有挑战性的任务，因为它需要同时跟踪多个不同类别的物体，而不是专注于某个特定类别或单个物体。然而，无人机视频需要进一步的技术来处理以下情况你可以看到，这比监控摄像头等固定摄像头的情况更加复杂和困难。

空中摄影所反映的大量小物体。
不规则的物体运动和摄像机运动
物体被树木或桥梁等障碍物遮挡的问题（遮挡）。

这些问题在无人机视频中特别明显，尽管它们在一般的视频数据中也是如此，如果能够解决这些问题，预计它们可以应用于其他各种跟踪任务。

这里介绍的GIAOTracker将跟踪分为三个阶段，并通过为每个阶段提出和结合有效的技术来解决这些问题。GIAOTracker由"在线跟踪、全球链接和后处理 "组成，其总体情况如下图所示。

GIAOTrackerの全体像

此外，据称每个阶段的技术并不是GIAOTracker特有的，而是可以很容易地应用于其他追踪方法，以提高其准确性。每个阶段的概述如下。

GIAO Trackerの概要

实验表明，与基线DeepSORT相比，每个阶段都有消融的效果，并在与VisDrone MOT数据集上进行的SOTA模型比较中取得了第二名。据称，检测模型的准确性和训练数据的范围将更加完善。现在让我们来看看这个方法的细节。

系统定位

首先解释这个方法的系统定位。追踪任务正是将每一帧中检测到的相同物体在各帧之间联系起来的任务。它预测在时间t检测到的物体在时间t+1的位置，并在帧间（ReID）与实际检测结果相匹配。换句话说，跟踪任务是以检测任务为基础的，而跟踪精度不可避免地在很大程度上取决于检测阶段的精度。

这里的主要区别是跟踪的方法。SDE和JDE可以分为两种类型，取决于检测和跟踪是在一个模型中同时训练还是在多个模型中分别训练。通过检测（SDE），也被称为通过检测跟踪，是指一种先训练检测器，然后再训练跟踪的方法。它的特点是检测和跟踪是分开优化的，使其更加灵活，适合复杂的视频。JDE（联合检测和嵌入）则是一种将检测和跟踪统一为一体的方法，它通过在检测器（如Faster R-CNN、CentreNet和YOLOv3）上分支并添加用于跟踪的特征提取器和预测器。同时实施。一般来说，JDEs比SDEs更快，但在复杂的环境中，JDEs的准确性会降低。由于考虑到如果只对检测进行优化，而只对跟踪进行优化，准确性会更好，所以本文选择了处理复杂无人机视频的SDE，并将DeepSORT作为基础方法。

在关于追踪的论文中，Tracklet和Trajectory这两个词经常被使用。两者都是指跟踪的结果的轨迹，但我在阅读各种论文后的印象是，tracklet指的是 "一个不完整的轨迹，它被准确地跟踪，但只是在很短的时间内"，而trajectory指的是 "一个完整的轨迹，结合了多个tracklet"。在本文中，该术语的使用方式与此类似。

在线跟踪（第一阶段）

这一阶段旨在通过新的特征更新方法、物体运动预测和相机校正来生成高度精确的Tracklets。

追踪任务中在线和离线的区别在于未来信息是否用于追踪。在线追踪只使用最近的两帧进行匹配。另一方面，离线追踪通过加入在线追踪产生的Tracklets来生成一个完整的轨迹。我们将首先解释第一阶段，在线追踪。下图显示了基线DeepSORT和拟议方法之间的差异。其关键特征是外观特征和物体运动预测。成本矩阵是根据这些信息生成的。

EMA银行

EMA（指数移动平均）银行在更新外观特征时引入了一个惯性项，这使得Tracklet能够同时捕捉到代表Tracklet的特征和特征变化。在跟踪中，有必要获得能够在检测阶段区分属于同一类别的物体的外观特征。所提出的方法使用了一个叫做OSNet的模型，而不是DeepSORT中使用的简单特征提取器，并提出了一种叫做EMA Bank的新更新方法来更新特征。传统方法的缺点是容易受到检测噪声的影响，因为它保留了Tracklet每一帧的特征。因此，通过使用惯性项更新和保留特征，EMA库已经被改进为每个Tracklet有一个特征。

e是Tracklet i 在时间t的特征值，f是在时间t检测到的物体的特征值，α是惯性项。在反映特征值变化的同时，整合减少了检测噪音。

NSA Karman

NSA卡尔曼根据检测的置信度自适应地改变卡尔曼滤波器的噪声，以应对复杂的物体运动。卡尔曼滤波假设，除了物体的真实状态（坐标）外，我们可以进行的观测（坐标）由于噪声而具有与真实状态不同的值。这种噪声的特性代表了跟踪任务中检测阶段的bbox错位，线性卡尔曼滤波器假定所有物体都有一个共同的噪声。另一方面，NSA卡尔曼采取的方法是根据检测的置信度来改变它。

NSA Karman

ck代表每个对象的信心水平。探测器对每个物体输出的检测置信度越高，检测噪声就越低，运动预测可以用来估计各种复杂物体运动的位置。例外的是车辆类，他们使用UKF（无色卡尔曼滤波），由于非线性运动，UKF更加稳健。

其他

在跟踪任务中，应对摄像机的移动也很重要。建议的方法使用ORB和RANSAC技术来补偿摄像机的移动。

此外，目标数据可能包含两类（如汽车和货车），难以区分。我们提出了一种叫做Rough2Fine的方法，它不是独立地追踪不同的类别，而是首先在一个高度抽象的类别中追踪它们，然后使用投票机制来确定Tracklet的细粒度类别。传统的方法是 "曾经投票"，指定一个单一的抽象类别，而这种方法是 "软投票"，指定多个类别，并根据每个类别的检测置信度对投票进行加权。

全球链接（第2阶段）

这一阶段的目的是将第一阶段生成的Tracklets联系起来，生成一个完整的Trajectory。

第一阶段产生了一个高度准确的Tracklet。然而，由于在线跟踪，Tracklet是不完整的。虽然在线追踪的速度很快，但一旦物体丢失，即使能再次检测到，也很难假设它是同一个物体。这是因为在中断期间，物体仍在移动，其大小、方向和角度可能会发生重大变化，从而导致匹配困难。因此，被中断的同一对象的小追踪器必须在在线追踪后重新连接起来。这方面的离线过程是全局链接。在线跟踪是检测结果的匹配，而全球链接则是跟踪结果的匹配（Tracklets）。这种一步步的匹配使得所提出的方法能够实现高精确度。关键因素是GIModel和Tracklet的成本。为匹配过程中使用的外观特征提取器提出了一种叫做GIModel的方法。

GIModel

所提出的方法GIModel是一个外观特征提取器，对检测噪声和物体外观的突然变化具有鲁棒性；它从Stage1生成的Tracklet中提取全局和局部特征，并使用Transformer进行特征提取，适当考虑帧间关系。

Tracklet外观特征的提取方式与在线跟踪不同。首先，GIModel将Tracklet的N个帧中的每一个输入到一个CNN（ResNet50-TP）中，以获得一个特征图。此时，(a)中得到的特征通常被简单地压平，并根据任务连接到一个层，如全连接层，但GIModel在空间方向上将部分特征（绿色和橙色）与整体特征压平（蓝色）分开处理。通过将全局特征与每个区域的局部特征相结合，它专注于物体不同部分的详细特征，使其对闭塞现象更加稳健。这被认为是由于它可以更好地利用来自物体的部分信息，这些部分即使在遮挡期间也是清晰可见的。

然后，必须对获得的N个框架的特征进行整合。传统的方法(c)只是对N个特征取平均数，但简单的平均数并不能很好地捕捉帧之间的关系。另一方面，GIModel在平均化之前给Transformer Encoder提供了一个叫做Self-Attention的机制，可以学习斑块之间的关系，所以它可以更灵活地学习帧之间的关系，然后进行平均化。Transformer Encoder可以更灵活地学习帧之间的关系，然后对其进行平均化。

上述情况使提取的特征对检测噪声和物体外观的突然变化具有鲁棒性。

成本矩阵

在在线追踪中，使用外观特征和位置信息进行了匹配。另一方面，在Tracklet匹配的情况下，除了位置信息外，时间信息也被用于匹配成本。追踪器 i和j的匹配成本表示如下

Ca是GIModel提取的特征之间的余弦距离，Ct是Tracklets之间的时间差，Cs是空间距离。为了更好地匹配，每个成本都有一个阈值，只有满足所有条件的配对才被用于匹配。

全局链接可以根据上述的外观特征和时空距离，将第一阶段获得的不完整的Tracklets连接起来。

全球链接（第三阶段）

这个阶段通过对第一阶段和第二阶段产生的轨迹进行四个后处理步骤来完善轨迹。

尽管在跟踪任务中，后处理似乎被忽视了，但所提出的方法通过应用四个有效的后处理步骤进一步提高了准确性。这些是去噪、插值、重定和轨迹融合。

去噪

对一个物体的重复探测器探测会增加无意义轨迹的数量。通常的做法是在空间方向上应用基于IoU的NMS，以防止重复检测。所提出的方法在时间方向上应用SoftNMS，使用Temporal-IoU来消除Trajectory而不是检测。

内插法

随后是对检测误差导致的跟踪中断进行插值。已成功追踪的区域被全局链接，但被中断的区域则未被触及。所提出的方法应用线性插值来提高精度，假设插值是可能的，如果中断的帧在60帧之内。

重新计分。

在检测任务中，置信度被用作评估检测结果的阈值，而在跟踪任务中则使用平均值。所提出的方法没有使用简单的平均值，而是使用重评分，根据轨迹的长度对置信度进行加权。这是基于这样的假设：跟踪的轨迹越长，结果就越可靠：Tracklet i的权重ωi由以下公式表示。

LI是弹道的长度。长度越接近于零，重量就越接近于零，长度越长，就越接近于一。这就为评估期间的轨迹提供了一个更合适的阈值。

轨迹融合。

在这里，多个模型的跟踪结果被融合在一起。尽管在图像分类和物体检测中已经采取了利用多种模型结果的方法，但在跟踪任务中还没有得到太多的关注。因此，建议的方法TrackNMS从多个模型的总轨迹中删除不必要的轨迹，只留下有用的轨迹。该机制的细节如下。

TrackNMS基于SoftNMS：SoftNMS在空间方向上抑制基于IoU的检测结果，而TrackNMS在时间方向上抑制基于IoU的多个模型的跟踪结果。
SoftNMS在排序时使用置信度来选择要抑制的检测，而TrackNMS则根据每帧的置信度之和进行排序。同样，由于重新评分，较长的轨迹往往有较高的优先权。

上述内容构成了GIAOTracker，它包括三个阶段。

实验

数据集

实验证明了上述所有机制在消融方面的有效性，并与SOTA进行了比较。要验证的VisDrone MOT数据集是一个5类跟踪任务数据集，有96个序列（共39,988帧）。评价指标是每个班级后不同阈值的平均精度（mAP）和所有班级的平均值。如果一个轨迹与正确的轨迹的IoU高于阈值，则认为该轨迹是正确的。

选择一个模型

如前所述，检测器的选择对跟踪精度有很大影响。探测器由VisDrone MOT使用基于ResNet的探测器DetectoRS进行微调，该探测器是在MS COCO数据集上预先训练的。为了避免过度训练，在5个框架中抽出一个用于训练。

在这个实验中，为两种类型的检测器提供了不同的训练方法--Dev1和Dev2。

DetV1：在训练期间固定图像大小，但在测试期间改变图像大小以评估对多尺度的反应；AP50达到56.9；AP50达到56.9；AP50达到56.9；AP50达到56.9；AP50达到56.9；AP50达到56.9。
DetV2：训练时，将输入的图像切成四块并放大，使其没有重叠，测试时，将整个图像放大并输入，以同样的方式进行多尺度评估。此外，通过使用SoftNMS融合Dev1的检测结果，实现了63.2的AP50。

用于外观特征提取的OSNet是在基于VisDrone MOT数据集创建的ReID数据集上训练的，使用的是已经在ImageNet上预训练过的OSNet。ReID数据集是以五帧为间隔进行采样的，有遮挡物或缺失物超过50%的物体被删除。训练是以每个对象类别的不同输入大小进行的。

GIModel同样使用已经在ImageNet上训练过的模型。和上面的ReID数据集一样，GIModel的数据集也被创建和训练。不同的是，采样率是三帧。

参数

每个阶段的参数取自论文；它们是基于DeepSORT和JDE的。

消融

对于在线跟踪，我们比较了从基线DeepSORT中依次添加机制时的准确性。添加显示了是否在GIAOTracker中采用。添加补偿了摄像机的运动，提高了跟踪性能，而基于ORB的匹配补偿了摄像机的运动，提高了跟踪性能。事实证明，它对强大的特征提取器OSNet和强大的EMA Bank也很有用。NSA卡尔曼和UKF也比线性卡尔曼好得多，而对于Rough2Fine，"软投票 "明显优于 "硬投票"。因此，所引入的每个机制的有效性都得到了证明。

接下来是全局链接中的GIM模型：对于ReID数据集，使用mAP和Rank1作为评价指标。对于基线，+train是用VisDrone学习的GIM模型，+sat用Transformer考虑了帧之间的关系，最后+part引入了全局和局部扁平化。该表显示，每个机制都能显著提高准确度。

最后一步是后处理：GIAOTracker-Global是一个采用到第二阶段的GIAOTracker。相比之下，采用去噪、插值和重计分的结果显示，去除冗余轨迹和插值轨迹的表现良好。还可以看出，跟踪的质量与轨迹的长度相关。

所有阶段的性能比较

第2-4行显示了以DetV1为检测器的GIAOTracker的准确性，第3-4行显示了以DetV1为检测器的GIAOTracker-Post的准确性，第4-5行显示了以DetV2为检测器的GIAOTracker-Post的准确性。第2-4行是以DetV1为检测器的GIAOTracker，-DetV2是在GIAOTracker-Post中改为DetV2的模型。融合显示了最后一个后处理步骤的准确性，即轨迹融合，使用-Post与DetV1和-DetV2。最后一个GIAOTracker*代表了使用注释数据进行检测时的准确性。换句话说，它代表了检测精度为100%时的跟踪精度。可以看出，每个阶段都提高了准确性。使用注释数据时的准确性比DetV1和DetV2等单个模型的估计要好92%。这意味着，尽管基于检测器的估计，整体精度乍一看可能很低，但如果能保证检测精度，GIAOTracker的各个阶段就会非常有效。

与SOTA的比较

最后一个实验是与VisDrone2021 SOTA模型进行比较。

它在前九个模型中取得了第二高的准确率，显示了它的优越性；之所以没有成为第一，是因为检测器的准确率和训练数据的数量有限，表4的结果声称，随着检测器准确率的提高，该方法的准确率将进一步提高。

印象

最后一次与SOTA的比较引起了一些关注。你提到它受到检测精度的影响，但我想知道当你用所有SOTA的注释数据做追踪时，会发生什么情况--对于JDE来说，可能很难做一个公平的比较，但看看VisDron-MOT2021，在精度上差的SOMOT是SDE，似乎可以做一个公平的比较。

我还质疑大量的超参数是否对该应用有用。仅仅是全局链接就需要控制六个参数，每个成本的三个权重和三个阈值，这些参数的设置似乎都不直观。

摘要

GIAOTracker被发现在无人机镜头的MCMOT中实现了出色的准确性。每种机制的有效性在消融中得到了证明。有吸引力的是，所有的机制"改进的相机校正和卡尔曼滤波，改进的特征更新，全局链接和后处理 "都可以很容易地引入到其他追踪方法中。事实上，作为DeepSORT的改进版，StrongSORT也采用了GIAOTracker方法。

我认为这篇论文对那些想系统地了解物体追踪并对最新的框架感兴趣的人来说是一个很好的启示。