赶上最新的AI论文

普遍规模的物体检测基准

目标检测

三个要点
✔️ 用于可靠地比较物体检测方法的通用尺度物体检测基准(USB
✔️ 一套公平、简单、可扩展的协议,用于评估新方法
✔️一个名为UniverseNets的快速而准确的物体检测器在几个基准上获得了SOTA的评分。

USB: Universal-Scale Object Detection Benchmark
Written by YosukeShinya
(Submitted on 25 Mar 2021)
Comments: Accepted to arXiv.

Subjects: Computer Vision and Pattern Recognition (cs.CV)

code:. 

 

首先

人类有能力识别各种各样的物体,包括风景、文字以及绘画和动画中的物体。这是我们希望深度学习拥有的能力,我们在这个目标上已经取得了很大的进展。大型的、信息丰富的数据集对DNN是有益的,用于物体检测的DNN也不例外:COCO数据集在物体检测中发挥着重要作用,COCO数据集已被广泛用于开发和评估物体检测的新方法。然而,这个数据集有几个不足之处。

COCO数据集并没有涵盖人类感知所需的物体尺度和图像面积的变化。然而,有几项研究只用COCO数据集评估了新方法,而没有说明它们是否可以推广到其他数据集。因此,有必要建立一个训练和评估物体检测的标准协议。

在本文中,我们介绍了一个新的通用尺度物体检测的基准,称为USB,它可以可靠地比较物体检测方法。我们还建立了一个标准的USB协议,用于对新方法进行公平、简单和可扩展的比较。最后,我们使用USB数据集和新的协议来训练一个新的物体检测模型,称为UniverseNets,它在几个物体检测数据集上显著提高了SOTA。

通用规模物体检测基准(USB)

有几个物体检测的基准。有几个对象检测的基准,包括用于特定类别的WIDER Face和TinyPerson,用于自动驾驶的KITTI和WOD,用于一般对象检测的PASCAL VOC(20类)和COCO(80类),以及用于人工图像的ClipArt-1k和Manga108-s。通用域物体检测基准(UODB)结合了来自不同领域的11个数据集。然而,与此同时,对象的尺度没有变化。

数据集USB由三个数据集组成:COCO、Manga108-s和Waymo开放数据集(WOD)。与UODB相比,它专注于通用尺度,即包含许多小图像实例的类。类,包括小图像,是这项工作的重点。 Manga108和WOD分别由人工图像和交通领域的许多小物体组成;在WOD数据集中,对于训练(f0训练)和验证(f0val),我们分别从798和202个分区中各提取了10%的子集。每个序列由20帧组成,每帧包含5台摄像机拍摄的5幅图像。 特别是,我们使用了三个类别:车辆、行人和自行车。此外,我们还精心挑选了68、4和15卷漫画,分别用于训练(68train)、验证(4val)和测试(15test)。

USB学习/评估协议

USB学习协议列在上表中,其中AHPO代表积极的超参数优化。你不仅需要报告上层协议的结果,也需要报告下层协议的结果。例如:如果你在AHPO中用150个epochs训练一个模型,它对应的是USB 3.0协议。此外,如果你用标准超参数训练另一个模型150个历时,你也必须报告150、73和24个历时的结果。

对于用屏蔽注解训练的模型,在协议版本上加0.5。例如,如果我们在前面的例子中使用屏蔽式注释,协议将是USB3.5。同时,我们将预训练数据集限定为ImageNet和USB。我们还建议对超参数进行微调,如批量大小和学习率等,如果使用AHPO,参与者应报告使用和不使用AHPO的结果。

上表显示了不同输入规模的USB评估协议。测试时间增强(TTA)可以使准确性和推理时间有很大的区别。因此,如果使用了TTA,应报告TTA的细节和没有TTA的结果。

宇宙网

UniverseNet以RetinaNet为基础,增加了ATSS和SEPC(称为ATSEPC),没有iBN。训练是在多尺度下进行的,测试是在单尺度下进行的,以提高效率;UniverseNet-20.08d是另一个大量使用可变形卷积网络(DCNs)的版本。此外,UniverseNet-20.08s使用ResNet-50-C而不是Res2Net-50-v1b作为骨干网,以加快推理速度。

实验

在本节中,我们介绍了评估USB基准和UniverseNets的几个实验的结果。上表显示了默认的超参数:我们使用了在COCO、带FPN的Faster R-CNN、Cascade RCNN、RetinaNet、ATSS和GFL中预先训练的模型。 此外,这些模型的CNN骨干是在ImagNet中预先训练的。

上表显示了各种模型在USB上的结果。universeNet-20.08在所有三个数据集中显示了最好的结果,获得了52.1的mCAP分数。mCAP是三个数据集的平均CAP分数。一些模型在COCO数据集中显示出明显的改善,而其他两个数据集只显示出轻微的改善。因此,USB可以澄清那些偏向COCO的方法。

UniverseNet已经能够在NightOwls建立一个新的SOTA,这是一个夜间人员检测的基准。为此,我们在NightOwls数据集上对WOD预训练的模型进行了微调。关于我们实验的更多细节,请参考原始论文。

摘要

除了USB基准之外,学习和评估协议有助于明确不同模型在物体检测中的比较。这将使更好的模型受到研究界和工业界的关注和改进。宇宙网的主要缺点是它是在COCO上预先训练的,这导致了一个有偏见的数据集。未来的工作将侧重于开发一个更无偏见的宇宙网偏差较小的情况下。本文描述的协议也可以应用于视觉和NLP的其他任务。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们