赶上最新的AI论文

MVTracker:一种多视角三维点跟踪方法,只需少量摄像头即可实现高精度跟踪

MVTracker:一种多视角三维点跟踪方法,只需少量摄像头即可实现高精度跟踪

三个要点
✔️ MVTracker 是首个数据驱动的多视角三维点跟踪方法,只需少量摄像头即可运行
✔️ 结合三维特征点云、k-近邻相关性和变换器进行长期跟踪
✔️ 实验表明,MVTracker 的实际性能为 2 厘米误差和 7.2 FPS,明显优于传统方法。

Multi-View 3D Point Tracking
written by Frano RajičHaofei XuMarko MihajlovicSiyuan LiIrem DemirEmircan GündoğduLei KeSergey ProkudinMarc PollefeysSiyu Tang
(Submitted on 28 Aug 20252)
Comments: ICCV 2025, Oral. Project page: this https URL

Subjects: Computer Vision and Pattern Recognition (cs.CV)

本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。

概述

本文提出了一种使用多摄像头图像跟踪任意三维点的新方法 MVTracker。

传统的单目方法容易受到深度模糊和屏蔽的影响,因此很难在现实世界中高精度地跟踪三维点。
现有的多摄像头方法还需要 20 多个摄像头和顺序优化,因此不切实际。

MVTracker 是首个数据驱动的多视角三维跟踪器,可使用实际数量的摄像头(如四个)并支持在线处理。
该方法整合了来自多个视角的特征和深度信息,从而建立了三维特征点云,并在此基础上使用 k 近邻搜索进行相关性计算。

此外,利用时空变换器模块进行的连续轨迹更新可实现长期三维点跟踪。
经过 Panoptic Studio 和 DexYCB 等真实数据集的验证,该方法的精确度明显高于传统方法,是一种多功能、高效率的新型点跟踪平台。它为多功能、高效的点跟踪平台树立了新标准。

建议的方法

MVTracker 的核心思想是从多视角视频中生成统一的三维特征点云,并计算其中的点对点相关性。

使用 CNN 从每个帧中提取特征图,并利用深度信息(传感器得出或估算)和摄像机参数将其投影到三维空间中。
在由此构建的特征点云中,使用 k 近邻搜索计算局部相关性,并将外观相似性与空间偏移相结合用于跟踪。

然后将其送入转换器,转换器采用滑动窗口法处理时间序列,通过自我关注机制依次更新点位置和特征。
这种机制使系统对屏蔽和复杂运动具有鲁棒性。训练是在模拟数据(Kubric 的 5000 个序列)上进行的,损失函数由位置误差和可见度判断的组合定义。

与传统的三平面表示法相比,三维点云表示法的信息损失更少,而且对不同摄像机数量和排列方式的适应性更强。

实验结果

作者在多个数据集上评估了 MVTracker 的性能,包括 Panoptic Studio、DexYCB 和 MV-Kubric。

使用位置精度 (δavg)、中轨迹误差 (MTE)、闭塞精度 (OA) 和总体杰卡指数 (AJ) 对各项指标进行了比较。
结果显示,MVTracker 对 Panoptic Studio 的 AJ 为 86.0,对 DexYCB 的 AJ 为 71.6,均明显优于传统方法。

特别是,DexyCB 的中位误差低至 2.0 厘米。
随着输入视图数量的增加,它的性能也呈上升趋势,8 个视图的 AJ 值达到 79.2。

此外,它对不同的深度估算源(传感器原点、估算值)具有鲁棒性,当使用传感器深度时,准确性进一步提高。
推理速度达到 7.2 FPS,表明 MVTracker 比传统的基于优化的方法更适合实时处理。

从这些结果可以得出结论,MVTracker 是一种很有前途的方法,在实际应用中能够很好地兼顾精度、效率和通用性。

  • メルマガ登録(ver
  • ライター
  • エンジニア_大募集!!

如果您对文章内容有任何改进建议等,请通过 "联系我们 "表格与爱学网编辑部联系。
如果您能通过咨询表与我们联系,我们将非常感激。

联系我们