
MVTracker:一种多视角三维点跟踪方法,只需少量摄像头即可实现高精度跟踪
三个要点
✔️ MVTracker 是首个数据驱动的多视角三维点跟踪方法,只需少量摄像头即可运行
✔️ 结合三维特征点云、k-近邻相关性和变换器进行长期跟踪
✔️ 实验表明,MVTracker 的实际性能为 2 厘米误差和 7.2 FPS,明显优于传统方法。
Multi-View 3D Point Tracking
written by Frano Rajič, Haofei Xu, Marko Mihajlovic, Siyuan Li, Irem Demir, Emircan Gündoğdu, Lei Ke, Sergey Prokudin, Marc Pollefeys, Siyu Tang
(Submitted on 28 Aug 20252)
Comments: ICCV 2025, Oral. Project page: this https URL
Subjects: Computer Vision and Pattern Recognition (cs.CV)
本文所使用的图片要么来自论文、介绍性幻灯片,要么是参考这些图片制作的。
概述
本文提出了一种使用多摄像头图像跟踪任意三维点的新方法 MVTracker。
传统的单目方法容易受到深度模糊和屏蔽的影响,因此很难在现实世界中高精度地跟踪三维点。
现有的多摄像头方法还需要 20 多个摄像头和顺序优化,因此不切实际。
MVTracker 是首个数据驱动的多视角三维跟踪器,可使用实际数量的摄像头(如四个)并支持在线处理。
该方法整合了来自多个视角的特征和深度信息,从而建立了三维特征点云,并在此基础上使用 k 近邻搜索进行相关性计算。
此外,利用时空变换器模块进行的连续轨迹更新可实现长期三维点跟踪。
经过 Panoptic Studio 和 DexYCB 等真实数据集的验证,该方法的精确度明显高于传统方法,是一种多功能、高效率的新型点跟踪平台。它为多功能、高效的点跟踪平台树立了新标准。
建议的方法
MVTracker 的核心思想是从多视角视频中生成统一的三维特征点云,并计算其中的点对点相关性。
使用 CNN 从每个帧中提取特征图,并利用深度信息(传感器得出或估算)和摄像机参数将其投影到三维空间中。
在由此构建的特征点云中,使用 k 近邻搜索计算局部相关性,并将外观相似性与空间偏移相结合用于跟踪。
然后将其送入转换器,转换器采用滑动窗口法处理时间序列,通过自我关注机制依次更新点位置和特征。
这种机制使系统对屏蔽和复杂运动具有鲁棒性。训练是在模拟数据(Kubric 的 5000 个序列)上进行的,损失函数由位置误差和可见度判断的组合定义。
与传统的三平面表示法相比,三维点云表示法的信息损失更少,而且对不同摄像机数量和排列方式的适应性更强。
实验结果
作者在多个数据集上评估了 MVTracker 的性能,包括 Panoptic Studio、DexYCB 和 MV-Kubric。
使用位置精度 (δavg)、中轨迹误差 (MTE)、闭塞精度 (OA) 和总体杰卡指数 (AJ) 对各项指标进行了比较。
结果显示,MVTracker 对 Panoptic Studio 的 AJ 为 86.0,对 DexYCB 的 AJ 为 71.6,均明显优于传统方法。
特别是,DexyCB 的中位误差低至 2.0 厘米。
随着输入视图数量的增加,它的性能也呈上升趋势,8 个视图的 AJ 值达到 79.2。
此外,它对不同的深度估算源(传感器原点、估算值)具有鲁棒性,当使用传感器深度时,准确性进一步提高。
推理速度达到 7.2 FPS,表明 MVTracker 比传统的基于优化的方法更适合实时处理。
从这些结果可以得出结论,MVTracker 是一种很有前途的方法,在实际应用中能够很好地兼顾精度、效率和通用性。
与本文相关的类别