Uncertain Object Representation for Image-Based 3D Object Perception (TPAMI 2025)

由于仅依赖图像输入进行三维目标定位本质上是一个病态问题,基于相机的三维检测器在物体的空间定位上往往存在较大的不确定性。 现有的基于相机的三维检测与追踪方法通常将每个检测目标表示为一个确定的三维边界框,忽略了其定位不确定性。 我们提出了三维目标的不确定性表示方法,以应对图像中目标定位的不确定性。 我们在检测过程中对目标的定位不确定性进行建模,并将目标的位置表示为三维空间中的概率分布。 针对基于相机的三维目标检测,我们提出通过聚合并抑制关于同一目标的冗余预测,以构建其不确定性表示。针对基于相机的三维多目标追踪,我们在不确定性表示的基础上推广了跨帧关联度量,以更好地追踪定位不确定、不稳定的目标。 作为一种插件式模块,我们的方法在nuScenes验证集上为BEVDet4D、BEVDet4D-Depth和DD3D检测器分别带来了+3.5%/+3.2%/+3.7%的NDS提升,在nuScenes测试集上为BEVDet4D-Depth带来了+4.7%的NDS提升。得益于增强的跨帧关联能力,我们的追踪方法在nuScenes测试集上达到了48.2%的AMOTA表现,并将剩余的身份切换数量(
IDS)减少至仅300个。

我们在三维检测过程中建模物体(图中以不同颜色矩形框表示)在三维空间中的定位概率分布(图中以不同颜色区域表示)。建模得到的物体的定位不确定式表示可用于检测过程中抑制对相同物体的冗余预测,及在追踪过程中指导检测框间的跨帧关联。
Updated: 2025-08-24 — 11:36 下午

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Zhaoxiang Zhang © 2020