由于仅依赖图像输入进行三维目标定位本质上是一个病态问题,基于相机的三维检测器在物体的空间定位上往往存在较大的不确定性。 现有的基于相机的三维检测与追踪方法通常将每个检测目标表示为一个确定的三维边界框,忽略了其定位不确定性。 我们提出了三维目标的不确定性表示方法,以应对图像中目标定位的不确定性。 我们在检测过程中对目标的定位不确定性进行建模,并将目标的位置表示为三维空间中的概率分布。 针对基于相机的三维目标检测,我们提出通过聚合并抑制关于同一目标的冗余预测,以构建其不确定性表示。针对基于相机的三维多目标追踪,我们在不确定性表示的基础上推广了跨帧关联度量,以更好地追踪定位不确定、不稳定的目标。 作为一种插件式模块,我们的方法在nuScenes验证集上为BEVDet4D、BEVDet4D-Depth和DD3D检测器分别带来了+3.5%/+3.2%/+3.7%的NDS提升,在nuScenes测试集上为BEVDet4D-Depth带来了+4.7%的NDS提升。得益于增强的跨帧关联能力,我们的追踪方法在nuScenes测试集上达到了48.2%的AMOTA表现,并将剩余的身份切换数量(
IDS)减少至仅300个。

