研究介绍
全面的三维场景感知对于自动驾驶和机器人领域至关重要。近年来,基于相机的三维感知取得了迅速发展,无论是目标检测还是地图语义分割,性能都有了巨大提升。然而,过去的任务如三维目标检测、地图语义分割、矢量地图构建、深度预测等,各自关注于场景表示的某一方面,并且表示方式也不统一,例如使用3D框、二维语义图等。我们希望能够探索一种统一的场景表示,使其能够统一地表达这些任务,并将背景和前景物体统一建模。目前基于鸟瞰图特征的方法在三维目标检测任务上表现出色,但由于缺失了高度和形状信息,直接应用于三维场景感知任务时性能较差。这启示我们需要探索适合三维场景的特征表示,这也使得三维的栅格占用表示重新受到关注。然而,与二维空间相比,三维空间更加稀疏。而直接将二维鸟瞰图特征扩展到三维体素表示将带来巨大的显存和计算开销。我们提出了PanoOcc模型,将检测和分割任务联合学习,统一了检测和分割任务的输出表示。为了实现高效的特征学习,我们设计了从粗到细的解码层结构,并探索了稀疏表示的应用。我们进行了大量消融研究以验证所提方法的有效性和效率。在nuScenes数据集上,我们的方法在基于相机的机的三维语义分割、全景分割和密集占用栅格预测等任务中都取得了最先进的性能。

论文链接:https://arxiv.org/abs/2306.10013
代码链接:https://github.com/Robertwyq/PanoOcc
