ENHANCING END-TO-END AUTONOMOUS DRIVING WITH LATENT WORLD MODEL (ICLR 2025)

最近端到端规划方法在自动驾驶领域受到了广泛关注，因其相较于传统规划方法具有显著的优势。传统的规划方法依赖于感知模块的预处理输出，如边界框和轨迹数据，而端到端规划方法则直接利用原始传感器数据来提取场景特征，从而最大限度地减少信息丢失。这一直接使用传感器数据的方法引发了一个重要的研究问题：如何开发更加有效的场景特征表示，以充分发挥传感器数据的潜力，推动端到端自动驾驶性能的提升？

近年来，自监督学习已成为从大规模数据集中提取全面特征表示的有效方法，特别是在自然语言处理和计算机视觉领域取得了显著成效。基于这一成功经验，我们计划通过自监督学习来丰富场景特征学习，并进一步提升端到端自动驾驶性能。传统的自监督方法主要关注静态的单帧图像，但自动驾驶系统依赖于连续的视频输入，因此有效地利用时间信息至关重要。最近基于时间的自监督任务，如未来预测，已经显示出较好的应用潜力。然而，传统的未来预测任务往往忽视了自车行为的影响，而自车的行为在自动驾驶中对未来场景的变化起着至关重要的作用。

考虑到自车行为的关键作用，我们提出了一种基于世界模型的未来预测方法，该方法通过当前状态和自车行为预测未来场景状态。现有的基于图像的世界模型通常依赖于扩散模型，这种方法生成未来场景图像的速度较慢。为了解决这一问题，我们引入了一个隐式世界模型，该模型直接从当前的隐式特征和自车行为中预测未来的隐式特征，如图所示。具体而言，给定输入图像，视觉编码器提取当前场景特征，然后通过行为解码器预测自车轨迹。基于当前状态和行为，隐式世界模型进一步预测未来帧的场景特征。在训练过程中，我们使用未来帧提取的特征来对预测的未来特征进行监督，从而共同优化场景特征学习和轨迹预测。

引入隐式世界模型的概念后，我们进一步探讨了该方法在不同端到端自动驾驶框架中的普适性。端到端自动驾驶框架通常可分为感知无关和感知驱动两类。感知无关的方法跳过显式感知任务，仅依赖轨迹监督。已有研究通常通过提取视角特征来预测未来轨迹。与之相对，感知驱动的方法结合了检测、跟踪、地图分割等感知任务来引导场景特征学习，这些方法通常使用鸟瞰视图特征图作为统一的感知表示。我们的隐式世界模型能够兼容这两种框架，它可以在感知无关设置中预测视角特征，或者在感知驱动设置中预测鸟瞰视图特征，展示了其在不同自动驾驶范式中的普适性。

实验结果表明，我们的隐式世界模型在感知无关和感知驱动框架中均能有效提升性能。此外，我们在多个基准测试中取得了最先进的性能，包括基于真实世界的开放环路数据集nuScenes和NAVSIM（基于nuPlan），以及基于仿真器的闭环CARLA基准测试。这些结果充分证明了我们方法的有效性，并凸显了自监督学习在端到端自动驾驶研究中的巨大潜力。

Zhaoxiang Zhang (张兆翔)

ENHANCING END-TO-END AUTONOMOUS DRIVING WITH LATENT WORLD MODEL (ICLR 2025)

发表回复取消回复

What is new

Opening Positions

Zhaoxiang Zhang (张兆翔)

发表回复 取消回复

What is new

Opening Positions

发表回复取消回复