由于仅依赖图像输入进行三维目标定位本质上是一个病态问题,基于相机的三维检测器在物体的空间定位上往往存在较大的不确定性。 现有的基于相机的三维检测与追踪方法通常将每个检测目标表示为一个确定的三维边界框,忽略了其定位不确定性。 我们提出了三维目标的不确定性表示方法,以应对图像中目标定位的不确定性。 我们在检测过程中对目标的定位不确定性进行建模,并将目标的位置表示为三维空间中的概率分布。 针对基于相机的三维目标检测,我们提出通过聚合并抑制关于同一目标的冗余预测,以构建其不确定性表示。针对基于相机的三维多目标追踪,我们在不确定性表示的基础上推广了跨帧关联度量,以更好地追踪定位不确定、不稳定的目标。 作为一种插件式模块,我们的方法在nuScenes验证集上为BEVDet4D、BEVDet4D-Depth和DD3D检测器分别带来了+3.5%/+3.2%/+3.7%的NDS提升,在nuScenes测试集上为BEVDet4D-Depth带来了+4.7%的NDS提升。得益于增强的跨帧关联能力,我们的追踪方法在nuScenes测试集上达到了48.2%的AMOTA表现,并将剩余的身份切换数量(IDS)减少至仅300个。
Research
Bootstrap Masked Visual Modeling via Hard Patch Mining (TPAMI 2025)
研究介绍: 典型的视觉掩码建模方法局限于模型预测被掩码标记的具体内容,这可以直观地理解为教导一个学生(模型)解决给定的问题(预测被掩码的内容)。在这种设定下,性能高度依赖于掩码策略(所提供问题的难度)。 本研究认为,让模型站在教师的角度,自行生成具有挑战性的问题同样重要。为了赋予模型以教师的能力,本研究提出了Hard Patches Mining (HPM),即预测逐块损失并随后决定掩码的位置。具体来说,如图1所示,本研究引入了一个辅助损失预测器,并基于其预测的损失来生成不同难度的掩码。此外,为了逐步引导训练过程,本研究提出了一种从易到难的掩码策略。 实验结果来看,HPM在各类基准测试中都带来了显著的提升(图2)。 Abstract Masked visual modeling has attracted much attention due to its promising potential in learning generalizable representations. Typical approaches urge models to predict […]
Reconstructive Visual Instruction Tuning.International Conference on Learning Representations (ICLR 2025)
本研究提出了一种重构式视觉指令调优框架(ROSS),该框架创新性地构建了以视觉为中心的监督信号体系,突破了传统多模态大模型(LMMs)仅针对文本输出进行监督的范式局限。区别于现有方法依赖文本反馈优化模型输出,ROSS通过引导模型重构输入图像的潜在表征,充分挖掘原始视觉数据中蕴含的丰富空间细节信息。针对自然图像中存在的显著空间冗余问题,研究团队设计了基于去噪机制的重构目标函数,有效避免了直接回归像素级RGB值的技术困境。这种内在激活机制不仅显著增强了模型对图像细节的保持能力,更在本质上提升了模型的细粒度视觉理解水平并抑制了生成幻觉现象。实验表明,ROSS框架展现出卓越的跨架构兼容性,在多种主流视觉编码器和语言模型组合中均实现性能提升。值得注意的是,在仅采用单一SigLIP视觉编码器的情况下,ROSS即展现出与集成多专家视觉系统的最先进方法相当的性能表现,充分验证了该视觉中心化监督策略在视觉输出优化方向上的创新价值和技术优势。代码提供在https://github.com/Haochen-Wang409/ross。
Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness (ICCV 2025)
研究介绍: 随着二维图像与视频处理领域大规模多模态模型(LMMs)的快速发展,三维场景解析技术的研究也得到显著推进。然而,大规模三维视觉-语言数据集的缺失始终是制约该领域发展的关键瓶颈。现有解决方案多聚焦于通过设计三维输入表征来增强二维模型的三维感知能力,本研究则提出了创新性的解决思路。本研究构建了”三维感知重构式视觉指令调优”框架(ROSS3D),通过将三维感知视觉监督信号引入训练流程,实现了对三维空间关系的深度建模。具体而言,该框架包含双路径重构机制:其一,跨视角重建任务通过整合多视角重叠区域信息,实现对遮蔽视角的精确还原,有效提升了细粒度空间关系建模能力;其二,全局视角重建任务通过融合全视角信息生成鸟瞰图,构建了对场景整体布局的全景认知。这种双轨制设计既保证了局部细节的准确性,又兼顾了全局场景的理解深度。实验结果显示,ROSS3D在多个三维场景理解基准测试中均取得当前最优性能。更具突破性的是,该框架在半监督学习场景中展现出显著优势——通过50%标注数据结合50%未标注三维视觉数据的训练策略,成功突破数据标注瓶颈,为大规模未标注三维数据的有效利用提供了全新解决方案。这项研究为三维视觉大模型的发展开辟了新路径。
CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-scale Scenes (ICLR 2025)
研究介绍 3D 高斯投影(3D Gaussian Splatting,简称 3DGS)在辐射场重建方面取得了突破,实现了高效且高保真的新视角合成。然而,由于 3DGS 的非结构化特性,在大规模和复杂场景中准确表示表面仍然是一个重大挑战。本文提出了 CityGaussianV2,这是一种面向大规模场景重建的新方法,旨在解决几何精度和效率方面的关键问题。 该方法基于 2D 高斯投影(2DGS)良好的泛化能力,着重解决其收敛性与可扩展性问题。具体而言,我们引入了基于梯度分解的密化与深度回归技术,以消除模糊伪影并加速收敛过程。为了解决扩展性问题,我们设计了一种拉伸滤波器,以缓解因 2DGS 退化引起的高斯数量爆炸问题。 此外,我们对 CityGaussian 管线进行了并行训练优化,实现了高达 10 倍的数据压缩,训练时间节省至少 25%,内存使用减少 50%。我们还建立了大规模场景下的标准几何评测基准。实验结果表明,我们的方法在视觉质量、几何精度以及存储与训练成本之间取得了良好的平衡。 更多实时演示和官方代码实现可见项目主页:https://dekuliutesla.github.io/CityGaussianV2 Abstract Recently, 3D Gaussian Splatting (3DGS) has revolutionized […]
MCOP: Multi-UAV Collaborative Occupancy Prediction (ICCV 2025)
研究介绍: 为应对无人机集群系统中多样化任务对高效协同感知的需求,我们提出一种新颖的多无人机协同占据预测框架MCOP。现有基于鸟瞰图的无人机感知方法难以完整表达场景语义与几何信息,且在遇到遮挡或未定义目标时性能下降。为此,我们设计了空间感知特征编码器与跨智能体特征融合机制,保留三维结构与语义信息,并引入高度感知特征压缩与双掩码感知引导策略,有效降低通信开销。我们扩展了三个数据集用于评估。实验表明,所提方法在准确率和通信效率方面均优于现有协同感知方法。
ENHANCING END-TO-END AUTONOMOUS DRIVING WITH LATENT WORLD MODEL (ICLR 2025)
最近端到端规划方法在自动驾驶领域受到了广泛关注,因其相较于传统规划方法具有显著的优势。传统的规划方法依赖于感知模块的预处理输出,如边界框和轨迹数据,而端到端规划方法则直接利用原始传感器数据来提取场景特征,从而最大限度地减少信息丢失。这一直接使用传感器数据的方法引发了一个重要的研究问题:如何开发更加有效的场景特征表示,以充分发挥传感器数据的潜力,推动端到端自动驾驶性能的提升? 近年来,自监督学习已成为从大规模数据集中提取全面特征表示的有效方法,特别是在自然语言处理和计算机视觉领域取得了显著成效。基于这一成功经验,我们计划通过自监督学习来丰富场景特征学习,并进一步提升端到端自动驾驶性能。传统的自监督方法主要关注静态的单帧图像,但自动驾驶系统依赖于连续的视频输入,因此有效地利用时间信息至关重要。最近基于时间的自监督任务,如未来预测,已经显示出较好的应用潜力。然而,传统的未来预测任务往往忽视了自车行为的影响,而自车的行为在自动驾驶中对未来场景的变化起着至关重要的作用。 考虑到自车行为的关键作用,我们提出了一种基于世界模型的未来预测方法,该方法通过当前状态和自车行为预测未来场景状态。现有的基于图像的世界模型通常依赖于扩散模型,这种方法生成未来场景图像的速度较慢。为了解决这一问题,我们引入了一个隐式世界模型,该模型直接从当前的隐式特征和自车行为中预测未来的隐式特征,如图所示。具体而言,给定输入图像,视觉编码器提取当前场景特征,然后通过行为解码器预测自车轨迹。基于当前状态和行为,隐式世界模型进一步预测未来帧的场景特征。在训练过程中,我们使用未来帧提取的特征来对预测的未来特征进行监督,从而共同优化场景特征学习和轨迹预测。 引入隐式世界模型的概念后,我们进一步探讨了该方法在不同端到端自动驾驶框架中的普适性。端到端自动驾驶框架通常可分为感知无关和感知驱动两类。感知无关的方法跳过显式感知任务,仅依赖轨迹监督。已有研究通常通过提取视角特征来预测未来轨迹。与之相对,感知驱动的方法结合了检测、跟踪、地图分割等感知任务来引导场景特征学习,这些方法通常使用鸟瞰视图特征图作为统一的感知表示。我们的隐式世界模型能够兼容这两种框架,它可以在感知无关设置中预测视角特征,或者在感知驱动设置中预测鸟瞰视图特征,展示了其在不同自动驾驶范式中的普适性。 实验结果表明,我们的隐式世界模型在感知无关和感知驱动框架中均能有效提升性能。此外,我们在多个基准测试中取得了最先进的性能,包括基于真实世界的开放环路数据集nuScenes和NAVSIM(基于nuPlan),以及基于仿真器的闭环CARLA基准测试。这些结果充分证明了我们方法的有效性,并凸显了自监督学习在端到端自动驾驶研究中的巨大潜力。
FreeSim:Toward Free-viewpoint Camera Simulation in Driving Scenes (CVPR2025)
研究介绍: 我们提出了FreeSim,一种面向自动驾驶的相机模拟方法。FreeSim强调在记录的自车轨迹之外的视角上实现高质量渲染。在此类视角下,由于缺乏训练数据,以往方法存在不可接受的性能下降。为解决数据稀缺问题,我们首先提出了一种生成增强模型,并搭配匹配的数据构建策略。该模型能够在略微偏离记录轨迹的视角上生成高质量图像,条件是该视角的降质渲染。随后,我们提出了一种渐进式重建策略,从略微偏离轨迹的视角开始,逐步将未记录视角的生成图像加入重建过程,并逐步扩大偏离距离。通过这种渐进生成-重建流程,FreeSim支持在超过3米的大幅偏离下实现高质量的轨迹外视角合成。
FlexDrive: Toward Trajectory Flexibility in Driving Scene Reconstruction and Rendering (cvpr2025)
研究介绍: 利用3D高斯泼溅技术,驾驶场景重建和渲染取得了显著进展。然而,先前的研究大多集中在预记录车辆路径上的渲染质量,难以推广到路径外的视角,这是由于缺乏这些视角的高质量监督。为解决这一问题,我们引入了逆视图扭曲技术,生成紧凑且高质量的图像作为路径外视角重建的监督,从而实现这些视角的高质量渲染。为了准确且稳健地进行逆视图扭曲,提出了一种深度引导策略,在优化过程中实时获取密集深度图,克服了LiDAR深度数据的稀疏性和不完整性。我们的方法在广泛使用的Waymo Open数据集上实现了优异的路径内和路径外重建与渲染性能。此外,提出了一个基于模拟器的基准测试,以获取路径外的真实数据并定量评估路径外渲染性能,我们的方法在此方面显著优于以往方法。
UIPro: Unleashing Superior Interaction Capability For GUI Agents (ICCV 2025)
研究介绍: 我们提出了UIPro,在大规模统一数据之上训练得到的一种新型的通用GUI智能体。为了解决现有GUI智能体在有限场景、数据量不足和异构动作空间等方面面临的挑战,我们首先整理了一个包含约2000万个GUI理解任务的综合数据集,用于预训练,从而赋予智能体强大的GUI元素理解(尤其是元素定位)能力。随后,我们构建了一个多平台统一的动作空间来整合不同来源(如:移动设备、桌面软件以及网页浏览)的GUI智能体任务数据集,有助于智能体在多平台迁移和运用GUI操控能力。 实验结果表明,UIPro在多个GUI任务基准测试中表现出色:在移动设备控制(如AndroidControl)和网页浏览器控制(如:Mind2Web)等任务中均展现出卓越的性能,显著超越了现有智方法,包括使用闭源API的智能体和面向GUI场景微调的专家VLM。此外,消融实验表明,本文提出的数据统一和动作空间统一都能极大地发挥数据的规模化效益,也帮助智能体打通不同数字平台之间的操控壁垒。
