研究介绍:
随着二维图像与视频处理领域大规模多模态模型(LMMs)的快速发展,三维场景解析技术的研究也得到显著推进。然而,大规模三维视觉-语言数据集的缺失始终是制约该领域发展的关键瓶颈。现有解决方案多聚焦于通过设计三维输入表征来增强二维模型的三维感知能力,本研究则提出了创新性的解决思路。本研究构建了”三维感知重构式视觉指令调优”框架(ROSS3D),通过将三维感知视觉监督信号引入训练流程,实现了对三维空间关系的深度建模。具体而言,该框架包含双路径重构机制:其一,跨视角重建任务通过整合多视角重叠区域信息,实现对遮蔽视角的精确还原,有效提升了细粒度空间关系建模能力;其二,全局视角重建任务通过融合全视角信息生成鸟瞰图,构建了对场景整体布局的全景认知。这种双轨制设计既保证了局部细节的准确性,又兼顾了全局场景的理解深度。实验结果显示,ROSS3D在多个三维场景理解基准测试中均取得当前最优性能。更具突破性的是,该框架在半监督学习场景中展现出显著优势——通过50%标注数据结合50%未标注三维视觉数据的训练策略,成功突破数据标注瓶颈,为大规模未标注三维数据的有效利用提供了全新解决方案。这项研究为三维视觉大模型的发展开辟了新路径。

