CityGaussian: Real-time High-quality Large-Scale Scene Rendering with Gaussians (ECCV 2024)

研究介绍

大规模场景(十万平米到千万平米面积范围的区域)的高质量重建与实时渲染对国计民生的诸多领域具有重要价值,包括战场态势感知、空中搜索与营救、自动驾驶仿真、文物景点保护、在线地图导航、虚拟现实等等。然而,由于场景的覆盖范围很大,场景结构多样且复杂,要进行精准重建难度高、时间长;此外,如此丰富的细节和信息意味着大体量的表征模型,这给存储与显存开销及实时性带来了严峻挑战。为了解决上述问题,我们提出了CityGaussian,在训练和渲染管线两个进行了针对性的创新与改进。

训练管线。我们基于分治思想,将高斯基元与数据划分为不同的子块,这些子块被分配到不同的GPU并行训练,并在训练完成后进行综合。这一方式降低单GPU的训练负担同时提升总体效率。具体而言,我们用全部数据预训练一个粗糙的3DGS场来提供全局几何先验,从而引导每一个子块后续的微调,并避免在融合时不同子块的训练结果相互冲突。基于这一全局几何先验,我们在位置关系的基础上进一步引入了基于SSIM的贡献判别准则,只保留当前子块有显著贡献的视角用于训练,从而以更少的高斯点数量得到显著更优的渲染质量。(图1)

渲染管线。3DGS以其优越的实时性著称,但其在大场景上遇到的速度挑战却并未得到充分认知。由于渲染流程中最为耗时的环节涉及对高斯点按深度排序,当总数超过10M时,排序过程将消耗大量时间,致使3DGS失去实时性。为此,我们引入多细节层次技术(Level of Detail, LoD),只加载视锥范围内所需细节层级的高斯点进行渲染。具体而言,我们首先借助LightGaussian进行压缩,压缩率越高对应越粗糙的细节层级,也表征越远的场景。在渲染阶段,我们会对子块进行离群点剔除和真实边界估计,来选定视野范围内的子块,每个子块将通过距离阈值选择合适的细节层次进行表征。(图2)

实验结果。我们在包含真实场景以及虚拟场景的多个数据集上进行了测试,可以看到相比于已有算法,我们在各个指标上取得了SOTA的性能结果(图3)。此外,我们的渲染管线也保证了在不同的相机高度下都能获得实时且丝滑的大规模场景游览体验。

图 1  CityGaussian训练管线。基于分治思想对大规模场景划分为子块进行并行训练,用全局几何先验引导每个子块的微调,避免不同子块的训练结果相互冲突。同时,基于渲染贡献的数据筛选准则使得我们能以更少的高斯点数取得显著更优的渲染质量
图 2  CityGaussian渲染管线。我们通过不同的压缩率获得不同的细节层次,压缩率越高细节越粗糙,用来表达更远的区域。同时,在渲染时,只有位于视锥范围内的子块才会输入渲染管线
图 3 CityGaussian和现有其它方法的定性对比

项目网站:https://dekuliutesla.github.io/citygs/

代码:https://github.com/DekuLiuTesla/CityGaussian

论文:https://arxiv.org/abs/2402.19161

Updated: 2025-08-25 — 7:22 下午

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

Zhaoxiang Zhang © 2020