网站首页 > 编程文章正文

吊打BEVFormer!全任务SOTA!GaussianBeV:3D GS杀入BEV分割!

zazugpt 2024-10-13 11:20:09 编程文章 14 ℃ 0 评论

来源：3D视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附3D视觉行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

0. 这篇文章干了啥？

多相机3D感知任务，如语义分割，对于自主导航应用至关重要。一种常见策略涉及将不同相机的特征投影并合并到鸟瞰图（BeV）表示中，然后由感知头进行分析。这些方法的主要挑战在于，在将物理世界投影到相机图像时，会丢失3D信息，因此需要解决将图像视图转换为BeV的逆问题。

最近的文献中，图像到BeV转换的方法主要分为三个主要子集。首先，基于深度的方法通过基于离散深度分布预测，将图像中提取的特征填充到3D网格中，从而实现几何视图转换。关键思想是大致定位每个图像特征的3D位置，然后通过体素化步骤进行累积。然而，在这些方法中，3D特征定位依赖于深度离散化的粒度，且是次优的，因为特征被放置在物体的可见表面层级上。其次，基于投影的方法也采用了几何方法，将3D网格点投影到相机中，并从这些点收集相应的特征。尽管这种方法直接，但它无法产生准确的2D到3D反投影，因为同一相机射线上的所有网格点都会接收到相同的特征。第三，基于Transformer的方法利用交叉注意力来合并多视图特征。虽然它们在3D对象检测中表现有效，但将其应用于像BeV语义分割这样的密集任务时，由于注意力过程中需要密集的空间查询来表示BeV，因此会产生高昂的计算成本。一些工作通过降低BeV分辨率来解决这一问题，但这不可避免地会导致信息丢失。

在本文中，我们提出了一种新颖的视角转换方法，称为GaussianBeV，该方法能够实现场景的精细3D建模。我们借鉴了基于高斯溅射（GS）进行新颖视角渲染的显式3D表示的最新进展，使用一组3D高斯分布来表示场景，每个高斯分布都由中心、尺度、旋转、不透明度和语义特征（而非GS中的颜色）参数化。此外，与原始GS方法不同，该方法使用针对特定场景的离线优化来确定3D高斯表示，而我们提出训练一个神经网络，以直接从一组多视角图像中在线生成场景的3D高斯表示。然后，将该表示渲染为鸟瞰（BeV）特征图，随后由语义分割头进行分析。

通过一组3D高斯分布来表示场景，能够对其全部内容进行建模。实际上，高斯分布的几何属性（位置、大小和旋转）能够根据场景中遇到的结构，以不同详细程度覆盖3D空间。直观上，代表车道标线的高斯分布在长度方向上会旋转并拉长。代表车辆的高斯分布将放置在车辆中心，并跟随其形状。图1d展示了本文提出表示法的直观理解。

下面一起来阅读一下这项工作~

1. 论文信息

标题：GaussianBeV: 3D Gaussian Representation meets Perception Models for BeV Segmentation

作者：Florian Chabot, Nicolas Granger, Guillaume Lapouge

机构：CEA, List

原文链接：https://arxiv.org/abs/2407.14108

2. 摘要

鸟瞰图（BeV）表示法广泛用于从多视图相机图像中进行3D感知。它允许将来自不同相机的特征合并到公共空间中，为3D场景提供统一的表示。关键组件是视图转换器，它将图像视图转换为鸟瞰图。然而，基于几何或交叉注意力的实际视图转换方法并未提供场景的足够详细表示，因为它们对3D空间进行了子采样，这对于建模环境的精细结构而言并非最优。在本文中，我们提出了GaussianBeV，这是一种通过将场景用一组位于3D空间中并定向的3D高斯分布进行精细表示，从而将图像特征转换为鸟瞰图的新方法。然后，通过适应基于高斯溅射的3D表示渲染的最新进展，将这种表示溅射到鸟瞰图特征图上。GaussianBeV是首个在线使用这种3D高斯建模和3D场景渲染过程的方法，即无需在特定场景上进行优化，而是直接集成到用于鸟瞰图场景理解的单阶段模型中。实验表明，所提出的表示方法非常有效，并将GaussianBeV置于nuScenes数据集上鸟瞰图语义分割任务的新最先进水平。

3. 效果展示

用于鸟瞰图（BeV）语义分割的多种BeV表示示例。每个BeV底部的三角形代表一个相机。特征用颜色表示，其中蓝色、红色和绿色分别代表路灯、汽车和车道标线。（a）基于深度的方法将图像特征沿物体表面的光线放置。（b）在基于投影的方法中，光线上的3D点接收相同的特征。（c）基于注意力的方法使用下采样的密集空间查询来降低内存成本。（d）在GaussianBeV中，场景由一组旋转的高斯函数表示，这些函数精细地描述了场景中的语义结构。

4. 主要贡献

我们的贡献可以概括如下：

（1）引入Gaussian-BeV，通过在线的图像到场景3D高斯表示的转换，从图像中生成BeV特征图，从而实现精细的3D内容建模。然后，使用光栅化模块将该表示溅射到BeV中。据我们所知，这是首次提出并集成到感知模型中的非特定场景的高斯溅射表示。

（2）实验证明了我们的方法的有效性，确立了它在鸟瞰（BeV）语义分割领域的新最先进水平。

5. 基本原理是啥？

图2展示了GaussianBeV的概述。该模型以一组多视角图像I ∈ RN×H×W×3作为输入，其中N表示相机数量，H和W表示图像的尺寸。这些图像依次通过四个模块，最终实现BeV分割。

第一个模块使用图像骨干网络和颈部结构提取图像特征，以获得特征图F ∈ RN×HF×WF×CF，其中CF是通道数，HF和WF是特征图的尺寸。

第二个模块是3D高斯生成器，它预测特征图中每个像素在世界参考系中对应高斯分布的参数。该模块的输出是一组3D高斯分布G ∈ RNHFWF×(C+11)，其中C是与每个高斯分布相关联的嵌入的通道数。更具体地说，G包含以下参数：位置P ∈ RNHFWF×3、尺度S ∈ RNHFWF×3、以单位四元数表示的旋转Q ∈ RNHFWF×4、不透明度O ∈ RNHFWF×1和嵌入E ∈ RNHFWF×C。首先，该模块为每个相机在其自己的相机参考系中预测一组3D高斯分布。接下来，应用相机外部参数将3D高斯分布从相机参考系转换到世界参考系，并最终将所有高斯分布连接成单一集合G。

第三个模块是BeV光栅化器，它对3D高斯分布集合G进行BeV渲染，以生成BeV特征图B ∈ RHB×WB×C，其中HB和WB是BeV图的尺寸。

最后，在最后一个模块中，顺序应用BeV骨干网络和分割头对BeV特征进行处理，以提供最终预测。

给定输入特征图F，3D高斯生成器使用多个预测头预测场景的3D高斯表示。图3说明了它如何在特征图上运行。

6. 实验结果

车辆分割。我们将GaussianBeV与以前使用不同输入分辨率（224×448和448×800）和不同可见性过滤条件的车辆语义分割工作进行了比较：（1）考虑所有车辆；（2）仅保留可见性>40%的车辆。结果如表1所示。该表表明，在所有实验设置中，GaussianBeV均明显优于以前的方法。例如，在使用224×448输入分辨率和可见性过滤的实验中，GaussianBeV的交并比（IoU）比之前的最新方法PointBeV高出+3.5。

行人分割。我们还就行人分割任务将GaussianBeV与其他先前的方法进行了比较。为了进行评估，我们使用了224×448的输入分辨率和可见性过滤。结果如表2所示。再次，GaussianBeV的交并比（IoU）比之前的最新方法PointBeV高出+2.7。

地面分割。我们使用448×800的输入分辨率训练GaussianBeV，以联合分割可行驶区域和车道边界。结果如表3所示。与之前的最新方法MatrixVT相比，GaussianBeV在车道边界分割方面给出了更优的结果（+2.6 IoU）。然而，我们的方法在分割可行驶区域时（-0.9 IoU）的效果略逊于MatrixVT。GaussianBeV详细建模场景的能力使得它能够更好地分割精细结构，但在更容易分割的较大区域中并未提高性能。

推理时间。我们在A100 GPU上比较了两种输入分辨率下GaussianBeV和之前方法PointBeV的推理时间。GaussianBeV的运行速度分别为24 fps和13 fps，而PointBeV的运行速度分别为19 fps和15 fps。因此，就计算时间而言，我们的方法是可比的，但未来的研究可能会通过优化高斯表示来加速模型。

7. 总结 & 未来工作

在本文中，我们介绍了GaussianBeV，这是一种新颖的图像到鸟瞰（BeV）的转换方法，在BeV语义分割领域达到了最新的技术水平。该方法基于一个在线的3D高斯生成器，将图像特征图的每个像素转换为语义化的3D高斯分布。然后，将这些高斯分布溅射以获得BeV特征图。我们已经证明，高斯表示能够实现对场景中不同几何结构的适应，从而实现精细的3D建模。我们希望这项初步工作能为使用在线高斯溅射表示的3D感知领域的进一步研究开辟道路。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

3D视觉工坊知识星球

具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

上一篇：端到端!首个开源视觉Transformer四旋翼控制避障方案!
下一篇：开源!通用!NVIDIA新作GSNERF: 如何解决未见场景的新视角生成?

网站首页 > 编程文章正文

吊打BEVFormer!全任务SOTA!GaussianBeV:3D GS杀入BEV分割!

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎你发表评论:

网站首页 > 编程文章 正文

吊打BEVFormer!全任务SOTA!GaussianBeV:3D GS杀入BEV分割!

猜你喜欢

本文暂时没有评论，来添加一个吧(●'◡'●)

取消回复欢迎 你 发表评论:

网站首页 > 编程文章正文

取消回复欢迎你发表评论: