程序员开发实例大全宝库

网站首页 > 编程文章 正文

又快又好又开源!SegNet4D:4D LiDAR语义分割竟如此精确!

zazugpt 2024-10-13 11:20:50 编程文章 13 ℃ 0 评论

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)最新顶会论文、计算机视觉书籍优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?

三维光探测与测距(LiDAR)传感器已成为现代自动驾驶汽车和机器人不可或缺的设备,这得益于其对光照变化的鲁棒性和广阔的视野。因此,基于LiDAR的语义感知在近年来引起了广泛的研究兴趣。使用3D LiDAR数据进行语义分割旨在为获取的点云中的每个点分配一个特定的语义类别标签,这是D感知中的一项基础任务。这一过程可以显著增强下游任务,如点云配准和同时定位与地图构建(SLAM)。

然而,在实际应用中,基于单次扫描的3D LiDAR语义分割方法往往受到限制,因为它缺乏运动信息,这对同一语义对象的连续在线处理有显著影响。为了解决这个问题,新兴的4D语义感知领域吸引了越来越多的关注,该领域专注于同时为每个点分类并识别其动态属性。这项任务通常需要以连续多次扫描作为输入来提取运动信息。在这方面,一些方法直接将历史LiDAR扫描堆叠成一个点云,并将其输入到基于单次扫描的网络中以实现多次扫描的分割,但由于缺乏时间信息关联,这种方法会导致次优性能。相反,也有方法探索构建4D卷积神经网络或递归网络来从输入的连续LiDAR扫描中提取运动特征。然而,这些方法计算量大,使得实时操作具有挑战性。此外,现有方法通常将多帧扫描语义分割视为端到端的任务,直接预测所有类别的语义标签。由于场景中移动点的数量相比静态点要少,这种方法在识别移动物体方面表现出有限的能力。

为了应对这些挑战,我们提出了一种有效且高效的多帧扫描语义分割框架。在我们的观点中,多帧扫描语义分割是单帧扫描语义分割和移动物体分割(MOS)的结合。因此,我们的核心思想是将多帧扫描语义分割分解为两个子任务:单帧扫描语义分割和MOS。通过分别为每个子任务设置独立的头部并随后合并它们的结果,我们的方法相比端到端方式取得了更优的性能。为了提高运算效率,我们的框架将连续的激光雷达扫描转换为鸟瞰图(BEV)图像,并通过计算BEV残差来提取运动特征,与现有使用4D卷积的方法相比,显著降低了计算成本。MOS对于最终的多帧扫描语义关联至关重要,然而现有方法由于缺乏实例级语义信息,无法完全检测移动物体。因此,我们从当前扫描中提取实例信息并将其整合到预测流程中,以提高MOS的准确性,从而实现实例感知分割。最后,我们设计了一个新颖的模块来融合逐点语义预测和运动状态,以实现准确的多帧扫描语义分割在线处理。

下面一起来阅读一下这项工作~

1. 论文信息

标题:SegNet4D: Effective and Efficient 4D LiDAR Semantic Segmentation in Autonomous Driving Environments

作者:Neng Wang, Ruibin Guo, Chenghao Shi, Hui Zhang, Huimin Lu, Zhiqiang Zheng, Xieyuanli Chen

机构:国防科技大学

原文链接:https://arxiv.org/abs/2406.16279

代码链接:https://github.com/nubot-nudt/SegNet4D

2. 摘要

4D激光雷达(LiDAR)语义分割,又称多扫描语义分割,在提升自动驾驶汽车的环境理解能力方面发挥着至关重要的作用。它涉及识别LiDAR扫描中每个点的语义类别,并区分其是否为动态对象,这是路径规划和自主导航等下游任务中的关键环节。现有的4D语义分割方法往往依赖于计算密集型的4D卷积来处理多扫描输入,导致实时性能较差。本文介绍了一种名为SegNet4D的新型实时多扫描语义分割方法,该方法利用基于投影的方法对运动特征进行快速编码,并表现出色。SegNet4D将4D语义分割视为两个独立的任务:单扫描语义分割和运动对象分割,每个任务都通过专门的头部进行处理。然后,在提出的运动-语义融合模块中融合这些结果,以实现全面的多扫描语义分割。此外,我们还提出了从当前扫描中提取实例信息并将其融入网络以实现实例感知分割的方法。我们的方法在多个数据集上均表现出最先进的性能,并作为实时多扫描语义分割方法脱颖而出。SegNet4D的实现将在https://github.com/nubot-nudt/SegNet4D上公开。

3. 效果展示

我们在主流数据集上广泛评估了提出的SegNet4D,并将其性能与其他方法进行了比较。如图1所示,我们的方法在多扫描语义分割任务中取得了最佳性能。据我们所知,这是第一个具有最先进性能的实时多扫描语义分割方法。此外,在多个数据集上的广泛实验也表明,我们的网络在移动对象分割(Moving Object Segmentation,MOS)任务上达到了最先进的性能。

我们在nuScenes验证集上将我们的方法与MarS3D进行了定性比较,如图3所示。我们的方法在移动物体的语义识别方面表现出更强的能力。此外,MarS3D倾向于错误地分类大型实例,如卡车,并且经常表现出分割不完整的问题。

4. 主要贡献

综上所述,我们对本工作提出以下四个核心观点:

? 我们提出了一种新的多扫描语义分割框架,该框架将这一任务分解为两个子任务,并最终合并它们的结果以实现更准确的分割。

? 我们提出了一种高效的多扫描语义分割网络,据我们所知,这是第一个能够实现实时操作的方法。

? 我们认为实例信息对移动对象分割和语义分割任务是有益的。因此,我们将实例信息融入网络,以实现实例感知分割。

? 我们设计了一种新颖的运动-语义融合模块,用于整合运动预测和单扫描语义分割预测,使网络能够实现运动引导的多扫描分割。

5. 基本原理是啥?

给定一系列点云数据,我们的目标是获取当前点云的4D语义信息。为此,我们引入了SegNet4D。如图2所示,SegNet4D由四个主要部分组成:运动特征编码模块(MFEM)、实例检测模块、上采样融合模块和运动-语义融合模块(MSFM)。

MFEM将当前扫描和过去连续的扫描转换为鸟瞰图(BEV)图像,并随后计算BEV图像的残差以提取运动特征。然后,实例检测模块将运动特征与当前激光雷达扫描的空间特征进行拼接,并提取时空特征和实例特征。这些特征随后在上采样融合模块中进行融合。我们利用两个独立的输出头来处理融合后的特征,以实现单次扫描的语义分割和多对象分割(MOS)任务。最后,MSFM将单次扫描的语义预测和运动预测进行整合,从而实现多扫描语义分割。

6. 实验结果

多扫描语义分割。我们在SemanticKITTI隐藏测试集上评估了我们的方法的多扫描语义分割性能,并将结果与包括(a)基于单次扫描的方法(将历史激光雷达扫描堆叠为单次扫描作为多扫描语义分割的输入):TangentConv、DarkNet53、KPConv、Cylinder3D;以及特别设计的基于多扫描的语义分割方法:SpSequenceNet (SSN)、TemporalLidarSeg (TLS)、TemporalLatticeNet (TLN)、MarS3D在内的基线方法进行了比较。为了公平比较,我们像所有方法一样,仅利用前两个激光雷达扫描来预测语义标签,即N=3。如表I所示,我们的方法在不使用任何测试时增强和多模型集成技巧的情况下,达到了55.0%的mIoU,且性能优于所有方法。特别是,我们的方法与其他方法相比,在运动物体的语义识别方面表现出显著改进。

为了进一步测试我们的方法对更稀疏点云的适应性,我们在nuScenes数据集上进行了额外的实验,并将结果与最新方法MarS3D进行了比较。如表II所示,我们的方法在更稀疏的点云数据上也能很好地工作,并且性能仍然优于MarS3D。

单次扫描语义分割。我们在SemanticKITTI隐藏测试集上报告了我们方法的单次扫描语义分割结果,并将其与表I中的单次扫描方法进行了比较,结果如表III所示。尽管我们的方法在单次扫描语义分割方面没有达到最佳性能,但仍然获得了具有竞争力的结果。

移动对象分割。我们在SemanticKITTI-MOS基准测试集上评估了结果,并与几种MOS方法进行了性能比较,包括(a)基于投影的方法:LMNet、RVMOS、MotionSeg3D和MotionBEV;(b)基于点的方法:4DMOS和InsMOS;(c)离线方法:AutoMOS。SemanticKITTI-MOS基准测试集是中提出的官方MOS评估器,包含SemanticKITTI隐藏测试集的数据和标签。请注意,这些方法的实验结果来自它们的原始论文和SemanticKITTI-MOS基准测试集。特别地,为了获得最佳的MOS性能,我们在MOS任务中将N设置为8。我们在表IV中进行了定量比较。在不使用KITTI-Road数据集进行训练的情况下,我们的方法在SemanticKITTI测试集上的表现仅略逊于RVMOS,但显著优于其他方法。通过利用扩展的数据集来减轻数据分布不平衡的影响,我们的方法实现了77.5%的IoU最佳性能。

7. 总结

在本文中,我们提出了一种新颖的多扫描语义分割方法,该方法能够实时预测激光雷达数据的逐点运动标签和语义标签。该框架将复杂的多扫描语义分割任务分解为单次扫描语义分割和多对象分割(MOS)任务,并最终将它们的预测结果合并以实现更准确的多扫描语义分割。我们采用基于投影的方法来快速获取运动特征,与4D卷积相比,这显著降低了计算复杂度。为了实现实例感知分割,我们将运动特征与当前扫描的空间特征进行拼接,将它们输入网络进行实例检测,然后将实例特征注入到预测流程中。此外,我们还设计了一个运动-语义融合模块,以显式地整合逐点运动状态和静态语义预测,从而实现运动引导的多扫描语义分割。在多个数据集上进行的大量实验表明,我们的方法是有效且高效的。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等


Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表