网站首页 > 编程文章 正文
来源:3DCV
添加小助理:cv3d008,备注:方向+学校/公司+昵称,拉你入群。文末附3D视觉行业细分群。
扫描下方二维码,加入「3D视觉从入门到精通」知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门独家秘制视频课程、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!
0. 这篇文章干了啥?
“真实到模拟再到真实(R2S2R)”范式对于推动机器人学习至关重要,但由于当前“真实到模拟”方法在空间与颜色表示以及渲染质量方面存在显著挑战,该范式尚未完全实现。这些挑战阻碍了从模拟到现实应用的有效策略迁移,从而损害了在模拟环境中训练的机器人系统的可靠性和性能。
本文旨在全面重建机械臂操作场景,这需要可操控的机器人模型、背景与物体的重建、物理参数(如质量和摩擦力)的融入以及逼真的渲染器。我们采用统一机器人描述格式(URDF)作为空间表示,并结合物理参数的支配方程作为前向变形机制。这种组合能够在模拟和高斯溅射(Gaussian Splatting)环境中实现准确的碰撞检测和一致的渲染。
本方法的核心是高斯-网格-像素绑定,它在网格顶点、高斯核和图像像素之间建立了同构关系。每个高斯核都被赋予一个语义标签和相应的ID,这使得能够精确应用由URDF支配的变换矩阵。这确保了现实世界视频、模拟结果和渲染图像之间轨迹的无缝迁移。此绑定的优势包括各表示之间端到端可微分的梯度传递、通过最先进的网格重建实现的卓越碰撞检测以及高质量的渲染。
我们的系统确保了模拟与现实之间的一致渲染,使得学习的策略能够有效地部署到现实场景中。此外,它还支持在Isaac Sim(Gym)模拟后端中进行编辑,从而能够对新姿态和新策略进行调整。我们的方法针对CR和UR产品系列的机械臂进行了优化,但足够灵活,可以推广到其他机械臂模型。与当前方法相比,我们的方法在基于视频的网格重建和动态渲染方面达到了最先进的性能。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Robo-GS: A Physics Consistent Spatial-Temporal Model for Robotic Arm with Hybrid Representation
作者:Haozhe Lou, Yurong Liu, Yike Pan, Yiran Geng, Jianteng Chen, Wenlong Ma, Chenglong Li, Lin Wang, Hengzhen Feng, Lu Shi, Liyi Luo, Yongliang Shi
机构:University of Southern California、National University of Singapore、University of Michigan、Peking University、The Hong Kong University of Science and Technology、Beijing Institute of Technology、Tsinghua University、Xiaomi Robot Technology、AiR, Tsinghua University
原文链接:https://arxiv.org/abs/2408.14873
代码链接:https://robostudioapp.com/
2. 摘要
Real2Sim2Real在机械臂控制和强化学习中起着至关重要的作用,然而,由于机器人及其操纵的对象的复杂物理属性,弥合这一差距仍然是一个重大挑战。现有的方法缺乏全面的解决方案来精确地重建具有空间表示及其相关物理属性的真实世界对象。
我们提出了一个具有混合表示模型的Real2Sim管道,该模型集成了网格几何、3D高斯核和物理属性,以增强机械臂的数字资产表示。
这种混合表示是通过高斯网格像素绑定技术实现的,该技术在网格顶点和高斯模型之间建立同构映射。这实现了完全可微分的渲染管道,可以通过数值解算器进行优化,通过高斯分布实现高保真渲染,并使用基于网格的方法促进机器人手臂与其环境交互的物理模拟。
代码、完整演示和数据集将在我们的网站上公开
3. 效果展示
我们提出了一种新的数字资产格式,该格式通过结合网格、高斯溅射和现实世界运动来表示,如图1所示。这种方法通过从现实世界运动视频中提取关键物理参数(如质量和摩擦力)并将其集成,超越了传统的纹理网格和材料属性。
4. 基本原理是啥?
考虑高斯函数A(x, y, z) ∈ R3的中心点及其对应的图像像素位置P(u, v) ∈ R2。我们构建了一个同构映射,使得每个像素都能映射到与该像素具有相同语义掩码的高斯函数交点。每个高斯函数都与一组网格顶点和面绑定,形成我们称之为“高斯-网格-像素”绑定的结构,如图3所示。推荐课程:国内首个面向具身智能方向的理论与实战课程
优化3D高斯溅射涉及最小化高斯表示与像素数据之间的重投影误差。在4D高斯溅射中,输入图像包括像素数据和时间戳,旨在优化XYZT表示。由于4D重建中缺乏多视角一致性,这一非凸问题具有挑战性,如图4所示。
5. 实验结果
6. 总结 & 未来工作
我们的目标是开发一个鲁棒的Real2Sim框架,显著缩小现实世界机器人操作任务与其模拟对应任务之间的差距。我们通过引入一种混合表示模型来实现这一目标,该模型集成了网格几何、高斯颜色和物理属性。这种方法确保了机器人臂操作场景的高质量、逼真且符合物理规律的渲染。我们的模型在各种CR和UR产品序列上进行了训练和验证,证明了其从视频数据构建准确URDF的有效性。这种方法不仅提高了模拟环境的保真度,还很好地推广到其他机器人应用,从而推动了机器人学习和控制领域的最新进展。
我们当前的控制方法是基于位置的。然而,高斯溅射作为一种世界表示,能够从场景中的任何相机姿态进行准确渲染。因此,如果您想使用我们的资产和模型训练基于视觉的策略,只需在我们的引擎中设置渲染相机,并将输出用作训练数据即可。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉交流群,成立啦!
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、最前沿、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
最前沿:具身智能、大模型、Mamba、扩散模型等
除了这些,还有求职、硬件选型、视觉产品落地、产品、行业新闻等交流群
添加小助理: cv3d008,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。
「3D视觉从入门到精通」知识星球
具身智能、3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪等。
3D视觉模组选型:www.3dcver.com
— 完 —
猜你喜欢
- 2024-10-13 1.53 ms!CCTNet:LiDAR位置识别最新SOTA!SLAM回环稳了!
- 2024-10-13 别再用DDPG了!吉林大学最新无人机通信和网络GAI框架!
- 2024-10-13 SLAM回环 & 重定位新思路!告诉我你在哪里!
- 2024-10-13 牛津最新CVPRW!通用框架!单视图重建3D对象的360°生成!
- 2024-10-13 又快又好又开源!SegNet4D:4D LiDAR语义分割竟如此精确!
- 2024-10-13 深度学习增强的RANSAC!提升杂乱环境下的平面实例分割效果
- 2024-10-13 彻底解决未知和非结构场景!度量语义SLAM最新SOTA开源了!
- 2024-10-13 融合目标跟踪与多视图几何,TKG-SLAM 实现动态场景下的精准定位
- 2024-10-13 无视一切干扰!谷歌开源最强3DGS!(谷歌开源项目)
- 2024-10-13 NeRF巅峰之作!超快端到端MeshLRM 实现不到1s的高质量重建!
你 发表评论:
欢迎- 05-142014年最流行前端开发框架对比评测
- 05-14七爪源码:如何使用 Next.js 构建 Shopify 店面
- 05-14Web 前端怎样入门?
- 05-14我为什么不建议你使用框架
- 05-14推荐几个好用的React UI 框架
- 05-14PDFsharp:强大的 .NET 跨平台 PDF 处理库
- 05-14一组开源免费的Web动画图标,荐给需要的设计师和程序员
- 05-14salesforce 零基础学习(二十九)Record Types简单介绍
- 最近发表
- 标签列表
-
- spire.doc (59)
- system.data.oracleclient (61)
- 按键小精灵源码提取 (66)
- pyqt5designer教程 (65)
- 联想刷bios工具 (66)
- c#源码 (64)
- graphics.h头文件 (62)
- mysqldump下载 (66)
- sqljdbc4.jar下载 (56)
- libmp3lame (60)
- maven3.3.9 (63)
- 二调符号库 (57)
- 苹果ios字体下载 (56)
- git.exe下载 (68)
- diskgenius_winpe (72)
- pythoncrc16 (57)
- solidworks宏文件下载 (59)
- qt帮助文档中文版 (73)
- satacontroller (66)
- hgcad (64)
- bootimg.exe (69)
- android-gif-drawable (62)
- axure9元件库免费下载 (57)
- libmysqlclient.so.18 (58)
- springbootdemo (64)
本文暂时没有评论,来添加一个吧(●'◡'●)