新的 Project GR00T 工作流和 AI world model 开发技术将提高机器人的灵巧性、控制性、操纵性和移动性。
NVIDIA 在本周于德国慕尼黑举行的机器人学习大会(CoRL)上发布了全新 AI 和仿真工具以及工作流。机器人开发者可以使用这些工具和工作流,大大加快 AI 机器人(包括人形机器人)的开发工作。
此次发布的系列产品包括:NVIDIA Isaac Lab 机器人学习框架正式版;Project GR00T(一个为加速人形机器人发展的项目)的六个全新人形机器人学习工作流;以及用于视频数据管理和处理的全新世界模型开发工具,包括用于视频处理的 NVIDIA Cosmos tokenizer 和 NVIDIA NeMo Curator。
开源 Cosmos tokenizer 可将图像和视频分解为具有极高压缩率的高质量 token,为机器人开发者提供卓越的视觉标记化功能。Cosmos tokenizer 的运行速度最高可达到当前标记器的 12 倍,NeMo Curator 的视频处理整理速度则最高可达到未优化管线的 7 倍。
NVIDIA 在 CoRL 上还发布了 23 篇与机器人学习相关的论文,并举办了 9 场研讨会,同时发布了面向开发者的培训和工作流指南。此外,Hugging Face 和 NVIDIA 还宣布,将共同使用 LeRobot、NVIDIA Isaac Lab 和 NVIDIA Jetson 来加速开发者社区的开源机器人研究。
使用 Isaac Lab 加速机器人开发
NVIDIA Isaac Lab 是一个建立在 NVIDIA Omniverse 平台上的开源机器人学习框架。NVIDIA Omniverse 是一个用于开发适用于工业数字化和物理 AI 仿真的 OpenUSD 应用的平台。
开发者可以使用 Isaac Lab 来大规模训练机器人策略。这个开源的统一机器人学习框架适用于从人形机器人到四足机器人和协作机器人等各种具身,能够处理日益复杂的动作和交互。
全球领先的商用机器人制造商、机器人应用开发商和机器人研究机构都在使用 Isaac Lab,包括 1X、Agility Robotics、波士顿动力人工智能研究所、Berkeley Humanoid、波士顿动力公司、Field AI、傅利叶、银河通用、Mentee Robotics、Skild AI、Swiss-Mile、宇树科技和小鹏机器人。
Project GR00T:
通用人形机器人的基础
制造先进的人形机器人非常困难,需要多层技术和跨学科方法,才能使机器人有效地感知、移动和学习技能,进而实现人与机器人以及机器人与环境的交互。
Project GR00T 旨在通过开发加速库、基础模型和数据管线,加速全球人形机器人开发者生态的发展。
这六个全新 Project GR00T 工作流为人形机器人开发者提供了实现最具挑战性的人形机器人功能的蓝图:
- GR00T-Gen 用于构建基于 OpenUSD 的生成式 AI 3D 环境
- GR00T-Mimic 用于生成机器人运动和轨迹
- GR00T-Dexterity 用于机器人灵巧操作
- GR00T-Control 用于全身控制
- GR00T-Mobility 用于机器人运动和导航
- GR00T-Perception 用于多模态感知
NVIDIA 具身 AI 高级研究经理 Jim Fan 表示:“人形机器人是具身 AI 的下一轮浪潮。NVIDIA 的研究和工程团队正在与整个公司内部和我们的开发者生态合作构建 Project GR00T,以帮助推动全球人形机器人开发者的进步和发展。”
世界模型构建者的新开发工具
如今,机器人开发者正在构建世界模型。这种用 AI 呈现世界的方式可以预测物体和环境对机器人行动的反应。构建这些世界模型需要大量计算和数据,这些模型需要数千小时的经过整理的真实世界图像或视频数据。
NVIDIA Cosmos tokenizer 提供高效、优质的编码和解码能力,能够简化这些世界模型的开发。它们树立了最小失真和时间不稳定性的新标准,实现了高质量的视频和图像重建。
Cosmos tokenizer 提供了高质量压缩和最高达 12 倍的视觉重构速度,为在广泛的视觉域开发可扩展、强大且高效的生成应用创造了条件。
人形机器人公司 1X 已更新了 1X 世界模型挑战赛数据集,以便使用 Cosmos tokenizer。
1X Technologies AI 副总裁 Eric Jang 表示:“NVIDIA Cosmos tokenizer 在保持视觉保真度的同时,实现了对我们数据的高度时空压缩。这让我们能够以更高效的计算方式,来使用长视距视频生成技术去训练世界模型。”
包括小鹏机器人和 Hillbot 在内的其他人形机器人和通用机器人开发商正在其开发过程中使用 NVIDIA Cosmos tokenizer,以管理高分辨率图像和视频。
NeMo Curator 现在加入了一个视频处理管线,这使机器人开发者能够通过处理大规模文本、图像和视频数据,来提高其世界模型的准确性。
由于视频数据的规模庞大,需要可扩展的管线和跨 GPU 负载平衡的高效编排,这给视频数据管理带来了挑战。此外,还需要对过滤、字幕生成和嵌入模型进行优化,才能最大程度地提高吞吐量。
NeMo Curator 通过自动管线编排来简化数据整理工作,显著缩短了处理时间,从而克服了这些挑战。NeMo Curator 支持跨多节点、多 GPU 系统的线性扩展,可高效处理 100 PB 以上的数据,这简化了 AI 开发,降低了成本,加快了产品的上市时间。
在 CoRL 上
推进机器人学习社区的发展
NVIDIA 机器人团队与 CoRL 共同发布的近二十篇研究论文涵盖了以下领域的突破性成果:集成 VLM 来优化环境理解和任务执行、机器人时间导航、为复杂的多步骤任务制定长视距规划策略,以及利用人类演示来习得技能。
有关人形机器人控制和合成数据生成的突破性论文包括:SkillGen(一个基于合成数据生成的系统,用于在人工演示极少的情况下训练机器人)和 HOVER(一个用于控制人形机器人运动和操作的机器人基础模型)。
NVIDIA 研究人员还参加了本届大会的九场研讨会。进一步了解有关活动的完整日程安排:
https://www.nvidia.cn/events/corl/
供货情况
NVIDIA Isaac Lab 1.2 现已在 GitHub 上开源可用。NVIDIA Cosmos tokenizer 现已在 GitHub 和 Hugging Face 上开源。用于视频处理的 NeMo Curator 将于本月底发布。
新的 NVIDIA Project GR00T 工作流即将推出,以帮助机器人公司更加轻松地构建人形机器人功能。有关这些工作流的更多信息,请访问 NVIDIA 技术博客:
https://developer.nvidia.cn/blog/advancing-humanoid-robot-sight-and-skill-development-with-nvidia-project-gr00t/
学习使用 Isaac Lab 的研究人员和开发者现可以访问开发者指南和教程,包括 Isaac Gym 到 Isaac Lab 的迁移指南。
在即将于 11 月 13 日举行的关于机器人仿真和学习的 OpenUSD 内部直播中了解机器人学习和仿真的最新进展:
https://www.addevent.com/event/GA23422424
不要错过在 NVIDIA Isaac Lab Office Hours 获得实践支持和洞察的机会:
https://www.addevent.com/event/Uz23738360
开发者可以申请加入 NVIDIA 人形机器人开发者计划:
https://developer.nvidia.com/humanoid-robot-program