打开网易新闻 查看更多图片

新智元报道

编辑:编辑部

【新智元导读】今天,银河通用机器人发布了端到端具身抓取基础大模型「GraspVLA」,全球第一个预训练完全基于仿真合成大数据的具身大模型,展现出了比OpenVLA、π0、RT-2、RDT等模型更全面强大的泛化性和真实场景实用潜力。

近日,英伟达CEO黄仁勋在今年CES的演讲无疑让整个科技圈为之沸腾。

他先是向全世界展示了搭载Blackwell新架构的新一代卡皇RTX 5090,然后介绍了英伟达对于人形机器人发展的期盼和投入,并以令人印象深刻的画面结尾——

「来自银河通用的全场唯一一台轮式具身大模型机器人Galbot G1将RTX 5090缓缓托起。」

打开网易新闻 查看更多图片

发布会结束后,黄仁勋更是第一时间亲自来到银河通用所在的展区,与Galbot机器人进行真机互动。

一时间,数字智能和物理智能的融会贯通、AI基建和AI模型及硬件的协同发展、科技巨头与超级创投的携手比肩,迸发出了前所未有的科技生命力。

全球的目光随之聚焦,究竟是什么让这位「AI教父」如此执着?为何唯独这家公司承载了万亿巨头的厚望?

具身智能无疑在今天的科技变革中扮演着核心角色,深刻着影响人类社会的发展变迁。

对于具身智能而言,「数据瓶颈」是业界公认亟待解决的最大挑战。有的团队认为具身和自动驾驶一样主要依赖真机数据,有的团队则认为需要采用大规模视频数据学习的策略,来自全球的研究团队各持己见。

直至今日,国内外已有多个研发团队发布百万级真机数据,但真机数据要采到什么规模、达到怎样的多样性、机器人硬件迭代后数据如何跟进等问题尚没有明确答案。

今天,银河通用联合北京大学、北京智源人工智能研究院(BAAI)、香港大学研究人员正式发布全球首个端到端具身抓取基础大模型GraspVLA。

作为全球首个完全基于仿真合成大数据进行预训练的具身大模型,GraspVLA展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力和在真实场景中的实用潜力。

作为全球首个完全基于仿真合成大数据进行预训练的具身大模型,GraspVLA展现出比OpenVLA、π0、RT-2、RDT等模型更强大的泛化能力和在真实场景中的实用潜力。

伴随着GraspVLA一同发布的,还有GraspVLA团队总结的具身基础模型七大泛化「金标准」,按照Vision、Language、Action进行不同分层,这些标准包括:光照泛化、干扰物泛化、平面位置泛化、高度泛化、背景泛化、物体类别泛化、闭环能力。

在此前各家发布的模型中,RDT初步展示了背景和类内物体泛化的能力,OpenVLA、π0、GR-2等进一步展示了干扰物、平面位置泛化的能力。

如今,GraspVLA率先实现了在多种能力的泛化,开创了以仿真合成大数据为核心的具身大模型发展新范式。

VLA预训练到底能否泛化?GraspVLA团队给出七大金标准

GraspVLA团队表示,尽管近年来井喷式发展的具身VLA大模型在泛化性上取得了一定进展,但迟迟未有产品落地,其原因在于从实验室到真实工作场景,模型难以通过各种环境因素动态变化的重重考验。团队认为不仅要关心任务能否被成功完成,更需关注任务在什么条件下可以成功完成。

银河通用的研发团队向我们展示了对GraspVLA模型以下泛化能力的全面评测:

1. 光照泛化

在银河通用带来的GraspVLA大模型工作展示中,我们看到在明亮、极暗甚至剧烈变化的光照条件下,模型都能精准执行抓取任务:

打开网易新闻 查看更多图片

(2倍速)

更极端的情况下,团队让模型经历从明到暗,甚至是几近完全黑暗的情况下对目标物体进行移动,在实时观测到目标物体移动后,大模型驱动机器人立即朝移动后的位置进行抓取,展现了GraspVLA大模型在极端光照条件下的强大适应能力与执行力。

打开网易新闻 查看更多图片

(2倍速)

2. 背景泛化

银河通用还展示了GraspVLA大模型在不同背景环境下的适应性,包括红色桌布、星空图案等多种场景。

打开网易新闻 查看更多图片

(桌面泛化,3倍速)

银河通用发布的视频中还指出,GraspVLA采用双视角作为输入,我们看到的视频画面对应机器人正前方摄像头视角。

当背景快速动态变化时,模型仍稳定执行任务,丝毫不受干扰,展现了GraspVLA大模型在动态环境中对变化背景的强大适应能力。

打开网易新闻 查看更多图片

(背景墙泛化,3倍速)

3. 平面位置泛化

银河通用团队展示了GraspVLA在平面上抓取任意位置目标物体的能力,不论是在一堆物体中间,还是餐盘上,GraspVLA都能轻松抓取。

打开网易新闻 查看更多图片

(3倍速)

4. 高度泛化

在展示模型对高度的泛化能力时,银河通用团队让GraspVLA抓取摆放在不同高度的球,GraspVLA稳稳抓取:

打开网易新闻 查看更多图片

(3倍速)

5. 动态干扰泛化

在GraspVLA工作时,往工作空间随意丢物体进行干扰,即使撞到目标物体,也不影响它成功完成指令。

我们可以看到,在左上角视频中,抓取目标在桌面上剧烈旋转时,GraspVLA也能定位到;在左下角视频中,目标物体胡桃夹子被撞走了至少三次,每次GraspVLA都明显立即进行了调整。

打开网易新闻 查看更多图片

6. 闭环动作输出,不同姿态不同抓法

进行抓取时,即使目标物体被人为移动位置、甚至从立着改为倒下,GraspVLA都能实时调整动作完成抓取:

打开网易新闻 查看更多图片

7. 零样本Sim2Real抓取新物体

机器人领域公认使用仿真合成数据训练模型具有Sim2Real Gap问题,然而,银河通用强调,GraspVLA进行上述测试的所有物体、环境均未参与任何训练。

此外,即使是从未出现在合成动作数据中的类别,仅经过互联网图文数据联合预训练,GraspVLA也能准确识别并把抓取能力泛化迁移:

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

快速对齐产品新需求?GraspVLA展现基座大模型属性

经过以上七大金标准的检验,研究团队充分论证了GraspVLA作为全球首个端到端抓取大模型的零样本泛化能力。

众所周知,基座大模型的另一个重要属性是,能够通过少样本迅速对齐用户新需求。

研究团队表示,机器人模型落地过程中,不同场景会有不同的特殊需求,因此借助商超、工厂、家庭三个场景中的典型情形,进一步检验GraspVLA的快速适应及迁移能力。

1. 迅速服从指定规范并「举一反三」

团队以商超场景中按序取出箱中商品为例:虽然GraspVLA可以轻松抓起指定商品,但由于工作区有多个相同商品,模型不知道应该先取哪个:

打开网易新闻 查看更多图片

(未按照顺序抓取指定商品,2倍速)

为此,研究团队采集了少量(少于一个人遥操一天)的按序抓取数据,GraspVLA就轻松理解了「顺序」这一要求,充分展现基座模型的快速学习能力:

打开网易新闻 查看更多视频
真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!

研究团队进一步检验了这一能力对后训练分布外情形(OOD)的泛化性。

尽管只采集了怡宝的数据,但GraspVLA将按序抓取这种行为自动自动迁移到其他品牌的饮品(东方树叶、农夫山泉),按摆放顺序分别抓取了瓶身颜色不同、瓶盖大小不一的同类商品,充分验证了GraspVLA作为基础大模型的泛化能力。

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!

真机数据白采了?银河通用具身VLA大模型已充分泛化,预训练基于仿真合成大数据!

2. 迅速掌握新词汇,拓展新类别

具身大模型落地工业场景时,一大挑战是认识这些行业专用的特殊零件,即,根据这些罕见词汇找到对应物体。

银河通用的研发团队发现,尽管预训练的模型可以轻松抓起任意零件,但是常常会「抓错」,比如,指定「抓取车窗控制器」,模型却抓起了接线座:

打开网易新闻 查看更多图片

团队进一步采集了少量轨迹进行快速后训练,让GraspVLA快速掌握了诸如接线座(wiring base)、三角板(triangular panel)、黑色软管(black hose)等特殊工业名词。

再结合其预训练期间对于物体平面位置摆放的泛化性,模型迅速学会了从任意摆放的密集场景中精准找出对应零件:

打开网易新闻 查看更多图片

(3倍速)

3. 迅速对齐人类偏好

家庭场景中,用户对机器人的行为会有特定的偏好,比如尽管经过预训练的GraspVLA可以根据指令抓起放着牙膏牙刷的杯子,但会碰到内壁。

打开网易新闻 查看更多图片

同样通过采集少量带用户偏好的抓取轨迹,GraspVLA就「听懂了」抓取洗漱杯时,不能接触杯子内壁:

打开网易新闻 查看更多图片

(对齐后 3倍速)

从上面的三种典型应用场景来看,GraspVLA不仅「能力强」,还「懂人话」。

在新的场景中,直接部署预训练的GraspVLA,就能轻松实现物体抓取。而针对用户的新需求,也仅需少量数据即可让它快速调整。凭借这一能力,无论需要在何时何地部署,仅需人类简单的「指导」,机器人即可迅速「上岗干活」。

这充分展现了银河通用团队提出的「大规模合成数据预训练」这种范式在商业落地中的潜力。

合成大数据驱动的 VLA 预训练新范式

英伟达期望看到能够托举起未来世界的人形机器人,让这些机器人在各类复杂任务中能够自主执行,拥有泛化的能力。然而,这一宏伟目标在过去主流数据采集范式下面临着两大瓶颈。

瓶颈一:数据昂贵且稀缺。机器人技术的核心问题之一是大规模高质量数据的获取。现有的训练数据采集方式人工成本高、资金开销大、采集周期长。此外,目前机器人硬件还在快速迭代,即使在现有硬件上高成本采集大规模数据,也可能迅速过时、与最新硬件不匹配,形成数据短板与沉没成本。

瓶颈二:技能泛化性与通用性不足。受限于物理条件,真机数据采集往往无法覆盖所有可能的实际应用场景,导致训练出的模型难以泛化,因此目前的很多机器人只能在特定的环境条件和特定的物体下完成任务,缺乏对新环境的适应能力。

银河通用表示,GraspVLA能达到如今的惊艳效果,离不开团队多年研究合成仿真数据的经验和对使用合成仿真数据的坚持。

为了突破上述两大瓶颈,银河通用的团队开创性地研发出一套针对端到端VLA模型预训练的全仿真合成数据生产管线,并在NVIDIA Isaac平台的基础上,进一步提高数据的物理真实性和物理渲染的并行度。

这套数据生产管线在短短一周内就能生成全球规模最大的十亿级机器人操作数据集。不仅极大降低了数据生产的时间成本、人力成本、资金成本,还广泛提高了数据对各种场景的覆盖率。如此规模和质量的数据,是GraspVLA强大的抓取泛化能力的前提。

此次发布中,GraspVLA展现出的强大泛化与高效对齐能力引发我们深思:这一路线所展现出的全方位优越性,是否将一改业界对仿真合成路线的看法,开创合成大数据驱动的VLA预训练新范式?这是否意味着大规模仿真合成数据预训练将取代现有的高成本人工采集方案,带领具身大模型的发展进入新的时代?

银河通用还透露,联合研发团队在过去一年里也在导航VLA模型(NaVid系列模型)的研究上取得了重大突破,将陆续展示和介绍该系列导航VLA模型的泛化能力和涌现现象。

团队表示,他们后续将不断融合团队多年积累,推出全面融合抓放、关节类物体操作、柔性物体操作等各类技能的全能大模型,继续走以仿真合成数据为唯一预训练来源的道路,确保所有大模型能够以最小成本迅速进化,迈向具身智能领域的下一个高峰。