项目地址:https://gr2-manipulation.github.io
B站视频:https://www.bilibili.com/video/BV1ge2nYPEKT/?vd_source=3ae91365c7552731a235d034f67c0327
字节跳动研究院发布了GR-2,这是一个用于多样化和通用机器人操作的最先进的通用机器人代理。
GR-2首先在大量互联网视频上进行预训练,以捕捉世界的动态。这次大规模的预训练涉及3800万个视频剪辑和超过500亿个标记,使GR-2在随后的政策学习中能够跨广泛的机器人任务和环境进行泛化。
在此之后,GR-2针对视频生成和动作预测进行了微调,使用了机器人轨迹。它展示了令人印象深刻的多任务学习能力,在100多个任务中平均成功率达到了97.7%。此外,GR-2在新的、以前未见过的场景中表现出色,包括新的背景、环境、对象和任务。
值得注意的是,GR-2的规模随着模型大小的增加而有效扩展,这强调了其持续增长和应用的潜力。
方法
GR-2是一个受语言条件控制的视觉操控策略。训练包括两个阶段:视频生成预训练和机器人数据微调。
在预训练阶段,字节在包含不同情境下多样化日常人类活动的大规模视频数据集上训练GR-2进行视频生成。通过掌握视频生成,GR-2捕获了对下游策略学习至关重要的关键时序动态和语义信息。
在微调阶段,字节在机器人数据上训练GR-2,同时预测动作轨迹和视频。得益于一个新颖的模型架构,预训练阶段收集的知识可以无损地转移到微调阶段。
字节强调,与预训练数据中只有单一摄像机视角的视频不同,机器人数据通常包含多个视角。GR-2被设计为能够优雅地处理多个视角。GR-2在笛卡尔空间中生成动作轨迹。为了确保机器人手臂准确地跟随轨迹,字节开发了一种全身控制(WBC)算法,该算法采用轨迹优化进行运动跟踪。
图1:GR-2经历了两个阶段的训练:视频生成预训练和机器人数据微调。
学习100多个任务
GR-2能够以非常高的成功率完成105个操控任务,展示了强大的多任务学习能力。
字节还评估了GR-2在具有挑战性的场景中的表现,包括干扰物、未见背景、未见环境和未见操控。GR-2能够处理干扰物并正确关注目标对象。它在未见背景和环境中取得了高成功率,展示了强大的泛化能力。
GR-2还能够执行机器人训练数据中未见的操控。字节强调,GR-2在每个任务仅给定50个轨迹的情况下,也能够高效地学习这105个任务。这显著降低了在现实世界应用中获取新技能和适应新环境的成本。
图2:多任务学习成功率。字节展示了四个模型在不同评估设置中的成功率。400(50)表示模型平均每个任务训练了大约400(50)个轨迹。GR-2 w/ DA表示在训练数据上执行了数据增强。
端到端箱拣选100多个对象
在工业环境中,GR-2能够以非常高的成功率执行端到端箱拣选122个对象。其中,55个对象在训练中见过,其他67个对象在训练中未见。
GR-2在很大程度上超越了其前身GR-1。在未见对象上的成功率与在见过对象上的成功率相当。尽管在未拥挤的环境中训练,GR-2能够处理未见的拥挤场景,且性能没有显著下降。
这些结果展示了GR-2对未见对象和未见场景的强大泛化能力,表明其在工业应用中具有很大的潜力。
图3:GR-2能够执行端到端箱拣选100多个对象。
图4:端到端箱拣选的成功率。
图5:箱拣选实验中使用的对象。
CALVIN基准测试的新水平
CALVIN是一个针对长期语言条件控制机器人操控的模拟基准测试。字节在ABCD-D数据集上进行了实验,并与五种最先进的基线方法进行了比较:RT-1、MT-ACT、HULC、RoboFlamingo和GR-1。
图7显示了结果。右侧的平均长度是一个综合评估指标,显示了机器人在连续执行5个任务的序列中平均能够完成的任务数量。GR-2树立了新的最高水平,在成功率和平均长度方面都超越了所有比较的基线方法。
图6:CALVIN基准测试结果。
自回归视频生成
GR-2在大量多样化的视频上进行预训练,以预测图像空间内的未来状态。这种能力可以有效地作为动作生成的规划器。也就是说,在生成视觉轨迹后,可以根据视觉轨迹推断出动作轨迹。
为了进一步调查这种设计的有效性,字节可视化了视频预测结果,并与相应的真实运行进行了比较。GR-2能够生成与动作并行的高质量视频。
字节强调,生成的视频忠实地与真实世界的运行一致。这表明预测的动作正试图“重放”预测视频中的轨迹。这种属性带来了一种通过迭代改进视频生成能力来持续改进动作预测的简单方法。
扩展(Scaling)
字节探索了扩大模型规模如何帮助GR-2在预训练和微调中的表现。在预训练期间,视频预测的验证损失随着模型规模的增加而减少。
在微调期间,任务成功率与模型规模很好地相关。这些结果展示了在视频生成和策略学习方面的可扩展性,表明GR-2通过增加模型规模具有持续改进的强大潜力。
图7:字节在(a) Ego4d、(b) RT-1和(c)机器人数据的验证集上展示了预训练期间视频生成的验证损失。(d)显示了不同规模模型在真实机器人实验中的成功率。
| |