为了加速人形机器人的算法研究,一个来自伯克利大学的研究团队,提出了一个高纬模拟机器人学习基准HumanoidBench。

HumanoidBench包含了27种不同的全身任务,为机器人社区提供了一个平台,以识别使用人形机器人解决各种任务时出现的挑战,从而促进算法和想法的及时验证。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

初步研究表明,现有的最先进的强化学习算法难以处理HumanoidBench中呈现的复杂任务,而分层学习基线(hierarchical learning baseline)在强大的低级策略(例如行走或伸手)的支持下可以实现卓越的性能。

模拟环境

HumanoidBench 的仿真环境使用 MuJoCo 物理引擎,具有不同机器人模型(例如 Unitree H1、Agility Robotics Digit)和末端执行器(例如 Shadow Hand、Robotiq 2F-85 夹具)。

在这项试验中,研究者使用了Unitree H1 人形机器人,其手臂上附有两个灵巧手(dexterous Shadow Hands)。

观察空间

论文作者的模拟环境支持以下观察结果:

本体感受机器人状态(即关节角度和速度)和任务相关的环境观察(即物体姿态和速度)。

来自放置在机器人头部的两个摄像头的以自我为中心的视觉观察。

使用 MuJoCo 触觉网格传感器进行全身触觉传感。 研究人员在手上设计了高分辨率的触觉传感,在身体其他部位设计了低分辨率的触觉传感,类似于人类,总共 448 美元的触觉传感器分布在整个身体上,每个传感器提供三维接触力读数。

分层强化学习

研究者们在所有任务上对各种最先进的强化学习算法进行基准测试。 结果展示了这些端到端算法如何努力控制复杂的人形机器人并解决最具挑战性的任务。 事实上,许多此类任务需要长期规划,并且需要掌握多种技能(例如平衡、行走、伸手等)才能成功实现预期目标。

未来研究的巨大机会

通过HumanoidBench,研究者们为复杂的日常任务设定了很高的标准,希望刺激社区加速开发具有高维观察和动作空间的人形机器人全身算法。

参考Github地址https://humanoid-bench.github.io/论文地址:https://arxiv.org/abs/2403.10506
代码地址:https://humanoid-bench.github.io/