学习后可复刻人类动作，全新人形机器人研究平台HumanPlus亮相

斯坦福大学研究人员近日发表了一篇新的论文，该论文尝试研究了人形机器人对于人类活动的模拟和复现，最终使得人形机器人可以模仿人类的行为并进行强化学习，这使其有望最终可以通过模仿人类动作来自主、快速掌握弹钢琴、回击乒乓球、折叠衣服等工作，并实现初步的任务泛化。

斯坦福大学团队成员符梓鹏（Zipeng Fu）14 日在其个人 YouTube 频道上发布了数个演示视频，展示了其诸多方面的“学习能力”。傅子鹏是斯坦福大学 AI 实验室的计算机科学博士生，师从 Chelsea Finn，符梓鹏也是前段时间斯坦福开源的 Mobile ALOHA 全能家务机器人三个项目共同负责人之一。

该研究中，团队主要开发了一个全栈系统Shadowing 系统，这个系统的核心特点在于帮助HumanPlus人形平台提示学习能力，它并不依赖于复杂的编程或预设算法来执行任务，而是能通过ACT观察人类的行为并进行模仿学习，通过强化学习在仿真环境中训练低级策略优化机器人运动策略，这种方法极大地简化了机器人的学习过程，并使机器人能够适应更多样化的任务。

人类操作员只需要站在HumanPlus人形机器人平台附近，借助面前的动作捕捉系统，就能将他们的实时全身运动实时投射到人形机器人上，并可以使用目距观察人形机器人的环境和行为，确保远程操作系统时延并及时记录，帮助人形机器人从人类数据中学习运动和自主技能。

研究人员指出，HumanPlus需要大约40个小时的人类运动数据来学习一项新任务，然后就可以将这一策略迁移到现实世界中，同时允许人形机器人仅使用RGB相机实时跟踪人体和手部运动。

通过 Shadowing，人类操作员可以首先远程操作人形机器人来收集全身数据，同时基于收集到的数据进行有监督的行为克隆，使用以自我为中心的视角来训练机器人的技能策略，使人形机器人能够通过模仿人类的技能学习完成不同任务。

一旦学习掌握了这些动作，HumanPlus就有望能够自主地执行相同任务，同时在现实世界中学习不同的任务。这种做法为各种现实场景任务提供了一条高效的数据收集管道，从而减少了模拟环境中真实 RGB 渲染、精确软体对象模拟和多样化任务规范的挑战。研究团队表示，HumanPlus能自主完成穿鞋站立行走、从仓库货架上拿物品、折叠运动衫、重新摆放物品、打字、打招呼等任务，成功率达60%-100%，基本达到商业部署的门槛，未来还有着一定的提升空间。

HumanPlus以中国公司Unitree（宇树）的H1 机器人平台为基础，最终成品身高为 5.75 英尺（约 175.26 厘米），拥有33个自由度的活动能力，通过定制手腕连接，其中每个手腕配有一个 Dynamixel 伺服电机和两个推力轴承。手和手腕均通过串行通信控制。机器人头部安装了两个Razer Kiyo Pro的RGB 网络摄像头，可以向下倾斜 50°，双目视距为160 mm。手指可以施加高达10 N的力，而手臂可以举起重达7.5KG的物品，腿部的电机在操作过程中可以产生高达360Nm的瞬时扭矩。

在研究中，得益于人体部分和手部动作能使用 SMPL-X 模型进行参数化，为了重定向身体姿态，研究人员可以将 SMPL-X 对应的欧拉角复制到类人模型中，即髋部、膝盖、脚踝、躯干、肩膀和肘部。机器人的每个髋部和肩部关节由3个正交旋转关节组成，因此可以视为一个球形关节。机器人的手指有6个自由度：每个食指、中指、无名指和小指各1个自由度，大拇指2个自由度，为了重定向手部姿势，他们还使用中间关节的旋转来映射每个手指的对应欧拉角，并且通过使用前臂和手的全局方向之间的相对旋转，计算 1 自由度的手腕角度。

就硬件而言，有网友猜测，价格和功能性是继续选择中国产品的关键原因。由于2018年以来，例如宇树等公司就开启了出海历程，参加各类展会并投放广告，这使其获得了海外例如斯坦福大学等各类高校的广泛关注，加之国产产品性价比在全球一众人形产品中有着较强的市场竞争力，对于高校预算不高的团队非常合适。有机构猜测，2022-2023年宇树公司的人形机器人出货量超过100台，其中有半数出海。

符梓鹏等在2021年《腿式机器人导航中的视觉与视觉耦合》实验论文中就曾采用了宇树A1四足机器人，并且，根据符梓鹏在社交平台的动态，他在8个月前于斯坦福大学还曾接待了宇树，他当时上传的视频中的人形机器人疑为宇树H1，这款机器人设计由于采用了开源模式，用户未来可以根据自身需求自定义其功能，对于开发者来说相当友好。

就成本而言，根据团队分享的内容粗略估算，他们制造机器人的成本约为107945 美元（78.5 万元）。其中，宇树科技Unitree H1机器人平台8.99万美元、因时机器人的RH56DFX灵巧手8519美元，这两者的价值合计接近10万美元，占了HumanPlus硬件成本的大头。

就验证特性而言，因为H1完成度很高，搭载的NVIDIA RTX4090 GPU，身体姿势估计和重定向可以用每秒 25 帧的速度高速运行，团队加了一个单个 RGB 摄像头就能实时估计人体和手部姿态，并将人体姿态重定向为类人目标姿态，在人形机器人本体输入感知和目标姿态，快速解耦建模，通过低级策略Humanoid Shadowing Transformer制定为仅解码器的Transformer，并根据人形机器人身体关节的19个自由度关节位置设定点，通过1000Hz的PD控制器转换为扭矩。

值得一提的是，这次斯坦福团队继续公布了论文、机器人材料清单、数据集以及代码。正如 Tony Z. Zhao 所提到，这是唯一一篇完全开源的论文，虽然我们处在一个前沿的研究时代，但充满了闭源、竞争等其他因素的限制，这个领域需要更多开放的科学，而不是酷炫的演示。希望研发者能为公众利益推动现实世界机器人领域的研究，希望吸引更多的人从事机器人的研究，以解决非常多尚未解决的科学和工程难题。

论文地址：https://humanoid-ai.github.io/

论文标题：HumanPlus: Humanoid Shadowing and Imitation from Humans

学习后可复刻人类动作，全新人形机器人研究平台HumanPlus亮相

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

特斯拉官宣！#二代人形机器人Optimus将在上海首次亮相！马斯克：#Optimus能让特斯拉市值

伯克利开源大型机器人操控基准，面对复杂自主操控任务不再犯难

人形机器人的崛起：从古老梦想到眼前现实

大疆前高管带6人创业，做出了类目Top1的割草机器人

2024投什么？先来看看人形机器人吧｜钛媒体创投家

纯太阳能电车何时能实现，马斯克怎么看？

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

国产机器人也会空翻了！打破限制，世界首款！

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

AI时代，谁还没用AI智能硬件提升工作效率？

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

，打开AI+融合创新人才培养新局面

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

被AI量产的短视频营销号气疯了，于是，我也做了一个

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

高难度动作身上还蹲个人，这才是真功夫！

学习后可复刻人类动作，全新人形机器人研究平台HumanPlus亮相

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

特斯拉官宣！#二代人形机器人Optimus将在上海首次亮相 ！马斯克：#Optimus能让特斯拉市值

伯克利开源大型机器人操控基准，面对复杂自主操控任务不再犯难

人形机器人的崛起：从古老梦想到眼前现实

大疆前高管带6人创业，做出了类目Top1的割草机器人

2024投什么？先来看看人形机器人吧｜钛媒体创投家

纯太阳能电车何时能实现，马斯克怎么看？

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

国产机器人也会空翻了！打破限制，世界首款！

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

AI时代，谁还没用AI智能硬件提升工作效率？

这个机器人的手真的太灵活了！ 收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。 这是星动纪

，打开AI+融合创新人才培养新局面

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

被AI量产的短视频营销号气疯了，于是，我也做了一个

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

高难度动作身上还蹲个人，这才是真功夫！

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

特斯拉官宣！#二代人形机器人Optimus将在上海首次亮相！马斯克：#Optimus能让特斯拉市值

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪