做瑜伽、分类物品，特斯拉“擎天柱”人形机器人再进化，Get 新技能！

整理 | 屠敏

出品 | CSDN（ID：CSDNnews）

相比 X 平台（前身为 Twitter）流量下滑的失意，马斯克旗下的人形机器人 Optimus（擎天柱）风生水起。

可以做瑜伽、自动分类的“擎天柱”人形机器人

就在刚刚过去的周日，Tesla Optimus 官方号在 X 平台上分享了一段精彩的视频，展示了人形机器人擎天柱执行各种任务，包括了做瑜伽和自动按颜色对方块进行分类。

根据官方的描述，擎天柱现在可以自主对物体进行分类。

譬如，在视频中，这款机器人可以凭借类似人类的速度轻松分类物体的能力，识别物品的不同颜色。再者，当人类干预任务增加复杂性时，擎天柱能够快速适应这种变化并成功完成任务。

然后机器人也能做出需要单腿站立并伸展四肢的瑜伽姿势，展示其平衡性和灵活性。

根据视频，擎天柱现在能够自我校准它的手臂和腿。它还可以使用视觉和关节位置编码器在空间中精确定位其肢体。这一功能使机器人能够更高效、更准确地完成物理任务。这种水平的自我校准可能是开创性的，尤其是在需要对细节一丝不苟的环境中。

值得注意的是，视频显示 TeslaBot 现在运行与 Tesla 汽车相同的端到端神经网络上，该网络可以处理视频输入并生成控制输出，基于此，这种训练方法可以使机器人能够以极高的精度执行任务。

毫无疑问，这一视频的发布代表了人形机器人取得了又一重大突破，对此，马斯克也使用了「Progress」（进步）做了评价。

Optimus 机器人背后的技术

截至目前，Tesla Optimus 只是简单地分享了这一视频，并没有进一步透露其运用到的技术细节，可谓是吊足了机器人爱好者的胃口。

对此，也有很多人猜测，这段视频是不是用 CGI（计算机生成图像）合成的，不过，NVIDIA 高级 AI 科学家、斯坦福大学博士 Jim Fan 在 X 上（https://twitter.com/DrJimFan/status/1705982525825503282）分享了他对 Tesla Optimus 展示的视频进行逆向工程之后，自己对该技术堆栈的分析，最终得出一个结论：

波士顿动力公司的 Atlas 只有简单的抓手。从长远来看，"擎天柱 "那双灵巧的五指手在日常工作中将会表现得更加出色。

接下来，我们不妨看看其逆向工程得到的一些发现。对此，Jim Fan 也强调道，没有内幕消息，这里只有他自己通过对视频的分析与相关技术的了解。

首先，Tesla Optimus 人形机器人流畅的手部动作几乎可以肯定是通过人类操作员的模仿学习（"行为克隆"）训练出来的。另一种方法是模拟强化学习，但这通常会导致动作抖动和手部姿势不自然。

基于此，Jim Fan 剖析道，其中至少有四种方法可以收集“人类演示”：

定制远程操作系统--Jim Fan 认为这是特斯拉团队最有可能采用的方法。开源实例：ALOHA是斯坦福人工智能实验室（https://tonyzhaozh.github.io/aloha/）推出的一款低成本双臂机械臂和远程操作系统。它能实现非常精确、灵巧的动作，例如将 AAA 电池装入遥控器或操作隐形眼镜。
动作捕捉（MoCap）：应用好莱坞电影中使用的 MoCap 系统来捕捉手部关节的细微动作。Tesla Optimus 采用了与人类相仿的五指手，这是一个很好的设计决定，可以实现直接映射，由此与人类操作员之间不存在"具体差距"。
例如，演示者可以戴上 CyberGlove（http://cyberglovesystems.com），抓住桌子上的方块（如视频所示）。CyberGlove 将实时捕捉运动信号和触觉反馈，并将其重新定向到 Optimus 上。
戴手套和记号笔会很笨拙。另一种实现 MoCap 的方法是计算机视觉。英伟达™（NVIDIA®）公司的 DexPilot 可实现无标记、无需戴手套的数据收集。人类操作员只需徒手即可完成任务。4 个英特尔 RealSense 深度摄像头和 2 个英伟达™（NVIDIA®）Titan XP GPU（2019 年投入使用）将像素转化为精确的运动信号，供机器人学习。
VR 头显：将训练室变成 VR 游戏，让人类 "扮演 "擎天柱。使用原生 VR 控制器或 CyberGlove 控制虚拟的 Optimus 双手。这具有可扩展的远程数据收集优势——世界各地的注释者无需亲临现场也能做出贡献。
VR 演示技术出现在 iGibson 家庭机器人模拟器等研究项目中，Jim Fan 在斯坦福大学参与了这项计划：https://svl.stanford.edu/igibson/。
以上四种技术并不相互排斥。Optimus 可以根据不同的利弊组合使用它们。

其次，Tesla Optimus 采用了神经网络结构。Optimus 是端到端的训练：视频输入，动作输出。对此，Jim Fan 表示，“我很确定它是由一个多模态转换器实现的”，其中包含以下组件：

图像：高效 ViT 的某种变体，或者只是一个旧的 ResNet/EfficientNet 主干网 (https://arxiv.org/abs/1905.11946)。方块拾取和放置演示不需要复杂的视觉技术。图像主干的空间特征图可以很容易地标记化。
视频：两种方法。要么将视频扁平化为一系列图像并独立生成 token，要么使用视频级令牌生成器。高效处理视频像素的方法有很多。你不一定需要 Transformer主干，例如 SlowFast Network（https://arxiv.org/abs/1812.03982）和 RubiksNet（https://stanfordvl.github.io/rubiksnet-site/，我在 ECCV 2020 上的论文，高效的 CUDA 移位原语）。
语言：尚不清楚 Optimus 是否有语言提示。如果有，就需要有一种方法将语言表征 "融合 "到感知中。FiLM 是一个非常轻量级的神经网络模块，可以实现这一目的（https://arxiv.org/abs/1709.07871）。
动作标记化：Optimus 需要将连续运动信号转换为离散标记，以便自回归 Transformer 工作。有以下几种方法：
- 直接对每个手关节控制的连续值进行分类。[0，0.01) -> token #0，[0.01，0.02) -> token #1，等等。这种方法简单明了，但由于序列长度较长，效率可能不高。
- 关节运动彼此高度依赖，这意味着它们占据了一个低维的 "状态空间"。将 VQVAE 应用于运动数据，可获得长度更短的压缩 Token 集。
将上述部分组合在一起，我们就有了一个 Transformer 控制器，它消耗视频token（可选择语言调制），并一步一步地输出动作 token。表格中的下一帧画面会反馈给 Transformer，这样它就知道了自己动作的结果。这样就具备了演示中展示的自我纠正能力。
Jim Fan 认为该架构与以下结构最为相似：
- 谷歌 RT-1：https://blog.research.google/2022/12/rt-1-robotics-transformer-for-real.html
- NVIDIA VIMA：https://vimalabs.github.io

最后，Jim Fan 表示，“硬件质量给我留下了深刻印象。动作流畅，美观大方。正如我上面提到的，紧跟人类形态是一个伟大的决定，这样在模仿人类方面就没有差距了。”

人形机器人的未来

其实回看“特斯拉擎天柱”的诞生，它首次是在 2021 年特斯拉首个“人工智能日”（AI Day）上被马斯克揭晓，该项目旨在创造一种通用仿人机器人，能够执行人类不愿执行的危险、重复或单调任务。该机器人设计得既友好又安全，必要时人类可以超越或制服它。

起初，外界并没有对这款“擎天柱”机器人有过太多的关注。不过，近一年来，随着 AIGC 应用的大火，越来越多的人加入了人形机器人创业的浪潮，包括加入创业公司「智元机器人（AGIBot）」半年之后便带来了首款智元具身智能机器人远征 A1 进而加入战局。

相较之下，背靠特斯拉，“特斯拉擎天柱”机器人最吸引人的地方之一是它与特斯拉全自动驾驶（FSD）技术的密切关系。Optimus 机器人和特斯拉的 FSD 依赖于相同的人工智能系统和硬件，实现了无缝集成，并充分利用了特斯拉在神经网络和自动系统方面的现有专业知识。

只不过，有些遗憾的是，目前还没有关于 TeslaBot 何时准备好投入生产或商业使用的信息。

即使如此，很多极客爱好者当看到这个视频发布，依然兴奋不已。

@PeymanAbedirad ：

这真是个好东西。进步神速。我有一个挑剔的地方，那就是它的动作有一些缺陷，其实大多数人也会这样做，比如臀部的运动会牵扯到手臂的运动。除非它不具备像人类那样移动上背部的能力，否则没有必要向后移动臀部。我建议再增加一个关节，除非它能在没有关节的情况下完成预定的工作。从物理学的角度来看，由于缺少某些关节，以及在人类演示无效动作的视频中接受训练，它的很多动作在机械上都是无效的。这并不是什么大问题，除非无效力学造成的磨损会影响它的寿命。

@oeryontwt：

当机器人只是随意地做瑜伽时，每个人都在关注它的分类能力，这是一项极其困难的重量分配和微调整任务。直立平衡首先就非常困难，而行走对机器人来说也是一个挑战。能做到这一点真是令人惊叹

最后，附上 Tesla Optimus 的完整视频：

打开网易新闻查看更多视频

做瑜伽、分类物品，特斯拉“擎天柱”人形机器人再进化，Get 新技能！

参考：

https://twitter.com/Tesla_Optimus/status/1705728820693668189

https://twitter.com/DrJimFan/status/1706012511232041340

https://www.ndtv.com/feature/namaste-tesla-shares-video-of-humanoid-robot-doing-yoga-elon-musk-says-this-4420216

做瑜伽、分类物品，特斯拉“擎天柱”人形机器人再进化，Get 新技能！

河南官方坐不住了，开始隔空喊话：希望富士康能回头看看

南京真实房价如何？网友举例子：203平的大平层，去年1180万报价

闲鱼宣布将从9月起向全体卖家收取服务费

中国军舰访问符拉迪沃斯托克，俄美女捧着美食在港口迎接

中信建投实习生：未被告知资料保密

湖人已联系火箭交易申京承诺提供2亿顶薪合同愿意送出5个首轮签

南通支云球迷：“上港爸爸”不会灌我们6球吧+气得我把海港群退了

洛阳黄河滩河虾泛滥男子持网在浑浊的河水中捞虾

女孩被大货车撞倒当场身亡妈妈从地上爬过去查看情况

河北平山县一村民家中发现疑似古墓，当地文保部门已赴现场勘查

国防部回应"中美在南海爆发电子战"：没有听说过

15亿欧元资产收益被欧盟移交乌克兰，俄罗斯回应：不会置之不理！

一人带三娃坐不了飞机多家航司回应

多个高校学院召开师德师风会议，部分通报了人民大学王贵元案

以总理在美国国会发表演讲称将继续在加沙军事行动

海南有民宿降价超60%，从业者称现在还不是最难的时候

广州∶列车刚停稳，男子堵车门不给下不给上，头脑简单四肢发达

美女和皇家骑兵合影，猜猜会不会被咬

铜山融媒回复五千万人围观钓鱼直播：没剧本没目的，主打一个真实

奥运开幕式遭吐槽，给中国镜头太少还敷衍！一共14秒，女旗手消失

做瑜伽、分类物品，特斯拉“擎天柱”人形机器人再进化，Get 新技能！

河南官方坐不住了，开始隔空喊话：希望富士康能回头看看

南京真实房价如何？网友举例子：203平的大平层，去年1180万报价

闲鱼宣布将从9月起 向全体卖家收取服务费

中国军舰访问符拉迪沃斯托克，俄美女捧着美食在港口迎接

中信建投实习生：未被告知资料保密

湖人已联系火箭交易申京 承诺提供2亿顶薪合同 愿意送出5个首轮签

南通支云球迷：“上港爸爸”不会灌我们6球吧+气得我把海港群退了

洛阳黄河滩河虾泛滥 男子持网在浑浊的河水中捞虾

女孩被大货车撞倒当场身亡 妈妈从地上爬过去查看情况

河北平山县一村民家中发现疑似古墓，当地文保部门已赴现场勘查

国防部回应"中美在南海爆发电子战"：没有听说过

15亿欧元资产收益被欧盟移交乌克兰，俄罗斯回应：不会置之不理！

一人带三娃坐不了飞机 多家航司回应

多个高校学院召开师德师风会议，部分通报了人民大学王贵元案

以总理在美国国会发表演讲 称将继续在加沙军事行动

海南有民宿降价超60%，从业者称现在还不是最难的时候

广州∶列车刚停稳，男子堵车门不给下不给上，头脑简单四肢发达

美女和皇家骑兵合影，猜猜会不会被咬

铜山融媒回复五千万人围观钓鱼直播：没剧本没目的，主打一个真实

奥运开幕式遭吐槽，给中国镜头太少还敷衍！一共14秒，女旗手消失

闲鱼宣布将从9月起向全体卖家收取服务费

湖人已联系火箭交易申京承诺提供2亿顶薪合同愿意送出5个首轮签

洛阳黄河滩河虾泛滥男子持网在浑浊的河水中捞虾

女孩被大货车撞倒当场身亡妈妈从地上爬过去查看情况

一人带三娃坐不了飞机多家航司回应

以总理在美国国会发表演讲称将继续在加沙军事行动