还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

来源：MIT Technology Review

教会机器人在新环境中导航是个棘手的任务。你可以利用人类录制的真实世界数据对它们进行训练，但这些数据不仅稀缺，还需要高昂的成本来收集。数字模拟是一种快速且可扩展的训练方式，但机器人常常在从虚拟世界转移到现实环境后难以完成相同的任务。

如今，有了一种潜在的更优方案：一个结合生成式 AI 模型和物理模拟器的新系统，用于创建更贴近物理世界的虚拟训练场。通过这种方法训练的机器人，在现实世界测试中的成功率比采用传统技术训练的机器人更高。

研究人员使用这一名为 LucidSim 的系统训练了一只机器狗进行跑酷，使其能够爬过箱子、上楼梯，尽管它从未接触过任何真实世界的数据。这种方法展现了生成式 AI 在教机器人执行复杂任务方面的潜力，也提出了一个可能性：我们或许最终能完全在虚拟世界中训练机器人。相关研究已于上周的机器人学习会议（Conference on Robot Learning, CoRL）上发表。

“我们正处于机器人领域的工业革命之中，”MIT 计算机科学与人工智能实验室（MIT CSAIL）的博士后研究员 Ge Yang 说道，他参与了这一项目。“这是我们尝试理解这些生成式 AI 模型在其原本预期用途之外的影响，希望这能引领我们迈向下一代工具和模型。”

LucidSim 使用生成式 AI 模型的组合来创建视觉训练数据。研究人员首先为 ChatGPT 生成了数千个提示，让其创建涵盖多种环境的描述，这些环境代表了机器人可能在现实世界中遇到的条件，包括不同的天气、时间和光照条件。例如，“一个古老的小巷，两旁是茶馆和小而别致的商店，每家店铺都陈列着传统饰品和书法作品”，“阳光照亮了一片有些凌乱的草坪，草地上点缀着干枯的斑点”。

这些描述随后被输入一个系统，该系统将 3D 几何和物理数据映射到 AI 生成的图像上，从而创建一系列短视频，为机器人绘制轨迹。这些信息帮助机器人计算它需要导航的物体的高度、宽度和深度，例如一个箱子或一段楼梯。

研究人员通过让一只配备摄像头的四足机器人完成多项任务来测试LucidSim的性能，包括找到一个交通锥或足球，爬过一个箱子，以及上下楼梯。结果显示，机器人使用 LucidSim 时的表现明显优于使用传统模拟系统时的表现。在寻找交通锥的 20 次测试中，LucidSim 实现了 100% 的成功率，而使用传统模拟系统的成功率仅为 70%。同样，在另一组 20 次找到足球的测试中，LucidSim 的成功率为 85%，而传统系统仅为 35%。

最后，当机器人运行 LucidSim 时，它在所有 10 次楼梯攀爬测试中都成功完成了任务，而传统系统的成功率仅为 50%。

来源：MIT Technology Review

“如果 LucidSim 能够直接利用先进的生成式视频模型，而不是现在这种语言、图像和物理模型的拼接组合，未来的结果可能会进一步改善，”MIT 副教授 Phillip Isola说，他参与了这项研究。

纽约大学博士生 Mahi Shafiullah 也表示，研究人员采用生成式 AI 的方式是一种新颖的尝试，将为更多有趣的新研究铺平道路。他目前使用 AI 模型训练机器人，但并未参与该项目。他补充道：“在我看来，更有趣的方向是结合真实数据和逼真的‘想象’数据，这样可以帮助我们现有的依赖数据的方法更快更好地扩展。”

华为的资深研究科学家 Zafeirios Fountas，专注于脑启发式 AI，他指出，能够完全基于 AI 生成的情境和场景从零开始训练机器人是一个重要成就，其影响可能不仅限于机器，还能扩展到更广泛的通用 AI 智能体。

“这里‘机器人’的定义非常广泛，我们谈论的是任何一种与现实世界交互的 AI，”Fountas 说。“我可以想象这一技术被用于控制各种视觉信息，从机器人和自动驾驶汽车到电脑屏幕或智能手机的操作。”

关于下一步研究，作者计划尝试使用完全合成的数据训练人形机器人。他们承认这是一个雄心勃勃的目标，因为双足机器人通常比四足机器人更不稳定。他们还将目光投向另一个新挑战：利用 LucidSim 训练用于工厂和厨房的机器人手臂。这些任务需要比在场景中奔跑更高的灵活性和物理理解能力。

“例如实际拿起一杯咖啡并将其倒出，这是一个非常困难且尚未解决的开放性问题，”Isola 说。“如果我们能够利用生成式 AI 增强的模拟来创造大量的多样性，并训练出一个能够在咖啡馆中操作的非常强大的智能体，我觉得那将非常酷。”

https://www.technologyreview.com/2024/11/12/1106811/generative-ai-taught-a-robot-dog-to-scramble-around-a-new-environment/

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

MIT开发新方法，无需从头训练机器人即可执行复杂任务

群核科技发布空间智能平台SpatialVerse，加速具身智能、AIGC训练 | 最前线

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

网友用350美元造出能走能玩的端到端人形机器人

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

人形机器人组队进厂打工！5只Figure 02在宝马工厂

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

从AI PC到数字分身：在虚拟世界遇见另一个“我”

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

大疆前高管带6人创业，做出了类目Top1的割草机器人

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

还原真实世界：MIT用“AI+物理模拟”为机器人打造虚拟训练场

MIT开发新方法，无需从头训练机器人即可执行复杂任务

群核科技发布空间智能平台SpatialVerse，加速具身智能、AIGC训练 | 最前线

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

网友用350美元造出能走能玩的端到端人形机器人

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

人形机器人组队进厂打工！5只Figure 02在宝马工厂

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗 在世界顶级黑客大会DEF CON上，两名

练习时长两年半，机器人转笔大师诞生！ 不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

AI版《黑客帝国》：无限生成逼真视频，3A画质，还能实时交互

从AI PC到数字分身：在虚拟世界遇见另一个“我”

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

大疆前高管带6人创业，做出了类目Top1的割草机器人

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到