具身智能占领中国硅谷？1.23万AI学者集结海淀，填补全球百亿人形机器人空缺

新智元报道

编辑：编辑部

【新智元导读】这几天中关村的小伙伴们都发现了：这里已被机器人占领！机器人和各色生物们纷纷登场表演，让在场观众们目瞪口呆。

这几天的中关村，已经被机器人占领了！

在2024中关村论坛年会的会场前台，这两位美女机器人的出现，把央视主持人都惊到了。

逼真的动作，灵活的手指，连口型都是搭配的，两位美女机器人给到来的游客们耐心介绍着AI主题日的相关信息，在人群中分外吸睛。

往里走，还能喝到服务机器人为我们贴心制作的精致咖啡。

往这儿看，这个家伙在给我们表演摘果子。

展会之外的广场上，一只机器狗在围观群众的众目睽睽之下现场炫技。作揖、双腿站立、打滚撒娇，这套动作一气呵成，可谓是相当熟练。

给你比个小心心

四脚朝天撒娇

当然，开幕式上更是少不了它们的同台演出，引得在场观众一阵欢呼。

机器狗dancer们，随着音乐节奏灵活扭动。

给观众们作个揖，动作整齐划一。

全体都有：卧倒——四脚朝天——卖萌！

机器人大爆发，大佬们炉边对谈

要说2024年最爆火的科技现象，人形机器人敢说第二，没人敢说第一。

Sam Altman力推的人形机器人Figure 01，马斯克的叠衬衫擎天柱，波士顿动力划时代登场的电动机器人Atlas纷纷登场，视频一出即成全网爆款。

国内这边，优必选去年年底上市，已成人形机器人第一股；工业版人形机器人Walker S，已经进厂打工了；宇树H1，直接火到了国外，让OpenAI联创Karpathy大呼想要。

诸位「明星」机器人的登场，大有寒武纪大爆发之势。

最近，医学博士、人类免疫学家Derya Unutmaz表示，当前AI技术产生最大影响三个领域，是生物技术、机器人技术和教育

外国网友们也纷纷感叹：我们正处于AI和机器人奇迹的风口浪尖，然而大多数人甚至还没注意到。

在中国，已经有数以千计的人形生物诞生！

如今业内已公认，造完大模型后，AI的下一个浪潮就是具身智能。

2023 ITF World半导体大会上，老黄就表达了这个观点

在特斯拉2023年年度股东大会上，马斯克也表示，人形机器人将是今后特斯拉主要的长期价值来源。

大模型与机器人的融合，直接让后者长出了「脑子」。这种超能进化，带来的是能理解、推理、与物理世界互动的智能系统，给我们以无限的想象空间。

国内的大咖们，对此是如何看待的？

就在几天前的2024中关村论坛年会「人工智能主题日」未来人工智能先锋论坛上，来自星动纪元、傅里叶智能、智元机器人、银河通用机器人、宇树科技、小米等业界大佬开启了具身智能的炉边谈话，分享了众多令人受益匪浅的精彩观点。

「具身智能十问」

瞅一瞅近期圈内的技术发展，只能用「震撼」二字形容了。如此之震撼，以至于不少大佬已经公认，在未来的5到20年内，AGI一定会到来。

不过，在数字世界里，我们有可能实现AGI吗？或者说，AGI必须通过具身智能才能实现吗？

「人工智能主题日」未来人工智能先锋论坛组织了具身智能圆桌对话，业界的诸位大咖，分享了自己对此的观点。

AGI必须通过具身智能来实现吗？

回答这个问题的第一位嘉宾，是ACM会士李航老师。

李航老师介绍说，我们现在看到GPT大模型，其中一个重要的特点就是通用性。尽管以LeCun为代表的专家，对这条技术路线并不看好，但在李航老师看来，通用的人工智能一定会实现。

因为沿着应用层发展，所有任务和评测标准都很清楚，在这种层面下，就一定能开发出这样的AI。然而，并不是说所有这些和人的智能相关的特点或能力，我们就一定能实现。

人智能的三个特点——情感、创造力和自由意志，AGI不一定能去覆盖。AGI的定义标准，往往是从功能的角度去定义的。

人最本质的智能，是一个生命现象，这个未必在未来能靠AI技术去实现。

而具身智能，更跟机器人相关，包括硬件、软件的结合。届时，它们不仅会完成数字空间里的任务，还会完成物理世界里的任务，相信在未来，它们将达到或超过人的能力。

李航老师认为，具身智能的两大重要特点，一个是有自主性；二是依靠与环境交互积累经验，得到不同的训练数据构建的模型，在机器人身上涌现出不同的智能；三是具备多模态能力，拥有五感的具身智能可以完成更加智能的任务。

每个机器人智能体的数据实际上是不同的，基于不同的数据，就能构建不同的模型，产生不同的智能。

如果要进入物理世界，最重要的就是视觉听觉嗅觉。未来的具身智能，应该是结合多模态技术，从而完成智能性的任务。

在银河通用机器人创始人、智源具身智能研究中心负责人王鹤老师看来，具身智能与非具身智能非常互补，他们的全集才是AGI。

中国有一句老话，读万卷书，行万里路。如今的互联网上的信息对具身智能来说，就是读万卷书，让它了解了人类的思维和对图片的感知，但它无法代替行万里路。

而人类的身体力行、在真实世界里的劳作，都不可能通过读书、看图、看视频来替代。即使看10个小时视频，也无法学会怎么骑自行车。

而具身智能，就赋予了智能体与物理世界交互和在交互中学习的能力。这种能力，是无法通过看图/看文这样的数字世界和典型的数据模态及经验而获得的。

非得是人形吗？

还有一个有趣的问题就是：具身智能必须是人形吗，必须是双足吗？靠机器狗，可不可以实现具身智能呢？

对此，傅利叶智能创始人兼CEO顾捷表示，具身智能的最终形态，一定是人形的。对此，整个硅谷都达到了共识。英伟达GTC大会上，出现的也全是人形形态的机器人。

不过，高矮胖瘦、用什么驱动这样的细节，目前还很难统一，但大家都在朝人的形态开始做收敛，朝这个方向努力。

宇树科技创始人兼CEO王兴兴也表示，如今人形机器人是大家公认的机器人形态。

虽然他也认为，对于具身智能或AGI，机器人形态不是特别重要，但大家都比较喜欢这种心态，受到整个社会的公认。

做数据采集的时候，人形机器人就可以去人生活的各个地方，做跟人一样的动作，比如开车、散步、跟人或机器人交互等等，这些都更加接近跟真实人类的交流。

所以，当下具身智能人形机器人，可能是相对最合适的路径，它虽不是唯一路径，但确实是效率比较高的方法。

先有鸡，还是先有蛋？

智源研究院院长王仲远又提出一个有趣的问题。

我们都知道，具身智能是系统的工程，既涉及硬件也涉及软件，但硬件和软件的发展速度是不匹配的。

如今，大模型虽能思考，但指挥不动本体。所以，我们是该先让硬件达到一定水平，迎来具身智能蓬勃发展，还是该脱离本体，独立分开发展具身智能呢？

顾捷表示，这个问题，可以参考是先有APP还是先有智能手机。

我们需要先让智能手机打电话，有了开放平台和接口，先收集数据，然后才能做AI。

具身智能的本体还不够结实时，能干的活很少，在此基础上开发具身智能是难度较大的。当然，如果本体开发得很好，大脑却没有跟上，应用场景也会受到制约。

正确的做法是，先从本体迭代切入点，再加入基本应用，达到一定程度后，再将本体做比较大的收敛，然后就会出现应用的蓬勃发展。智能手机发展到现在的形态，也是如此。

同样，王兴兴也认为，有实体的具身智能是实现AGI的唯一途径。

如果脱离实体，目前的大语言模型与物理世界的理解是远远不够的，这也就是为什么，如今很多顶尖AI学者提出要做世界模型。

特斯拉的无人驾驶，也是采集的真实数据训练，而非虚拟数据。因为虚拟数据中，实时与物理世界交互的数据太少。

他做出这样的预言——

我觉得本体反而是实现AGI非常重要的渠道，个人觉得，AGI很可能诞生在机器人公司。

可以先从进厂打工开始

王仲远还提出，自己通过调研发现，不少具身智能的专家，是从自动驾驶领域转过来的。

从现有的功能模块来看，二者确实非常相似，包含环境感知、规划决策以及最终控制这几个模块。

特斯拉通过电动车收集了海量数据之后，开始了训练端到端的自动驾驶大模型，甚至可能实现真正意义上的L4，甚至更高层级的无人驾驶。

这条路径有可能实现吗？

星动纪元创始人陈建宇表示，如今的自动驾驶特斯拉，应该是最好的一个标杆。

自己是从2015年开始做自动驾驶的，上一波热潮来临时，其实有两个问题非常严重。

第一，就是大家一窝蜂上来就要做L4，做Robotaxi，都以为两三年内能搞定，但实际上要困难得多。

第二是，当时AI还并未发展到如今这个阶段，ChatGPT之类的大模型还没诞生，做决策、执行和控制时，完全没有AI的办法。

两者叠加，导致这段时间自动驾驶的发展曲折。

但特斯拉就成功避开了这两个问题，做到了L2、L3、L4的渐进式发展。

因此，具身智能也不需要一上来就做走进千家万户的家用机器人，可以先进工厂，从容易的场景开始。

而且，我们要坚定地拥抱AI。一些短期工程做Demo的方法，未来可能很难长远。

数据怎么办？

不过，具身智能和无人驾驶不太一样的地方在于，无人驾驶面临的基本是特定的场景，但具身机器人要解决的场景极多，包括家庭场景、流水线场景等。

如此多的场景，就导致数据采集很不容易，因此现在许多模型都在基于仿真数据。

仿真数据是否可以代替真实数据呢？

王鹤表示，当前具身智能最大的瓶颈，就是缺乏数据。特斯拉FSD，就是利用了百万车主上亿小时的驾驶数据，进行模仿学习的。

然而很可惜，人形机器人并不存在这样的数据。并没有上百万群众会自发地买一个机器人，用遥控器指挥它做事。这种数据集在地球上还不存在。

所以要实现具身智能数据0到1的突破，最实际的方法就是通过物理仿真，把现实世界的物理规律通过图形学的引擎，真实仿真摩擦力、接触力、光线追踪渲染等，制造一个模拟真实世界训练的数字训练世界，这也是英伟达系列工作背后的初衷。

当未来，机器人在我们的世界充分存在的时候，也就有了在真实世界交互的数据闭环，成为具身智能的源头活水。

陈建宇表示赞同，并且表示，仿真的优势非常快，靠英伟达的GPU，可能一天就能采集到相当于真实世界上百万年的数据。

仿真的一个劣势是，很难准确搭建很复杂的场景，这时只能靠真实世界采集，但这样速度就会受限。

所以，在前期，我们只能从仿真里拿出稍微简单一点的场景，让机器人快速学习。当它们能做复杂场景时，我们就需要在真实世界里采集数据了。

海淀重磅押注具身智能

作为AI发展的下一个浪潮，具身智能深度融合了LLM、机器人等多学科技术，正加速推动智能经济到来。

最关键的是，具身智能甚至关乎着，实现AGI的终极目标。

为了抓住这一机遇，海淀区在27日发布了《打造全国具身智能创新高地三年行动方案》（以下简称《行动方案》）。

这是全国首个最全面、最细化，且仅针对「具身智能」单一领域，而发布的《行动方案》。

由此可见，海淀全力押注具身智能的重要性，不言而喻。

《行动方案》明确指出，到2026年，将初步建成全国具身智能原始创新策源地、应用示范新高地和产业加速集聚地。

也就是说，力争在2年多的时间里，海淀要成为我国参与全球具身智能竞争的核心力量！

《行动方案》将重点聚焦LLM和机器人整机，具体从以下六大方面展开。

一是，源头创新突破行动。

具身智能的最终目标是，通过LLM的赋能，让AI机器人可以在物理世界中，形成交互、自主学习的能力。

而构建一个完整的机器人，需要具备以下三大要素：本体、大脑，以及小脑。

其中「本体」就是机器人身体的物理呈现，而注入LLM的「大脑」能让其听懂人类语言、交流，「小脑」则负责控制身体运动。

AI机器人的设计从人脑运作方式得到启发

因此，AI具身智能的发展，先要从这些技术源头上，取得创新突破。

关于「大脑」的训练，多模态LLM是让机器人听懂、看清、并理解、分解执行任务的关键。

当前，国内诸如文心4.0、商量5.0、Step-1V等多模态LLM已取得了重大突破，未来还需进一步追赶世界技术前沿。

另外，面向工业、金融等垂直领域，更需要开发专用的LLM系统。

在「大脑」将语义信息转化为动作之后，就需要「小脑」控制身体，去完成高难度、高精度的任务。

这主要取决于控制算法的进化，其中便涉及到步态平衡、动力学模型、控制框架等等，与此同时，还要实现「大小脑」协同。

除此以外，推进机器人的「脑身系统协同」，也至关重要。

简单来说，「脑身协同」就需要提升机器人在物理世界的模拟能力，以及从数字世界迁移到物理世界的能力。

举个栗子，机器人看到桌子上的苹果，并将其递到你的手中。

这个过程，就需要大脑识别桌子上的物体，然后将信息传递给小脑，以控制身体在物理世界中的移动。

所以，未来企业还需要加强在数字世界模拟能力、数字到物理世界迁移技术的研发，并优化其在不同领域中的应用。

二是，本体产品领跑行动。

接下来，就是机器人本体，即「身体」的综合性能的全面提升，还有很长的一段路要走。

市面上，人形机器人已然占据了一大份额。

正如前面所述，当机器人走向落地时，人形不一定是最好的形态。

比如，四足机器人的典型代表——机器狗、还有工业机械臂、餐饮酒店中轮式送餐机器人等「多元形态的机器人」，更加适合自身的场景应用。

也就是说，需要根据实际的应用场景，去研发多元的机器人「本体」。

而若是提升「本体」整机性能，还需要从机器人的每个部件，去攻关。

包括伺服电机、传感器、关节、机器视觉、灵巧手等一系列关键模块化组件。

最重要的是，芯片、操作系统等底层技术，也需要逐一破解，以打造国际先进的多形态机器人。

三是，创新平台赋能行动。

具身智能的发展还需要多方位的平台提供技术支撑，以及产业孵化地。

当前，可以看到许多科研机构，包括企业都在做机器人开发，却有时难以将其应用，创造出的成果只能停留在研发阶段。

这就非常需要，一个能够提供「共性技术」支撑的平台，降低社会的研发成本。

不可否认，让机器人能够以人类的思维方式，与物理环境互动，并自主完成任务，还是比较困难的。

而我们所见的各种炫酷的demo，其实很多都是，机器人在特定场景中完成目标，而遇到未见过的场景时，就无能为力了。

之所以出现这一问题，关键还是「数据样本不够大」，它们无法涌现出真正的智能。

一般来说，训练机器人完成任务的通常做法是，在一个虚拟环境中，不断优化算法，再将其投入现实世界。

就像ChatGPT等大模型在喂了足够体量的数据之后，才能展现出强大的涌现能力。

机器人同样如此，没有足够的「数据样本」，很难获得真正的智能。

不排除，机器人已经有了一些智能的体现，比如踹倒后的机器人能够自主站起来，并非依靠编程而是训练所产生的「应激反应」。

但是，在「大脑」智力这方面的涌现，还未真正见到。因为，它涉及了很多维度，诸如语言、图片、视频等。

另外，数据的收集，还与机器人本体也有关联。

有的机器人手是三指、四指，甚至五指的都有，因此传感器数量多少，也就决定了数据维度获取的不同。

由此，不同数据样本训出的模型，最后机器人涌现的能力、方式都存在差异。

所以说，机器人真正智能的实现，需要有数据。而如何去创造数据，成为一个难题。

对此，海淀打造了一系列平台，比如「具身智能创新中心」，为企业提供训练环境，以便获取实时数据。

此外，还有端到端的仿真平台、实测验证场景等平台、实测验证场景等，破解了企业数据获取难题。

同时，海淀还将打造一系列产业创新孵化平台，以加快提升样机研发、检验测试、中试服务、生产制造等产业公共服务能力。

四是，应用场景示范行动。

面向科研、工业、消费、巡检等场景，让具身智能走向开放应用。

并且，未来还将打造一批可复制、可推广的具身智能应用示范工程。

五是，产业集群建设行动。

现在，海淀在区域北部温泉科技园三期，将打造一个机器人小镇，为企业提供了办公、以及开放测试环境。

由此，企业的聚集，能够有更多交流，进而形成竞争力的产业集群。

六是，生态雨林打造行动。

最后一个行动，将从四个方向开展。

首先是，培育一批具身智能改高端人才，打造具身智能人才社区。

其次，强化金融赋能效应，加大市级基金对具身智能投资力度。

然后，还要探索制定标准规范，鼓励优势企业参与国际/国家标准、行业标准制定，提升具身智能科技伦理治理能力。

最后，还要加强开放合作交流，支持建设具身智能开源社区，举办具身智能论坛、峰会、大赛等活动，形成开放合作的产业生态。

当然，除了亲自牵头之外，海淀区还通过首次「人工智能主题日」，把从事具身智能领域研究和生产的高校和企业汇聚到了一起。

在这里，突破性的成果展示，以及前沿性的演讲讨论，不仅可以激发一波又一波的讨论，让更多的人了解到具身智能的进展。

而且，还能让校企们藉此发现与自己志同道合，或者细分方向正好互补的伙伴，进而展开一轮全新的合作。

海淀AI学者1.23万，占北京八成

那么，为什么最新的《行动方案》，最先由海淀区提出并发布？

这是因为，这里不仅有硬核的科技力量、丰富的AI人才，还有完善的应用场景，专业的平台支持，具备了发展具身智能产业得天独厚的优势。

而且，海淀区是北京国际科技创新中心核心区，更是北京市AI和机器人产业的创新高地。

就人工智能发展方面，海淀聚集了14家全国重点实验室、3家新型研发机构，21所AI本科高校。

而且，拥有89位AI TOP2000全球顶尖科学家和产业领军人才，还有1.23万AI学者，占北京市八成。

海淀的大模型企业超过了90家，且数量持续增长，其中有36款LLM通过备案，占全市七成，在全国率先形成AI大模型产业集聚区。

还有，1300家集聚企业占全市七成，提供了全产业链部署芯片、框架、大模型、数据技术与处理服务。

与此同时，海淀在算力、数据、算法等基础设施方面，完成了全面的布局。

新增3500P算力已部署就位，为LLM场景应用落地提供充足的「燃料」。

而在机器人领域，海淀更是具备了超前沿的科研、产业优势。

一方面，清北、北航、北理、中科院等一批高校院所和专家人才，已经在机器人领域做出的诸多的研究。

另一方面，近200家机器人企业占全市40%，包括10+家人形机器人本体企业，占全市50%还要多。

下一步，海淀将凝聚各方力量全力保障方案的落地实施，在具身智能共性技术服务平台建设、重点企业培育与引进、推进应用场景落地、打造具身智能特色园区等方面持续发力，加快形成具身智能创新发展的良好格局。

可见，海淀区在推动具身智能的产业集群发展和创新升级，已万事俱备。东风已至，蓄势待发。

智元机器人联合创始人、上海人工智能研究院院长宋海涛表示，如今全球80亿人口，核心的生产力创造，还是来自于我们的智慧群体。仅仅是完成全球的生产力创造，我们就至少需要100亿台人形机器人。

诚如马斯克所言，征服浩瀚宇宙，一千亿台人形机器人在等着我们。

参考资料：

https://aiday.innohall.cn/home

具身智能占领中国硅谷？1.23万AI学者集结海淀，填补全球百亿人形机器人空缺

2024投什么？先来看看人形机器人吧｜钛媒体创投家

人形机器人的崛起：从古老梦想到眼前现实

美国机器人应用遥遥落后？时隔15年，十所顶尖高校重启「国家机器人路线图」

伯克利开源大型机器人操控基准，面对复杂自主操控任务不再犯难

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

国产人形机器人征服复杂场景: 实时感知规划，动态运动告别盲走

宇树发布Unitree G1人形机器人，9.9万元起

大模型不需要眼前的共识

“离谱的AI扩图”火了！张张那叫一个出其不意

瑞士机器人科技公司AICA利用模块化编程、AI与力反馈传感自适应控制系统，简化工业机器人编程与自动化控制 | 瑞士创新100强

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

约基奇40+7+13 掘金擒森林狼3-2 唐斯23+6

社区书记与访民通话录音曝光，颠覆了我对法律的认知！

特斯拉Cybertruck生产负责人朱人杰离职曾在上海工厂工作

一瓶“闻着有味喝着无味”的饮料风靡硅谷，估值达到2.2亿美元！

马斯克谈FSD：美国订阅率远高于2%，Cybertruck可使用FSD 12.5版本【附自动驾驶行业市场发展预测】

美媒：硅谷“爱国资本”风潮能否持久？

乌国防部：乌克兰加入北约联合作战实验室网络

具身智能占领中国硅谷？1.23万AI学者集结海淀，填补全球百亿人形机器人空缺

2024投什么？先来看看人形机器人吧｜钛媒体创投家

人形机器人的崛起：从古老梦想到眼前现实

美国机器人应用遥遥落后？时隔15年，十所顶尖高校重启「国家机器人路线图」

伯克利开源大型机器人操控基准，面对复杂自主操控任务不再犯难

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

国产人形机器人征服复杂场景: 实时感知规划，动态运动告别盲走

宇树发布Unitree G1人形机器人，9.9万元起

大模型不需要眼前的共识

“离谱的AI扩图”火了！张张那叫一个出其不意

瑞士机器人科技公司AICA利用模块化编程、AI与力反馈传感自适应控制系统，简化工业机器人编程与自动化控制 | 瑞士创新100强

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

更像人脑的新注意力机制，让大模型屏蔽无关信息，准确率提高27%

约基奇40+7+13 掘金擒森林狼3-2 唐斯23+6

社区书记与访民通话录音曝光，颠覆了我对法律的认知！

特斯拉Cybertruck生产负责人朱人杰离职 曾在上海工厂工作

一瓶“闻着有味喝着无味”的饮料风靡硅谷，估值达到2.2亿美元！

马斯克谈FSD：美国订阅率远高于2%，Cybertruck可使用FSD 12.5版本【附自动驾驶行业市场发展预测】

美媒：硅谷“爱国资本”风潮能否持久？

乌国防部：乌克兰加入北约联合作战实验室网络

特斯拉Cybertruck生产负责人朱人杰离职曾在上海工厂工作