近日,逐际动力创始人张巍久违地露面,在公开场合首次发表了一场演讲。除了明确逐际动力的定位和产品方向外,他对当下机器人、无人驾驶行业的主流技术、商业化路径也进行了分析。

RoboX对其演讲内容进行了如下摘要整理:

“机器人永不会代替人”

张巍认为,具身智能是当下最火的一条赛道,尽管它目前仍面临很多问题和质疑,但背后还是有一个共识——具身智能是未来十年人类最重要的科技革命。

如果机器人的定位是「代替人完成可以改变物理世界的任务」,这其中就有两个关键词——「代替人」和「任务」,它们看似简单,其实往往是巨大的陷阱——如果不理解透这两个词,具身智能落地就会变得异常复杂。

他表示,逐际动力(以下简称「逐际」)的观点和定位,并非是让机器人去代替人,而是Empower人——“机器人永远都不会代替人,它背后的逻辑是很复杂的。”

打开网易新闻 查看更多图片

首先,张巍用两个具身智能类型,分析了其背后的商业化难点。

1、机器人+AI:他表示,上一代的机器人+AI模式已经做很长一段时间,这是商业化最难的方向,它其实可能只是「海市蜃楼」。

此类机器人能在工厂里能完成非常复杂的分拣任务,或者快递包裹分拣。但是它们在真正的商业闭环上,还是有很多挑战的:“没准卖出去的那一刹那,就是赔钱的开始。”

2、无人驾驶:在张巍看来,从2016-2024年,无人驾驶已经发展了很长时间,却仍难以评判其成熟度——“当感觉找到「技术开关」时,却还是有「最后的10%」的难度是无法估计的,恰恰就是这10%,是影响整体发展的关键。

”同时,其商业价值也很难判断。因为代替人,和协助人,这两件事是有本质区别的,它们有着不同的商业模式,也会带来不同的产品,这两种产品所经受的打击是完全不一样的。

让机器人「用起来」其实非常简单,可是形成商业闭环却非常难。现在上路的无人车,或者配送车的本体,都不是主角,在整个商业价值链条里占比不到10%。

同样的,机器人产品本身也只占商业链条的不到10%,剩下的部署维护、改造场景,协作关系等部分才是最大的开销。所以机器人不光有好的本体,还一定要有数据工具、训练工具、部署工具,以及维护工具,这一整套的效率体系才是竞争力,而非本体。

同理,如果想让机器人代替人,并非改变本体的问题,而是要改变一整套协作关系。

大语言模型,能做的仍很有限

现在提到具身智能,都会联想到与大语言模型的结合。

例如,要想将人类的意图告诉机器,就需要task encoding或者embedding(任务编码或嵌入),大脑要先对task进行处理和决策,再由小脑去执行运动。

对比起来看的话,无人车是非常简单的具身智能任务,因为其任务定义很明确,唯一目标就是到达目的地,在结构化的道路上移动。而且,无人车的「小脑」就是底盘和域控制器,如今也已经非常成熟。

即便如此,张巍也不认为目前的无人驾驶可算作「完全替代人」:“它本质上还是AI+人。我不觉得目前有完全交给AI的无人驾驶,只是用技术改变了人开车的方式。”

而对于具身智能来说,完全代替人类更加困难。

张巍用一个很简单的任务举例:给我收拾一下桌子。可这样的任务却很难被拆解和执行。

“如果没有大语言模型,大家甚至都不太敢想这样的任务。但现在只是敢想,具体怎么做还不清楚。”

打开网易新闻 查看更多图片

应当「押宝」哪种本体?

理想化的想法,是用数据堆出一个「具身大脑」,同时也有通用小脑+通用本体,就能完成各种任务。

但是张巍认为,采用一致的通用本体形态,是没有必要的。对此,他总结出现有的四大本体类型:

  • 1、机械臂,它的控制器小脑极其成熟。
  • 2、轮式底盘+双臂,它的控制器也相对成熟。
  • 3、人形+人形特有的小脑。
  • 4、人形的下半身,只有双腿或四腿,主要完成locomotion(移动能力)的任务。

打开网易新闻 查看更多图片
(逐际动力 - 人形机器人CL)

本质上机器人就在做两件事:代替双手、代替双腿。他认为,在行业发展过程中,创造最大价值的应该是这两类本体,所以逐际也是选择做这两类。

“押宝押哪一个,去做哪种本体?我认为这不是一个好问题,好的问题是‘这个行业还需要发展哪一种本体’。”

在他看来,要想做高价值的本体,需要3个条件:1、目前在物理世界中尚不存在;2、原理上可支持被做出来;3、未来一定是机器人形态中的一种。

模型就像牛顿定律

只是历史数据的压缩

“大家希望用一个大模型,就做成整个大脑。其实这是个不切实际的想法,其实要好多大脑。而且现在我们不缺某个领域里的大脑,我们缺的是学习的能力,也就是对数据高效处理的能力。”张巍说道。

不可否认的是,仿真是一种对模型的使用方式,且仿真和模型对数据的发生和产生都有巨大帮助。但是模型是历史数据的压缩,就像牛顿定律是对所有运动物体的数据的一个压缩,只不过压缩得比较好。

“牛顿定律和大语言模型没有任何本质的区别,它只是这一类数据中最好的压缩方式。所有压缩好的数据,都可以用来作为数据的生成,产生新的数据,帮助推进泛化。”

他指出,操作的泛化性有好多种,有分模块的,有端到端的,它们本质是对数据的利用和假设的不同方式。

“但是当前,我们的所有数据处理方法都难以达到理想中的功能需求。所以现在不能盲目地要追求在一种方法上去堆数据提升性能,而是要找到我们认为的‘曲线D’,也就是我称之为‘性能数据比’或者‘数据性能转化率’的一条曲线,现在还不是一个堆数据的时候。”

打开网易新闻 查看更多图片

那么,怎样才能找到更好的数据利用率?张巍表示,其实从容易获得的规则数据中,还是有很多信息能帮助我们指导操作的泛化性的。

他展示了一个逐际动力的案例——不利用数据,完全通过text prompt,让大模型生成人类操作的视频,就能指导协作机械臂完成操作任务。

“我们的数据利用率,可达当前算法的100倍。”张巍说道。

他表示,逐际之所以做人形本体加全控小脑,是希望将「未来一定有用,现在还没有做得很好」的这一类东西做好。

打开网易新闻 查看更多图片

同时,逐际也在研发低成本的具身大脑工业母机,探索一种新型的学习训练方式,以求可以在任意领域中以更高的效率去完成可泛化的任务。

张巍强调称,逐际动力的核心的定位一直都是Empower innovators:“我们不直接进工厂,我们的定位是希望做具身智能的英伟达,将具身智能创新、落地的效率提升百倍千倍。”

据他透露,目前逐际的人形机器人(大负载全身搬运)已经用最低成本的方式完成了原理验证,而且是在验证目标没有被取舍掉的前提下。

同时,逐际还即将发布第一款全尺寸人形机器人,能够原地起立、直膝行走。