衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

一个(暂时)只做具身大脑的公司,抛出了一个只有2.4B参数的具身模型。

目前行业风向标如Physical Intelligence的π 0总计约33亿参数,π 0.6的参数量也约莫在50亿以上。

在一个甚至连硬件形态都还没定型的行业里,2.4B参数到底够不够用?

这家公司给出的答案是,够用。

而且足以支撑它实时处理三视角的728x728画面,推理延迟仅60毫秒;配合强化学习机制,它还能在真机上不断试错进化。

这就是具身智能创企原力灵机推出的首个具身原生模型产品DM0。

2.4B的轻量小蛋糕,RTX 5090就能跑。

打开网易新闻 查看更多图片

因为从零训练以及对具身数采有不同于行业的看法等原因,该公司称它为“首个具身原生大模型”。

与模型同时发布的还有开源具身原生框架Dexbotic 2.0,以及具身原生量产工作流DFOL。

这具身软件三件套背后技术路线的操盘手,是原力灵机合伙人、负责大模型的周而进。

他在AI圈早已名声在外。

打开网易新闻 查看更多图片

周而进现在才33岁,但这人已经在AI领域出名13年了——

早在2013年,深度学习和人工智能还是冷门的时候,大二的旷视实习生周而进就以一作身份,拿下了ICCV 2013的自然环境人脸关键点定位比赛(300-W)工业界组冠军。

但这个传奇人物的出名比这个时间线更早。

他是信息学竞赛NOI、IOI金牌选手,初三就“保送”到了清华;作为清华的学生,他师从电子工程系长聘教授、系主任汪玉。

后来作为旷视12号员工,他屡屡用算法软件拿下全球第一。

就是这样一位从AI 1.0时代走出来的少年天才,在去年,他和同为旷视同事的范浩强、汪天才,创业具身智能。

后来前旷视联合创始人唐文斌也参与其中,担任CEO。

打开网易新闻 查看更多图片

周而进对我们说,当前具身行业的主流具身模型方案,大多数是VLM+Action Head思路

也就是说,大模型负责识别和逻辑推理(比如看到冰箱里有牛奶),动作头负责执行(去抓取牛奶)。

  • 这种方法在目前行之有效,但它是一种外挂式方案。

打开网易新闻 查看更多图片

原力灵机想追求一种具身原生路线,强调从数据采集范式、推理方式到控制结构,都应源自物理世界的反馈,而不是数字世界的派生模态。

也确实这么付诸实践了。

刚提到的模型DM0,就“从底层建模上就将感知、推理、控制整合为闭环,然后通过空间推理思维链(Spatial CoT),内生出具身智能”。

打开网易新闻 查看更多图片

DM0的核心是通过多源、多任务、多机型训练来打通具身智能。

具体的训练过程,分为三个阶段。

第一阶段是VLM Train。

团队从零构建具身原生的多模态模型,将互联网、智驾和具身多传感数据融为一体,让模型天生就理解物理环境,练就扎实的感知基本功。

第二阶段是VLA Pre-Train,周而进称之为“具身能力涌现的关键”,分为多任务、多机型训练和空间推理思维链两条主线。

第三阶段是VLA Post-Train。这一步保留了针对特定应用场景的适配能力。

在RoboChallenge大规模真机评测中,DM0拿下了单任务和多任务双料第一。

打开网易新闻 查看更多图片

这是原力灵机成立以来第一次成体系地发布具身技术产品。

从和周而进的对谈里我们发现,原力灵机从模型、工具链、量产工作流,方方面面都不停地在讲闭环、讲具身原生。

在我们与周而进的这次深度对话中,他也围绕这些关键词给出了更详细的解读:

  • 为什么要坚持从零训练而不是微调?
  • 空间推理思维链是怎么帮助模型应对长程任务?
  • “全身全时全域”的数据采集会带来什么变化?
  • 机器人如何逐步走向拥有“社会身份”?
  • 以及,为什么必须7×24小时跑起来?为什么要从物流开始做具身?

诸如这些问题,在采访中都得到了回应。

(以下为对话实录。在不改变对谈者本人原意的基础上,我们做了部分删改,以方便阅读)

对话实录

关于“具身原生”

量子位:灵机把这次发布的DM0叫做“具身原生大模型”。原生不原生有什么区别?

周而进: 具身智能的核心是构建感知-决策-执行的闭环智能。

在大语言模型范式下,智能主要停留在信息处理层面,比如识别冰箱里有牛奶。

但具身智能不仅要看到牛奶,还要拿起牛奶,找到生产日期,从而判断牛奶是否过期,实现从数字智能到物理智能的跨越。

量子位:DM0原生在哪里?

周而进:有两个层面。

第一个是模型训练本身的起点从零开始。

希望模型从出生的第一天开始,就已经充分理解物理世界,而不是在一个已经被大量互联网数据塑形过的模型上,后天再去补物理世界的东西。

物理世界在模型初始化阶段,会给到非常多非常丰富的反馈,这种反馈如果放到后面再学,本质上是很难补回来的。

互联网数据当然很重要,它带来了大量先验,但我们的理念是,希望模型在一开始就见过真实的空间关系、交互关系,理解人与物理世界是如何对话的。

很多人会觉得,现在已经有很强的通用大模型了,比如直接拿一个语言模型作为基模,再往后堆一些具身数据,好像也能训出效果。

从工程上看,这条路是走得通的。但我们会觉得,这样的路径在认知顺序上是有问题的。无论是动物还是人类,最早学会的都是动作,是对物理世界的反应能力,而语言、抽象思维反而是后天逐渐发展出来的。

一个不那么严谨的类比,你很难想象一个婴儿是先学会对话,再学会找奶瓶。

所以我们认为具身模型也应该遵循类似的路径,从一开始就围绕物理交互来构建,而不是在一个已经在数字世界训练好的模型上去嫁接动作能力。

量子位:第二个原生的点呢?

周而进:第二个是数据的理解方式。

今天行业里关于具身数据怎么采、用仿真还是真机,其实分歧非常大。

仿真派和真机派之间争论了很久,但我们一直觉得用“仿真”还是“真机”来切分本身意义并不大,更像是在给自己贴标签。

我们的看法是,今天你采集的所有数据,本质上都是合成数据,只是合成程度不同而已。

在仿真器里,任务定义、物理反馈、物理规则,全部是人为构造的,这是高度合成的数据;在真实世界里采数据,看起来瓶子是真的、环境是真的,但任务是不是你定义的?Task instruction是不是人为设定的?物流场景里的流水线是不是人设计的?

从这个角度看,它们本质上都处在一个合成光谱上。

我们更关心的不是用不用仿真,而是应该把数据和算力投向哪里。

我们内部有一个比较明确的判断,物理确定性强的部分,用算力和仿真去解决;语义模糊、不确定性高的部分,用真实数据去覆盖。

这也是我们为什么会认为从一开始就把“人、数据、物理世界的交互形式”放进模型设计里非常重要。

如果模型最早接触到的就是这些东西,它在后续面对不同硬件、不同形态机器人时,学到的是操作逻辑,而不是某一台机器的电机参数。

打开网易新闻 查看更多图片

量子位:说到不同形态的机器人,资料显示DM0的训练特意扩充了不同本体的机器人数据,目前是8种机器人。

周而进:如果模型只见过少数几种机型,它很容易把“该怎么完成一个任务”和“这台机器的关节要怎么转”混在一起。

举个例子,把水放到某个位置,模型真正应该理解的是伸手、移动、放置这个动作序列,而不是某个关节需要转多少度。

就像人开车一样,一个合格的司机不会因为换了一辆车就不会开了。

真正记住的是轨迹和操作逻辑,而不是方向盘的松紧程度。

从这个角度也很容易能理解具身原生是我们的路径选择。

打开网易新闻 查看更多图片

关于数据和高/低熵场景

量子位:DM0用的数据来源有3个,分别是互联网数据、智能辅助驾驶数据和具身智能数据。

周而进:具身模型不是只靠一种数据就能训出来的。

如果仿真的物理引擎足够强,能模拟出真实世界的接触力、摩擦力和碰撞反馈,那么仿真数据的价值就会极大提升。

但在目前的阶段,特别是涉及到复杂的触觉和细微操作时,真实交互产生的硬核数据依然是不可替代的。

而且互联网数据、自驾数据、具身数据,这三类数据在模型里承担的角色是完全不同的。

互联网数据提供的是语言和概念层面的抽象能力,它让模型理解“什么是什么”;自驾数据提供的是在开放环境中应对长尾事件的经验;而具身数据填补的是物理交互和接触这一块,这是前两类数据完全无法覆盖的。

打开网易新闻 查看更多图片

量子位:三者有固定的混合比例吗?

周而进:没有,根据实验结果动态调整。

现在具身数据确实相对少,但随着采集规模的扩大,它的占比一定会快速上升。

量子位:其中哪种会是未来训练具身模型的主导类别?

周而进:我们并不认为未来一定是某一种数据占绝对主导。3类数据在不同阶段承担不同权重。

打开网易新闻 查看更多图片

量子位:你们提到“熵在哪里,数据就投向哪里”,这句话怎么理解?

周而进:可以理解为决定数据采集的关键变量是环境的可描述性与熵(不确定性)。

最高效的方法一定是“能够闭环的方法”。

如果数据采回来不能提升模型的泛化能力,或者采回来的全是重复的、低质量的动作,那只是在浪费算力。

我们现在的策略是,先通过模型发现哪些任务是它干不好的,即“熵值高”的地方,然后针对性地去补那部分数据。

这就叫以需定采,让数据采集也具备反馈闭环。

打开网易新闻 查看更多图片

环境规则明确的场景,数据就是计算的产物。我们可以充分发挥算力可扩展的优势,通过算力进行状态空间的探索。

高熵场景充满不明的语义,人类偏好,还有开放世界的不确定性。这种情况下数据就是经验的映射,必须依赖真实交互,从多样经验中归纳。

简单说,物理规则简洁确定的部分用算力生成数据,物理模糊或语义模糊的部分用真机采集,这样才能解决长尾问题。

关于数据采集方式

量子位:你们的数据采集方式好像很独特,不只采具身机器人的双臂动作。

周而进:我们做的是全身全域全时的采集。

量子位:什么是“全身全域全时”?

周而进:全身,指数据采集要包含底盘的移动、躯干的协调以及所有传感器的反馈。

具身智能是操作与导航的统一,你不能把路走得好和手干得好拆开来看,数据必须包含全身的协同。

全时强调的是数据的连续性和因果链。

数据采集不能只拍下某个瞬间,要从意图产生、路径规划到动作执行,甚至是中间出错、修正的全过程都记录下来。

正常人类对话,我问你“卫生间在哪”,你手一指,说“在那”。

这个过程中你讲了一个方位代词,又做了一个肢体语言。这些东西其实是我们认为能够跟人长时间,或者说24小时全时共处的一个机器人他就应该具备的能力。

全域是空间域,相对其他两个,这个暂时还是一个未来规划。

量子位:采集这种数据是一开始出发点就这样,还是走了其它方式最后选择了一种最work的?

周而进:我们从一开始去做数采的时候,就奔着要把全身的数据、全时间段的数据、全空间场景的数据都给覆盖了,其实就是奔着一个更通用的目标去做。

都说具身智能具身智能,那人类的全身的数据你是不是都应该采到?

如果我今天只做桌面的双臂抓取机器人,你好像只要用双臂就行了。

但真实的人类动作不只有双臂和双手的动作。过程中你可能要弯腰,你可能要蹲下;如果要把东西递出去,需要伸手……需要各种肢体语言。

具身智能的数据不能只关注手部动作,应该要用整体性的、连续的来训。

量子位:这样煞费苦心地采集,能带来什么效果呢?

周而进:全身全时全域的采集是为了应对物理世界的无限长尾。

如果采集不够全面,模型就会陷入无限打补丁的困境。

关于新发布的具身三件套

打开网易新闻 查看更多图片

量子位:这次除了DM0,你们还发布了一个开源的具身框架Dexbotic2.0,以及解锁具身应用量产工作流的DFOL。动作不少。

周而进:Dexbotic2.0是我们联合RLinf一起打造“具身智能领域的PyTorch”。

它采用模块化架构,视觉编码器、LLM模块、动作专家模块都可以像乐高一样自由组合。

我们联合了清华、无问芯穹共建,目标是实现具身操作与导航、模仿学习与强化学习的统一。

DFOL则用来解锁具身应用量产工作流。

传统非标自动化拥有极快的节拍和极高的确定性,但灵活性差,难以适应频繁换线;人工则具备极强的通用能力和高超操作技巧,但是效率低、成本高且稳定性不足。

DFOL正处于这两者之间最有价值的工作区间,它依托相对通用的硬件,通过强大的学习能力实现快速换线,以模型定义功能,并对复杂多变的输入具备极强的柔性适应能力。

既能保持较高效率与确定性,又拥有接近人类的灵活性和适应性

我们用三个指标评估它:

  • 成功率(接近100%的连续无故障作业)
  • 动作质量(毫米级甚至更高的定位精度)
  • 节拍(即吞吐率,决定ROI)

打开网易新闻 查看更多图片

关于具身模型的记忆

量子位:DM0模型里面用到了空间推理思维链(Spatial CoT),这和大语言模型的推理思维链(CoT)的本质区别是什么?

周而进:大语言模型的CoT主要是一维的语义推理,具身智能面临的挑战是三维的物理世界。

空间推理的推理核心是“空间”,具备真实操作场景中的空间理解、时序组织与运动控制能力。

面对“收拾一下桌面”这种模糊指令,模型不是直接输出动作,而是先进行子任务预测与规划,然后完成物体识别与精确定位。

它必须把视觉特征转化为精确的空间坐标和轨迹,这是一种空间维度的推演。

打开网易新闻 查看更多图片

量子位:在纯文本大模型里,推理错了可能只是胡言乱语;但物理世界里的动作一旦出错,可能造成损坏、危险或不可逆的后果。

周而进:对。所以空间推理思维链通过“子任务-识别定位-2D轨迹-3D动作映射”的闭环,确保每一步推理都与物理现实对齐。

它模拟“介入世界”后的物理反馈,从而弥合感知与执行之间的断层。

这类空间推理是DM0模型的设计核心。

量子位:空间推理思维链能带来什么效果?

周而进:结合高分辨率的输入,他能让模型在毫米级精度的任务中(如工件摆放)识别微小的位置差异。

没有这种层层递进的推理,模型无法学会物体左偏移2毫米意味着什么,但通过空间推理后就能计算并执行这种差异。

普通的CoT无法告诉你杯子向左偏移2毫米意味着什么,但Spatial CoT必须能计算并执行这种差异。

关于7x24运行

量子位:关于数据闭环、物理直觉的形成,还有熵,你都在说“越早越好”。

周而进: 所有人都知道,机器人要上岗要运行,但什么时候跑是一个很现实的问题。有的团队是先做demo,先做技术,再考虑落地;我们是反过来。

我们一开始就想,这个东西必须7×24小时运行,越早跑起来越好。

只有真实跑起来,才有真实数据。

你的模型再聪明,如果没有数据回流,它永远学不会真实场景中的问题;你训练里没有的东西,只能靠在跑的时候补回来。

而且越早跑起来,工程的稳定性问题越早暴露,你就能越早修。

今天demo做得再好,一旦你要上岗7×24,你就会发现电源、网络、摄像头、支架,甚至天气、光照,都会出问题。

量子位:原力灵机的模型已经7x24在跑了吗?

周而进:我们现在已经在多个场地做部署,不是demo式的部署,是7×24的真实运行。

哪怕刚开始成功率不高,也要跑起来。

关于精细操作

量子位:你们把工厂里的物流场景是具身智能应用的重要延伸。

周而进:是的。

量子位:为什么从物流做起?

周而进:具身现在很难说脱离场景,一定得在一个比较明确的场景下面来做这件事情。

我们今天做物流有明确的产线,有明确的上下料的逻辑。

在这个场景上面,先把该干的活干好,然后一步一步去拓展能力。

灵机在物流场景里做了一个轮式双臂机器人,专门用来做物料分拣。物料分拣实际上非常复杂,物料有柔性的,有刚性的,摆放也很乱,就是在物料箱里随意堆满。

要把这些物品一个一个分拣出来,有很多传统的方法,比如用吸盘。但问题是吸盘对于柔性材料,对于表面不光泽的物体不work,有各种各样的corner case。

在这样一个明确且受限的应用场景下,我们的目标是探索能否让机器人实现24小时不间断运行,满足实际需求。

量子位:怎么理解“物流场景非常复杂”?光是听起来,没有什么具体的体会。

周而进:很多时候大家会被一些大动作吸引,比如能不能搬箱子、能不能推门、能不能走路。

但真正难的其实是精细动作。

精细动作不是说动作幅度小,而是说对连续状态变化的控制要求非常高。

比如一个工件的摆放,你肉眼看可能觉得已经放进去了,但对工业来说,差一两毫米就是失败。

这种事情如果只是拍视频是看不出来的,一旦真的放到产线上,就会发现成功率会非常快地掉下来。

量子位:怎么让具身机器人很好地完成这些精细动作?

周而进:精细动作的前提是精细感知。

如果你的视觉输入分辨率不够,模型看到的世界本身就是模糊的,那后面的推理和控制一定是漂的。很多时候模型它根本不知道现在这个工件到底偏了多少。

所以我们在模型设计时,会非常看重高分辨率输入下的稳定性,而不是只追求推理速度或者吞吐。

打开网易新闻 查看更多图片

这又call back了我们反复强调具身原生。其中一个很重要的原因就是精细动作没办法靠后期补。

如果模型在最早的训练阶段,从来没有在高精度、高要求的物理反馈下学过动作,那后面你再加多少规则、加多少工程约束,都会非常吃力。

关于落地场景

量子位:说说你们的落地场景吧。

周而捷:我们挑选的是一个最标准化的场景,就是物流工人坐在工位上面,在物料箱上面做分拣;也有工人是在做物料箱的搬运,他要从这边的一个AGV把箱子拿起来,然后塞到货架上面。

也有工人在做打包。比如你买了三瓶可乐,工人要拿一个快递箱,里面还要垫一些防震的泡沫纸,最后打包好。

这已经涉及到一个人在工厂里面全身的动作:走动、蹲起、手部的灵巧操作……覆盖的场景非常丰富了。

不过事情要一步一步来解决。我们现在先解锁的还是灵巧抓取的问题。

打开网易新闻 查看更多图片

量子位:你们怎么看待不同场景的优先级?为什么先做物流,而不是一上来就做家庭之类的其它场景?

周如进:家庭场景确实是让所有人都非常兴奋的终局,但饭得一口一口吃。

我们现在的策略是,首先选一个能够比较规模化、且具备高度可复制性的场景。

这种可复制性包含三个维度。

第一个是商业模式的复制,能不能形成标准化的投入产出比(ROI)?

第二个是施工难度的控制,环境要相对可控,不会像家庭环境那样极端,复杂多变。

第三个是数据回流量复制, 这是最重要的——我们需要在一个场景里快速跑通闭环,让数据能成规模地回流,用来喂养模型。

量子位:为什么是这三个维度?

周而进:通过这些场景,我们可以逐步解锁三个核心能力。

第一是模型的通用能力,第二是硬件的可靠性,第三是把供应链和成本打下来。

如果直接进家庭,这三座大山很难同时翻过去。

量子位:不过你刚才提到,“家庭”是“理想的终局场景”?你们的路线图是什么样的?

周而进:物流不仅有抓取,还有大量的搬运和环境交互。

从物流开始,先做一些专项能力的产品,进到仓储环境;等能力稳定了,再逐步推向ToB靠近ToC的场景,比如门店的导流、导客、导购。

最后,当所有的技术、成本、安全性都经过海量验证后,再往最终的To C家庭方向去走。

这就是我们说的先物流、后家庭,步步为营。

打开网易新闻 查看更多图片

关于世界模型

量子位:DM0在设计中引入了具身空间建模机制,借鉴了世界模型的范式。你们怎么看待世界模型?

周而进:高阶世界模型被我们视为提升模型泛化能力和处理复杂长程任务的核心技术支撑。

量子位:你们怎么定义世界模型?

周而进:我们对它的定义跟大家不太一样。

我们不认为世界模型是一个万能的、能直接输出高质量策略的现实仿真器。我们更倾向于它是一种模型内的世界理解方式,它的关键点是你有没有办法在不执行动作的前提下,推理出这个动作在当前环境下会带来什么结果。

这个东西才是核心。

如果你每做一个动作都要试一下、都要采一次反馈,那太慢了。

世界模型的意义是让你在心中模拟一次结果,然后挑最优的那条路径去做。

量子位:它不是让你直接输出结果,而是让你学会怎么模拟。

周而进:对。

我们现在也在尝试让世界模型具备空间和时间上的脑补能力。

就是说,当它看到前几帧时,它能不能想象出接下来几帧会发生什么。或者说,如果我现在想做一个动作,它能不能在执行之前,先预测这个动作在物理世界中可能发生的后果。

打开网易新闻 查看更多图片

我们也会跟DM0这样的具身模型做结合,让世界模型的输出能对动作规划起到支持作用,但不是说它能独立解决所有问题。

更像是一个帮助你决策的inner loop,而不是一个万能planner。

关于终极目标与节奏判断

量子位:除了落地家庭外,具身智能机器人还有更遥远的终极目标吗?

周而进:我觉得具身智能最终一定会走向拥有广泛社会身份的阶段。

但这个过程一定是分阶段的。需要成熟可靠的硬件形态,需要模型能用自然语言与人协作完成任务,也需要用户在心理上形成信任。

量子位:什么叫拥有广泛的社会身份?

周而进:我们内部讨论过一个很有趣的概念,叫“机器人拥有自己的支付宝”。

机器人去执行一个任务,比如去超市帮主人买一瓶水,或者在园区里调用了另一个自动化设备的服务时,它可以具备独立的支付和结算能力。

这种社会身份的建立,背后需要解决的是机器人的信用体系、支付体系以及责任追溯体系。

未来的具身机器人会像现在的智能手机一样,是一个社会化接口。拥有支付能力只是第一步,拥有广泛的社会身份才是它成为真正AGI的标志。

为什么是原力灵机来做这件事?

量子位:早前旷视内部有问“why me”的文化。现在自己出来再创业,你觉得为什么要来做具身这件事?

周而进:第一个我觉得是说,具身这件事,不是你简单的去踩点数据,或者把互联网上现在各种的数据整合一下就能够做出来的。

它涉及到软件和硬件,尤其是它涉及到海量的跟物理世界的交互。所以我们觉得首先你要有场景。

对我们来说的话,物流其实就是一个非常好的场景。

举个例子,比如说在物流里面,你说分拣物料它能干,但是你真把机器人搬进去,这后面有很多的事情——对接上层业务系统?加入具身机器人后,你改变了整个流水线的节奏节拍,对吧?你如果东西掉地上了,你有兜底方案吗?

所有的这些东西,都是这个具身到底能不能进到这个场景里,从而带来所谓的数据飞轮的前提。

那如果你搞不定这些东西,那你今天只能去工厂里面摆个拍个视频。

打开网易新闻 查看更多图片

量子位:那为什么是你们这群人来做这件事?

周而进:其实看一家公司能不能成,核心看这几个要素:模型能力、硬件能力、行业认知和工程落地。

我们团队的分工非常明确且闭环。

唐文斌是CEO,他不仅有极强的商业敏锐度,更重要的是他能把这帮人聚在一起。

我和汪天才负责基模训练,我们对大规模参数、多源数据混训有长期的实战经验。

范浩强负责前沿算法探索和软硬件协同,这是最难的部分。

我们这个组合不是临时凑的,是经过长期验证、有默契的组合。

One More Thing

周而进在AI领域真刀真枪做了13年了。

现在遇上新一轮风口,他和昔日同伴们一起再战具身智能。他说,大家老把AI时代划分成AI 1.0和AI 2.0时代,听起来给人一种割裂感。

但其实不是这样的。身处其中,你是能观察和感觉到技术的发展的。

因为AI 1.0时代崭露头角的时候太过年轻,是少年天才,以至于周而进和范浩强、汪天才等人,放在这一波AI创业队伍中来,还是非常年轻。

我们问他,你有什么建议给现在的年轻人吗?不管是搞信奥的还是搞AI的。

周而进皱眉头想了两秒,突然哈哈大笑:

  • 年轻人才不喜欢听建议呢!干就完了!

打开网易新闻 查看更多图片

DM0技术报告:

https://dexmal.com/DM0_Tech_Report.pdf