打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

如果说「移动物理AI」是卓驭今后前进的方向,那么「原生多模态基础模型」就是通往这个方向的路径。

作者丨王卓

编辑丨李雨晨

在今年的北京车展现场,在一众主打乘用车智能辅助驾驶展台之间,卓驭大胆地将一台体型庞大的商用重卡放在展台上。另一侧,还摆着无人物流车、robotaxi 等不同类型移动载具的智能辅助驾驶解决方案。

这在过往的车展并不常见。

过去几年,行业对智能辅助驾驶的讨论重心,更多聚焦在乘用车领域。无论是城市NOA,还是端到端、VLA,主流叙事的核心始终围绕乘用车展开。毕竟,乘用车拥有最大的市场规模、最活跃的用户,以及最容易形成品牌声量的消费场景。而无人物流车、无人配送等垂直赛道,虽然也已深耕多年,但各垂类之间相对割裂,尚未形成合力。

但卓驭这次明显想表达另一件事。

卓驭科技正在打破传统智能辅助驾驶公司的行业边界,将技术能力从乘用车领域延伸至更广阔的通用移动场景。

在卓驭科技CTO马陆看来,无论是商用重卡、商用客车、物流车、Robotaxi,还是未来的巡检机器人、割草机、扫地机,它们本质上都属于同一类问题:如何让机器理解环境,并完成自主移动。

打开网易新闻 查看更多图片

卓驭科技CTO马陆

这正是卓驭在此次北京车展反复强调移动物理AI的原因。相比行业仍聚焦于乘用车智能化,卓驭开始将移动能力本身,当做一种通用AI能力来理解。

于是,一个很有意思的事情出现了:当很多智能辅助驾驶公司仍在围绕乘用车向下卷价格时,卓驭已经开始将乘用车、商用重卡、物流车、商用客车甚至未来更多移动机器人,放进同一个技术框架里思考,拓展到更多垂类场景,从向下内卷进入到向上正循环。

卓驭真正想做的,是让一切能够移动的载体,都拥有从A点安全、高效地移动到B点的自主移动能力。

这正是卓驭提出“智能一切移动”背后真正的野心。

01

为什么卓驭必须成为一家“移动物理AI”公司?

卓驭科技CTO马陆在与雷峰网的专访中提到,目前在整个乘用车智能辅助驾驶行业中,高阶智能辅助驾驶方案的商业化盈利已成为行业难题。特别是,当十万级车型也开始要求标配城市NOA时,也意味着辅助驾驶行业议价能力在逐步降低。

即便暂时不谈商业回报,仅从技术角度看,无论是早期依赖大量手写规则的传统方案,还是如今主流的端到端方案,每新增一座城市、每跨入一个新垂直品类,几乎都要重新做一轮泛化与适配:重采数据、重调模型、重做验证,像打一层又一层“补丁”。这种高度依赖场景适配的开发模式,成本极高、效率极低,本质上很难支撑智能辅助驾驶真正走向大规模复制。

马陆举例称,全球有两百多个国家和地区,如果不使用通用模型,中国智能辅助驾驶技术出海会变得相当艰难,仅欧洲一个区域就需要投入至少三十人的团队历时近两年时间做泛化,成本高、效率低。正因如此,卓驭更希望能做到“同一个技术模型,全球开箱即用,能够少泛化乃至0泛化”。

此外,向大模型方向演进已是行业共识和必然趋势。而向大模型方向迈进,意味着算力门槛和训练成本的指数级飙升。马陆透露,即便训练一个中等规模的常见端到端模型,一年最起码的训练费就要十亿元左右。一旦走上大模型这条路,资金投入只会更为惊人。

打开网易新闻 查看更多图片

这笔巨额的研发投入,正迫使所有智能辅助驾驶玩家直面一个根本性的商业闭环问题:重金训练出的通用大模型能力,必须在集中火力打透一个领域,与铺开到多个领域摊薄成本间做出取舍。

如果只押注单一领域,能否攫取足够的商业回报来闭环高昂投入,至今仍充满巨大位置;而如果向多个领域铺开,前提则是真能做出足够强的通用大模型,并在每一个领域都实现高质量落地——这同样是一条少有人走通的路。

显然,卓驭选择了后者这条行业前沿的探索路径

因此,在乘用车辅助驾驶持续向下“卷价格”、行业长期受困于泛化能力不足与跨场景适配效率低等技术瓶颈,同时研发投入高、商业闭环压力日益加大的背景下,卓驭正在尝试寻找一条跳出当前竞争泥潭的新路径——过更通用的移动物理AI能力与原生多模态基础模型,打通不同垂类、不同场景之间的数据与模型复用,建立能够持续自我强化、向上演进的技术与商业正循环。

打开网易新闻 查看更多图片

目前在乘用车领域,卓驭已实现超过50款车型量产落地,累计定点车型突破100款。“油电同智、中外同频、舱驾同芯、行泊同优”这四个关键词,也逐渐成为卓驭区别于其他智能辅助驾驶公司的鲜明标签。

在马陆看来,物理AI本质上可以分成两种能力:对环境的理解和对物理世界的行动;而行动又可以拆成移动能力和操作抓取能力。

卓驭选择的方向,是最容易落地的“移动能力”,这也是“移动物理AI”名字的来源。换句话说,卓驭想做的,是让一切能够移动的机器,都具备自主移动能力。

因此,这次北京车展,卓驭展示的不只是乘用车方案,还有商用重卡、无人物流车、Robotaxi。

按照规划,其面向商用重卡打造的智能辅助驾驶方案将于今年6月起陆续量产;与宇通客车联合开发的客车NOA方案,将于今年9月实现量产交付;面向城配场景的全链路无人物流解决方案,也将在今年7月开启试运营;而Robotaxi方案则计划于今年下半年正式启动试运营。

深耕智能辅助驾驶十余年后,卓驭已经在激烈的行业竞争中逐渐建立起自身的不可替代性。卓驭科技CEO沈劭劼认为,这种不可替代性主要来自三个方面:长期专注所形成的技术积累、持续沉淀的数据丰富度,以及对跨垂类智能化趋势的前瞻判断。

进入更多垂直品类,不仅意味着更广阔的商业空间,也意味着能够持续获取更丰富、更高质量的数据,再进一步反哺模型训练与算力投入,最终形成“更多场景—更多数据—更强模型—更大商业化”的向上正循环,而不再陷入单一乘用车市场不断向下的价格内卷。

而一旦真正掌握这种跨场景、跨载具复用的移动物理AI能力,卓驭在行业中的定位,也将不再只是传统意义上的智能辅助驾驶供应商,而是具备底层技术平台属性的AI公司,并由此建立起难以替代的竞争壁垒与生存空间。

02

“原生多模态基础模型”,到底是什么?

如果说“移动物理AI”是卓驭今后前进的方向,那么“原生多模态基础模型”就是通往这个方向的路径。马陆指出,“原生”并不是一个用于包装概念的技术名词,而是对过去拼接式VLA模型的一次技术范式重构。

原生多模态基础模型的演进,是建立在卓驭前几代技术积累之上的。

过去几年,行业已经经历了两代技术路线。

第一代是规则算法,它的核心逻辑是:人为定义场景、制定规则,再让系统执行。这种方案的问题在于,一旦场景复杂度提升,规则会指数级膨胀。每新增一个城市、每增加一种道路形态、每切换一个垂类车型,都要重新适配。

马陆指出,本质上,规则算法方案不是“理解世界”,而是在“穷举世界”。

后来行业进入第二阶段:端到端。端到端最大的变化,是从“人写规则”变成“数据驱动模型”。它确实解决了很多问题。按照沈劭劼的说法,当前行业主流端到端模型,即便不做适配,也已经能达到“70分”;经过泛化和调优之后,可以达到“90分”。

但问题也随之出现。第一,模型越来越大;第二,训练成本越来越高;第三,泛化能力依然有限——即便是现阶段的端到端方案,每扩展一个城市、每跨一个垂类,依旧需要打一套补丁、做一轮适配。这意味着,整个行业仍然没有摆脱“项目制交付”的逻辑。

打开网易新闻 查看更多图片

而卓驭提出的原生多模态基础模型,属于端到端模型再向前一步的第三代技术范式,其目标是做到开箱即满分的水平。

现在行业里,很多公司也在谈多模态。但卓驭反复强调一个词:原生。这两个字,决定了它和过去“外挂式AI”的根本区别。

马陆告诉雷峰网,过去很多VLA或者VLM方案,本质上是“拼接”。比如先拿一个通用视觉语言模型,再外挂到智能辅助驾驶系统上。它确实能“看见”,比如它知道前方是丁字路口,也知道有“鬼探头”风险。但问题在于,它知道,不代表它真的能开。

因为其“看”和“开”是分离的。中间仍然需要大量人工规则、规划逻辑和工程翻译。所以会出现一个典型问题:“看到了,但做不到;做到了,也做不好。”

而卓驭所说的“原生多模态”,核心恰恰是取消中间翻译层。它不是先“理解”,再“转译”,最后“执行”。

而是让视觉、语言、动作、激光雷达、导航信息等所有数据,在预训练阶段就统一进入同一个模型,最终形成真正的“知行合一”。

也就是说,它看到,就代表它知道;它知道,就代表它能做到,这是原生多模态和外挂式AI最大的区别。

这会带来两个变化。

第一个变化,是响应速度大幅提升。原生多模态基础模型取消了很多中间处理环节后,系统响应速度已经从原来的百毫秒级,降低到十毫秒级。

别小看这0.1秒,在高速场景里,它意味着更早的风险感知、更自然的刹车、更丝滑的避让。很多时候,人还没意识到危险,系统已经提前做出了微调。而且这种动作不是“急刹”,而是类似老司机那种很轻微的提前修正。

第二个变化,则是泛化能力。

过去行业做智能辅助驾驶,很像“专项训练”——做乘用车是一套逻辑;做商用重卡,又是另一套逻辑;做物流车,还得重新适配。

但卓驭现在希望做的,是类似“大语言模型”的逻辑。不是给模型预设“你只能开乘用车”,而是把各种移动场景的数据统一混合训练。

包括:乘用车、商用重卡、物流车;室内、室外、园区、城市;视觉、语言、动作、导航、激光雷达。最终目标是让模型天然具备跨场景迁移能力。

打开网易新闻 查看更多图片

用马陆的话说:“最好希望它不需要再去做专门的泛化,最好是开箱即用。”

但卓驭也很清楚,物理AI和数字AI有本质区别。数字AI答错一道题,可以重来;物理AI一旦出错,后果是不可逆的。尤其是商用重卡、商用客车这种高载重场景,一次失误就可能造成巨大事故。

所以相比互联网行业强调“刷榜”、“参数量”,卓驭反复提到一个词:底线思维。

在他们看来,智能辅助驾驶最终比拼的,不只是模型能力,还有安全文化。因为物理世界不允许“试错式成长”。

这也是为什么卓驭一直强调,真正的挑战,不只是“能不能跑”,而是“能不能规模化跑”。

如果每扩展一个国家、一个城市、一个垂类,都需要几十人的团队重新适配半年甚至一年,那么整个行业最终仍然无法摆脱高成本交付模式。

所以,卓驭现在真正想解决的问题,其实只有一个:如何让模型强到不再依赖补丁。这也是他们提出“开箱即满分”的原因。

最终,真正成熟的智能辅助驾驶,不应该是一辆“会开车的机器”,而更像一个自然参与交通的人类司机。而这背后,需要的已经不再只是传统智能辅助驾驶能力。而是一个真正理解物理世界、具备通用迁移能力的原生多模态基础模型。

这也是沈劭劼为什么说,未来存活下来的智能辅助驾驶公司,都将是移动物理AI公司。

03

何为“智能一切移动”?

行业普遍讨论的是物理AI,只有卓驭将移动能力单独抽象出来,将自身定位为“移动物理AI”。

在卓驭的原生多模态基础模型里,移动不是乘用车的专有属性,而是一种可迁移能力。商用重卡、商用客车、物流车、Robotaxi,甚至未来的巡检设备、农业设备,本质上都在解决同一个问题:如何从A点安全、高效地到达B点。

当这一技术形成闭环时,车型这一概念将不再是不可逾越的技术边界,而更多是物理形态和应用场景的差异。

于是,一个更底层的竞争逻辑开始显现:如果所有移动问题可以被统一建模,那么数据可以共享,模型可以复用,能力可以迁移,成本结构也会随之重构。行业竞争的焦点,不再是单点能力,而是跨场景的统一表达能力。

这也是卓驭提出“智能一切移动”这一使命的真正含义。

打开网易新闻 查看更多图片

听起来像是一个愿景,但如果拆解到技术路径,其实卓驭是在做最重要的一件事:把移动物理AI的原生能力做到足够好。

行业的竞争方式正在发生变化,过去比的是谁在某个城市做得更好,谁在某个车型上体验更优;未来比的是谁能在更多移动形态中保持一致的智能能力,并且还能持续进化。

换句话说,坚守安全底线之上,卓驭不止致力于解决智能辅助驾驶的表层问题,更在探寻全域移动智能的本质内核。

而原生多模态基础模型,正是支撑这一体系的核心底座。

从这个角度看,移动物理AI不是一个新赛道,而是一种重新定义赛道的方式;而“智能一切移动”,也不是简单的口号,而是把智能辅助驾驶从交通工具层面,推向物理世界基础能力层的一次尝试。

当移动不再被当作产品功能,而被当作AI能力本身来理解,这个行业的分水岭才真正开始清晰。智能辅助驾驶行业的竞争,已经不再只是“谁更会开车”,而是谁能把AI能力,真正变成一种可复制的“移动能力”。