十年前,曹旭东在硅谷转悠时,看到一个路牌写着Fairchild,一时没有反应过来,然后“突然就像被闪电击中一般,感觉整个人燃烧起来了”——这条街叫仙童,而仙童半导体公司是硅谷诞生的标志,也是此后一系列伟大的起源。

这颗“火种”一直保留下来,在十年间支撑Momenta的“飞轮”快速转动。4月25日的北京车展上,Momenta宣布累计定点车型数超过200款,成功交付超过70款量产车型,量产落地覆盖十余个国家和地区。

打开网易新闻 查看更多图片

一个更为直观的体现是,登陆本届北京车展的汽车品牌,有60余款产品搭载了Momenta的方案,包括奔驰、宝马、奥迪新发布的车型。

从量产和定点数据,以及“朋友圈”规模来看,如今的Momenta已是国内智驾供应商市场不折不扣的领军者之一,与华为形成了短期内难以被打破的“两超多强”格局。在第三方城市NOA供应商市场的份额已连续三年超60%。

正值Momenta成立十年之际,曹旭东终于有底气喊出,“创造属于中国的东方硅谷传奇”。

有熟悉Momenta的人士告诉我们,Momenta能够迅速脱颖而出,来自于实力和机遇的多重因素:一方面它是国内最早L2+L4同时发展的公司,基础技术能力够硬,多年技术积累和技术验证让其量产业务能够实现高效且质量过硬的交付。

另一方面则是在开拓市场上“卡位”的时间够早。彼时在“灵魂论”理念的影响下,主机厂的选择并不多,Momenta很好地抓住了这个窗口期。曹旭东在发布会后的访谈发言也印证了这一点,即智驾市场有非常强的规模效应和先发优势,换句话说,Momenta的“滚雪球”优势同样是壁垒之一,而且还将越来越大。

从本次车展以及近期的动作来看,Momenta的气质正在发生变化,这或许源自商业化爆发带来的底气,Momenta开始将愿景提到了更加重要的位置,也将目光投向了更长远的地方。

例如“Better AI,Better Life”正在更醒目的位置被大规模提起,而车展上Momenta员工T恤的背后,都统一印上了“十年挽救百万生命”的英文。

如果说过去的Momenta是一个崇尚技术飞轮的理工男,那么如今的Momenta则多了一份人文气息——这正是众多巨头科技公司从强大走向伟大的一致性关键转折点。

支撑Momenta实现高速发展新野心的底层引擎,是“物理AI”层面的全面加速。

打开网易新闻 查看更多图片

这一方面来自行业竞争环境的变化:当下数字AI已经卷成深度红海,传统技术路线正在触及天花板,尤其在长尾场景的表现上始终难以有效突破;同时众多智驾供应商和车企均开始加速落地端到端和世界模型,同质化的价格战和体验战正在挤压增长空间。

另一方面,也是更重要的原因,是Momenta基于对未来趋势明确预判的主动战略“卡位”:曹旭东认为,自动驾驶是物理AI的序章‌,而世界模型+强化学习则是物理AI的两大核心支柱。

简单来说,这是智驾从“看见世界”到“理解世界”的一次跃升,让智驾像人一样去真实理解物理世界和规律,最终实现大幅超越人类司机的水平。

据Momenta合伙人、研发SVP夏炎介绍,Momenta的技术路线分为三层:一是世界模型预训练,通过海量真实驾驶数据,将物理规律、常识与因果关系压缩进模型,使系统形成对物理世界的基础认知;二是世界模型仿真,用于自动驾驶的闭环仿真,让系统能够推演自身行为变化时世界将如何演变,评估长尾场景;三是强化学习,基于前两层构建高度真实的虚拟训练场,让系统在接近真实的环境中反复探索与试错。

在能力的应用上,Momenta合伙人、研发SVP孙刚表示,让车辆在绝大多数日常场景中顺畅行驶只是基础,Momenta物理AI的真正价值,是在万中无一的极端罕见场景中依然能实现安全守护。

对此孙刚举了一个例子,如果在行车中遭遇前车掉落一箱苹果,传统技术的逻辑是识别障碍,紧急刹停,而Momenta的物理AI能力则能预判苹果滚落的轨迹与扩散范围,提前平稳减速、规划绕行路线,以更从容、更贴合人类驾驶逻辑的方式进行处理。

打开网易新闻 查看更多图片

事实上,Momenta的物理AI并不是技术理念,而是已经走向量产落地。Momenta R7作为物理AI能力的首发,已经搭载于上汽大众ID.ERA 9X,该车在车展正式上市,29.98万元的起售价已经实现了1小时锁单破万。

对于Momenta来说,BBA和大众等海外巨头的选择,代表着全球最严苛标准之下筛选出的“入场券”,这成为其物理AI进入国际高端供应链的一张“通行证”。

在现场,光子智行等与曹旭东进行了一场线下对话,以下为对话实录,部分内容经编辑梳理,核心观点与表达逻辑未作修改:

Q:当下全球汽车产业流行反向合资,越来越多的海外车企看重了中国的科技巨头,您怎么看待这种新的趋势?今年北京车展期间,有哪些海外的意向客户来咱们这边交流?

曹旭东:中国的技术现在正在从中国走向世界,整个发展速度还是非常快的,进入海外的市场,比如说进入欧洲的市场,进入其他的一些市场的时候,给当地用户带来更领先的产品价值,但是另外一方面也会带来一些冲击,比如说冲击当地的公司、当地的就业或者是当地的税收等等。比较好的一个解决方案就是借鉴中国之前的模式,就是跟中国学习,来做反向合资,反向合资完之后,既让当地享受到了中国高科技的技术和产品很好的用户体验,另外一方面就相当于是中国的技术赋能当地企业,对当地企业带来更多的发展,带来更好的工作机会、更多的就业、更好的税收,是一个共赢的模式。

Q:今年车展上有哪些海外的客户交流?Momenta在和外资车企合作的过程中,有过哪些挑战?今年的出海目标是什么?

曹旭东:不光是今年,去年的时候我们就已经是全球品牌的共同选择了,在全球最顶尖的品牌里面,像德系的BBA、大众,日系的丰田、本田、日产,美系的通用、福特,都已经是我们量产的合作客户了。

挑战的话,最常见的挑战,是中国的速度和国际OEM的标准,有时候是矛盾和冲突的,但是这个矛盾和冲突主要围绕着客户和用户,以客户和用户的价值为中心去共创,很多时候都能找到更好的创新性的方法,带来更好的结果。

Q:数据驱动是Momenta一直在强调的,数据飞轮在实际量产的过程中,您觉得最大的瓶颈是数据量还是算法?还是车企的配合度?包括市面上也有一些说法,获得大量的数据没有那么难,但难的是利用好数据,真正能用好这些数据的车企不多,你怎么看待这个观点?以及Momenta是怎么做的?

曹旭东:数据这件事情,它不是单单的数据本身,你可以认为数据它就是矿石,而且是含矿量很低的铁矿石,所以你要把数据真的用起来的话,首先你要把这个贫矿变成富矿。

我举一个例子,我刚才分享到的,在高速上三只小狗排队横穿高速,这样的场景真的是万中无一、万里挑一,你怎么把这个数据给挑出来?它的难度本身就是一个大海捞针的难度,这已经有很高的门槛了,你怎么把贫矿变成富矿,再从富矿变成钢铁,钢铁又变成发动机,发动机最终又装到车上,这才是最终的价值,所以整个的数据飞轮的体系,它是一个体系能力,拥有原始数据,拥有海量的原始数据仅仅是一个价值源头的10%,剩下的90%是来自于这个体系的价值,这是第一个问题。

Q:现在有一种说法,数据不难,但是用好数据比较难,所以Momenta怎么去用好这些数据?

曹旭东:大模型可能细节不能说太多,但是我可以分享一下我们可能会分为预训练的阶段和Post-Training的阶段,预训练的阶段,海量的来自于我们的量产车,我们现在已经80万台车了。海量量产的数据,而且量产的数据包括了大量的长尾数据,通过World Model Pre-Training来预训练这个模型。

预训练完这个模型之后有物理常识,但是有物理常识不代表它是一个好司机,因为大量的数据里面有好的驾驶行为,但是更多的是不好的驾驶行为,所以就有一点像数字AI里面大模型的训练一样,你通过海量的数据作为输入,它具备了这个世界的常识,但是不代表着它有好的行为,所以你还是需要Post-Training,通过Post-Training,把它的行为激发或者对齐到人类好的行为上去,大概会分为这两个环节。

Q:今年北京车展上很多的车企都在强调自己的辅助驾驶技术路线的不同,比如说小鹏升级版的VA,还有华为乾崑的ADS 5.0与他们相比,Momenta的世界模型最大的特点是什么?

曹旭东:刚才在交流的过程中,我觉得夏炎讲得特别好,更重要的不是单点算法,是架构能力,架构能力已经比单点算法能力更强了,因为一旦涉及到架构一定涉及到取舍,不是所有的创新都能放到同一个架构里面,涉及到架构的话就涉及到取舍,好的架构能够实现更好的积累和更好的合力,架构之上又包含了体系,这个体系包含了数据迭代的体系,包括了训练的体系,也包括了整个迭代的体系和验证的体系,体系之上更多的是组织和文化,就有一点像中国有一句古话,淮南为橘、淮北为枳。

我觉得根本上的企业之间的差距来自于组织和文化和对应的体系的建设,这是有更大的差距的。而具体的单点的算法的话,这个创新当然很重要了,每一代的算法架构的创新,实际上会带来大的进步,但是坦率来说,在中国的环境下,知识的流动和人才流动的速度其实是比较快的,仅仅是单点算法的话,并不存在特别大的壁垒或者差异性,有壁垒的是体系和组织的能力,所以你会发现,可能大家说的都是同样的单点算法的方向,但是最终做出来的效果可能有一代或者两代的差距,背后不是单点算法的差距,背后是体系和组织的差距。

Q:今年刚好是Momenta成立10周年,创业之初也曾立下3个愿景,刚才在发布会上看到用户的故事让人印象深刻,在此时此刻,在北京车展上,一路走来您有什么感悟想要和大家分享吗?

曹旭东:我觉得还是蛮幸运,一路走来,最重要的还是跟志同道合的人去干真正喜欢的事情,真的会让你的人生生机勃勃,创业过程中有很多的困难和挑战,这些困难和挑战,每一年都会觉得,这一年可能是最难的,过了这一年明年可能会更好,但实际上不是。所以的话就是,如果你不享受发现问题、解决问题的过程,你不享受和你身边志同道合的人共同去探索、共同去面临困难和解决困难的过程,其实创业遇到的这些困难是很难坚持下去的。可能咬着牙坚持一年,咬着牙坚持两年,咬着牙坚持三年,很难坚持十年,所以你一定要找到志同道合的人去干喜欢的事情,去让自己的人生生机勃勃。

Q:物理AI被英伟达的黄教主带火之后,很多公司都说是物理AI的公司,你觉得Momenta在全球范围内,物理AI方面,你们是一个什么样的位置?

曹旭东:首先我觉得物理AI是大势所趋,为什么呢?首先大家都知道数字AI有很大的优势,第一个就是数字AI的数据能够快速的呈规模的获得。

大家都知道Open AI很早的时候,有机器人、有数字AI,但是后来在聚焦的过程中,阶段性的放弃了机器人,选择了去做GPT,很重要的原因是机器的数据太难获得了。

而GPT需要的是互联网的数据,而互联网的数据本来就已经是非常大规模了。数字AI在过去几年实际上是突飞猛进,当然另一方面数字AI能够更加低成本、短周期的检验,因为它能够在数字世界上去互动,它的成本是更低的,周期是更短的,就比如说现在Agent要调用的话,只需要给一个接口。但是机器人要调用某一个工具的话,它要把机械手造出来,并且要抓取那个工具,并且来使用那个工具,那个难度和复杂度都会大非常多。

但是,我们所在的世界,既有数字的部分,又有物理的部分,而物理的部分可能是更大的一部分,所以当数字世界整个的发展取得了非常大的进展之后,自然而然的很多的成功的经验和方法就要进入物理世界,并且在物理世界中做创新,这也是为什么我觉得现在是物理AI的序章刚开始。

再回到我们公司,讲到物理AI,其实物理AI我觉得最核心的,一个是数据闭环,一个是商业闭环,而且这两者是互动的。我有一个经验,这个经验就是,任何一个人工智能的应用,一旦接近人类的水平,就会在很短的时间大幅超过人类的水平,这背后的逻辑是什么呢?仅仅是我的一个观察,就比如说你看Alpha Go也好,或者过去的人脸识别也好,前面经过了一个非常漫长的爬坡期去接近人,接近人可能花了十年、二十年很长的时间,但是超越人,或者大幅地超越人,有可能就发生在1、2年,2、3年的时间,一开始有这个观察之后,我就在想背后的原因到底是什么?

后来就觉得最关键的还是数据闭环和商业闭环,而且这两者之间是正反馈的,因为先有了数据闭环,然后才有足够好的体验,这个足够好的体验一旦达到了接近人类的水平或者超过人类的水平的时候,就能够实现爆发式的商业化。而这个爆发式的商业化之后,又会带来数据爆发式的增长,而数据爆发式的增长又会带来模型能力进一步的爆发式增长,最终能够互相促进、互相激发,形成强烈的正反馈,而强烈的正反馈使得在很短的时间内就能够实现十倍、百倍甚至千倍人类的经历。

我们的判断就是自动驾驶进入到了这个阶段,机器人还需要一段时间,这是第一点。所以自动驾驶是物理AI的序章,因为它最先实现了规模的数据闭环和规模的商业闭环。

第二点就是,你看自动驾驶要实现规模化的L4,我的判断累计的投入至少是百亿美金,而且有可能还是创业公司的研发效率,如果你是大公司的话不只是百亿美金,可能需要几百亿美金。

但是机器人呢?通用的机器人它需要多少钱?我的判断可能是几百亿美金到千亿美金这个级别,有可能还是创业公司的研发效率。所以我的判断就是,物理AI它是需要有门票的,而这个门票就是你需要有现金流的业务,虽然现在整个中国具身智能的资本市场是非常活跃的,但是长期来看,要靠投资,要靠融资,追踪做成通用的物理AI,或者物理世界的AGI是不现实的,而是一定要有现金流业务,而这个现金流业务可以是自动驾驶,也可以是物理AI某一个方向,虽然我现在没有想到,其他的某一个方向能够更早地实现规模化的数据闭环和商业闭环,或者其他来自于数字AI的现金流业务。无论如何一定要有一个现金流业务来支持物理AI的研发。

Q:Momenta今年L4业务的进度如何?有没有什么规划?或者重要的关键节点?以及现在Robotaxi这个赛道的玩家越来越多,想要请您分享一下,Momenta做Robotaxi的优势。

曹旭东:我们公司的L4并不是只做Robotaxi,我们既会做Robotaxi,也会做Robovan,就是物流。因为我们十年的愿景里面,十年物流和出行的效率翻倍,实际上物流是放在更前面的,出行放到后面,明年我们也会做Robotruck,虽然我们今年不会做,但是我们明年会做。

背后的底层逻辑是什么呢?还是回到今天提到的Jeff Hawkins那一本书里面,它讲到了一个核心概念就是一个神经网、一个大模型能够实现通用AI的能力,具体落地到自动驾驶这个领域的话,我们相信的是什么呢?我们相信的是一个自动驾驶的大模型能够实现所有的自动驾驶的垂直应用,并且做得更好。

而且这件事情我们已经在Robotaxi、Robovan和乘用车上成功的验证了,并且取得了很好的效果。这个带来的价值是什么呢?带来的价值就是你在每一个vertical的研发成本会大幅度的降低。而每个应用场景,每个垂直应用场景的经验和数据,又可以汇总和吸收到这个大模型里面,使得每个垂直领域做得更好,这实际上就是一个平台优势。

这个就有一点像十年前或者十几年前整个的互联网行业,有垂直电商,也有平台电商,但是最终胜出的都是平台电商,垂直电商可能现在都不存在了,很重要的原因就是这个平台效应带来的。我们的判断在自动驾驶在大模型领域也存在着很强的这样的平台效益,一个大模型能够实现所有的垂直领域,并且能够做得更好,这样每个垂直领域的成本更低,效果会更好。

Q:智驾格局您怎么看?今年还会一直保持华为、Momenta和其他,还是有其他更强势的智驾供应商赶上来?还有就是您怎么看待2030年会不会迎来智驾的终局?

曹旭东:整个智驾或者整个自动驾驶它有非常强的规模效应和先发优势,它的效应会比芯片行业更强,所以你回顾历史可以看到,这个芯片行业,不管是PC时代的芯片,实际上全球就只有两家,手机芯片的时代全球也就只有两家,高通和MTK。

自动驾驶,因为它是软件,它的边际成本是零,所以它的规模效应更强,它的规模效应除了成本上的规模效应,还有体验上提升的规模效应。

另一方面,面向主机厂有特别强的先发优势,因为主机厂很多业务都是敲门敲三年,从你见到客户到拿下合同是3年,如果是国际OEM的话,可能要敲门敲5-7年。

我拿奔驰举例子,就比如说我们和奔驰的合作,2017年奔驰就投资了我们,而且当时特别巧,运气也特别好,Ola Källenius(康林松),现在奔驰的董事长,他觉得这个公司特别有活力,选择投资我们,但是我们跟奔驰的第一个量产项目上市是2025年的后半年,经历了整整8年的时间,其实已经加速了。

我当时问了一个清华的师兄,那个清华的师兄告诉我说,你们跟奔驰合作量产至少需要十年。我们中间2017年到2020年是POC,2020年到2022年是Pre SOP,2022年到2024年是小批量的量产开发,到了2024年才拿到了奔驰所有的电车和油车的业务,2025年底的时候才真正的量产。

所以举一个例子可以感受到,汽车行业敲门敲3年,国内的OEM敲门敲3年,海外的OEM敲门敲5-7年,到底是一个什么样的原因?因为这个行业有非常强的规模效应和非常强的先发优势,所以我还是维持我原来的判断,中国也就2-3家,全球也就3-4家,会非常快速地收敛。