文|Karakush
如果你对智驾保持敏锐跟踪,会发现今年在华小理等“老头部人”之外,智己也高频出现在横评第一梯队之列。
智己智驾的含金量在飙升。
10月28日,智己在“智驾技术日”正式推出基于“一段式端到端大模型”的IM AD 3.0,这个最新版本具备生成“本能反应主导的直觉决策能力”。
端到端大模型被认为是智驾赛道的新机会。尤其是在特斯拉推送FSD V12版本之后,国内很多车企都更加确信这条路线,组建相关团队攻坚,各家都有趋同的大方向,也有各自不同的解释方法和工程方法。
“直觉”是智己定义的目标,第一次被引入智驾语言体系,区别之前“最像人”的理想状态,智己把智驾天花板带到“有直觉”的一代。从其中的技术底座,到规模量产进度,再到其中体现的系统性优势来看,智己都已经来到技术爆发点。
区别其他头部企业,智己有一些特殊性。作为上汽的高端品牌,他们是高阶智驾技术队伍中极其少见的国家队,大部分玩家是新势力,或者华为这样的跨界巨头,这些企业更能容忍和承受技术前沿摸索中注定伴随的创新风险,而相对风险厌恶的国家队通常是在技术成熟之后下场。
同时,智己也不像其他公司那样建立完全in-house的自研团队,而是选择与Momenta合作。供应商模式经常被吐槽协同和迭代效率问题,但是智己却拿出惊人的速度,从2021年正式达成战略合作,到2023年完成“两段式端到端”的量产,只用两年;到今年则是实现难度更大的一段式端到端。
我觉得智己非常精准地反映了近几年智驾领域的一个规律:在新的技术周期,我们不能以传统的投入和地位看待优劣,谁都有颠覆与被颠覆的可能;当然,也不存在毫无来由的狂飙突进,一切爆发都是有备而发。
IM AD的含金量:智驾进入直觉时代
目前业内第一梯队都在紧跟“一段式端到端大模型”,但是设计架构和体系能力各有不同,最终决定各家“端味”的差异。拿智己IM AD来讲,技术很强,同时特别强调直觉的体验和规模化的可行性。
首先,IM AD是比较完整体的一段式,取消了分模块的结构,用一个神经网络处理来自各类传感器的原始数据,直接生成路径规划。强调“一段式”,是因为业界有些端到端是通过分段式,由几个小模型通过一些规则耦合实现,其实差距很大。
端到端的最大优势,是能解决长尾问题。我们拿水坑举例,传统规则方法需要人为定义“水坑”,用大量数据训练感知模型识别水坑,再训练规划模型绕开水坑;而端到端无需定义,直接学习规避水坑。所以面对未定义障碍物、隐藏的极端场景,端到端的适应能力和泛化能力更强,可以完成从不能开到能开的飞跃。
至于分段式,实际上没有摆脱小模型之间人为定义算法规则,对于超纲场景还是不行或者需要堆人力写补丁去解决问题。
IM AD的一段式,完全打通感知和规控,可以做到无损传递,并且能从输出的规划端反向传递给神经网络更新参数,获得全局优化,在智能性、舒适性、安全性上都能达到了更高的天花板水平。
缺点就是研发难度大,包括怎么Debug、怎么提升黑盒过程的可解释性、怎么高效迭代解决方法,需要很强的系统研发力量支撑。同行的进度就是最好的衬托,足以看出智己和Momenta的实力。
第二,IM AD追求的“直觉”,高度拟人。他们把直觉定义为“车随心动”,人直觉怎么开,车就是这么开的——并且是好司机的直觉,IM AD会从数据中筛选好的驾驶行为指标,比如横向避让多少、加速多少等参数,用好的行为数据指导智驾学习。
智己相信,智驾的终局一定是像人一样开车。这也是他们坚定一段式端到端的原因,人开车的时候不会先认识这是什么、再做规划,而是基于经验和习惯形成直觉式的反馈;在这个理念下,IM AD把仿真人脑更进一步,做出“快系统”和“慢系统”的设计。
快系统负责直觉推理,处理简单任务,应对90%的场景,类似人类基于经验和习惯形成直觉行事;慢系统负责逻辑分析,是一个安全驾驶模型,应对剩下10%的场景,提供安全性更高的保护与应急策略。
快慢系统配合,可以确保大部分场景下的高效率和少数场景下的高上限,这是IM AD在端到端大趋势之外的差异化设计,是智己对于智驾的理解。
第三,IM AD不是炫技术的trophy tech,而是十分讲求可规模化的,其中的一项重要指标就是训练成本。
如果细看结构,IM AD的端到端存在两个支线,也是模仿人脑设计的长期记忆和短期记忆机制,长期记忆就是端到端大模型,短期记忆则是由DDOD+DDLD(基于数据驱动的感知模型)加上DLP(基于深度学习的规划模型)组成,主要用来验证解决方法和训练数据是不是好方法、好数据,快速高效试错。被短期记忆验证的方法和数据,经过积累再应用到端到端大模型上,保证长期记忆的训练高效。
增加短期记忆设计,是为了降低试错成本,短期记忆的训练成本较低,训练周期较短。相比之下,大模型训练的试错成本非常高,如果方法或者数据错误,损失惨重。对比直接采用端到端大模型训练,IM AD长短期记忆架构的训练成本应该能低10到100倍。
从技术、到理念、到可行性,IM AD 3.0都做出了结构性和系统性优势,落到实际体验,就会发现这个版本也可以做到全国都能开、全国都好开的水平,智己在本月已经在全国范围内开通全系车型“无图城市NOA”,在典型复杂场景比如慢车/占道车绕行、横穿预判、路口多人博弈等都能做到很好的通行效率,同时兼顾安全冗余。
长期主义兑现:同时具备
L2、L3、L4量产能力的第一品牌
今天来看,IM AD得以在一两年内从默默无籍到飞速成长,一个重要原因是早期蓄势过程中少走很多弯路,他们很早就确定数据驱动路线。
智己选择和Momenta合作是在2021年。当时业内就曾有过流派之争,一种是规则算法(Rule-Based),另一种是智己选择Momenta选择的数据驱动(Data-Driven)。
放在早期行业聚焦高速NOA的背景里,规则算法有其优势,它可以更快针对场景做出卖点给到用户;而数据驱动相对训练量更大,起步更难,尽管有些场景会有惊艳表现,但是很多场景会有很多匪夷所思的问题,需要不停学习优化。所以前几年很多智驾产品都选择规则算法。
但是智己和Momenta一直相信智驾很快会实现城区NOA,会从L2++实现到L3、L4。一旦场景从规则化道路切到城区,复杂程度指数级增加,数据驱动就会是更优解。这和他们到今年坚定一段式端到端,是一样的终局思维,以终为始去做难而正确的事。
在把握大趋势之后,真正决定智驾产品水平的指标,一是数据飞轮体系能力,二是系统迭代效率。
为此,智己搭建了全级别的智驾平台,共平台开发L2、L3、L4,共享数据池和一段式端到端大模型。比如L2++采用12个摄像头,加上三个毫米波雷达、一个激光雷达和冗余摄像头,就能做L3;增加三个激光雷达、执行器和控制器等冗余增量,就能做L4,当然算法和安全要求会有不同。
这样做的好处,不仅是可以提供不同维度层级的服务,也能以更好的成本、更好的效率提升IM AD的系统迭代。比方说,通过大量L2工程实践、数据获取和训练,支撑L3、L4研发;L3、L4的核心是去提升智驾系统的可用性、和对复杂场景的应对,这些高级别成果能赋能到L2场景,提升L2的性能。通过这种方式,智己成为全国唯一同时具备L2、L3和L4研发和量产能力的品牌,IM AD也得以疯狂成长。
去年IM AD仅用8个月开通全国高速高架NOA,到2024年初在上海首发城市NOA,到9月底全新LS6上市开通全国无图城市NOA,过程中还经历从原来的高精地图方案切换成轻地图方案的技术变更,挑战很大。
这样的进步,一方面是源自开发逻辑和架构设计,另一方面也是源自团队战斗性。智己和Momenta虽然是两个公司,但是合作效率惊人。IM AD系统内部提出“智驾摩尔定律”的概念,就是硬件每两年成本降一半,软件每两年水平至少提升10倍。这是经验公式,他们认为能超越定律的公司才能存活。
而作为目标他们追求更高,比如要求数据闭环效率从以月为单位加速到以天为单位。同时在开发过程中,比如OTA升级上什么功能,系统版本涉及到的变更,都由两个团队共同讨论评估。放在任何一家公司的内部团队,都是业内凤毛麟角。
用技术引领,定义智驾第一梯队
今天行业里针对第一梯队会提出很多技术、场景、人才、资源投入的标准。归根到底,那些得以进入第一梯队的公司,区别其他公司的标志,是对于智驾的认知和决心,是不是跟风、是不是投机、是不是炫技,还是真实相信它是下半场的决胜要素,在技术周期尚不明朗的时候勇敢抓住趋势,快速试错、快速成长、快速发展优势。
智己在成立之初就有清晰的思考,把智驾当做核心DNA。这不是靠说的。你可以在产品上看到这种核心的位置。
比如智己主打灵蜥数字底盘,和智驾互为赋能,它的“云台车身”依托智驾系统的精准感知,识别大曲率弯道,对底盘进行智能调整;反过来,城市NOA遇到调头会用到智慧四轮转向,更小半径的调头,不用在双向两车道的道路上频繁打方向,提升智驾体验降低复杂度。
你也可以在营销策略上看到智驾的逻辑。比如在最近推出的新车型智己L6(参数丨图片)、全新LS6上,都是全系标配激光雷达、Orin X芯片,同时软件终身免费。智己的想法是,基于数据驱动,就是要让所有用户都能用到高阶智驾,如果采用收费制度,使用高溢价模式,就会提升使用门槛,不利于快速迭代。就像拍照之于智能手机,必须标配。
而这种放眼未来的眼界,正在逐渐等来加速而来的时代,根据智己的数据,上周用户在日常出行当中使用IM AD的比例是81.4%,使用IM AD均值95.65公里,NOA均值102.5公里,ACC最少2.5公里,Pilot均值23.3公里,IM AD使用黏性非常强。
智驾不再是个别企业的自嗨,随着技术和体验成熟,逐渐渗透购车决策,权重会变得越来越高。智能电动车下半场真正泄洪,那些长期主义的投入,回报不会太长。