昨日(9月29日),元戎启行CEO周光在2024全球智能汽车产业大会(GIV)上表示,该公司已与多家主机厂合作,共同推进十余款智能驾驶汽车的量产。
“目前,我们与多家主机厂的多款车型都开始了合作,已有超过万辆车下线。”同时他预计,五年后这一数量将达百万级。
而同时,元戎启行(以下简称「元戎」)也在积极探索Robotaxi的规模化运营。
周光表示,搭载元戎方案的其中一款量产车型,在近期登上了周销榜首。该车型销量最好的区域主要在二三线城市,而越是像这种复杂、少图的场景,越能体现出元戎方案的优势。
“各家企业的端到端方案都有所不同,其中有两段式也有一段式,但端到端只是进入智驾下个阶段的入场券。”
据他介绍,目前元戎启行正基于Thor芯片研发VLAM(Vision-Language-Action Model,视觉-语言-动作模型),该系统将于明年推出。
通过VLAM,元戎启行的智能驾驶系统可以连接视觉、语言、动作,能识别和描述道路环境、交通标志、道路参与者等,理解交通场景中复杂的交互事件、隐藏的语义信息和逻辑推理。
也就是说,即便碰到罕见路标跟边缘场景,系统也能有高效的场景泛化能力和稳定的驾驶表现。
在今年3月,元戎发布了端到端无图方案,4月份推出了高阶智驾平台DeepRoute IO,仅需一颗Orin X就可做到「全国都可开」。
“现在,不管是几线城市,还是国道乡道,都能激活我们的智能驾驶系统。”
周光指出,早在2017年,元戎就提出了感知的前融合,感知能力一直是其强项之一。如今,经过端到端的数据训练,使得系统可以处理大量非规则、非结构化的场景,例如弱车道线、施工场地、异形障碍物等物体场景的识别,都是通过端到端系统的训练达成。
不过周光也透露称,上半年,在做端到端的泛化过程中,其实也遇到了很多问题。
“目前的一段式端到端,在处理原始数据的过程中,还是存在结构化的抽象。这是一个BEV架构带来的问题,因为将3D事件投映到2D平面上,会产生大量的信息损失。”
他表示,元戎基于英伟达的Thor开发了Vision Transformer架构下的VLAM,上限会更高,也会更加拟人。
同时他也指出,针对新的架构,元戎的数据采集形式也有所变化——从单纯做感知标注,一直延伸到行为级层面的标注,这意味着整个技术栈的巨大变化。
“这可以让系统由传统的Debug形式,变成了嵌入Thor的技术栈,这是非常大的提升。我们搭载Thor平台的软件会在明年上车,会实现质的飞跃。”
周光透露,明年,这套VLA模型的端到端方案就会上市,同时预计元戎的欧洲运营中心也会开启,届时也希望帮助车企进行海外布局。
“我们期待5年以后,能够有百万台的AI汽车搭载元戎系统。我认为这是真正的基点,也是下一个端到端阶段的入场券。”