去年,Scaling law和端到端自动驾驶,都遇到了瓶颈。

随着互联网的数据价值被榨干,自动驾驶模型千万级clips的「数据黑洞」难以被填补。

此时,DeepSeek出现了。它采用的强化学习,带来了长思维链的涌现,大幅降低数据需求。随之,商汤绝影也推出了R-UniAD,同样应用了强化学习,以此突破数据瓶颈,并有望优于人类驾驶水平。

昨日(2月25日),商汤绝影CEO、商汤科技联合创始人、首席科学家——王晓刚,对RoboX进一步解释了R-UniAD诞生的背景和思路,以及该公司下一步的规划。

打开网易新闻 查看更多图片

什么是R-UniAD?

“从中国的实际情况来看,我们很难像特斯拉那样,拥有700万台量产车的数据回流,而且高质量数据占比极少...目前端到端只是模仿学习,难以突破人类上限。”

王晓刚介绍称,DeepSeek通过强化学习的框架,可以生成多条的思维链,让模型产生更多的解法,突破了人类知识库的限制,也产生了更多的数据,以此大幅降低数据门槛。

在这一启发下,商汤绝影在UniAD的基础上,推出了强化学习的新范式——Reinforced-UniAD(R- UniAD)。

其具体训练方法如下:

1、基于冷启动数据,让端到端自动驾驶大模型达到基础水平,通过模仿学习进行云端训练;

2、再基于强化学习,让该模型与世界模型协同交互,持续提升其性能;

3、从云端大模型通过高效蒸馏的方式,实现端到端小模型的车端部署。

打开网易新闻 查看更多图片

王晓刚表示,在初始阶段,通过千台规模量产车形成的数据,即可让端到端模型达到较好的水准,之后就不再需要这些「冷启动数据」了。

“端到端的模型可以预测很多种轨迹,世界模型也可以模拟仿真出各种周边环境的这样的变化。同时,仿真器可通过Reward的方式,为这些轨迹和环境变化打分,找到最佳的驾驶行为。”

DeepSeek带来的「利好」

在王晓刚看来,DeepSeek的长思维链、慢推理方式,能够产生更高层次的认知,达到情感上的支持。这对于绝影的「New Member」产品来说,是很大的利好。

王晓刚认为,商汤绝影去年推出的「A New Member For U」产品,同样是端云协同的方案。从前,此类方案落地时,对端侧芯片有一定要求。而DeepSeek的MoE(混合专家模型)的架构,使其能部署在低成本芯片上,该方式也有利于「A New Member For U」的推广。

“以蒸馏手段,可以通过强大的云端模型,产生高性能的端侧模型,这是给端侧模型的一个机会。同时,MoE只需要激活部分参数,使用部分算力,肯定要比传统模型更加节省算力。”

不过他也表示,目前各车企接入的DeepSeek应用,还是比较简单的。而且,DeepSeek能支撑的访问量是有限的,延时也较长,现在还不能算是好的体验。

“如果只是进行DeepSeek原始模型的接入,这在汽车产品上的体验还是有差距的。这对于商汤绝影来说,也是一个利好。”

王晓刚用「做几何题」来描述自动驾驶仿真:在解题过程中,每解一步都需要加一些辅助线,几何图像本身也在演变,这就类似于自动驾驶的世界模型仿真——不但要预测物体轨迹,还要让环境里的视频图像得到演进,能够预见出来,这是DeepSeek所欠缺的。

“DeepSeek一直致力于语言模型,对于图像、视频的精准生成还是比较欠缺的,但这正是我们的强项。”

视频生成的严格标准

“「开悟」世界模型的视频生成,其实和Sora等标准还是有区别的。我们需要更加精准的可控性,要符合物理规律,还有交通法则。我们生成的视频输入,实际上是物体的运动轨迹和3D的框,由这些输入精准地控制视频的生成。”

为了准确模拟各种极端场景,「开悟」必须做到结合11个摄像头输入的时空一致性。同时,绝影本身也储备了大量真值数据测试集,可以通过视频反向提取其中的物体位置,进行轨迹验证,保障视频的真实和有效性。

打开网易新闻 查看更多图片

“其实从去年开始,就已经有20%的生成视频,应用在了模型训练中。希望将来这一数字能超过50%,乃至80%。”

通俗一点来比喻的话,「强化学习」就是针对一个复杂场景,通过模拟仿真反复测试,并给出多条不同的驾驶行为和路径。

接下来,就像DeepSeek一样,可以针对一个问题找到10条乃至100条的思维链,去解决问题。

“我们之前所说的高质量数据,指的是人类的高质量驾驶行为。而如今高质量数据的生成,不一定再需要人类的驾驶行为,而是将图片或者视频片段作为一个场景起点,接下来由世界模型通过强化学习去生成即可。”王晓刚说道。

R-UniAD的3大挑战

为实现云端大模型和世界模型的在线交互,绝影克服了3个关键难题:

1、模拟仿真能力:必须精准、可控。

2、预测能力:对于周围环境视频的生成,除了准确,还要有多样性。“如果生成的东西都是单一的,就没法模拟出不同的场景和驾驶行为。”

3、Reward:也就是评价出哪些视频和轨迹的序列,它是一个好的驾驶行为,那么有的产生了碰撞,那么有的给人家不舒适的这样的一些这样的一些感觉。

打开网易新闻 查看更多图片

R- UniAD的重要一环,在于世界模型的环境生成,以及对其的精准控制,达成这一能力,才能体现强化学习的效果。

王晓刚指出,未来的发展,一定是基础设施和云端研发占的比重越来越高,而端侧则变得更加简单:各种数据蒸馏、工程优化,能够使得越来越多的功能被部署在更加便宜的低算力芯片上,但这一前提都依赖于强悍的云端模型。

被高估的激光雷达鲁棒性

近期,「纯视觉」风头渐弱,多家车企都表示,会在高阶智驾上继续使用激光雷达。

但王晓刚认为,激光雷达有着自己的天花板,其本身具有的信息量是偏少的,达不到非常鲁棒的状态。只不过,当下由于没有海量数据支撑,智驾的视觉能力偏弱,因此还需要用激光雷达作为辅助。

从成本层面考虑,「全民智驾」的趋势下,智驾需要下探到10万元级别以下,硬件成本也需要进一步降低。

“视觉能力的上限更高。在硬件固定的前提下,通过大数据去更新的模型,会不断提升软件的性能。”他说道。

先布局中低算力平台

从去年开始,商汤已开始在智驾市场中布局:“从市场份额上考虑,要先下探到价格较低的中低算力车型,所以我们去年主要布局了地平线J6E、J6M等平台的方案,也与广汽、奇瑞还有东风形成了战略合作。”

王晓刚透露称,到今年3月,商汤绝影和车企合作开发的基于J6M的自动驾驶产品,就能实现量产,4月还会在上海车展发布。

打开网易新闻 查看更多图片

除了智驾产品本身,绝影还在大模型、数据基础设施等方面,协同车企进行规划和布局,包括建设数据的生产管线,共建研发体系等等。

需要注意的是,即便有了强化学习的世界模型,要想覆盖更多的复杂场景,真值数据还是非常重要的,而这些数据还是在车企,这也是绝影与车企形成深度合作的意义之一。

特斯拉FSD的挑战

访问当天,正值特斯拉FSD突然在华推送,王晓刚对此也发表了自己的看法。

他认为,特斯拉FSD在中国的应用,还是会受到数据的限制。首先,中国的交通场景与美国存在很大差异;其次,特斯拉在在中国采集的数据也会受到管控,无法跨境。

“如果是做端到端的话,FSD会面临这些自动驾驶场景数据方面的问题。它也不太可能用它在美国所拥有的数据在本地训练,因为数据不能够跨境,也没有强大的基础设施。所以绝影R-UniAD的新型技术路线,即便对于特斯拉的FSD,也有着现实意义。”

同时他表示,特斯拉FSD目前还是模仿学习的范式,而R-UniAD技术路线训练出来的端到端智驾模型,很有希望超越人类驾驶表现,实现弯道超车。