2024年12月20日,由科技出行产业智库与创新服务平台亿欧汽车主办的GTM2024第七届科技出行大会暨科技出行产业创新榜发布会在上海漕河泾万丽酒店成功举办。
本次活动主题为“开启AIEV元年”由亿欧汽车倾力打造,意在产业创新的坐标系中,积极推动以AI数字智能为代表的新质生产力与汽⻋工业与出行产业加速融合,促进深度融合人工智能技术的新一代AI出行终端AI EV加速到来。
基于亿欧汽车对智能电动汽车与科技出行产业的长期洞察与研判,此次大会将围绕AI与EV两大产业生态,聚焦具身智能、大模型、端到端自动驾驶、固态电池、车规级芯片、新能源商用车、超级补能、车路云一体化等细分话题,并携手汽车出行产业上下游代表企业、机构、跨界科技公司等共话行业发展图景,见证即将到来的AI应用的群星闪耀时刻。
在本届大会上,商汤绝影CTO肖枫发表了题为《让每一辆车拥有“有趣的灵魂”》的主题演讲。他认为,AGI时代的智能座舱,不应仅仅只是冰冷的工具,或者机械式响应的助理,应该成为A New Member For U。商汤绝影用原生流式多模态大模型、类人记忆框架和持续运行框架,打造一个会察言观色、无时不在且与你心有灵犀的“家庭新成员”,重新定义智能座舱,让每一辆车都拥有“有趣的灵魂”。
以下为亿欧汽车整理的分享实录,供行业人士参考:
大家好,我是来自商汤绝影的肖枫。今天非常有幸给大家分享一个创新产品,它是基于商汤最新的多模态大模型。大家知道商汤的多模态大模型在业界还是很有名的,我们这个产品的名字叫New Member,因为我们希望它让每一辆车都拥有“有趣的灵魂”。
首先介绍一下大模型进入汽车的趋势。大家看到最早的一类大模型车上领域的产品就是类似于车书,最早的汽车说明书就是放在扶手箱里面,用户需要时翻看一些参数的信息。慢慢的说明书便成了电子版,然后再变成车机里面的一个应用。
随着大模型的出现,这本书采用了大模型和语音交互功能,用户通过语音交互得到想要的答案。网上一个有趣的帖子提问,“我的车机仪表盘上出现了一个小男孩,背上有一个宝剑不停的跳,这是什么情况?”现在我们都知道,这其实表明驾驶员没有系安全带。但有了大模型以后,车机会主动提醒用户安全带没有系。这是大模型刚应用到车书时的产品,目前很多车上已经有了。
在大模型逐渐成了一个简单的工具以后,逐渐开始演变为大家现在所听到的“智能体”,它不仅具备一些简单的工具能力,它甚至可以完成一系列的任务,更像是一个助理。常见的是让大模型来制定旅行规划,通过多次迭代给你完美的规划。
我今天要介绍的是商汤绝影的产品,叫New Member。对于前面两代产品用户的需求不一样,第一个工具阶段是需要细致的解答,第二个阶段是需要比较个性化的服务。New Member可以推理出你需要什么,因为车里面功能越来越多,科技感越来越强,场景越来越酷,这也导致用户们或许不知道自己怎么描述一个新的功能,不知道如何提出需求,甚至根本不知道这个新的功能的存在。
我跟一些豪华车的车主也聊过,他们比较担心豪华车的很多功能自己不知道是否存在,也不知道什么场景用这些功能。New Member可以根据不同人的特性主动推荐不同的场景。
刚才提到New Member希望带来一个“有趣的灵魂”,“有趣的灵魂”怎么形成的?首先,它需要一个能力就是可以持续的察颜观色,要懂用户。我们基于商汤原生流式多模态的能力,尤其是感知意图识别能力,在业界是领先的,甚至有几次超过了GPT-4。
其次New Member要无时不在,为此我们做了一个Always—on的框架。当然,最核心的是希望做到第三点,就是心有灵犀。这个其实很难,某种程度上可遇不可求。因为现在车里面的交互很生硬,一旦生硬以后,用户可能会觉得是一种骚扰。
为了恰到好处的识别用户的意图,我们研发了行业首个车载类人记忆框架,在察言观色的基础上,记得也懂得用户的习惯。用户不想让它说的时候它可以不说,只有用户希望得到他帮助的时候才给到主动的交互和服务。
刚才我提到了原生流式多模态,这个大模型效率非常高,核心有几点。首先它是一个多模态,而且是端到端的多模态。现在大多数的多模态大模型其实并不是端到端的,本质还是一个语言大模型。我们原生上就是多模态大模型。
大家聊天软件用得比较多,比如你说一句,说完以后系统给你回复一句,我们做的是用户说的时候就已经开始处理了,所以等你说完或是没有等你说完的时候就可以打断,整个沟通交流的方式非常拟人,就像人和人交流一样。流式也是一样,用户在讲的时候系统就已经在学习输出了。
为了跟用户形成这种默契,我们做了前面提到的行业首个车载类人记忆框架,整个记忆框架核心是数据驱动的,我们把数据转换成临时记忆,大模型出来以后形成长期记忆,或是知识图谱,甚至了解车里面人和人之间的关系,人和物之间的关系,人和车之间的关系,通过这些关系形成我们可以和当前一些环境形成场景记忆,把这些场景记忆赋能给New Member,New Member就可以达到非常默契的场景推荐和场景交互。
我们还有Always—on推理框架,它是云和端融合在一起,为了效率和私密性,我们基本上80%的场景目前是在端上面实施。
说到记忆,说到数据,说到AI,大家都会担心数据安全和隐私保护的问题。安全非常重要,所以我们设置两个安全框架以实现前面所说的技术能力,包括数据安全能力和场景安全能力。我们的记忆的数据,在特定环境、特定场景重叠的时候,在相应的人才会享受的这些服务,给用户提供专属的功能体验,所以大家不需要担心New Member产生数据方面的问题。
刚才说了不少技术方面的一些信息,下面通过一个场景来演绎一下我们的产品和技术是怎么支撑的。周五下午,老丁和儿子豆豆一起上车,他们不需要和导航说目的地,New Member会根据数据和记忆进行推理,就会主动问老丁是不是要带豆豆去网球场打球,得到确认后,就会主动设置导航路线。
最后,我给大家介绍下,产品层面的一些场景和大模型,整个工作流是如何耦合的。前面我们提到的老丁带孩子打网球的场景,用户上车了以后,New Member会主动询问,这是因为Always-on持续运行框架,它一直在记录人、车服务环境的一些数据,同时把这些数据转化成为记忆,有了这些基础,会根据场景推理出你要去的目的地。此外,New Member根据不同的穿着会推荐不同的地方,会猜测你想要做什么事情,有时候也会给出一些建议。
为了和车企更好的合作,我们也打造了记忆的场景库,专门做了一些人设,这些人设都会自动的构建出来,通过大模型可以构建出不同的人设,车企可以利用这些基础的场景库进行组合,或者进行针对性训练,打造更合适车企风格、满足用户需求的角色。
刚才讲了很多了,最后我给大家看一个场景短片,大家可以感受一下New Member是不是在车里面真正带来了一个“有趣的灵魂”。
(播放视频)
希望大家喜欢New Member,现在有好几个车企已经都已经开始和我们绝影进行合作,有些进入了量产阶段,希望明年大家能在车里面看到New Member,感受到New Member带来的“有趣的灵魂”。
谢谢大家。