一、何谓“大模型”?

机器学习:以设定规则+数据喂养驱动算法自成长

◼ 机器学习>神经网络>深度学习≈ 深度神经网络。机器学习用于解决 由人工基于 if-else 等规则开发算 法而导致成本过高的问题,想要通 过帮助机器 “发现” 它们 “自己” 解决问题的算法来解决;机器学习 可以分为有监督学习、无监督学习 和强化学习等三类。

◼ 深度学习是基于深度神经网络的, 而神经网络算法是机器学习模型的 一个分支 , 包 括 卷 积 神 经 网 络 CNN/循环神经网络RNN等等,自 注意力机制(Transformer)则是 基于全连接神经网络和循环神经网 络的衍生。

◼ 深度学习使用多层神经网络,从原 始输入中逐步提取更高层次更抽象 的特征用于后续算法识别,处理大 规模数据是其核心优势。当前,深 度学习已经应用到包括图像识别、 自然语言处理、语音识别等各领域。

打开网易新闻 查看更多图片

大模型:大规模参数赋能神经网络,持续优化

◼ AI大模型是指具有超大规模参数(通常在十亿个以上)、超强计算资源的机器学习模型,其目标 是通过增加模型的参数数量来提高模型的表现能力,它们能够处理海量数据,完成各种复杂任务。AI大模型的原理是基于神经网络和大量数据的训练,模型通过模拟人脑的神经元结构,对输入数 据进行多层抽象和处理,从而实现对复杂任务的学习和预测。AI大模型的训练主要分为:数据预处 理、模型构建、横型训练、模型评估等几大步骤,如下:

打开网易新闻 查看更多图片

大模型:强泛化为核心优势,聚焦自然语言处理

◼ AI大模型能够处理以下几类核心问题:1)自然语言处理:以GPT-3和BERT为例, AI大模型通过 学习海量的语料库和上下文,让计算机更加准确地理解和处理自然语言,如翻译、问答、分词、文本生成等领域。2)计算机视觉:以ResNet和EficientNet为例,AI大模型通过学习大量的图像 数据和构建更深更复杂的神经网络,使计算机能够对图像进行更加准确的识别和分析,包括目标检测、图像分类、语义分割等领域。3)语音识别和生成。通过以上几类问题的解决,AI大模型可 以进一步通过自动化和智能化的方式提高生产效率,在部分工业领域可以实现人机合作或自动化, 减少人力成本。

打开网易新闻 查看更多图片

Transformer:架构变化的核心,多模态理解的关键

◼ Transformer是本轮大模型颠覆全行业算法架构的核心,也是多模态模型相比之前单一文本理解 模型提升的关键,Transformer赋予算法更精准的特征提取能力,强化理解和识别功能,其独特 的自注意力机制是灵魂,即Attention is all you need。

◼ Transformer的优势在于:1)自注意力机制赋予的长依赖语义问题(捕捉间隔较远的词之间的 语义联系问题);2)支持并行计算,可极大的提升大模型数据处理效率。

打开网易新闻 查看更多图片

多模态大模型:多类别数据输入,算法不断进化

◼ 由理解内容至生成内容,多模态大语言模型持续进化。多模态模型是一种能够处理多种类型数据 (如文本、图像、音频和视频)的人工智能模型。这种模型的目标是通过结合不同类型的数据来 提供更全面、更准确的信息。在自然语言处理(NLP)领域,多模态模型可以用于机器翻译、情 感分析、文本摘要等任务。在计算机视觉领域,多模态模型可以用于图像分类、目标检测、人脸 识别等任务。多模态大语言(MM-LLMs)即是将多模态模型与具备强大推理和生成能力的大语 言模型结合的产物,其难点在于如何对齐本不兼容的图像/视频/文本等的编码器。

打开网易新闻 查看更多图片

二、车端:大模型重塑智驾算法架构

智能驾驶软件分类:底层调动支持+上层应用赋能

◼ 底层调动支持:1)异构化底层软件配合SoC异构芯片支持不同类型的功能实现落地。用于智驾域 控的SoC异构芯片是高度集成化的,除多核CPU外,还会集成DSP/NPU或其它专用计算加速单元。在此硬件上进行匹配的异构软件,多核CPU经过虚拟化之后,可以在不同的虚拟机上运行不同的 操作系统,例如运行Linux来充分利用Linux社区丰富的软件生态,运行QNX/VxWorks 来达到更 好的实时性。2)SOA中间件提供标准化接口服务。SOA中间件能屏蔽不同服务间软硬件异构平 台的差异性,一方面让异构平台都能够以SOA的方式交互,另一方面让通用的功能逻辑能在不同 硬件平台之间移植。比如将DSP或NPU的使用封装在特定的库中,对外呈现为标准SOA服务。3) 软件框架:即可复用的设计构件,它规定了应用的体系结构,代表已经完成项目的底层开发基础 搭建,可以在其基础上差异化开发的半成品。可以让使用者减少很多重复的代码、让代码的结构 更加清晰,耦合度更低,后期维护方便。

◼ 上层应用赋能:算法:即解决某一类问题的特定策略机制,不同算法解决同一问题时的质量优劣 不同,这将影响程序的效率。一个算法的评价主要从时间复杂度和空间复杂度来考虑。

打开网易新闻 查看更多图片

底层支持:硬件调度,标准化接口赋能应用软件

◼ What:传统汽车时代,狭义的操作系统指操作系统内核;当前智电汽车域控时代,系统更加复 杂,因此需要基于内核进行大量工程优化以后方可直接开发上层应用软件,中间件和功能软件即 由工程优化算法标准化后所得。当前广义操作系统包括内核以及中间件和功能软件等几部分。

◼ How:高性能、高安全、跨平台、高效开发应用。操作系统要求较强实时性,系统任务调度时钟 周期在毫秒级;且提供高可靠性和较强功能安全。未来,行业舱驾一体化等集中式EE架构还要求 操作系统保证合理共享算力资源,支持系统快速OTA迭代。

◼ 底层支持软件相对标准化,通用性较强。1)操作系统内核(Kernel):即为狭义操作系统,如 OSEK OS、VxWorks、RT-Linux等。内核提供操作系统最基本的功能,负责管理系统的进程、内 存、设备驱动程序、文件和网络系统,决定着系统的性能和稳定性。2)中间件:处于应用和操作 系统之间的软件,实现异构网络环境下软件互联和互操作等共性问题,提供标准接口、协议,具 有较高的移植性,如POSIX/ARA(自适应AutoSAR运行时环境即中间件API接口)和DDS(分布 式实时通信中间件)。3)功能软件:主要指自动驾驶的核心共性功能模块。

打开网易新闻 查看更多图片

上层应用算法:感知-规控-执行三大模块

◼ 车端上层应用算法分为感知(Perception)/规控(Planning and Decision)/执行(Motion and control)三大模块。感知模块的输入可以是各种传感器:摄像头、激光雷达、毫米波雷达 等,同时感知也会接受车身传感器的信息来对感知结果进行修正。决策规划模型又分为行为决策、 轨迹规划、轨迹生成等模块。控制模块主要分为横向控制与纵向控制,横向控制主要是控制转向 系统,纵向控制涉及油门与刹车的控制。

◼ 模块化的软件算法早期具备可解释性强、安全性强、灵活性高的优点,但过于依赖先验数据,无 法实时更新,且穷举法终究没办法覆盖所有长尾场景,因此随智驾等级提升,正逐渐被大模型端 到端所取代。

打开网易新闻 查看更多图片

算法持续升级,多模态大模型重塑车端算法架构

◼ 多模态数据喂养软件算法,驱动功能进化。硬件端升级提供多样化数据,智驾传感器由单目视觉 向双目视觉以及视觉+雷达的方向演变,多传感器支持对周围环境的更精确识别,图像/点云等数 据呈现方式多样化,数据赋能算法升级,支持智驾功能由L3级别以下向L3及以上迭代升级。

◼ 场景泛化是智驾能力提升的重要方向,数据需求量激增驱动算法由小模型切换为大模型。智驾软 件上层应用算法中,感知能力提升核心系场景识别能力的泛化,规控能力提升核心系场景处理逻 辑的泛化,均以有效数据量为核心驱动,数据处理/利用等是瓶颈。DNN/CNN/RNN小模型切换 为Transformer大模型赋能多模态数据处理,重塑车端算法架构,以支持更高级别智驾功能。

◼ 世界模型(自学习,强泛化,高效率)或为通向L4级完全自动驾驶的必由之路。数据赋能催化模 型自学习,理解物理世界基础运行规律,模型“认知能力”提升,或可实现完全自动驾驶。

打开网易新闻 查看更多图片

· 钛祺智库 ·

1、本报告共计:54页。受篇幅限制,仅列举部分内容。如欲获取完整版PDF文件,可以关注钛祺汽车官网—>智库,也可以添加钛祺小助理微信,回复“报告名称: AI+汽车智能化系列之五:智驾算法步入深水区,头部玩家有望持续领跑”

2、钛祺智库目前已收录900+篇汽车行业最新技术报告,供行业朋友查阅、参考。

3、钛祺智库持续更新、收录行业深度技术文章、研究报告,并不定期上传行业专家特约文章,为汽车行业朋友提供专业支持。

扫码添加“钛祺小助理”,获取报告