“我们塑造了工具,此后工具也塑造了我们。”
AI大模型带来的智能革命,媲美工业革命和电力革命,深刻改变人类社会的生产生活方式,是开启智能时代的那一台“蒸汽机”。
从文生文到文生图,再到文生视频,以ChatGPT、Sora等为代表的大模型引领了全球人工智能技术与产业的新一轮浪潮,海内外大模型相关研究与产品竞相涌现、加速迭代,进入“百舸争流”的新时代。
不过,人工智能领域似乎进入了一个微妙的节点,众多科技巨头和创业公司纷纷推出自己的AI大模型产品,却难掩同质化的窘境。回顾2023年,自3月份ChatGPT-4上线后,国内科技企业纷纷跑步入场。百度“文心一言”、阿里巴巴“通义千问”、华为“盘古”、360“智脑”、昆仑万维“天工”、京东“灵犀”、科大讯飞“星火”、腾讯“混元”、商汤“日日新” 等大模型先后登场。截至今年5月,国内已经推出超过300个大模型。其中,10亿参数规模以上的大模型已超100个。
无论是何种类型的大模型,在“百模大战”的背景下,其功能、用途、场景都难免重复。但在业内人士看来,大模型的发展还远未触及天花板,不仅“百模大战”不是终点,“万模群舞”或许就在不远的将来。
AI大模型过剩了吗?
近两年来,大模型技术呈现爆发式的增长,而且在各个研究领域和实践任务上都取得了瞩目成果,诸多科技巨头公司也纷纷投身于大模型的浪潮之中。
在最早应用大模型的自然语言处理(NLP)领域,OpenAI推出了拥有1750亿个参数的ChatGPT,这一行动激发了一系列的应用热潮:微软将ChatGPT接入了其搜索引擎Bing;谷歌推出了自家的语言大模型PaLM和对话模型Bard,并且已经开始了PaLM2的研发;我国百度、字节跳动、华为等公司也积极推出了自己的语言大模型。
在NLP大模型取得了巨大成功的鼓舞下,其他领域也涌现出了大模型的身影。在语音识别领域,OpenAI和谷歌分别推出了拥有15亿参数的Whisper模型和20亿参数的USM模型,而微软则推出了能够在几秒钟内准确模仿任何人说话声音和语调的语音生成模型VALL-E;在视觉领域,基于大模型工作的GPT-4和OpenCLIP进行了语音和视觉的跨模态训练,使得这些模型能够用自然语言的方式去理解图片。
此外,谷歌和脸书公司也各自采用了监督学习和非监督学习的方式,分别训练了220亿参数和65亿参数的Vision Transformer视觉大模型,这些模型在性能上大大超越了参数数量更少的模型;在强化学习领域,谷歌和DeepMind公司开发的PaLM-E和Gato,也开始探索和实验强化学习大模型的可能性。
从去年开始,中国涌现出大量的行业大模型。这种现象背后隐含的一个事实是:打造行业大模型的技术门槛相对较低。随着开源技术的普及,技术上的壁垒逐渐被打破。许多优质的预训练技术、框架和工具已经被广大研发者和机构所采纳和使用。相对于开发一个全新的大模型,微调现有的通用大模型更为简单快捷,只需要大量、高质量的行业数据即可。
打造一个强大的通用大模型却是一项长期且复杂的任务,这需要巨大的计算资源、多样化的数据和深厚的技术积累。因此,相比之下,行业大模型的产生,就显得更为便捷了。
但这种便捷性带来的是双刃剑效应。大量涌现的所谓行业大模型,并不具备真正的竞争壁垒。技术上,它们大多基于相似的开源技术和通用大模型进行微调,很少有真正的技术创新。数据上,尽管行业数据是关键,但许多企业并没有真正挖掘、整合和利用这些数据的能力,使得其微调的效果并不理想。
事实上,底层通用大模型的每次迭代,都将“淹没”一大批所谓的行业大模型。大模型技术的快速迭代就是一个典型的例子,每次通用大模型的升级都使其前一代的技术变得陈旧。
以OpenAI的GPT系列为例,从GPT到GPT-4,每当OpenAI发布一个新版本,它都会因为更多的参数、更先进的算法和更高的性能,使前一版本相形见绌。而这种进化不仅仅局限于通用模型,实际上,它更多地影响到了基于前一代模型微调出的行业大模型。
试想,一个企业可能已经投入大量资源在GPT-3上,开发出一套专门为医疗领域设计的AI系统。但当GPT-4问世时,这家企业突然发现,他们的专业系统在新的通用模型面前相对落后,甚至可能不如直接使用GPT-4的效果。这就是因为,每次通用大模型的迭代都意味着一个巨大的技术飞跃,其对特定任务的处理能力会显著增强。
值得深思的是,中国在AI领域已取得了许多值得骄傲的成果。然而,与国外相比,中国在AI大模型的算法创新和理论研究上仍存在差距。尤其是美国在AI大模型的基础算法和架构创新方面领先,例如Transformer模型和BERT等创新技术,对全球AI发展产生了深远影响。
这对于中国的技术界来说是一个挑战,也是一个机会。挑战在于如何在短时间内弥补这一差距,机会则在于一旦做到,国内的行业大模型将能够站在一个更高的起点。
要卷应用,不要卷模型
也有一种观点认为,不要重复造轮子,AI十倍的机会在别处。百度董事长兼CEO李彦宏此前曾表示:“重新做一个ChatGPT没有多大意义。基于语言大模型开发应用机会很大,但没有必要再重新发明一遍轮子。”
今年7月,李彦宏在2024世界人工智能大会呼吁:“不要卷模型,要卷应用!”。他认为,AI技术已经从辨别式转向了生成式,但技术本身并不是目的,真正的价值在于如何将这些技术应用于实际场景,解决实际问题。
通用大模型发展至今,面临算力需求大、训练和推理成本高、数据质量不佳等挑战。一个成功的且可对外商业化输出的通用大模型,要求厂商拥有全栈大模型训练与研发能力、业务场景落地经验、AI安全治理举措、以及生态开放性等核心优势。
另外,训练基础模型的成本也是非常之高,做一个千亿级的大模型,需要单机群万卡以上的算力。从国内外来看,真正做通用模型的公司并没有那么多。相反,训练垂直领域模型所需要的代价和资源远远小于从零开始做通用模型。
因而,从商业逻辑的角度来看,大部分公司不具备做通用大模型的能力,巨头更适合做通用大模型,拥有丰富场景数据积累的公司更适合做垂域模型或者AI原生应用。
AI原生应用开发的具体思路主要包含三个方面。
首先是MoE(Mixture-of-Experts,专家混合),其前身是“集成学习”,作为一种由专家模型和门控模型组成稀疏门控制的深度学习技术,MoE由多个子模型(即专家)组成,每个子模型都是一个局部模型,专门处理输入空间的一个子集。在“分而治之”的核心思想指导下,MoE使用门控网络来决定每个数据应该被哪个模型去训练,从而减轻不同类型样本之间的干扰。
通俗来讲,MoE就像复仇者联盟,每个子模型(专家)都是一个超级英雄,门控网络则是尼克·弗瑞,负责协调各个超级英雄,决定在什么情况下召唤哪位英雄。之后选择最合适的专家进行处理,并将各位专家的输出汇总起来,给出最终的答案。
需要强调的是,MoE不是通常意义上的学术概念,更准确地说,是大小模型的混用,不依赖一个模型来解决所有问题。什么时候调用小模型、什么时候调用大模型、什么时候不调用模型,需要针对应用的不同场景做匹配。
其次是小模型。相比大模型,小模型推理成本低,响应速度快,在一些特定场景中,经过SFT精调(在一个已经训练好的模型基础上,通过进一步训练模型的一部分参数,以适应新的任务或数据集)后的小模型,使用效果可以媲美大模型。小模型的独特价值在于通过大模型,压缩蒸馏出来一个基础模型,然后再用数据去训练,这比从头开始训小模型,效果要好很多,比基于开源模型训练出来的模型效果更好、速度更快、成本更低。
第三是智能体。智能体以云为基础,以AI为核心,构建一个立体感知、全域协同、精准判断、持续进化、开放的智能系统。智能体能力提升会不断催生出大量新应用。智能体机制,包括理解、规划、反思和进化,它让机器像人一样思考和行动,可以自主完成复杂任务,在环境中持续学习、实现自我迭代和进化。
智能体还有一个特点,在一些复杂系统中,可以让不同智能体互动,形成群体智能,通过相互协作,更高质量地完成任务,这就好比一个无人机群,可以完成一架无人机难以完成的工作。当前火热的车路云一体化也可以借助群体智能,赋予城市交通协同感知、协同计算、融合决策等能力,从而助力整个城市的交通效率实现全局最优。
AI Infra将是下一个应用热点?
每个科技巨头都希望在自己的生态中形成闭环,一定程度上也是因为整个国内开源的生态不够强大。
目前,大模型产业链大致可以分为数据准备、模型构建、模型产品三个层次。在国外,AI大模型的产业链比较成熟,形成了数量众多的AI Infra(架构)公司,但这一块市场在国内还相对空白。
而在国内,巨头们都有一套自己的训练架构。
比如,华为的模型采用的是三层架构,其底层属于通识性大模型,具备超强的鲁棒性的泛化性,在这之上是行业大模型和针对具体场景和工作流程的部署模型。这种构架的好处是,当训练好的大模型部署到垂类行业时,可以不必再重复训练,成本仅是上一层的5%~7%。
阿里则是为AI打造了一个统一底座,无论是CV、NLP、还是文生图大模型都可以放进去这个统一底座中训练,阿里训练M6大模型需要的能耗仅是GPT-3的1%。
百度和腾讯也有相应的布局,百度拥有覆盖超50亿实体的中文知识图谱,腾讯的热启动课程学习可以将万亿大模型的训练成本降低到冷启动的八分之一。
整体来看,各个大厂之间的侧重点虽然有所不同,但主要特点就是降本增效,而能够实现这一点,很大程度上就是受益于“一手包办”的闭环训练体系。
反观国外,成熟的AI产业链形成了数量众多的AI Infra公司。如果用云计算三层构架做类比,AI Infra与PaaS层级相似,是链接算力和应用的中间层基础设施,包括硬件、软件、工具链和优化方法等,为大模型应用开发提供一站式模型算力部署和开发工具平台。算力、算法、数据可以看作IaaS层,各种开源和闭源模型则是SaaS在大模型时代的新演变,即MaaS。
如果把开发AI应用看成建房子,那么AI Infra就是提供水泥钢筋的施工队。AI Infra施工队的价值点在于它是一个集成平台,将下层的算力芯片层与上层的AI应用层打通,让开发者实现一键调用,并且实现降低算力成本、提升开发效率并且保持模型优秀性能的效果。
让应用更简单,让AI落地更便捷,是AI Infra的使命。可以说,AI应用的市场有多大,AI Infra的机会就有多大。
AI Infra公司有的专门做数据标注、做数据质量、或者模型架构等。这些企业的专业性,能够让他们在某一个单一环节的效率、成本、质量上都要比大厂亲自下场做得更好。
比如,数据质量公司Anomalo就是Google Cloud和Notion的供应商,它可以通过ML自动评估和通用化数据质量检测能力,来实现数据深度观察和数据质量检测。
这些公司就像汽车行业的Tier 1,通过专业的分工,能够让大模型企业不必重复造轮子,而只需要通过整合供应商资源,就能快速地搭建起自己模型构架,从而降低成本。
但国内在这一方面并不成熟,原因在于:一方面国内大模型的主要玩家都是大厂,他们都有一套自己的训练体系,外部供应商几乎没有机会进入;另一方面,国内也缺乏足够庞大的创业生态和中小企业,AI供应商也很难在大厂之外找到生存的空间。
以谷歌为例,谷歌愿意将自己训练的数据结果分享给它的数据质量供应商,帮助供应商提高数据处理能力,供应商能力提升之后,又会反过来给谷歌提供更多高质量数据,从而形成一种良性循环。
国内AI Infra生态的不足,直接导致的就是大模型创业门槛的拔高。如果将在中国做大模型比喻成吃上一顿热乎饭,那必须从挖地、种菜开始。目前,在AI 2.0的热潮中,一个重要的特点就是“两极化”:最热门的要么是大模型层、要么就是应用层。而类似AI Infra的中间层,反而是很大的真空地带,也可能是下一个机遇所在。
伴随AI应用的快速发展,未来谁能够为多样化的应用场景提供高效便捷的大模型一站式部署方案,谁就有可能在这场竞争中胜出。而这其中,底层技术、中层平台、上层应用缺一不可,只有让各方面能力得到更全面、均衡地发展,才能在AI之路上走得更远、更稳健。