文 | 光锥智能,作者|杨儒、刘英航、谢晨星、王嘉攀
展望AI未来
人类的大脑估计已经包含860亿个(10^11次方)神经元,这些细胞信号传递到对方通过多达100万亿(10^15)突触连接。
GPT-4是8个2200亿参数组成的混合专家模型,8 x 220B = 1.76万亿连接,与真实人脑仍然差50多倍。
人脑功耗10w。
一张NVIDIA A100功耗250w,更别说万卡集群,简单计算相差25万倍。
人脑神经元种类多样、神经递质多样,多为化学信号,维度信息高。
人工神经元结构简单单一,传递为简单电信号,维度信息低。
人工神经元之间的连接则是一开始就被固定好了的,比如根据实际需求需要设计一个多大的神经网络网络模型,那么这个网络模型的参数和连接方式就基本已经被固定了。虽然可以通过神经元之间的随机失活等方法可以局部的改变神经网络内部的连接,但是这种改变仍然无法让人工神经元像生物神经元一样根据外界输入的数据信息而选择性的提取需要的特征信息。
生物的神经元之间是没有任何顺序的,可以随时根据外界传入的信息有条件的随意连接,但是人工神经网络内部的神经元之间是有顺序排列的,也就是神经网络的层数,人工神经元只能在神经网络的不同层之间发生连接,由于数学矩阵运算的规律,在同一层神经网络之间的神经元是无法连接的。
而且无论从目前效果和上述的巨大区别上,目前的LLM离真正的AGI还有很大的差距,想象看一个人类拥有互联网级别信息的时候,智慧程度会跟现在LLM一样吗?
所以很多人说数据即将用尽的观点是偏颇的,算法倒是学习效率低下才是本质。
但也说明深度仿生的联结主义潜力巨大。但未来会如何呢?
奥特曼在今年10月份接受采访说:伊利亚(OpenAI前首席科学家伊利亚·苏茨克维)总是说,这些模型的真正意义在于压缩,我们要找出如何压缩尽可能多的知识,这就是我们打造人工智能的方式。压缩就像是智慧密钥,我已经对此冥想很久,但我确信自己仍然没有完全理解它,但那里有些更深刻的东西。
就上上文提及到的注意力机制一样。随着进化的脚步,生命体本身由简至繁,而人类历史发展到今天,我们的生存环境和所需要学习、掌握的工作任务和过去的丛林生活复杂到不知多少。为了应对这个变化,大脑会如何进化呢?是发展成一个同时处理庞大的信息并且容量超大的大脑,还是发展成虽然容量不大,但可以迅速地分析信息,并配有一个高效率信息选择和投注机制,将所有计算能力都放在重要的任务上的大脑呢?很明显的,后者更有优势,而且大自然也为我们选择了这个目标。
人脑的注意力是一个用来分配有限的信息处理能力的选择机制。而Transfomer的自注意力是通过概率分布和权重分配实现该机制。
"预测即压缩, 压缩即智能"
这一观点最早由Ilya Sutskever在其博文和访谈中提出。Ilya Sutskever在不同场合提到,当我们谈论“预测下一个Token”时,本质上是在进行信息压缩。一个理想的预测模型, 应该能够以最简洁的形式(即最短的程序或描述)来表示输入数据中的关键模式和规律。预测是通过生成特定数据集的最短程序来实现的【46】。
Geoffrey Hinton从另一个角度阐释了压缩与智能之间的联系。他指出, 人工智能系统之所以能够展现出理解、类比、创新等高级认知能力, 关键在于它们能够发现并利用不同事物和概念之间的共同结构。如果AI系统能够掌握这种高度概括的表示,就可以实现跨域的类比和泛化。而要做到这一点,就需要AI系统从大量表面差异巨大的事例中提炼和压缩出最本质的共性。换言之, 机器要成为一个智能的类比推理者, 首先需要成为一个高效的信息压缩者。
可以抽象的理解为:压缩就是寻找第一性原理的过程,数据越多,总结出的第一性原理更具有普遍性。
综合Sutskever和Hinton的观点, 我们可以得出以下几点认识:
1. 从信息论的角度看, 学习的本质是一个逐步压缩数据的过程。通过在输入数据中发现可泛化的模式和规律, 学习系统可以用更简洁的表示来重构原始信息, 从而降低其描述复杂度;同时减少信息在压缩中的损失。
2. 大规模机器学习, 尤其是基于海量数据训练的深度神经网络, 可以看作是朝着最优压缩逐步逼近的过程。随着模型规模和数据量的增大, 神经网络能够捕捉到越来越抽象和一般化的特征, 其内部表示可以压缩更多的信息。
3. 压缩能力与智能水平密切相关。一个高度智能的系统, 应该能够基于少量信息对世界进行大量的重构和预测。这就要求系统在学习过程中最大限度地提取和内化数据中的关键模式和规律。因此,追求更强的压缩能力, 可以为我们指引通往AGI(通用人工智能)的道路。
杨立昆在题为《朝向能学习、思考和计划的机器进发》的演讲中,清晰地指明了以自监督学习为代表的 AI 系统的优缺点。
我们今天正在使用的LLM还无法做到真正的理解世界,这其中有很多原因,但最主要的原因是:LLM的训练方式是用一段缺失了部分文字的文本去训练一个神经网络来预测缺失的文字。事实上,LLM并不预测词语,而是生成字典中所有可能词语的概率分布,然后从概率分布中选择一个词放入文本序列的尾部,再用新生成的文本去预测下一个词,这就是所谓的自回归预测【47】。
但这种自回归的方式与人类的思维方式有很大的不同。人类大部分的思考和规划都是在更抽象的表征层面上进行的--人类对思考的意识只存在于高级表征中-比如人类不是靠像素点识别物体的,而是又像素点形成的光影、轮廓等,知识来源于此,而不是在更深层次的神经网络中,换句话来说,如果输出的是语言(说出的话)而不是肌肉动作,人类会在给出答案之前先思考好答案。但是LLM不这样做,它们只是本能地一个接一个地输出文字,就像人类的某些下意识动作一样。
然而,单靠这种方式,我们并不能真正做到推理,也很难处理非离散的复杂现实数据。要实现人类级别的智能,我们仍然缺少一些至关重要的要素。比如,一个十岁的孩子学会收拾餐桌、把碗盘放进洗碗机,只需看一遍就能学会。而一个17岁的青少年经过大约20小时的练习就能学会开车。然而,我们还没有达到五级自动驾驶,也没有能够帮忙收拾餐桌的家用机器人。
实现真正的智能需要的一个关键能力是“分层规划”,也就是我们人类在面对复杂问题时,能够分阶段、分层次地进行解决。比如从纽约去巴黎,我们会先计划怎么到机场,而不是从一开始就去计算整个行程中每一步的肌肉动作。如何让AI具备这种分层规划能力,目前仍是一个未解的难题。
真正的世界模型是:我对某时刻T时世界状态的想法,叠加此时我可能采取的行动,来预测在时间T+1时的世界状态。这里所指的世界状态并不需要代表世界的一切,不一定需要包含所有的细节,它只需要代表与这次行动规划相关的足够多的信息。
十年来,我们使用生成式模型和预测像素的模型,试图通过训练一个系统来预测视频中将发生什么来学习直观物理,但失败了,我们无法让它们学习良好的图像或视频表征,这表示,我们无法使用生成式模型来学习对物理世界的良好表征。
目前,看起来可以更好地构建世界模型的一种新方法是”联合嵌入”,称为JEPA(联合嵌入式预测架构),其基本思路是获取完整的图像及其损坏或转换的版本,然后将它们同时通过编码器运行(一般来说,编码器是相同的,但也不一定),然后在这些编码器之上训练一个预测器,以根据损坏输入的表征来预测完整输入的表征。JEPA与LLM有什么区别?【48】
LLM是通过重建方法生成输入,生成未损坏、未转换的原始输入,因此必须预测所有像素和细节。而JEPA并不尝试预测所有像素,只是尝试预测输入的抽象表征,从本质上学习世界的抽象表征(例如风吹树叶,JEPA在表征空间中预测,会告诉你树叶在动,但不会预测每个树叶的像素)。
JEPA的真正含义是,以自我监督的方式学习抽象表征,这是智能系统的一个重要组成部分。人类有多个抽象层次来描述世界万象,从量子场论到原子理论、分子、化学、材料,一直延伸到现实世界中的具体物体等,因此,我们不应只局限于以最低层次进行建模。
基于该理念设计的 V-JEPA 是一种“非生成模型”,通过预测抽象表示空间中视频的缺失或屏蔽部分来进行学习。
四、大模型产业链——综述
产业链的价值规则
框架根据具体的工作流尽可能的列出行业,有价值的笔者总结性多讲,没有变动的且基础的介绍一下。关键的热点行业,笔者会综合讲述中美企业和商业环境的不同之处。
笔者对有价值的定义:
1 技术颠覆 -- 先发的知识(人才)壁垒
2 商业模式颠覆 -- 确保和大公司尽量在同一起跑线
3 有一定的市场规模的想象空间
五、基础层
算力
这里只讲述整装硬件层面的算力提供商以及基础的软件的趋势。不涉及芯片行业的上游。
LLM对算力的需求飙升
我们看到,为追求Scaling law带来的涌现效应,在位厂商模型训练的算力规模不断扩大,对AI算力基础设施的需求形成支撑。根据中国信通院《中国算力发展白皮书(2023)》,GPT-3的模型参数约为1,746亿个,训练一次需要的总算力约为3,640 PF-days,即以每秒一千万亿次计算,需要运行3,640天;2023年推出的GPT-4参数量可能达到1.8万亿个,训练算力需求上升至GPT-3的68倍,在2.5万个A100上需训练90-100天【49】。
针对LLM的新供应
按照芯片的设计理念及用途,AI算力芯片可分为通用芯片和专用芯片,二者各有特点。
通用芯片为解决通用任务而设计,主要包括CPU、GPU(含GPGPU)和FPGA。
专用芯片(ASIC)为执行特定运算而设计,具备算法固化特性,主要包括TPU(Tensor Processing Unit,张量处理器)、NPU(Neural Network Processing Unit,神经网络处理器)等。
在通用算力芯片当中,CPU内核数量有限,采用串行方式处理指令,适合于顺序执行的任务;GPU采用众核结构,最初开发用于图形处理,而后凭借其强大的并行计算能力适用于AI通用计算(GPGPU);FPGA是具备可编程硬件结构的集成电路,其可编程性和灵活性可快速适应AI领域的算法变化。与专用芯片相比,通用芯片主要优势在于灵活性及生态系统的完善性,可适应高速迭代的算法任务,同时GPU保留的渲染能力可适应大模型的多模态发展,而其主要劣势则在于较高的功耗水平和较低的算力利用率。
专用芯片的优势则在于通过算法固化实现了更高的利用率和能耗比,以及更低的器件成本,同时ASIC更适合大规模矩阵运算;其主要劣势是前期投入成本高、研发时间长,且只针对某个特殊场景,灵活性不及通用芯片【50】。
ASIC(Application Specific Integrated Circuit)是专用集成电路,针对用户对特定电子系统的需求,从根级设计、制造的专用应用程序芯片,其计算能力和效率根据算法需要进行定制,是固定算法最优化设计的产物。经过算法固化后,专用芯片与软件适配性较高,从而能够调动更多硬件资源,提高芯片利用率。而通用芯片由于算法不固定,其硬件往往会产生冗余,导致芯片利用率较低。
目前价值最大的仍然是GPU,它更适应高并发多分布式的训练,LLM训练和推理以它为主,95%的算力的都是由它提供。
就像工厂一样,一开始会去买标准的设备(通用芯片)进行生产,后续规模扩大了,更了解客户的需求后,产品变的差异化,这时候会去找产线集成商如西门子,定制化产线(专用芯片);本质上来说,背后就是需求和厂商供应的trade-off(成本等),但是需求是第一位,大规模量产和定制化的前提都是同质化的需求在支撑。
目前,我们对LLM的训练和推理算法皆有不同程度的优化,商业场景还在积极探索,甚至是算法本身都在快速变化,ASIC等专用芯片为时尚早。
深度神经网络对计算芯片的需求主要围绕解决两个问题展开:
(1)解决AI计算芯片和存储间数据通信需求,AI模型中,大量运算资源被消耗在数据搬运的过程。芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。
(2)在控制功耗的同时不断提升专用计算能力,对AI芯片进行定制,在特定场景下实现AI芯片的高性能和低功耗,解决对卷积、残差网络等各类AI计算模型的大量计算需求。
众所周知的芯片断供原因,国内厂商无法在正常的渠道买到高端的芯片,如何弥补?
除了走私外,异构芯片的混训(国产芯片+国外芯片;本地计算+云计算)成为了主流,但随着算力的不断补充和IDC的建立,并且模型参数的变小,此类问题将快速解决。能看到的是A100芯片的租赁价格几经对折。
国外的算力中心如特斯拉、谷歌、亚马逊的万卡集群都将在近期建设完成。特斯拉的有10万块H100。
新AI算力市场推算
训练成本
推理成本高于训练成本
在给定训练GPT-3模型所需运算操作数量的情况下,即便得知单卡算力,以及要求的训练时间,量化加速卡数量实际上也存在难度,因为数据集精度、数据集迭代次数,以及GPU的使用效率等等因素都是未知变量【51】。
在此,我们直接采用OpenAI训练集群模型估算结果作为参考:标准大小的175亿参数GPT3模型大概需要375-625台8卡DGX A100服务器进行训练(耗费10天左右时间)。目前来看,训练大模型的硬件投入基本3,000张-5,000张A100 GPU来完成。那么,以单A100卡售价10,000美元来计算,生产大模型所需的训练用GPU一次性采购拉动在千万美元级别,具体金额决定于参与生产大模型的终端用户家数,中性情形下,我们假设8家厂商采购训练卡,单一厂商需求量500台DGX A100服务器,可带来的训练AI加速卡市场空间约为3.2亿美元。
推理应用和实际业务上线关系紧密,硬件需求要结合对效率要求来进行部署。以A100 GPU单卡单字输出需要350ms为基准计算,假设每日访问客户数量为2,000万人,单客户每日发问ChatGPT应用10次,单次需要50字回答,则每日消耗GPU的计算时间为972,222个运行小时(2*10^7*10*50*350ms = 3.5*10^12ms = 972,222h),因此,对应的GPU需求数量为40,509个。同样以单卡10,000美元的售价计算,2,000万用户上线在推理端所创造的AI芯片市场空间约4亿美元左右,但在中性情形下,假设日活用户数达到1亿用户,在单客户发问次数、单次回答字数不变的情况下,我们测算出推理相关用AI芯片市场空间有望达到20亿美元【51】。
GPU芯片&服务器提供商
全球GPU市场竞争格局较为集中,当前NVIDIA处于市场领导地位,根据Verified Market Research数据,2022年在全球独立GPU市场当中占比约80%。
国产AI云端训练和推理芯片厂商参与者众多,大部分涌现于2017年以后。(1)华为Atlas 300T训练卡(型号9000)基于昇腾910 AI芯片,单卡算力280TFLOPS FP16;(2)寒武纪思元370单卡算力256TOPS INT8,是第二代产品思元270算力的2倍;(3)百度昆仑芯2代AI芯片单卡算力为256TOPS INT8 / 128TFLOPS FP16;(4)海光DCU的优势则体现在生态兼容性,其ROCm GPU的计算生态和英伟达CUDA[1]高度相似,被称为“类CUDA”,有利于用户可快速迁移,2022年海光深算一号DCU已商业化应用,深算二号正在研发中【52】。
目前国产产品依然与全球领先水平存在2-3年的差距。
国产最强的AI芯片性能大约为512Tflops,不仅不如NVIDIA的A100,甚至只有H100的四分之一左右。例如,寒武纪的思元590在某些特定应用场景下接近A100 90%的性能,但综合性能仍只能达到A100的80%左右。
国产AI芯片企业虽作为后发者,依然拥有市场机会。一方面来看,摩尔定律的迭代放缓使得海外龙头企业开发新产品面临更大的挑战,中国企业有望以更快的速度向海外现有产品看齐,但供应链方面存在不确定性,对后发企业构成利好【53】。
GPU的算法和生态系统构建也是GPU设计中的重要部分。GPU算法需要与硬件紧密结合,以提高GPU的性能和效率。同时,GPU的软件生态系统还需要支持各种开发工具和框架,以便开发人员可以更轻松地利用GPU进行高性能计算和机器学习。
基于高层次抽象,英伟达通过CUDA统一编程平台提供了一套完整的开发工具链,包括编译器、调试器和性能分析工具,以及丰富的库函数(加速算子执行、实现卡间通信),为开发者提供了便利,降低使用成本。且CUDA统一编程平台可支持多个操作系统,且支持各类GPU(包括数据中心级产品、消费级产品);全球安装的CUDA兼容的NVIDIA GPU数量已经达到了数亿级别【50】。
由于硬件端AI领域的先发优势,大量的AI深度学习训练开源项目和框架如PyTorch、TensorFlow等与英伟达GPU后端实现了原生适配,且兼容DeepSpeed、Megatron-LM等分布式加速工具;推理端来看,英伟达同样拥有Tensor-RT引擎。总结来说,主流AI软件栈的最佳优化方案均与英伟达CUDA生态及GPU深度耦合。通过日积月累,英伟达硬件环境上的开发者数量众多,有庞大而活跃的社区以及大量可用的文档、教程、论文,开发人员对CUDA的熟悉程度和专业度更高,导致新人采用CUDA面临的时间成本更低。到2023年底,CUDA软件包已累计下载4800万次,证明其广泛的用户基础和开发者社区的活跃度。
英伟达对外部企业、学校、以及不同应用领域均有良好的解决方案,对不同类型客户进行深度绑定服务。
可以说其系统生态的繁荣为其GPU硬件平台提供了最大的开发生态护城河!
能和其英伟达一较高下的,恐怕只有同时掌握前后端并拥有独立开发生态的华为了。
其余的大部分做ai芯片的公司短暂的收入提升来源于国内IDC的建设,渠道为主,生态意识低。
集成算力提供商
一般来讲,服务器的定制化程度高,大厂的服务器是自己采购,自己搭建,中小企业购买会多一点。再加上云计算的趋势,保密单位的需求会硬一点,否则云计算性价比更高。
AI服务器(多个GPU等芯片集成)竞争格局方面,当前互联网云计算厂商的白牌服务器占主导,未来随着边缘侧应用的成熟,品牌服务器厂商份额也有望提升。AI服务器分为品牌和白牌两类。所谓白牌,是由互联网云计算大厂在云计算的规模效应下,与传统的服务器代工厂EMS企业合作开发定制化的“白牌”服务器;所谓品牌,是由专门的服务器厂商开发的面向企业、政府、运营商和金融等销售的通用型服务器【52】。
2023年以来,政府智算中心建设的规模与节奏均有显著提升。通过梳理各地政府官网信息,我们整理了2020年-2024年政府智算中心建设情况,发现:1)2023年以来智算中心建设明显加速,各省市地方政府均在积极推进智算中心建设;2)2020年-2023年间已投运政府智算中心单期算力建设规模一般在500P以下,而随着AI带动算力需求的提升,单个智算中心的体量提升,2023年下半年之后建设与投运的智算中心出现较多1000P以上的算力规模【49】。
华为昇腾、寒武纪等国产AI算力芯片成为政府主导的智算中心的重要算力基座。北京昇腾人工智能计算中心利用“政府引导+市场化运作”平台建设模式,政府负责顶层设计、政策保障;中关村发展集团负责设施建设、配套服务、提供空间载体,最终使用华为自主研发的昇腾芯片,互利共赢。长沙昇腾人工智能创新中心由长沙市政府和湖南湘江新区共同出资建设,采用基于昇腾910处理器的兆瀚CA9900 AI集群硬件,总算力最高可达1024 PFLOPS(FP16)。政府智算中心建设提速,有望进一步拉动国产AI芯片的需求。
根据三大运营商2024年资本开支指引,运营商投资重心将继续向算力网络建设倾斜。具体来看,中国移动计划2024年在算力网络领域投资475亿元,占当期资本开支的27.5%,同比增长21.5%;中国电信资本开支在产业数字化方面的投资占比同比提升2.5ppt至38.5%,绝对额达到370亿元,其中公司计划在云/算力投入180亿元;中国联通则表示算网数智投资坚持适度超前、加快布局【49】。
三大运营商智算中心建设持续推进。根据2023年度业绩发布会,中国移动计划2024年加快算力多元供给,累计智算规模规划超过17 EFLOPS,新部署智算增幅接近70%;中国电信持续推进智能算力建设,2023年公司智算算力新增8.1EFLOPS,增幅高达279.3%,累计规模达到11.0 EFLOPS,2024年公司预计智算规模将继续提升10 EFLOPS至21 EFLOPS(FP16);根据公司公告,中国联通算力中心已覆盖国家8大枢纽节点和31个省份,数据中心机架规模超40万架,完成29省千架资源布局,骨干云池城市覆盖超230城,MEC节点超600个。我们认为,运营商对智算场景投入的持续加码有望带动服务器、网络设备等算力基础设施需求节节攀升,在电信云网设备侧具备稳定供应能力的厂商有望充分受益。
腾讯、百度、阿里、字节、商汤等企业积极推进智算中心布局,阿里张北超级智算中心总建设规模达12000PFLOPS 百度与腾讯均已在全国多个地区建立了智算中心,包括广州、上海、北京等,字节跳动则依托于润泽科技等进行智算中心相关的IDC投资【49】。
互联网厂商当前算力构成仍以英伟达为主。根据TrendForce,中国云计算厂商目前使用的高端AI芯片中英伟达的芯片占比约为80%,当前的国产化率水平较低。考虑到贸易摩擦的影响,海外核心高端AI芯片难以进入大陆市场,国产替代需求迫切性高。
国内AI加速芯片厂商把握发展机遇,有望渗透进入互联网市场。根据TrendForce,2023年在全球AI服务器采购需求中,字节跳动/百度/腾讯/阿里等中国互联网厂商采购占比约8.5%,为AI服务器的重要需求方。我们认为随着AI大模型加速迭代,国内互联网厂商对于AI服务器需求有望进一步提升,国产AI芯片潜在市场空间广阔。我们看到,互联网厂商积极推动与国产算力芯片的合作,根据公司公告,海光DCU支持包括文心一言在内的多个大模型的适配和应用;百度飞桨与海光DCU实现生态兼容性认证;而华为与百度合作推进昇腾AI上与飞桨+文心大模型的适配。我们认为,随着芯片的性能迭代及生态完善,国产算力芯片在互联网侧的应用有望逐步增加。
总而言之,由于断供的风险,国内芯片的国产化率逐渐提升,但在AI算力方面,主力军仍是英伟达。目前AI将会以通用芯片为主。
算法
这里的算法指的是流派、学习范式等AI底层知识和洞悉的集合,由稀缺的人才掌握,是产业链里的核心的核心,没有之一,算法决定了一切,主流算法的改变,可以改变所有的工作流和产业链行业的价值。
例如之前的CNN等算法的学习范式是监督学习,数据的输入和输出是pair的(匹配的),且需要标准的数据--大量的人工标注,催生了人力密集的数据标注行业,但是自回归的decoder-only transfomer算法下是自监督学习,数据不需要标注,请问新的大模型下,预训练还需要人工标注嘛?RLHF和微调的部分还会需要少量的人工,但也是大大减少了需求。
算法的产出来自于关键的实验室和大公司;可以关注其论文的产出,来跟进;一些跟踪的渠道将会在最后展示。
RVKW
最新RVKW-相比transfomer这种方法有效地捕获了序列中不同位置之间的依赖关系,同时减少了模型的计算复杂度和存储需求;它是RNN的一种,建议大家持续关注,目前该算法还在雏形中,为时尚早,有意思的是,发明该算法的人是中国人彭博。
数据
数据来源
AI公司获取语料数据一般有开源数据库、自有/自建数据--爬虫、购买数据产品授权--专业语料数据服务商处这三种方式。
以GPT-3为例,其训练时使用的语料库数据主要来源为Common Crawl爬虫(60%)、WebText2(22%)、Books1&2(各8%)和Wikipedia(3%)
拥有更高质量、相关的数据,可以更好的训练or微调模型;可获得的数据取决于行业和公司业务,是大模型产业链里最重要的壁垒之一;也往往是大公司的先发优势,初创公司出来公开的数据集,必须通过创新的商业模式来获取更多的数据。
不同国家的数据管理
当然避不开不同国家数据管控问题。
国外:欧盟将数据分割为“个人数据”和“非个人数据”,但个人数据严格属于自然人,企业数据使用权受到极大限制;美国的数据要素制度采取实用主义原则,回避了数据所有权问题,未对数据进行综合立法,只有针对跨境数据主权、行业隐私法、消费者隐私等分别立法。
国内:2022年12月,中共中央国务院《关于构建数据基础制度更好发挥数据要素作用的意见》(简称“数据二十条”)对外发布,提出构建中国特色的数据产权制度、流通交易制度、收益分配制度和数据要素治理制度,其中创新数据产权观念,淡化所有权、强调使用权,聚焦数据使用权流通,创造性提出建立数据资源持有权、数据加工使用权和数据产品经营权“三权分置”的数据产权制度框架。三权分置的产权制度,淡化所有权、强调使用权。
生成式数据的版权问题一直是AI发展的法律限制性因素,随着马斯克支持特朗普上台,向特朗普提议解绑前沿科技的法律限制,会是一变动因素。
数据不够?
关于数据量(Training Tokens)和模型大小(Parameters)对于模型的影响,OpenAI在2022年发表的论文有过讨论:在计算量增加10倍时,模型大小增加5倍,数据大小增加约2倍;而计算量再增加10倍时,模型大小增加25倍,数据大小仅增加4倍。
根据非营利研究机构Epoch AI的最新论文,大语言模型会在2028年耗尽互联网文本数据。
这里说的数据仅仅是真实数据,合成or仿真数据将会在AI Infra层详细讲述。
我的观点如上述章节一致,本质上是算法导致的学习效率低下的问题,不是数据规模问题。
六、AI Infra层
软件的市场演进规律
在正式进入介绍产业链前:我先对齐下大家对软件行业的规律:
先有一个breakthrough的应用程序,然后这个突破性的应用程序激发了一个创新阶段,在这个阶段建立基础设施,使类似的应用程序更容易建立,并且基础设施使得这些应用程序被消费者广泛使用【54】。
一家软件公司的成功,通常需要经历以下 4 个阶段【55】:
1. 由于行业、趋势、场景的变化,新的需求出现,这个时候有需求(刚性需求)但没有标准化产品,大型企业尤其是科技公司便在企业内部自建团队,靠几名高技术水平开发者从 0 到 1 手动搭建产品和框架,并在后续自主维护。
2. 技术和解决方案在实验室或企业内部运行一段时间后,开始有人试图抽象出相对通用的框架和产品,并向市场发布,有开源产品--营销、也有闭源产品,1争夺行业标准(技术)。当用户购买产品的 ROI 比使用“开源架构+内部自建团队+维护更新”的方案更高(要有技术开发壁垒)时,2 用户开始付费(商业模式创新切入)。
3. 随着需求的增长,越来越多的客户使用和筛选各类产品,经过一段时间的市场检验,最终收敛到 1-2 款产品(成功找到商业化产品的核心应用场景和 Product/Market Fit),行业标准形成。
4. 成为行业标准的产品和公司将基于现有的技术和产品,提供更多更有价值的功能和服务,提升产品和商业化能力,在商业化方面取得成功,注重防守--全栈解决方案,增加转换难度。
To C差不多,制胜的目标变成了利用生态截取大量流量,再转化。
流量的进出顺序为硬件终端(pc、手机等)> 软件(检索工具 > 社交软件 > 其他);所以依托硬件去做流量的转化有天然的优势,毕竟流量在前,软件公司只能听苹果or安卓终端公司生态摆布,著名的例子就是腾讯想通过微信小程序来躲过苹果商城的苹果税,结果被苹果起诉;当然中国可以没有苹果,但不能没有微信(支付、社交、出行等等的完全生态),唯一软件打得过硬件的反例。
苹果公司在2017年推出的应用服务条款,通过虚拟货币的打赏,应当被视为应用内购买,苹果将从中提取30%的分成,而且必须走苹果支付渠道。所以大家知道为什么国内女主播要求苹果手机用户打赏要走微信小程序打赏or其他非苹硬件了吧。还有ios的游戏充值也比正常渠道贵。
这也是为什么谷歌还自己做了手机等硬件,还有meta扎克伯格疯狂炒元宇宙,想用vr、眼镜等穿戴式设备其他硬件范式推翻移动互联网时代的手机生态,由于光学成像等等原因,很可惜还有很大的距离。
AI Infra产业链
以下对 AI 工作流总体可以拆解成四个垂直模块:数据准备,模型训练,模型部署和产品整合。
LLM流行前,AI模型通用性较低,项目落地停留在“手工作坊”阶段,流程难以统一规范。人工智能已有数十年的发展历史,尤其是2006年以来以深度学习为代表的训练方法的成熟推动第三波发展浪潮。然而,由于传统的机器学习模型没有泛化能力,大部分AI应用落地以定制化项目的形式,包括需求、数据、算法设计、训练评估、部署和运维等阶段,其中,数据和训练评估阶段往往需要多次循环,较难形成一套标准化的端到端的流程和解决方案,也由此造成了边际成本高、重复造轮子等问题【56】。
大规模预训练模型完成了“从0到1”的技术统一,泛化能力和通用性释放出“从1到100”的落地需求,且存在相对标准化的流程,衍生出AI Infra投资机会。
总而言之,就是算法的变化导致了infra层的变化:有的工作流不需要了,也有新的工作流,且流程相对标准。
数据准备
数据标注
作用:标注机器学习输入 (X, y) 中的 y 部分,在一部分目标变量 y 缺失的业务场景为 AI 模型提供人类先验知识的输入。作为上一代 AI 兴起时最旺盛的需求,在计算视觉领域使用场景相对较多【56】。
重要公司:国外:Scale AI(人工数据标注供应商),Snorkel(使用模型对数据进行合成 / 标注)。国内:海天瑞声等。
商业价值评价:低
LLM无需求,LLM 本身具有很强的自监督属性,输入的数据和输出的数据并不是标准的pair的状态。
由于OpenAI和LLAMA 2的RLHF(Reinforcement Learning from Human Feedback)强调高质量数据对模型训练结果影响的表述;且在训练模型中参与科学家人数和工时最多参与数据反馈。对原来低质量数据标注方法的颠覆,LLM模型不再使用标注数据,而使用人类少量的高质量的反馈。
按照meta 2023年训练llama2购买3万条高质量人类反馈*预计市场参与者10家*一年4次训练模型=2023年美国市场需要120万条,再*10美元的单价=最多1200万美元市场规模。
竞争形式预测:没有大的改变,业务变高端了,邀请专家来反馈,提高单价增值;价值较低,资源壁垒随时可破。大模型公司自己都可以做,没必要外包。
特征仓库
作用:管理机器学习输入 (X, y) 中的 X 部分,离线特征工程,在训练时更灵活地调整需要使用的特征组合和加工方式;在线实时预测,将线上的数据流灵活地提供给 model serving;和线上数据监控,保障模型使用的数据分布与质量的安全性【56】。
在 LLM 大语言模型的场景下,训练和推理数据不以这种形式进行组织,故 Feature Store 在 LLMOps 下没有使用前景。
合成数据
作用:真实数据的补充。做真实数据的“平替”,用AIGC反哺AI。一项来自Epoch AI Research团队的研究预测存量的高质量语言数据将在2026年耗尽,低质量的语言和图像数据存量也将在未来的数十年间枯竭。
面对潜在的数据瓶颈,合成数据即运用计算机模拟生成的人造数据,提供了一种成本低、具有多样性、规避了潜在隐私安全风险的解决方法,生成式AI的逐渐成熟进一步提供技术支撑。
比如,自然语言修改图片的Instruct-Pix2Pix模型在训练的时候就用到GPT3和Stable Diffusion来合成需要的提示词和图像的配对数据集;Amazon也利用合成数据来训练智能助手Alexa,以避免用户隐私问题。合成数据市场参与者较多,独立公司/项目如gretel、MOSTLY AI、datagen、hazy等,数据标注厂商如Scale亦推出相关产品,此外主流科技公司英伟达、微软、亚马逊等均有不同场景的尝试。
图:Instruct-Pix2Pix借助GPT-3、Stable Diffusion生成指令-图像训练数据集
商业价值评价:中
那么在LLM里,合成数据真的有效嘛?答案是否定的,合成数据提取了样本的特征,并进行相似性的替换,特征仍然无变化;且数据本身会和真实数据混合,导致真实的数据特征漂移,噪声变多,大模型过拟合。
但在以强化学习和模仿学习为主自动驾驶算法领域一级具身领域(神经网络端到端的FSD),算法无法覆盖到未曾见过的场景--强化学习的缺点,也就是所谓的coner case,这时候使用合成数据,在仿真平台中训练模型,确实可以提升其在coner case的性能,但仍然有限。
目前英伟达的sim saac等平台也可以做到仿真生成环境,解决coner case的市场规模较小再加上汽车企业的账期较长8-12个月,所以商业价值较中。
国内公司有光轮智能、智平方、Hillbot和银河通用。
查询工具&数据科学工具及平台
作用:广义的数据科学涵盖利用各类工具、算法理解数据蕴藏含义的全过程,机器学习可以视为其中的一种方式和手段;狭义的数据科学也可以仅指代机器学习的前置步骤,包括准备、预处理数据并进行探索性分析等【56】。
一般在开源框架上自研,无商业价值。
模型训练
模型库
作用:机器学习届的 Github,以更 AI-native 的方式组织 AI 开源社区,为 AI 研发提供安卓式的环境【56】。
重要公司:典型代表厂商包括海外的Hugging Face、Replicate,国内关注Gitee(开源中国推出的代码托管平台)和ModelScope(阿里达摩院推出的AI开源模型社区)OpenCSG等项目。
商业价值评价:低
占据着数据科学工作流的入口位置,用户数量较大;但其开源属性增大了其商业化难度,目前变现手段不多。
传统 ML 模型规模小,训练成本低,基本不依赖 Model Hub;大语言模型场景下许多科学家和工程师通过 Model Hub 调用开源的预训练模型和参数,来减少自己从头训练和定制化模型的成本。
小客户开发demo的场景更多!但做自己的模型肯定是脱离模型库的,可以理解为交流模型的论坛。已有龙头,且商业化机会对于专业开发客户小,仅作为营销平台(广告盈利)和做demo。
大模型训练框架
作用:AI 模型训练与推理的核心框架,使模型能够高效的实现计算。以深度学习框架为例,其内嵌实现了以下事情:可以绕开手写 CUDA 代码,直接简单地使用 GPU 搭建模型。这使得深度学习框架门槛变低很多,只需要定义神经网络的结构与损失函数,即可跑通一个基本的模型。可以理解为深度学习的开发软件。
重要产品:Tensorflow (Google), PyTorch (Meta), Jax。
Tensorflow 先发优势明显,早期占据了业界的主流。但其版本管理做得不好,易用性也略逊于 PyTorch,在学界被 PyTorch 后发超越。目前在业界使用 PyTorch 的公司也在变多,但由于迁移成本高,Tensorflow 也有一定公司在使用,况且 Tensorflow 是使用谷歌开发的 TPU 的主要选择。Paddlepaddle(百度)、Mindspore(华为)。大公司掌握,为其深度学习的生态之一,免费使用。
商业潜力:低
尽管这一领域没有显著的商业潜力,但还是在这里介绍一下这类框架,因为这是当前所有 AI 模型的基石,有着很强的生态意义。
训练和推理阶段的计算优化
作用:通过芯片层面或者算法层面优化开发成本和推理计算成本
由于LLM的算法的改变,所有之前的优化办法基本失效。在这里对LLM算法和计算机体系的全面的洞悉是稀缺性的,具有非常高的壁垒(又有大规模语言模型的训练经验,又有对计算机底层系统-存储、计算等的了解的人非常少)。
同时,降低模型的训练和推理成本,是大模型企业竞争的重点,目前价格和成本昂贵是导致大模型没有被大规模使用的头号问题;不管是大模型公司,还是使用大模型的公司付费意愿强,客户覆盖众多。
市场规模上来说:训练和推理的计算成本是大模型企业的最高占比成本。且推理优化的上限要比训练优化的上限更高,具体数字已在算力层表述。无论是采取订阅制还是API的盈利形式,市场规模都将是百亿甚至千亿美金的级别。
商业潜力:极高
目前主要是两种技术路线进行优化:两种一种是硬件层面的优化,一种是直接在AI算法上优化。但国内企业仍需要突破一体机的商业模式。
目前国内硬件优化的公司为主,并且率先商业化,但在在硬件层面上,技术可创造的 margin(提升空间)不大了。比如硬件利用率,理论上最高是 60% 多,现在大家用英伟达的系统和软件已能做到 40%~50%,可提高的空间就是百分之十几。并且GPU优化技术面临着严重的同质化问题,各厂商之间的性能差异并不显著。
潞晨科技:
潞晨的产品重点在于训练与推理一体化解决方案,尤其侧重于训练领域,在推理技术路线上,潞晨仍然主要集中在GPU优化方面。
硅基流动:
硅基流动专注于MaaS模式,通过云端向用户提供Token服务。这一模式要求其具备广泛的模型兼容能力,以支持多种不同的模型和技术手段,并结合云计算管理等一系列增值服务。
清昴智能:
清昴团队源自清华大学计算机系媒体与网络实验室,专注于构建模型部署平台,在底层不同GPU芯片的适配及模型部署服务方面积累了丰富的工程实践经验。团队最近主要集中于与部署相关的MLOps算子以及对国产芯片兼容支持的算子开发。
无问芯穹:
无问团队主要成员来源于清华大学电子工程系。在技术路线的选择上,该团队主要聚焦于GPU利用率和通信的优化以及计算机集成系统优化。
总体而言,纯粹依赖于GPU优化的技术方案面临严重的同质化挑战,现有的开源框架已经达到了较高的性能,使得各厂商在性能表现上的差异化优势不再显著。
算法上优化的是没有上限的,潜力最高。
以存换算的推理算法优化+全系统协同优化的趋境科技是该行业的黑马:由清华系MADsys高性能计算机实验室团队组成。
利用推理阶段的KVcache缓存,存储多次提问的相似的问题和答案,避免重复计算,特别是未来的CoT的长推理场景,需要重复推理,成本可以直线下降。
趋境科技创新性地设计了“融合推理(Fusion Attention)”思路来利用存储空间,即便是面对全新的问题也可以从历史相关信息中提取可复用的部分内容,与现场信息进行在线融合计算。这一技术显著提升了可复用的历史计算结果,进而降低了计算量。
尤其在RAG场景中,“以存换算”能够降低把响应延迟降低20倍,性能提升10倍。
在此基础上,趋境科技首创的“全系统异构协同”架构设计也成为重要技术支撑。该架构是首个允许在单GPU卡上支持1Million超长上下文的推理框架,以及首个单GPU上运行2000亿参数MoE超大模型等等。
目前,趋境科技已联合清华大学一起将异构协同推理框架的个人版,名为KTransformers的框架在GitHub开源,并在Hugging Face等开源社区引起广泛关注和讨论。行业合作伙伴也对此兴趣颇高,已有多家知名大模型公司主动抛出橄榄枝,与其共同发起大模型推理相关的项目建设。
模型部署
模型安全和监控
作用:保障线上模型可用性和可观测性,实时保持对模型输出结果和指标的监控。未来会是模型可解释性和安全的重要领域【56】。
重要公司:Fiddler, Arize, Arthur, Whylab。
商业价值评价:目前低
LLMOps 需求:增加,LLM 语境下的 AI 安全将成为重要命题。
LLM 大语言模型的性质比传统 ML 模型更为复杂,有包括 Prompt Engineering 等激活和微调方法存在。为了保障安全性和可解释性,随着 LLM 在软件中的深入落地,对模型的监控和后续管理会有着更高的要求。目前已经有新型公司,如 HumanLoop 在专注这个领域,之前的公司中 Whylab 也在做相应的尝试。
目前,大模型公司本身并不注重安全性,还是在追求性能上,安全问题是否会被大模型公司外包?目前以RLHF为主要对齐手段上,确实不需要外部公司参与模型微调。
模型部署和Serving
作用:模型部署是指把训练好的模型在特定环境中运行的过程。过程中需要最大化资源利用效率,且保证模型部署上线后在用户使用时有优异的性能。出色的部署工具能够解决模型框架兼容性差和模型运行速度慢这两大问题。具体使用场景可以参考下图:
重要公司:BentoML, OctoML【56】。
LLMOps 需求:增加
商业价值评价:目前低
基于 AI 的应用和产品会越来越多,优秀的模型部署能降低模型的推理成本并提高性能,模型部署和 serving 会在 LLMOps 重要的需求,且可能会衍生出模型剪枝、蒸馏等能压缩模型冗余的部署 serving 需求。但都是大模型公司本身在做。
二次开发
开发者工具
作用:为开发出agent工具,提供调用各种细分工具的平台,产出智力成果。
Agent作为最终的LLM产品形态,属于大模型的智能能力的关键一部分,一定会研发,且难度非常小。一方面LLM会将开发者和c端的流量卡在自己平台上,一定会提供不同程度的自定义开发平台(GPT2023年末已经推出agent开发工具商店以及GPTs:无代码的agent应用开发)。
商业价值取决于大模型公司是否会向后整合。
目前有两种商业模式:
1 提供开发工具的开发者平台
国内(Fabarta),模型开发者工具Langchain,Together AI。
2 无代码的agent开发
公司有CoLingo、AutoAgents.ai、Babel、Dify.AI。
向量数据库
作用:非结构化数据库,储存的数据形式为向量 embedding,在推荐系统、搜索引擎、异常检测、LLM、多模态等场景下都是数据输出、搜索、召回的重要形态【56】。
重要公司:Pinecone, Zilliz;国内英飞流/InfiniFlow等
LLM需求:增加,但商业潜力:较低
在 LLM 语境下,向量搜索和查询会在软件中扮演更重要的作用,而向量数据库则会成为这一方向中最重要的基础设施之一。
首先,向量数据库比较核心的技术就是索引(FLAT、HNSW、IVF)、相似度计算(余弦相似)、Embedding(将各种信息转化成向量,降低信息复杂性);这些技术在大模型火之前就有了,时至今日本质上没有显著变化。
其次,赛道进入门槛比较低。无论是大模型提供方,还是传统数据库厂商都可以转型进入这部分业务;这也就导致竞争会变得非常激烈。对于初创型公司来说,无论是拼财力还是拼客户都完全没有优势。
由于其降低成本和实现关键agent检索能力,模型大厂还有云计算厂商主动纳入其能力。
七、大模型层
大模型层,无论海外还是中国,竞争格局非常统一的都是初创公司和互联网企业。
开源 vs 闭源
在生成式 AI 向前推进的过程中,围墙花园依然存在。OpenAI 并不 open 地仅开放商业化付费 API 作为 GPT-3 的使用方式,谷歌的大模型也并未开源。
下图展示了开源社区追赶 AI 模型的时间线,可以看到技术追赶速度正在逐渐变快。那么这个趋势是否会持续呢?如果差距持续缩小或较为稳定,AI 模型开发可能成为 iOS vs 安卓的格局;而还有另一种可能,则是差距逐渐放大,AI 研究所专业化地研发大模型,开源团队主要做中小模型的工作。这一判断的关键因素,会是各团队对 GPT 模仿与超越的进度。
但总归而言:闭源比开源好!且公司一旦做出效果,也会闭源!
大公司采取完全闭源或者部分开源的方式(META开源-为了集中智慧,更好的优化模型;但是训练数据并不开放和输出限制,并不符合最新的开源标准)
1 闭源有数据飞轮,将模型训练的更好
2 开源的盈利模式,只能提供非标准的开发服务,没有规模效应
3 开源发展慢于闭源,但商业化的竞争已然开始,以开源模型为基础的软件,性能和商业化落后
4 软件类的历史,都是开源先,再做闭源产品,天下没有免费的午餐
开源没有但使用者多,生态建立快,使用者还可根据业务需求自行增减功能或进行模型迭代,但是企业开发成本过高,无法及时收回成本,后面只能做为他人开发模型的工作,不具备规模经济优势,注定盈利模式走不通,但可以做营销。
对于下游的应用层开发者来说:
模型选择的问题,企业可以先用好的开源模型开发,再等待闭源模型技术发展突破(也可以同时开发,比较效果),再跟上(大模型层公司一定会提供标准化的工具)。
LLM
LLM的大模型公司是行业里主导玩家,整个产业都会由于该行业的竞争行为而变化。
从公开测试来看,中国大模型与国外模型仍有不小的差距。不过在scaling law的边际效应减小的情况下,仍然可以在最多1年内追上。
海外
直接网站MAU数据说话,Chatgpt和借用OpenAI技术的微软的Bing断崖领先。还有app数据,考虑到大家使用都是通过网站入口进入,app的数据影响较少。
海外的商业化和技术进展整体快于国内市场,有非常好的借鉴意义。
具有绝对优势地位!利用技术优势的时间差,正在快速商业化和防守!
团队:掏空硅谷人才的顶尖公司,但是由于众所周知的不再“open”和改变企业性质为盈利组织后,一次团队“政变后”,关键科学家伊利亚以及安全团队的出走,企业后续的顶层技术设计能力堪忧。CEO奥特曼是美国孵化器YC(国内奇绩创坛的前身)的总裁。
事实上,近期OpenAI的人事变动颇为频繁,大量关键科研人才流动。此前在今年5月,OpenAI超级对齐团队负责人Jan Leike以及联合创始人、前首席科学家Ilya Sutskever在同一天宣布离职。此外有消息显示,OpenAI另一位联合创始人Andrej Karpathy也已在今年2月离职,并且去年加入该公司的产品负责人Peter Deng也已离职。
随后在8月初,OpenAI联合创始人John Schulman宣布离职,并表示将加入AI初创公司Anthropic。彼时OpenAI公司发言人曾透露,总裁Greg Brockman将休假至今年年底,并且Greg Brockman本人表示这是其自9年前创立OpenAI以来第一次放松。
今年9月OpenAI首席技术官Mira Murati也宣布离职,并表示,“经过深思熟虑,我做出了离开OpenAI这一艰难决定。离开这个深爱的地方从来没有一个理想的时间,但感觉此刻就是最好的选择”。
本月初OpenAI旗下Sora AI视频生成项目负责人Tim Brooks宣布离职,加入OpenAI的主要竞争对手谷歌DeepMind。近日,OpenAI高级研发人员、OpenAI o1推理模型负责人Luke Metz宣布即将从OpenAI离职。
目前OpenAI的招聘重点已经从基础研究转向产品开发和应用领域。
战略方向:根据开发者大会,可以确认OpenAI重点将在继续开发多模态大模型(寻找下一代的Scaling Law以及Cot等等)和寻找商业化(1为基于gpt的开发者提供全栈的开发工具和方案--免代码的GPTs和Assitant 2运营应用软件的平台-Store 3To C的搜索引擎以及Canvas工作台);向后向前整合关键能力。特别是C端,OpenAI一定会去尝试去做大市场的生意。
To C类(获取流量):提供Chatgpt,GPTs agent和GPT-store,奥特曼长期如果想要推翻谷歌,成为新的检索入口,必须要找到新商业模式和生态!(特别是找到和广告商收费,但又不破坏C端客户使用体验的商业模式)。
OpenAI确实在产品化上有所不足,目前OpenAI的招聘重点已经从基础研究转向产品开发和应用领域。此前在2021年,该公司发布的招聘职位中有23%属于一般研究类职位,但在2024年这个比例已降至4.4%。
对于B端(ISV生态工具栈):短期内参考苹果生态(广泛吸引开发团队入住),市场上对C产品收取高额月费享受ai服务,可以短期收钱,但是目前来看大模型竞争随时赶上,赚钱的服务也将会被垂类公司赚走,如何获取和留存大流量;提供统一模型微调和训练工具。为了应对谷歌等大公司整体生态的竞争,必须要走出商业差异化!
与互联网大厂合作:微软占有49%的股份,引用至自己的终端(copolit agent--LLM版搜索引擎救活了微软无人问津的浏览器edge--两年内从8%的市场份额提升至15%!直接挑战谷歌chrome),同时也投资了另一家大模型公司,大公司都会使用大模型来对其企业产品进行agent化和云服务的协同工作!微软同时投资mistral和引入inflection ai的ceo,说明对OpenAI的掌控不强,所以才做的多手准备。BTW,微软云计算的azure上的GPT的api费用要低于OpenAI官网的价格。
对于OpenAI来说,一方面的投资有算力的加成,快速训练,一方面微软也对奥特曼的支持导致了伊利亚想把奥特曼踢出团队的失败。另外根据协议,OpenAI一旦开发出AGI(第五级-AI可以完成一个组织的工作),微软就将失去OpenAI的技术。
总而言之,OpenAI拿算力、数据;微软拿到OpenAI的技术作出产品,赋能业务。
创始人达里奥是一个技术天才,在OpenAI的5年间,他先后带领团队开发了OpenAI的早期产品GPT-2和GPT-3,成为首批记录人工智能规模定律和规模化的技术大牛。
正是这段经历,达里奥逐渐意识到AI可能比想象中强大,它带来的安全问题也比想象中更严峻,然而,OpenAI似乎并不能解决他的顾虑。2020年6月,GPT-3问世,半年后他与妹妹丹妮拉决定一同辞职。
OpenAI核心团队出来创业,Anthropic 已经和 亚马逊、Google、Salesforce 达成了战略合作,使用 Google 提供的云服务,并且集成到 Slack 中;Anthropic也表示会进一步扩大与AWS的合作,提出将“从芯片到软件的技术基础,共同推动下一代人工智能研究和开发。”其中就包括合作开发AI芯片,以及AWS业务的进一步渗透。
Anthropic 的成功源于其独特的技术路线和商业策略。首先,Claude 3.5 Sonnet 模型在性能上实现了质的飞跃。根据 Anthropic 官方的数据,该模型在研究生水平推理能力(GPQA)、本科水平知识(MMLU)和编码能力(HumanEval)等多个基准测试中均表现出色,甚至超越了其前身 Claude 3 Opus。
基于Anthropic发布了一项革命性的技术——模型上下文协议(Model Context Protocol,MCP)目标是实现LLM应用程序与外部数据源和工具之间的无缝集成。
因为允许LLM访问和利用外部资源,它的功能性和实用性都会大大增强。解决LLM数据孤岛的问题。使得开发者更容易开发自己的产品。
无论是构建AI驱动的IDE、聊天界面,还是创建自定义的AI工作流,MCP都提供了一种标准化的方式,来连接LLM与它们所需的上下文。
Claude 3.5 Sonnet 引入了革命性的"计算机使用"功能。这项功能允许 AI 模型像人类一样与计算机图形用户界面交互,包括解释屏幕图像、移动鼠标指针、点击按钮,甚至通过虚拟键盘输入文本。这种创新大大拓展了 AI 的应用范围,为企业用户提供了前所未有的灵活性。
此外,Anthropic 还推出了"Artifacts"功能,允许用户直接在聊天界面中与模型输出进行交互和操作。这不仅提高了生产效率,还促进了人机协作的创新。
Anthropic 的成功也得益于其在安全性和道德方面的重视。公司率先提出了"宪法 AI"的概念,为其 AI 模型制定了一套道德准则和行为指南。这种做法不仅赢得了用户的信任,也为整个行业树立了标杆。模型与人类道德强对齐。
Mistral AI成立于法国和2023年4月,由DeepMind和Meta的前科学家共同组建,专注于开源模型及企业级服务。公司成立之初,就获得了英伟达、微软和Salesforce等科技巨头的投资。Mistral AI被视为OpenAI在欧洲的主要竞争对手,据该公司介绍,其开源模型Mixtral 8x22B是市面上参数规模第二大的开源模型,仅次于马斯克的Grok-1。
不过,在与科技巨头的竞争中,Mistral AI面临很大的挑战。今年前三个月,Meta、Google和微软在数据中心建设和其他基础设施的投资总额超过了320亿美元。不过,Mistral AI已与微软建立了长期合作伙伴关系,利用Azure AI的超级计算基础设施训练模型,并共同为客户提供Mistral AI的模型服务。
还有meta、谷歌、亚马逊、推特等自研的模型!谷歌的Gemini和meta的Llama模型,性能都非常不错。且有流量的优势,agent产品化后搭载在自己硬件如谷歌手机,软件如Meta的app上。
在基础的算力和数据上,初创公司远远不如互联网企业,唯独在算法层面,或者更具体的说:AI算法认知领先,在智能工程上(数据、计算机系统)有一定的开发领先知识和经验。预计和大厂们有个最多8个月的技术优势。然而在scaling law大概率失效下,这个时间将会被快速拉短。
本身大厂们就是算法领域知识产出的主要来源(推荐算法、cv都是互联网厂商的深度学习的拿手好戏,适应新算法很快),本身的transformer算法也是由谷歌提出,且互联网大厂的业务就是cash cow,不缺利润,后期追上很快。只是现在为了市场的竞争,快速合作,ai化产品赋能业务增长,实际上都在自己做模型。
在这种博弈下,初创公司只能不断创造壁垒,保持技术上的领先的同时,找到一条可以挑战互联网企业的商业化路径(至少这里还有无限的可能),否则会被互联网初期免费的策略竞争(基本上互联网企业的模型都免费,或者api价格远低于初创企业,Llama都直接开源的)。所以初创企业和终端应用层的界限将会十分模糊,大模型企业除了提供MAAS的api等服务外,也会提供丰富的产品给到用户。
如果无法成功商业化,那么初创企业基本上就会和上一时代的CV公司一样:商汤、旷世依靠给互联网大厂卖人脸识别api起家,技术成熟后,同质化竞争,单次识别人脸的单价从几毛钱直接降到几厘钱,甚至更低;然后开始寻找二次增长曲线,各种行业(自动驾驶、医疗、to c等等),搞渠道,做非标总包定制化,毛利下降。。。。。
总而言之,初创企业必须找到自己的有壁垒的盈利池,特别是to c领域作为大头,拿到互联网算力和投资后,把握好关系避免过于深入参与业务,要充满想象力和勇敢挑战互联网大厂的业务,否则到头来就是个大厂外包研发团队,有业务能量和技术的等待并购or直接下牌桌。
那么这次的LLM浪潮到底是互联网大厂们的流量竞争的延续还是新时代的降临呢?
国内
智谱ai:同时投资生数科技(美术类)和幂律智能(法律类),补充能力和应用层,商业化最成熟,主要面向to b;有语音、文本和图像,有开发平台;智谱 AI 已拥有超2000家生态合作伙伴、超1000个大模型规模化应用,另有200多家企业跟智谱AI进行了深度共创。
近期,在11月末智谱推出自己手机版的AutoGLM之前--可用语言操控手机的agent(LUI),下面应用层,会详细讲述,他的股东蚂蚁集团的著名app-支付宝,在9月份早早就推出了“支小宝”,人们可以和他对话,在支付宝上进行订外卖、订机票等等操作。
月之暗面:to c(主要定位)商业化最好:Kimi智能助手在2024年1月的访问量达142万,在大模型创业公司的“AI ChatBots”产品中居于首位,月环比增长率为94.1%,增长速度也在大模型创业公司中排名第一;技术优势,250ktokens的长文本输入,主打无损记忆;但只有文字,to c入手;最近又有了CoT能力,数字推理能力加强不少。
上述榜单为app使用榜单,非网页版,更符合大家对模型和应用层使用的市场认知。豆包的使用是断崖式的,和自己app业务的赋能,飞书等app内置豆包免费使用,加上宣发和教育板块的扩张。
字节的豆包、360、华为、百度、阿里、美团等等都在出自己的模型。这里面字节和360做的商业化和模型成果结合的不错,流量好。这里要说一句,幻方的deepssek模型通过优化注意力机制和量化的大量GPU(除了字节外,最大的英伟达算力方了),获得了非常好的效果,性能位居世界前列,但不商业化,不赚钱,只开源模型,模型的竞争实在过于强烈。
国内国外的竞争态势几乎一样。不再赘述。
八、应用层——软件
AI应用软件综述
目前应用层的问题在于,大家都是尝试在用,后续使用次数不多,无法利用好大模型的特性与需求贴合。
所以应用层的成功的关键是基于场景的深度理解,做出复用率高的产品!所以MAU、复购率等为关键指标。还是得回到应用场景的关键词:
刚需 长期 高频
应用层公司的模型选择路径
1 利用已有的闭源大模型用自己的数据微调模型:(但要找到合适的盈利模式,抵消流量费用)
训练费用和调用费用:OpenAI对训练和api调用收费。这通常基于使用的计算资源量和使用的模型。
2 自研
3 开源大模型再训练
基本上应用层的公司还是微调模型,不自研,也就是所谓的“套壳”,所以他们的壁垒就在于对场景和LLM的理解从而开发出PMF的产品,而技术层面上来说,所有套壳公司要做的事情就是提示词工程-通过LLM偏好的语言习惯,引导LLM最优化的输出结果。
To B & To G--企业服务
海外龙头公司:Saleforce、SAP、Zoom、Adobe、云服务公司等
国内:钉钉、企业微信、飞书、金蝶、用友等
针对大模型的已有的创造和归纳推理能力,可以部分替代美术创意、文字推理归纳。
(一)信息管理类
大型企业如 Salesforce、SAP 和 Workday 也推出自己的 AI Agent 产品。其中,Sales Agent 是目前 AI Agent 主要落地和商业化场景之一。硅谷 VC 围绕 Sales Agent 概念投资了很多 club deal,如完成了 5000 万美元的 B 轮融资,估值 3.5 亿美元的 AI SDR (Sales Development Representative,销售开发代表) 11X,Greenoaks Capital 领投新一轮的 Sierra 估值也达到了 40 亿美金【57】。
与此同时,Agent 公司从按 seats 数量收费的 SaaS 定价模式转向基于结果定价,带来了更大的市场空间和想象力。
目前的 Sales Agent Startup 大多专注于替代或优化销售流程中的某些环节。
客服市场从上世纪 50 年代发展到今天,主要经历了四个阶段【58】:
传统电话客服(2000 年以前)—多渠道客服(2000 年-2010 年)—云客服(2010 年-2015 年)—AI 客服(2015年至今)。但是即使发展到今天,客服市场竞争格局仍然十分分散。在 LLM 之前,AI 客服依赖于自然语言理解(NLU) 和机器学习,不同的行业需要不同的语料库,客服公司通常仅能在一至两个垂直行业做深,难Scale。
第四阶段的 AI 客服也叫 “对话式 AI(Conversational AI)”,国际主要玩家包括 Kore.ai、Amelia 等。
早期基于 Rule-Base 的 Chatbot 对答是可控、可预测、可重复的,但对话缺乏“人情味”,并且通常不保留已发生的响应,存在重复和循环对话的风险。传统 Chatbot 架构和工具非常成熟,主要包括四个部分:NLU 自然语言理解,对话流程管理(对话流和响应消息,基于固定和硬编码逻辑)、信息抽象(预定每个对话的机器人响应)、知识库检索(知识库和语义相似性搜索)。传统 Chatbot 唯一基于机器学习和 AI 模型的组件是 NLU 组件,负责根据模型预测意图和实体。这种 NLU 引擎的优点是:有众多开源模型、占用空间小/无需过多资源、存在大量的命名实体语料库、有大量垂直行业的数据。后来的 Chatbot 采用更复杂的算法,包括自然语言处理(NLP)和机器学习,来提供动态和上下文相关的交互,从而解决早期基于模板的方法的缺点。
Chatbot 发展到后期出现了 Voicebot。Voicebot 的基本方程式是:Voicebot = ASR(Automatic Speech Recognition) + Chatbot + TTS(Text To Speech)。这些变化增加了复杂性,提供更好的对话效果、更长的对话时间和更多的对话轮次,以及更复杂的对话元素(如自我纠正、背景噪音等)。然而,Voicebot 出现的同时也带来了一系列挑战:有延迟问题、需要更复杂的流程、需要加翻译层、容易出现对话离题、用户打断对话难以解决等。
因此,开发者依然在渴望一个灵活且真正智能的对话管理系统。LLM 的出现从开发到运行都颠覆了 Chatbot IDE 生态系统:不仅加速了 Chatbot 的开发设计,大大提高了Scalability;而且在对话运行中可以实现上下文交互、灵活且智能的回复。但缺点是稳定性、可预测性较差,以及在某种程度上的可重复性弱。
根据销售工作流,可以将 AI 客服分为几类:
1)营销类外呼:售前场景因为对于模型的理解和智能能力要求较低,是目前比较好的落地场景。Voice agent可以带来更自然的对话体验,同时能够结合分析历史通话数据,实现营销转化的提高。如果遇到太难的问题,LLM 也可以检测后发给普通的客服。
2)销售中:目前LLM还比较少的被应用到直面leads,因为受能力限制,失败了损失过大。但被充分应用于客服培训中,一方面节省了因为电销频繁离职导致的过多培训时间成本;另一方面可以做到知识库实时对齐,成为电销的语音 copilot。
3)投诉/售后服务、客户回访(占比50%):AI 可以帮助客服收集客户投诉,解决简单的售后服务问题(不一定要使用LLM)。同时可以进行大规模的客户回访,也开始被企业广泛的采用。
根据 Morgan Stanley 的报告,目前全球大约有 1700 万名客服代理人员,代表着大约 2000 亿美元的全球劳动力市场。随着多渠道协调响应的需求增加(例如电子邮件、社交媒体、聊天),这个市场从传统的客服中心向云服务转型。根据 Morgan Stanley 估计,目前高达 50 % 的客服互动都属于简单直接的类型(例如密码重置、包裹查询、需要退货),随着 AI 解决方案的改进,这些互动未来可能不需要人工客服的参与。但是考虑到客户强烈希望与真人客服交谈的偏好,在保守情况下,未来 5 年内,可由 AI 处理的客服业务将占 10-20 %,并且这一比例预期将增长。因此,Morgan Stanley 认为在未来 5 年内,Contact Center 市场(包括 CCaaS 和 对话式 AI )2027 年市场规模可达约 260 亿美元。
Sales AI 领域非常Crowded,主要竞争对手可分为三大类:大型公司的销售自动化产品、同类 Gen AI 初创公司、以及上一代 AI 销售软件。
垂直行业的语料库和客户资源在客服 NLU 时代是玩家的竞争壁垒(数据、行业认知和客户资源),所以客户在选择供应商时更看重供应商在垂直行业的经验,因此截至目前 AI 客服市场格局仍然较分散。根据专家访谈,AI 客服市场未来很可能有 20-30 位玩家同时留在场上,重要玩家的收入体量大约可达到 10-30 亿美元。假设 LLM 落地成熟,考虑到 LLM 的通用性,市场格局有可能由分散变为更加集中,更利好头部公司。
众所周知的原因-中国市场的暂未接受订阅制导致软件公司无法像国外企业一样,获得高额的收入。但这也是商业进程问题,美国经历了软硬件一体机的IBM垄断,到Oracle等软硬分离的订阅制挑战,再到目前大模型的API-用多少买多少;每次盈利模式背后都是市场受够了被生产者垄断的剩余剥削,选择了更加平等的盈利模式;中国市场还需要时间。
所以即使收入增长很快,国内企业服务目前在融资低谷(大家更希望看到并购整合,只为活出资本寒冬)。但是原有的AI客服公司明显在新浪潮下,具有更大的先发优势:技术上-只需微调模型;但有大量的数据和场景理解;商业上有固定的渠道客户,新的盈利模式带来进行溢价的升级。期待商业模式的转折,重新将软件类估值抬回应有的水平。
真正到了落地阶段客户仍更多采用传统机器学习/NLP 的解决方案(客户有定制化和垂直行业解决方案的需求,LLM 对垂直行业的理解和准确性反而不如传统方案),需要限制LLM的幻觉。需要因此目前主要是成立年限较长、有一定行业经验和客户积累的传统公司受益。但传统方案基于关键词进行回答,灵活度较差,用户体验也不够真实,因此该情况有可能仅是过渡阶段。
国内公司有:句子互动、斑头雁、追一科技、百应科技、Stepone等
根据 ReportLinker 预测,2028 年,全球企业搜索市场规模将达到$6.9B,2022-2028年 CAGR 为 8.3%【59】。
供需:企业搜索产品的目标用户主要为知识工作者,企业客户覆盖大、中、小型公司,但以大型企业和中等规模公司为主,因为随着企业越来越庞大,积累的结构化、非结构化数据越来越多,员工与员工之间沟通也越来越低效,因此企业越大对企业搜索的需求就越大。
海外企业搜索大致经历了三个阶段:
1. 第一阶段是基于关键词的搜索,用户需要输入关键词或关键词组合进行搜索;
2. 第二阶段是基于语义的搜索,用户可以输入自然语言完成搜索,且搜索的相关性和准确性和第一阶段相比有很大提升。
前面两个阶段的共同特点是,均为用户输入关键词或自然语言,搜索引擎根据相关性对搜索结果进行排序,且搜索结果为网站;
3.第三阶段,也就是现在,搜索出现了新的玩法,ChatGPT 或 Bard 等搜索的结果不再是一条条网站,而是直接提供问题的答案。Glean 属于比较积极拥抱搜索行业的变化的玩家,技术上同时提供语义搜索和关键词搜索的能力,产品上同时提供答案生成和网页排序两种形式。
企业搜索的需求非常明显和稳定,因此该赛道一直比较拥挤,主要玩家包括微软、Google、Amazon、IBM、Oracle 等大型科技企业,以及专注做企业搜索的公司,如 Coveo、Lucidworks、Glean、Mindbreeze 等,这其中有像 Glean 这样新成立的公司,也有像 Coveo 这样已经成立十几年的公司。
与企业服务公司产品为互补品,可拆分,客户离不开原有的企业服务产品,且数据均在原公司,企业检索为增值服务,可短时间内自研。
客户:Glean 早期将科技公司视为目标客户,后来更聚焦于成长期科技公司,这些公司的员工数量通常是 500-2,000 人,公司处于高速发展之中,愿意尝试新事物且快速行动。
技术:Glean 利用多维方法将矢量搜索、传统关键字搜索和个性化结合到了一个混合搜索系统中,从而提高了搜索的相关性和准确性。
核心功能是搜索;亮点是个性化和跨应用。
商业价值:Glean 的跨应用搜索相当于在所有 SaaS 产品之上架了一层,用户不需要再逐一打开 SaaS 应用,在 Glean 上就可以查到企业数据,并完成部分高频工作;流量进入入口,并且还能直接有生产力,目前最多的还是员工入职场景(培养使用习惯!)。
商业模式:纯 to B 的模式,未向个人用户开放。Glean 通常为企业提供两种定价模型,一是 Per-Seat 的定价模型,每个 Seat 每月 100 美金以内;二是针对企业级解决方案的个性化定价模型。
竞争优势:1易用性(链接多个SaaS合作),冷启动快(3天)2搜索能力的数据飞轮,形成个性化 3员工的网络效应。
但是无法沉淀业务数据,数据都在SaaS,有搜索数据沉淀,提供企服的公司一般也提供(并购逻辑),国外使用SaaS较多,所以需要企业搜索来使其串联,不像国内统一化。
未来的期待:想办法有一定的数据沉淀,未来要成为中心平台,需要再多做一些高价值工作替代or形成行业工作流的替代,让使用者继续使用。
国内
主要是大模型层公司在做,一种是帮助企业员工进行企业内部知识搜索和总结-私有化部署(项目制,商业潜力弱);一种是ERP公司使用大模型进行搜索并进行SaaS调用。
关注数据获取留存以及如何商业化,是否考虑垂直行业工作流的agent化!泛化能力不强,先抓住垂直客户的高价值需求,先商业化。感觉业务有些迷茫,目前客服和数据预处理都有大量玩家参与,大的ERP公司例如金蝶、用友等可以尝试调用大模型复制Glean,完善自己的企业软件使用入口,进行优化,通过大模型调用各类SaaS。
国内ERP公司目前的超万级的ISV和生态完整的工具栈壁垒是模型层完全无法竞争的,大概率做个内部技术支持。
主要是数字人视频来代替面试(企业减少招聘投入并提供面试者之前机器面试的体验感)和新员工的入职培训视频。
数字人互动直播与录播有点类似,只是录播少了互动。在录播时会先把视频录制好,然后通过OBS推流,推到直播平台就可以了。如果需要互动流程时,要获取直播弹幕,判断弹幕是否满足回答条件,如果需要回答则生成答案,然后在走一遍视频制作流程,然后推流。
技术上无壁垒,商业上直播不允许用录制的视频,作用只能在短视频平台进行视频成本的下降。大厂都有在做。
目前对于可重复性多的视频生成场景,有较高的价值,例如网课、入职培训等教育和营销领域。看好出海,收入增长快的公司。特别是出海,详细分析请看下述的视频生成赛道。
初创公司代表:硅基智能、Fancytech、Heygen等,其他数字人中小公司也很多。
根据服务对象划分,Legal Tech 的种类可以分为 ToL 服务律师事务所、ToB 服务企业法务部门及 ToC 服务消费者。但值得注意的是,无论是 ToL 还是 ToB,企业才是最终付费方。即便产品的客户是律师事务所,由于律师事务所是为企业服务的,律师事务所会把 Legal Tech 工具转交给客户报销【60】。
LLM 出现前的法律 AI (以 NLP 为主)主要运用于合同管理,但这些工具以信息检索为主,很难对信息进行深度的处理与分析!
产品:
律所工作流:客户诉求的沟通与拆分、法律研究(法条检索和判例研究)、客户方案设计、合同、诉讼文书或其他法律文件的处理,以及其他涉及到法律适用问题的工作
模型层:
法律 LLM 创业公司主要直接接入 API 或 finetune 大模型,不同公司选择了不同的供应商,Harvey、CoCounsel、Spellbook 接了 GPT4,其中 Harvey 和 CoCounsel 2022 年下半年就获得了 GPT4 的优先使用权,Robin AI 则选择了与 Anthropic 的 Claude 合作;公司多采取多个模型组合去完成不同细分任务。
数据层:
不同公司能获得的优质数据不同,这对于 LLM 的表现会产生较大影响。CoCounsel 因具有 Casetext 多年的数据积累,并被汤森路透收购,可以使用其世界级法律内容库,在数据维度具有较大优势;Lexis AI 背靠 LexisNexis 也有类似的优势。而 Harvey、Robin AI 等新兴创业公司选择与头部律师事务所、四大审计公司绑定的方式获得优质训练数据。
看好有大模型训练能力、行业专业数据库、深入大客户工作流的切入团队是关键。
市场规模:
中国机会更大,2023年中国各类案件接受3200万件,400万件未处理,还有1400万调解(每年还以30%速度增长,这些都是强制未上升至受理案件的!中国法律服务能力缺口极大!),还有各类监管审查工作,ai的出现可以极大缓解公检法的极大压力!中国律师事务所4万家,每年增加2000家,中国约 57 万名律师。保底110 美元/月/人+超量使用+定制开发,目前市场规模60个亿元,且将会不断快速增长30%!
在中国to b法律领域有个重要问题就是,律师普遍工资不高,实现替换意愿不强,目前商业化进展缓慢。但需要持续关注。
笔者更关注庞大的C端市场!中国人需要一款专业的法律询问APP,依法治国的前提。
美国Harvey(openai投资),CoCounsel
中国:幂律智能(有数据、模型开发已完成)智普AI和北大的Chatlaw
需求:国家和行业合规要求--GDPR,PCI-DSS,HIPAA,SOC 2,避免罚款和停止运营;合规和审计成本高--大型企业完成SOC2审计的单次成本超过100万元;工作量巨大,只能通过抽查来减少工作量,跨多部门,工作协调困难,数据隐私保护缺失,通过海量数据的采集和分析做到高效证据获取,最终生成可支持审计目标的合规报告。大大降低合规的成本(预计提升效率40倍)--人工审查+审计;同行检举过多,罚钱多。
两大业务:审计(出海大公司)和数据合规(出海公司)
工作流:1理解当地法律法规 2梳理业务场景 3找到敏感违规业务流 4合理规避法律风险 5定期人工检查 6生成报告
市场测算:
数据合规(出海的中小型公司)
2027年,出海企业72万家,每年新增5万家,所有的涉及数据获取的企业都要符合当地规定,会遭同行举报,有天价罚款。假设渗透率20%,10万一年,中小型增量就有150亿人民币。大型公司将根据用量收款。
还有审计(出海大公司),想象空间大
发展趋势:IT合规自动化平台在国内尚无明显领先者--主要是法律新规,美国欧洲很成熟,中国刚刚起步,没有竞争对手,出海和国外上市公司需要。
(二)研发设计类
从技术来说,LLM+Diffusion的生成技术就是完美契合该类行业,甚至幻想本身就是一种创造力。从商业价值上来说,创造是最好的切入工作流的入口!先创造后修改!
在讲美术生成式的行业之前,笔者先讲下国外几家在做的事情以及思考,方便大家理解整体市场。
基于 Diffusion Model的Open model + Private Data,主要是针对B,G端的用户
战略:针对B端用户做模型的开发,支持开源为了证明技术、模型可控性和低成本技术外包!C端用户顺...