元创说

1993年网景浏览器的出现,让诞生于1970年代的互联网跃入眼前;2022年聊天机器人ChatGPT以语言交互的方式让AI触手可及。在前面的文章“”中提到:一项新技术刚出现时,初期应用通常是对传统行业降本增效,比如互联网的出现把纸质书变成电子书;随着新技术的普及,崭新的商业模式将会涌现,比如网民数量的攀升使UGC平台有了内生基础,先入局者通过 “网络效应”构筑壁垒。

当下AIGC新技术的出现,首先是会把已有场景重做一遍,比如我们看到的大厂马不停蹄地拥抱大模型,Copilot for X的现象;接着是基于AI原生的新场景、新平台,后者无疑是创业者能创造更大价值的部分。

由于切入的是下游应用层(相较上游算力层、中游模型层而言),创业者首先需要面临的问题是:应该选择闭源大模型进行API(Application Programming Interface)接入,还是开源大模型来fine tune(微调)或接入API呢?

希望这篇文章能为创业者带来启发。

目前,上游算力层、中游模型层已相对成熟,创业者可专注做下游应用开发。那么,摆在创业者面前首当其冲的问题是:模型底座的选择——开源or闭源?

其实这里要根据创业公司发展阶段来选择。如果处于前期做demo、MVP阶段,我们认为闭源大模型“性价比”更高,原因有三个:

  • 一是闭源模型相对更成熟、数据质量更有保障,比如最前沿的GPT-4便是闭源模型;

  • 二是可省去部署的麻烦,不用fine tune;

  • 三是费用更低,仅需支付token费用。比如ChatGPT API接入的模型——GPT 3.5-turbo收费标准是0.2美分/1K tokens;GPT-4接口价格是3美分 / 1K prompt tokens。

随着创业公司的发展,待MVP验证完成,把事情往深里做的时候,基于以下三个原因,通常选择开源大模型:

  • 一是如果把行业的know-how的数据输送给闭源大模型,存在数据泄露的风险;

  • 二是在闭源大模型上面无法进行fine tune、形成网络效应;

  • 三是用户量攀升之后,token费用水涨船高,会成为一笔不菲的费用。

01

头部大模型公司走向闭源,Closed AI?

虽然开源有助于技术迭代和生态构建,下游应用层呼唤开源,但头部AI算法厂商往往出于打造自身先进模型壁垒、构建技术护城河的商业考虑,逐步从开源走向闭源。以Opan AI为例,2018年发布的GPT-1完全对外开源;2019年发布GPT-2,分四次开源完整代码;2020年发布GPT-3,通过论文公开了技术细节,同时用户可通过调用API的方式使用模型资源,属于部分开源;而到了2022年11月推出GPT-3.5,官方没有发布论文披露细节,直到今年3月开放了API;最近的GPT-4,目前也仅处于开放API状态,技术细节不得而知。

下图:OpenAI的系列模型逐步向闭源发展

打开网易新闻 查看更多图片

来源:OpenAI官网、公开资料整理

在学术界广为引用的、由斯坦福大学计算机系研究团队发表的《Holistic Evaluation of Language Models》论文中,对国外30个主流语言模型在准确率、鲁棒性、公平性、推理等主要指标进行评测,发现:开源(Open)模型在大多数指标上表现弱于闭源(Close)或部分开源(Limited)的模型。“双管齐下”,这也不难理解为什么大模型公司(Google、微软等)几乎不采用开源的模式。

下图:多数非开源模型准确率高于已完全开源模型

打开网易新闻 查看更多图片

来源:《Holistic Evaluation of Language Models》(Percy Liang等)

除了维持技术优势外,AI厂商选择闭源的另一个原因在于商业考量。根据权威杂志《Fast Company》预测,OpenAI 2023年的收入将达到2亿美元,包括提供API数据接口服务、聊天机器人订阅服务费等。

类比手机时代Andriod开放系统与IOS封闭系统的争奇斗艳,在AI时代,开源大模型生态已是百花齐放,例如Google的T5、Meta的OPT等。

打开网易新闻 查看更多图片

其中,较为领先的开源模型——Meta旗下的LLaMA,具备高度的灵活性、可配置性和泛化能力,可作为垂类AI模型的通用基座。用户可在开源社区Hugging face中获取LLaMA的模型权重与训练代码,可自由下载并使用LLaMA模型,既可以将其部署至设备直接进行推理,也可以基于LLaMA进行研究与二次开发。

02

下游应用层厂商如何获取AI垂类模型?

前文从模型层比较了开源和闭源的区别,接下来从应用层角度探讨下,创业者获取垂类模型的方式。获取方式按照“从轻到重”排序,分别是:

  • 调用大模型厂商的API,但存在一旦token使用量达到一定量级的话价格不菲,API几乎纯毛利,这也是头部AI厂商选择闭源来获取盈利的原因之一。而且由于此种方式是在线部署,对网络稳定性要求也比较高。

  • 基于开源模型进行自主开发,和上述第一种调用API的方式相比,此种方式无需向大模型厂商分享数据,可规避数据泄露等风险,是性价比较高的选择。

  • 自行从头训练,此种方式对算力、数据等维度要求极高,且研发投入高,创业公司前期可借助融资,后期的话可提供定制化服务,商业模式类似SaaS。

先看第三种方式——从头训练一个通用大模型的方式,这里以LLaMA-65B为例。根据Meta官方发布的LLaMA论文中披露的数据:参数量最大的LLaMA-65B模型,使用2,048块A100-80GB的GPU,训练数据量1.4万亿tokens,耗时为21天;如果采取租用云计算方式来训练算法,按照Microsoft Azure以1.36美元/小时提供A100租用价计算,训练成本约140万美元。对创业公司而言,资金门槛较高。

如果选择第二种方式,下游厂商利用通用大模型进行迁移学习,最后再进行微调,以使得output符合人类偏好,这种方式需要多少钱?

以基于LLaMA-65B进行二次开发、训练拥有100亿tokens的行业数据的垂直大模型为例,如果采用租用云计算的方式,训练算力费用为:100/14000*140=1万美元。 如果下游厂商不使用上述的租用云 计算 方式,而是采用自有算力,前期算力集群初始投入费用会比较高(NVIDIA DGX A100每台售价约20万美元),但此时单大模型的成本仅包含平摊的硬件成本和能耗这两部分费用,训练成本可大幅降低。

最后介绍下微调阶段的费用问题。 由于训练量级一般为万级,算力成本几乎可忽略不计。

打开网易新闻 查看更多图片

来源:北京大学人工智能研究院公众号

比如加州大学伯克利分校的研究人员基于LLaMA进行微调推出的开源可商用模型OpenLLaMA,70亿和30亿参数版本均已完成1T tokens的训练,费用仅为几百美金。

再如斯坦福大学发布的模型Alpaca,是基于LLaMA-7B底座、使用5.2万指令、8块80GB的A100微调,耗时仅3小时,总成本还不到600美元,由于性能接近GPT 3.5,有“平替版GPT 3.5”之称。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

图片来源:Stanford University官网

当AI技术穿越计算机视觉、 AlphaGo 、L4 无人驾驶等早期市场进入到主流市场,一定会创造出巨大的价值。我们期待创业者在该领域的创新,也希望与一线创业者多交流,欢迎评论区留言。

参考资料:

  1. https://arxiv.org/abs/2303.18223(Wayne Xin Zhao等,2023)

  2. 《Holistic Evaluation of Language Models》(Percy Liang等)

  3. 《Scaling Laws for Neural Language Models》(Jared Kaplan等,2020)

  4. 《Alpaca: A Strong, Replicable Instruction-Following Model》(Rohan Taori等,2023)

元创资本(Innovator Capital)创立于 2017 年,专注于“人工智能、大数据等新科技赋能传统产业”领域的投资。创始人王浩先生是国内最资深的一线基金管理人之一,拥有20 年专业投资经验,见证了中国创投行业的整个发展周期。

元创资本秉持“投资中国原创,成就中国创业者”的理念,支持中国原创,投资有伟大格局和全球视野的优秀企业家,致力于成为中国卓越、值得信任且受人尊敬的投资机构。

元创资本管理团队均深耕产业和投资多年,分别来自国内一线专业投资机构、世界 500强及顶级咨询机构等兼具深厚产业背景、产业资源与多年投资经验,拥有多元化的投资视角和优异的历史业绩,形成了完整互补的管理团队。

元创资本创始人王浩先生及其管理团队投资的企业超过160家,其中超过30家企业成功实现IPO,近20家企业通过借壳或重组上市,成功案例包括:美团点评(03690.HK)、滴滴、Bilibili(NASDAQ:BILI)、孩子王(839843)、红蜻蜓(603116)、永贵电器(300351)、福达合金(603045)、高斯贝尔 (002848)、华韩整形(430335)、合全药业(432159)、摩贝(NASDAQ:MKD)、盘子女人坊、爱回收、松鼠Ai、小卫科技、源氏木语、乐秀科技、拜安传感等多个项目。

打开网易新闻 查看更多图片