闭源VS开源，创业公司如何选择适合的大模型？| 元创行研

元创说

1993年网景浏览器的出现，让诞生于1970年代的互联网跃入眼前；2022年聊天机器人ChatGPT以语言交互的方式让AI触手可及。在前面的文章“”中提到：一项新技术刚出现时，初期应用通常是对传统行业降本增效，比如互联网的出现把纸质书变成电子书；随着新技术的普及，崭新的商业模式将会涌现，比如网民数量的攀升使UGC平台有了内生基础，先入局者通过 “网络效应”构筑壁垒。

当下AIGC新技术的出现，首先是会把已有场景重做一遍，比如我们看到的大厂马不停蹄地拥抱大模型，Copilot for X的现象；接着是基于AI原生的新场景、新平台，后者无疑是创业者能创造更大价值的部分。

由于切入的是下游应用层（相较上游算力层、中游模型层而言），创业者首先需要面临的问题是：应该选择闭源大模型进行API（Application Programming Interface）接入，还是开源大模型来fine tune（微调）或接入API呢？

希望这篇文章能为创业者带来启发。

目前，上游算力层、中游模型层已相对成熟，创业者可专注做下游应用开发。那么，摆在创业者面前首当其冲的问题是：模型底座的选择——开源or闭源？

其实这里要根据创业公司发展阶段来选择。如果处于前期做demo、MVP阶段，我们认为闭源大模型“性价比”更高，原因有三个：

一是闭源模型相对更成熟、数据质量更有保障，比如最前沿的GPT-4便是闭源模型；
二是可省去部署的麻烦，不用fine tune；
三是费用更低，仅需支付token费用。比如ChatGPT API接入的模型——GPT 3.5-turbo收费标准是0.2美分/1K tokens；GPT-4接口价格是3美分 / 1K prompt tokens。

随着创业公司的发展，待MVP验证完成，把事情往深里做的时候，基于以下三个原因，通常选择开源大模型：

一是如果把行业的know-how的数据输送给闭源大模型，存在数据泄露的风险；
二是在闭源大模型上面无法进行fine tune、形成网络效应；
三是用户量攀升之后，token费用水涨船高，会成为一笔不菲的费用。

头部大模型公司走向闭源，Closed AI?

虽然开源有助于技术迭代和生态构建，下游应用层呼唤开源，但头部AI算法厂商往往出于打造自身先进模型壁垒、构建技术护城河的商业考虑，逐步从开源走向闭源。以Opan AI为例，2018年发布的GPT-1完全对外开源；2019年发布GPT-2，分四次开源完整代码；2020年发布GPT-3，通过论文公开了技术细节，同时用户可通过调用API的方式使用模型资源，属于部分开源；而到了2022年11月推出GPT-3.5，官方没有发布论文披露细节，直到今年3月开放了API；最近的GPT-4，目前也仅处于开放API状态，技术细节不得而知。

下图：OpenAI的系列模型逐步向闭源发展

来源：OpenAI官网、公开资料整理

在学术界广为引用的、由斯坦福大学计算机系研究团队发表的《Holistic Evaluation of Language Models》论文中，对国外30个主流语言模型在准确率、鲁棒性、公平性、推理等主要指标进行评测，发现：开源（Open）模型在大多数指标上表现弱于闭源（Close）或部分开源（Limited）的模型。“双管齐下”，这也不难理解为什么大模型公司（Google、微软等）几乎不采用开源的模式。

下图：多数非开源模型准确率高于已完全开源模型

来源：《Holistic Evaluation of Language Models》(Percy Liang等)

除了维持技术优势外，AI厂商选择闭源的另一个原因在于商业考量。根据权威杂志《Fast Company》预测，OpenAI 2023年的收入将达到2亿美元，包括提供API数据接口服务、聊天机器人订阅服务费等。

类比手机时代Andriod开放系统与IOS封闭系统的争奇斗艳，在AI时代，开源大模型生态已是百花齐放，例如Google的T5、Meta的OPT等。

其中，较为领先的开源模型——Meta旗下的LLaMA，具备高度的灵活性、可配置性和泛化能力，可作为垂类AI模型的通用基座。用户可在开源社区Hugging face中获取LLaMA的模型权重与训练代码，可自由下载并使用LLaMA模型，既可以将其部署至设备直接进行推理，也可以基于LLaMA进行研究与二次开发。

下游应用层厂商如何获取AI垂类模型？

前文从模型层比较了开源和闭源的区别，接下来从应用层角度探讨下，创业者获取垂类模型的方式。获取方式按照“从轻到重”排序，分别是：

调用大模型厂商的API，但存在一旦token使用量达到一定量级的话价格不菲，API几乎纯毛利，这也是头部AI厂商选择闭源来获取盈利的原因之一。而且由于此种方式是在线部署，对网络稳定性要求也比较高。
基于开源模型进行自主开发，和上述第一种调用API的方式相比，此种方式无需向大模型厂商分享数据，可规避数据泄露等风险，是性价比较高的选择。
自行从头训练，此种方式对算力、数据等维度要求极高，且研发投入高，创业公司前期可借助融资，后期的话可提供定制化服务，商业模式类似SaaS。

先看第三种方式——从头训练一个通用大模型的方式，这里以LLaMA-65B为例。根据Meta官方发布的LLaMA论文中披露的数据：参数量最大的LLaMA-65B模型，使用2,048块A100-80GB的GPU，训练数据量1.4万亿tokens，耗时为21天；如果采取租用云计算方式来训练算法，按照Microsoft Azure以1.36美元/小时提供A100租用价计算，训练成本约140万美元。对创业公司而言，资金门槛较高。

如果选择第二种方式，下游厂商利用通用大模型进行迁移学习，最后再进行微调，以使得output符合人类偏好，这种方式需要多少钱？

以基于LLaMA-65B进行二次开发、训练拥有100亿tokens的行业数据的垂直大模型为例，如果采用租用云计算的方式，训练算力费用为：100/14000*140=1万美元。 如果下游厂商不使用上述的租用云计算方式，而是采用自有算力，前期算力集群初始投入费用会比较高（NVIDIA DGX A100每台售价约20万美元），但此时单大模型的成本仅包含平摊的硬件成本和能耗这两部分费用，训练成本可大幅降低。

最后介绍下微调阶段的费用问题。 由于训练量级一般为万级，算力成本几乎可忽略不计。

来源：北京大学人工智能研究院公众号

比如加州大学伯克利分校的研究人员基于LLaMA进行微调推出的开源可商用模型OpenLLaMA，70亿和30亿参数版本均已完成1T tokens的训练，费用仅为几百美金。

再如斯坦福大学发布的模型Alpaca，是基于LLaMA-7B底座、使用5.2万指令、8块80GB的A100微调，耗时仅3小时，总成本还不到600美元，由于性能接近GPT 3.5，有“平替版GPT 3.5”之称。

图片来源：Stanford University官网

当AI技术穿越计算机视觉、 AlphaGo 、L4 无人驾驶等早期市场进入到主流市场，一定会创造出巨大的价值。我们期待创业者在该领域的创新，也希望与一线创业者多交流，欢迎评论区留言。

参考资料：

https://arxiv.org/abs/2303.18223（Wayne Xin Zhao等，2023）
《Holistic Evaluation of Language Models》(Percy Liang等)
《Scaling Laws for Neural Language Models》（Jared Kaplan等，2020）
《Alpaca: A Strong, Replicable Instruction-Following Model》（Rohan Taori等，2023）

元创资本（Innovator Capital）创立于 2017 年，专注于“人工智能、大数据等新科技赋能传统产业”领域的投资。创始人王浩先生是国内最资深的一线基金管理人之一，拥有20 年专业投资经验，见证了中国创投行业的整个发展周期。

元创资本秉持“投资中国原创，成就中国创业者”的理念，支持中国原创，投资有伟大格局和全球视野的优秀企业家，致力于成为中国卓越、值得信任且受人尊敬的投资机构。

元创资本管理团队均深耕产业和投资多年，分别来自国内一线专业投资机构、世界 500强及顶级咨询机构等兼具深厚产业背景、产业资源与多年投资经验，拥有多元化的投资视角和优异的历史业绩，形成了完整互补的管理团队。

元创资本创始人王浩先生及其管理团队投资的企业超过160家，其中超过30家企业成功实现IPO，近20家企业通过借壳或重组上市，成功案例包括：美团点评(03690.HK)、滴滴、Bilibili(NASDAQ:BILI)、孩子王(839843)、红蜻蜓(603116)、永贵电器(300351)、福达合金(603045)、高斯贝尔 (002848)、华韩整形(430335)、合全药业(432159)、摩贝(NASDAQ:MKD)、盘子女人坊、爱回收、松鼠Ai、小卫科技、源氏木语、乐秀科技、拜安传感等多个项目。

闭源VS开源，创业公司如何选择适合的大模型？| 元创行研

外交部：乌克兰问题和平峰会会议安排同中方要求还有明显差距，中方难以参会

中国铁路：6月1日开售实行市场化票价机制的4条高铁票

向俄趸真诚致歉：我不是成心戳你们的肺管子

朝鲜同时发射18枚KN-25导弹其中一半开始偏离航线时视频被剪接

杭州90后姑娘从跨国公司辞职回家种玉米，火了！她又去北京读数学博士了

又一“全国优秀县委书记”晋升副省级，张振丰任浙江省副省长

哈马斯：愿在以色列停止进攻加沙情况下达成“全面协议”

黄仁勋台北夜宴：台系服务器代工厂高管悉数到场，一桌消费1040块

国防部长董军：敦促美方不得以任何方式"以武助独"

商务部：有关责任完全在民进党当局

六一儿童表演小男孩不停干扰旁边女孩全程无人阻止

新华网评：用真诚消解人们对预制菜的疑虑

2024年全国高考报名人数1342万人

红星深度丨围观南京咖啡阿姨48小时，“这能火真是太抽象了”

学校隐蔽场所监控全覆盖！教育部重磅发声整治学生欺凌

新疆生产建设兵团已将辅助生殖纳入医保

经济日报：莫让沉睡账户成为风险账户

新华社快讯：以军从加沙地带北部杰巴利耶难民营撤出

实探安徽滁河水质污染：暂存污水正紧急处置，有小龙虾养殖户称损失近万斤

中央气象台：台风“马力斯”将于今天夜间在登陆广东

闭源VS开源，创业公司如何选择适合的大模型？| 元创行研

外交部：乌克兰问题和平峰会会议安排同中方要求还有明显差距，中方难以参会

中国铁路：6月1日开售实行市场化票价机制的4条高铁票

向俄趸真诚致歉：我不是成心戳你们的肺管子

朝鲜同时发射18枚KN-25导弹 其中一半开始偏离航线时 视频被剪接

杭州90后姑娘从跨国公司辞职回家种玉米，火了！她又去北京读数学博士了

又一“全国优秀县委书记”晋升副省级，张振丰任浙江省副省长

哈马斯：愿在以色列停止进攻加沙情况下达成“全面协议”

黄仁勋台北夜宴：台系服务器代工厂高管悉数到场，一桌消费1040块

国防部长董军：敦促美方不得以任何方式"以武助独"

商务部：有关责任完全在民进党当局

六一儿童表演小男孩不停干扰旁边女孩 全程无人阻止

新华网评：用真诚消解人们对预制菜的疑虑

2024年全国高考报名人数1342万人

红星深度丨围观南京咖啡阿姨48小时，“这能火真是太抽象了”

学校隐蔽场所监控全覆盖！教育部重磅发声整治学生欺凌

新疆生产建设兵团已将辅助生殖纳入医保

经济日报：莫让沉睡账户成为风险账户

新华社快讯：以军从加沙地带北部杰巴利耶难民营撤出

实探安徽滁河水质污染：暂存污水正紧急处置，有小龙虾养殖户称损失近万斤

中央气象台：台风“马力斯”将于今天夜间在登陆广东

朝鲜同时发射18枚KN-25导弹其中一半开始偏离航线时视频被剪接

六一儿童表演小男孩不停干扰旁边女孩全程无人阻止