世界上最强大的开源人工智能模型 DBRX 的创建过程

上方蓝字关注我们

揭开全球最强大开源 AI 模型的诞生之谜

Databricks 推出 DBRX，超越 Meta Llama 2 成为最强大开源 AI 模型。该模型在多项基准测试中表现优异，接近 OpenAI 的封闭模型 GPT-4。DBRX 采用“专家混合”架构，提高训练效率和运行性能。Databricks 旨在通过开源促进 AI 创新，同时确保安全性。

Databricks 初创公司近日发布了 DBRX，这款大型语言模型的问世，标志着开源 AI 领域的一大飞跃——其性能甚至超过了 Meta 公司的 Llama 2。

就在本周一，Databricks 的数据科学和 AI 领域的工程师及高管团队通过 Zoom 视频会议聚集一堂，紧张地等待着一个结果——他们数月来的努力和 1000 万美元的投资是否成功打造出了一款顶尖的人工智能语言模型。DBRX 的设计灵感来源于 OpenAI 的 ChatGPT，但直至最终测试结果出炉，他们才能确定这一创造的真正实力。

"我们已经超越了所有现有模型，" Databricks 的首席神经网络架构师兼 DBRX 项目负责人 Jonathan Frankle 在确认了测试结果后向团队宣布，团队成员们随即以欢呼、掌声和表情符号表达了他们的喜悦。平时不沾咖啡因的 Frankle，在通宵撰写测试报告后，也不禁品尝起了冰拿铁。

Databricks 计划在开源许可下发布 DBRX，让其他开发者能够在其基础上进一步开发。Frankle 展示的数据显示，在一系列衡量 AI 模型能力的基准测试中，DBRX 在回答常识问题、阅读理解、解决复杂逻辑难题和生成高质量代码等方面的表现，均优于市面上所有其他开源模型。

AI 决策者：Jonathan Frankle、Naveen Rao、Ali Ghodsi 和 Hanlin Tang。照片：Gabriela Hasbun

DBRX 不仅超越了 Meta 的 Llama 2 和 Mistral 的 Mixtral 等当前最受欢迎的开源 AI 模型，更在多个评分上接近 OpenAI 的封闭模型 GPT-4，后者是 ChatGPT 的强大后盾，被普遍认为是机器智能的巅峰之作。"我们为开源大型语言模型（LLMs）树立了新的里程碑，" Frankle 满脸笑容地表示。

构建基础

Databricks 通过开源 DBRX，为当前生成式 AI 热潮中的开放运动注入了新动力，挑战了行业内一些顶尖公司的保密做法。尽管 OpenAI 和谷歌对 GPT-4 和 Gemini 等大型语言模型的代码守口如瓶，但 Meta 等竞争对手选择开放其模型，认为这将通过让更多研究人员、创业者、初创企业和成熟企业掌握这项技术来推动创新。

Databricks 还表示，它希望公开其开源模型的创建过程，这是 Meta 在其 Llama 2 模型的关键细节上尚未做到的。公司将发布一篇博客文章，详细介绍模型的创建过程，并邀请 WIRED 杂志的记者在 Databricks 工程师们进行 DBRX 多阶段训练的关键决策时与他们共处。这让人们得以一窥构建领先 AI 模型的复杂性和挑战性，同时也展示了该领域最新创新如何有望降低成本。这一点，加上 DBRX 等开源模型的可用性，预示着 AI 开发的步伐不会放缓。

Allen 人工智能研究所的首席执行官 Ali Farhadi 表示，围绕 AI 模型的构建和训练的更大透明度迫在眉睫。随着公司寻求在竞争对手中获得优势，该领域在过去几年中变得越来越保密。他说，当人们担心先进的 AI 模型可能带来的风险时，不透明性尤其重要。“我非常高兴看到任何开放的努力，”Farhadi 说。“我确实相信，市场的一个重要部分将转向开放模型。我们需要更多这样的东西。”

Databricks 有特别开放的理由。尽管像谷歌这样的科技巨头在过去一年迅速推出了新的 AI 部署，但 Ghodsi 表示，其他行业的许多大公司还没有在自己的数据上广泛使用这项技术。Databricks 希望帮助金融、医学等行业的公司，他说这些公司渴望拥有类似 ChatGPT 的工具，但也对将敏感数据发送到云端持谨慎态度。

“我们称之为数据智能——理解你自己数据的智能，”Ghodsi 说。Databricks 将为客户定制 DBRX，或者从头开始为他们量身定制一个。对于大公司来说，构建类似 DBRX 规模的东西的成本是完全合理的，他说。“这是我们的巨大商业机会。”去年 7 月，Databricks 收购了专门从事更高效构建 AI 模型的初创公司 MosaicML，包括 Frankle 在内，参与构建 DBRX 的几个人都加入了该公司。在这两家公司中，没有人以前曾经构建过如此规模的东西。

内部原理

像其他大型语言模型一样，DBRX 本质上是一个巨大的人工神经网络——一个松散地受到生物神经元启发的数学框架——已经被大量文本数据喂养。DBRX 及其同类通常基于 2017 年由谷歌的一个团队发明的变压器，这是一种神经网络，它彻底改变了语言的机器学习。

变压器发明后不久，OpenAI 的研究人员开始在从网络和其他来源抓取的越来越大的文本集合上训练该风格的模型——这个过程可能需要几个月。至关重要的是，他们发现随着模型和它所训练的数据集的规模扩大，模型变得更加有能力、连贯，并且在输出上似乎更加智能。

Databricks 首席执行官，Ali Ghodsi。照片：Gabriela Hasbun

寻求更大的规模仍然是 OpenAI 和其他领先 AI 公司的迷恋。OpenAI 的首席执行官 Sam Altman 已寻求 7 万亿美元的资金用于开发 AI 专用芯片，据《华尔街日报》报道。但是，在创建语言模型时，不仅大小重要。Frankle 说，建造一个先进的神经网络需要数十个决策，有些关于如何更有效地训练的传说可以从研究论文中获得，其他细节则在社区内部分享。特别具有挑战性的是保持数千台通过挑剔的开关和光纤电缆连接的计算机一起工作。

“你有了这些疯狂的 [网络] 开关，每秒有太比特的带宽从多个不同的方向进来，”Frankle 在最后的培训运行完成之前说。“即使对于一个在计算机科学领域度过了一生的人来说，这也很难理解。”Frankle 和 MosaicML 的其他人是这个晦涩科学的专家，这有助于解释为什么 Databricks 去年购买这家初创公司的价值为 13 亿美元。

提供给模型的数据对最终结果也有很大影响——也许解释了为什么这是 Databricks 不公开披露的一个细节。“数据质量、数据清洗、数据过滤、数据准备都非常重要，”Databricks 的副总裁兼 MosaicML 的前创始人兼首席执行官 Naveen Rao 说。“这些模型实际上只是那个的函数。你可以几乎将其视为模型质量最重要的事情。”

AI 研究人员继续发明架构调整和修改，使最新的 AI 模型更具性能。最近的一个重要飞跃来自于一种称为“专家混合”的架构，其中只有模型的一部分根据查询的内容激活以响应查询。这产生了一个更高效的模型，用于训练和操作。DBRX 有大约 1360 亿个参数，或在训练期间更新的模型内的值。Llama 2 有 700 亿个参数，Mixtral 有 450 亿个，Grok 有 3140 亿个。但是 DBRX 平均只激活大约 360 亿个来处理一个典型的查询。Databricks 表示，旨在改善模型利用底层硬件的调整帮助提高了训练效率 30% 到 50%。该公司表示，它还使模型更快地响应查询，并需要更少的能源来运行。

开放

有时，训练一个大型 AI 模型的高度技术性艺术归结为一个既情感又技术性的决定。两周前，Databricks 团队面临着一个关于如何充分利用模型的数百万美元的问题。

在从云提供商租赁的 3072 个强大的 Nvidia H100s GPU 上训练模型两个月后，DBRX 已经在几个基准测试中获得了令人印象深刻的分数，而且还有大约一周的超级计算机时间要用完。

不同的团队成员在 Slack 上提出了如何利用剩余一周的计算能力的想法。一个想法是创建一个调整过的模型版本，用于生成计算机代码，或者一个更小的版本供业余爱好者玩耍。团队还考虑停止让模型变得更大的工作，而是给它精心策划的数据，以提高其在特定能力集上的性能，这种方法称为课程学习。或者他们可以继续按照他们的方式进行，使模型更大，希望更有能力。这最后一条路线被亲切地称为“不管它”选项，一个团队成员似乎特别喜欢它。

虽然讨论保持友好，但不同工程师推动他们偏爱的方法时，强烈意见浮出水面。最后，Frankle 巧妙地引导团队走向以数据为中心的方法。两周后，这似乎取得了巨大的成功。“课程学习更好，它产生了有意义的差异，”Frankle 说。

Frankle 在预测项目的其他结果方面不太成功。他怀疑 DBRX 在生成计算机代码方面会特别好，因为团队没有明确专注于这一点。他甚至足够确定，如果他错了，他会染成蓝色头发。周一的结果揭示了 DBRX 在标准编码基准测试中比任何其他开源 AI 模型都好。“我们手头有一个非常好的代码模型，”他在周一的大揭秘中说。“我今天预约了染发。”

风险评估

DBRX 的最终版本是迄今为止公开发布的最强大的 AI 模型，供任何人使用或修改。（至少如果他们不是拥有超过 7 亿用户的公司，这是 Meta 也对其自己的开源 AI 模型 Llama 2 放置的限制。）最近关于更强大的 AI 潜在危险的辩论有时集中在是否让 AI 模型对任何人都开放可能太冒险了。一些专家建议，开放模型可能太容易被罪犯或恐怖分子滥用，他们有意进行网络犯罪或发展生物或化学武器。Databricks 表示，已经对其模型进行了安全测试，并将继续深入研究。

EleutherAI 的执行董事 Stella Biderman 表示，很少有证据表明开放性增加了风险。她和其他人认为，我们仍然缺乏对 AI 模型实际上有多危险或什么可能使它们变得危险的良好理解——更大的透明度可能有助于这一点。“通常情况下，没有特别的理由相信开放模型比现有的封闭模型相比，构成的风险显著增加，”Biderman 说。

EleutherAI 与 Mozilla 和其他约 50 个组织和学者一起，本月向美国商务部长 Gina Raimondo 发出了一封公开信，要求她确保未来的 AI 法规为开源 AI 项目留出空间。信中认为，开放模型对经济增长有益，因为它们帮助了初创企业和小企业，同时也“有助于加速科学研究。”

Databricks 希望 DBRX 能够做到这两点。除了为其他 AI 研究人员提供一个新的模型来玩耍和有用的构建自己模型的技巧外，DBRX 可能有助于更深入地理解 AI 实际工作的方式，Frankle 说。他的团队计划研究模型在最后一周训练期间的变化，可能揭示一个强大的模型是如何获得额外能力的。“我最兴奋的部分是我们能够在这种规模上进行的科学工作，”他说。

原文：https://www.wired.com/story/dbrx-inside-the-creation-of-the-worlds-most-powerful-open-source-ai-model/

已有超过2000名

读者加入交流群

我们还在等你

点这里关注我，记得标星哦～

CLICK TO SEE YOU LOOK THE BEST

世界上最强大的开源人工智能模型 DBRX 的创建过程

可以互相交谈的人工智能来了

图灵诺奖得主等大佬齐聚海淀！清华版Sora震撼首发，硬核AI盛会破算力黑洞

超越感知：那些基于生物感官的AI算法

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

GPT-4 更强的标志，原来藏在了 logo 里

奥特曼：GPT5性能远超GPT4，OpenAI不怕copy

普通人终于能感觉到大模型有啥用了

打开神经网络的黑盒：分解神经元特征，让复杂模型变得简洁、可解释

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

从零手搓MoE大模型，大神级教程来了

“离谱的AI扩图”火了！张张那叫一个出其不意

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

麦当劳退款原因写“顾客是傻x”续：已与顾客达成谅解

33所高校入围“首批名单”，北师大落选，华师排名令人意外

媒体：美国宣布60亿美元军援只能给乌克兰"吊命"

男子持木棒连续猛砸老汉头部围观者大喊"好了"阻止

从模仿到理解，计算模型可能真的是大脑的归宿

数据时代，计算机先行，这些专业需重点关注！

世界上最强大的开源人工智能模型 DBRX 的创建过程

可以互相交谈的人工智能来了

图灵诺奖得主等大佬齐聚海淀！清华版Sora震撼首发，硬核AI盛会破算力黑洞

超越感知：那些基于生物感官的AI算法

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

GPT-4 更强的标志，原来藏在了 logo 里

奥特曼：GPT5性能远超GPT4，OpenAI不怕copy

普通人终于能感觉到大模型有啥用了

打开神经网络的黑盒：分解神经元特征，让复杂模型变得简洁、可解释

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

从零手搓MoE大模型，大神级教程来了

“离谱的AI扩图”火了！张张那叫一个出其不意

字节“开盒”OpenAI所有大模型，揭秘GPT-3到GPT-4进化路径

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

麦当劳退款原因写“顾客是傻x”续：已与顾客达成谅解

33所高校入围“首批名单”，北师大落选，华师排名令人意外

媒体：美国宣布60亿美元军援 只能给乌克兰"吊命"

男子持木棒连续猛砸老汉头部 围观者大喊"好了"阻止

从模仿到理解，计算模型可能真的是大脑的归宿

数据时代，计算机先行，这些专业需重点关注！

媒体：美国宣布60亿美元军援只能给乌克兰"吊命"

男子持木棒连续猛砸老汉头部围观者大喊"好了"阻止