打开网易新闻 查看更多图片

2025 年 3 月 24 日,《彭博社》报道, 蚂蚁集团使用国产半导体来开发用于训练 AI 模型的技术,有望将成本降低 20%。

蚂蚁集团使用国产芯片,采用“混合专家”机器学习方法训练模型。 其得到的结果与英伟达芯片(比如 H800)的结果相似。

蚂蚁集团仍在使用英伟达 GPU 进行 AI 开发,但现在其最新模型主要依赖替代芯片,包括来自 AMD 的芯片和国产芯片。

自从 DeepSeek 展示了如何以远低于 OpenAI 和谷歌数十亿美元的投入训练功能强大的模型以来,这场竞争愈演愈烈。

蚂蚁集团本月发表了一篇研究论文,声称其模型在某些基准测试中有时优于Meta Platforms。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

混元(DeepSeek)对论文的解读:

打开网易新闻 查看更多图片

蚂蚁集团大幅降低了推理或支持 AI 服务的成本。

随着诸多公司向 AI 领域投入大量资金,混合专家模型已成为一种流行的选择,因谷歌和 DeepSeek 等公司使用而获得了认可。这项技术将任务划分为更小的数据集,就像在一支专家团队中每个专家专注于工作的一部分,从而使整个过程更高效。蚂蚁在电子邮件声明中拒绝发表评论。

然而,混合专家模型的训练通常依赖高性能芯片,就像英伟达销售的 GPU。

蚂蚁集团一直在研究如何更有效地训练 LLM ,并克服这一限制。

论文标题明确了这一点,因为该公司设定的目标是“不使用高级 GPU”来扩展模型。

这与英伟达的思路背道而驰。

英伟达 CEO 黄仁勋认为,即使出现了像 DeepSeek 的 R1 这样更高效的模型,计算需求也会增长。他认为公司需要更好的芯片来创造更多收入,而不是需要更便宜的芯片来削减成本。他坚持奉行制造拥有更多处理核心、晶体管和更庞大内存容量的大型 GPU 这一策略。

蚂蚁集团表示,使用高性能硬件训练 1 万亿个 token 的成本约为 635 万元人民币(88 万美元),但其经过优化的方法使用低规格硬件就有望将这一成本降至 508 万元人民币。

token 是模型为了解世界并为用户查询提供实用响应而获取的信息单位。

蚂蚁集团计划利用其为工业 AI 解决方案(包括医疗和金融)开 发的大语言模型 : Ling-Plus 和 Ling-Lite 方 面 的最新突破。

蚂蚁集团今年收购了中国在线平台好大夫,以加强其在医疗保健领域的 AI 服务。它还有一款名为支小宝的 AI“生活助手”应用程序和金融咨询 AI 服务蚂小财。

蚂蚁集团在论文中表示,在英文理解方面,与 Meta 的 Llama 模型之一相比,Ling-Lite 模型在一项关键基准测试上表现更胜一筹。

Ling-Lite 模型和 Ling-Plus 模型在中文基准测试中均优于 DeepSeek 的同类模型。

蚂蚁集团已开放了 Ling 模型的源代码。

Ling - Lite 包含 168 亿个参数,这些参数是可调整的设置,就像旋钮和表盘一样,以控制模型的性能。

Ling-Plus 有 2900 亿个参数,在语言模型领域被认为比较大。

相比之下,据《麻省理工技术评论》报道,专家估计 ChatGPT 的 GPT-4.5 有 1.8 万亿个参数,DeepSeek-R1 则有 6710 亿个参数。

蚂蚁集团在模型训练的一些方面面临挑战,包括稳定性。

论文指出,哪怕硬件或模型结构的小小变化也会导致问题,包括模型错误率上升。

开源链接:https://huggingface.co/inclusionAI

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片