2025 年 3 月 24 日,《彭博社》报道, 蚂蚁集团使用国产半导体来开发用于训练 AI 模型的技术,有望将成本降低 20%。
蚂蚁集团使用国产芯片,采用“混合专家”机器学习方法训练模型。 其得到的结果与英伟达芯片(比如 H800)的结果相似。
蚂蚁集团仍在使用英伟达 GPU 进行 AI 开发,但现在其最新模型主要依赖替代芯片,包括来自 AMD 的芯片和国产芯片。
自从 DeepSeek 展示了如何以远低于 OpenAI 和谷歌数十亿美元的投入训练功能强大的模型以来,这场竞争愈演愈烈。
蚂蚁集团本月发表了一篇研究论文,声称其模型在某些基准测试中有时优于Meta Platforms。
混元(DeepSeek)对论文的解读:
蚂蚁集团大幅降低了推理或支持 AI 服务的成本。
随着诸多公司向 AI 领域投入大量资金,混合专家模型已成为一种流行的选择,因谷歌和 DeepSeek 等公司使用而获得了认可。这项技术将任务划分为更小的数据集,就像在一支专家团队中每个专家专注于工作的一部分,从而使整个过程更高效。蚂蚁在电子邮件声明中拒绝发表评论。
然而,混合专家模型的训练通常依赖高性能芯片,就像英伟达销售的 GPU。
蚂蚁集团一直在研究如何更有效地训练 LLM ,并克服这一限制。
论文标题明确了这一点,因为该公司设定的目标是“不使用高级 GPU”来扩展模型。
这与英伟达的思路背道而驰。
英伟达 CEO 黄仁勋认为,即使出现了像 DeepSeek 的 R1 这样更高效的模型,计算需求也会增长。他认为公司需要更好的芯片来创造更多收入,而不是需要更便宜的芯片来削减成本。他坚持奉行制造拥有更多处理核心、晶体管和更庞大内存容量的大型 GPU 这一策略。
蚂蚁集团表示,使用高性能硬件训练 1 万亿个 token 的成本约为 635 万元人民币(88 万美元),但其经过优化的方法使用低规格硬件就有望将这一成本降至 508 万元人民币。
token 是模型为了解世界并为用户查询提供实用响应而获取的信息单位。
蚂蚁集团计划利用其为工业 AI 解决方案(包括医疗和金融)开 发的大语言模型 : Ling-Plus 和 Ling-Lite 方 面 的最新突破。
蚂蚁集团今年收购了中国在线平台好大夫,以加强其在医疗保健领域的 AI 服务。它还有一款名为支小宝的 AI“生活助手”应用程序和金融咨询 AI 服务蚂小财。
蚂蚁集团在论文中表示,在英文理解方面,与 Meta 的 Llama 模型之一相比,Ling-Lite 模型在一项关键基准测试上表现更胜一筹。
Ling-Lite 模型和 Ling-Plus 模型在中文基准测试中均优于 DeepSeek 的同类模型。
蚂蚁集团已开放了 Ling 模型的源代码。
Ling - Lite 包含 168 亿个参数,这些参数是可调整的设置,就像旋钮和表盘一样,以控制模型的性能。
Ling-Plus 有 2900 亿个参数,在语言模型领域被认为比较大。
相比之下,据《麻省理工技术评论》报道,专家估计 ChatGPT 的 GPT-4.5 有 1.8 万亿个参数,DeepSeek-R1 则有 6710 亿个参数。
蚂蚁集团在模型训练的一些方面面临挑战,包括稳定性。
论文指出,哪怕硬件或模型结构的小小变化也会导致问题,包括模型错误率上升。
开源链接:https://huggingface.co/inclusionAI

