打开网易新闻 查看更多图片

来源:上海证券报 作者汪友若

刚刚过去的周末,全球AI领域出现了一位意想不到的价格颠覆者。它并非出身于科技巨头或互联网巨头,而与知名量化私募幻方量化有着密切的联系。

12月26日晚间,AI公司杭州深度求索(DeepSeek)正式上线全新系列模型DeepSeek-V3首个版本并同步开源。公司称,DeepSeek-V3多项评测成绩超越了Qwen2.5-72B和Llama-3.1-405B等其他开源模型,并在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。

并且,DeepSeek将模型API服务定价调整为每百万输入tokens0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens8元,以期能够持续地为大家提供更好的模型服务。DeepSeek还决定为全新模型设置长达45天的优惠价格体验期:26日起至2025年2月8日,DeepSeek-V3的API服务价格仍然是每百万输入tokens0.1元(缓存命中)/1元(缓存未命中),每百万输出tokens2元。

广发证券计算机团队12月29日发布报告称,通过有限的实测结果,该团队发现,DeepSeek总体能力与其他大模型相当,但在逻辑推理和代码生成领域具有自身特点。并且DeepSeek-V3通过数据与算法层面的优化,大幅提升算力利用效率,实现了协同效应。

打开网易新闻 查看更多图片

广发证券称,在大规模MoE模型的训练中,DeepSeek-V3采用了高效的负载均衡策略、FP8混合精度训练框架以及通信优化等一系列优化措施,显著降低了训练成本。DeepSeek证明了模型效果不仅依赖于算力投入,即使在硬件资源有限的情况下,依托数据与算法层面的优化创新,仍然可以高效利用算力,实现较好的模型效果。

曾是OpenAI创始成员之一的AI科学家Andrej Karpathy评价称:“今天,一家中国AI公司轻而易举地发布了一个前沿大语言模型,其仅使用2048块GPU训练了2个月,只花费了近600万美元。作为参考,这种级别的能力本应该需要接近1.6万块的GPU集群,而目前正在部署的集群包含的GPU数量却接近10万块。例如,Llama 3405B模型使用了3080万GPU/小时,而DeepSeek-V3模型看起来更加强大,却仅使用了280万GPU/小时(计算量减少了约11倍)。如果此模型还能通过各项评估,那么这将是资源受限条件下研究与工程能力的高度令人印象深刻的展示。”

⭐星标华尔街见闻,好内容不错过

本文不构成个人投资建议,不代表平台观点,市场有风险,投资需谨慎,请独立判断和决策。

觉得好看,请点“在看”

打开网易新闻 查看更多图片