幻方量化旗下AI初创公司DeepSeek宣布其推理模型R1-Lite预览版正式上线!AI领域再次掀起了波澜!
DeepSeek的产品线以开源为主,包括多个百亿级参数的模型,如DeepSeek-LLM、DeepSeek-Coder,以及混合专家模型(MoE)DeepSeek-V2和V2.5。
DeepSeek-R1-Lite模型的推出,标志着公司在推理模型领域的重要进展。
DeepSeek R1系列模型采用先进的强化学习技术进行训练,其推理过程深入细致,并包含大量的反思与验证环节。
模型在思维链的长度上能够达到数万字的级别,并在数学、代码以及各类复杂逻辑推理任务上展现出卓越的性能。
正式版的DeepSeek-R1模型将完全开源
DeepSeek-R1-Lite预览版的推出,也标志着中国国产大模型在推理模型在实际应用中迈出了重要一步。
在具体的性能测试中,DeepSeek-R1-Lite在美国数学竞赛(AMC)中难度最高的AIME赛事以及全球顶级编程竞赛Codeforces等评测中,均取得了优异的成绩,甚至超越了GPT-4o等知名模型。
deepseek也在X上发布了DeepSeek-R1-Lite-Preview 在各项基准测试中的成果(如图)。
进一步验证了DeepSeek-R1-Lite在复杂逻辑推理任务上的强大实力。DeepSeek-R1-Lite的推理过程不仅长度可观,而且其包含的反思与验证环节也大大增强了其推理的准确性。
官方提供的数据显示,模型在数学竞赛上的得分与其所允许的思考长度紧密相关。
图:DeepSeek-R1-Lite预览版的推理扩展法则,推理越深入,性能越好。
换句话说,给予模型更多的思考时间,其推理的准确率也会相应提升。尽管DeepSeek-R1-Lite已经展现出了强大的推理能力,但官方表示该模型目前仍处于迭代开发阶段。目前,DeepSeek-R1-Lite仅支持在网页上使用,尚未开放API调用功能。
不过,DeepSeek公司也透露,正式版的DeepSeek-R1模型将完全开源,并公开技术报告以及部署API服务。
AI界拼多多-DeepSeek是谁?
DeepSeek(深度求索)是由幻方量化创始人梁文锋创立的AI初创公司,专注于开发通用人工智能(AGI)底层模型和技术。
公司成立于2023年,源于梁文锋在量化投资领域的成功和对AI的热衷,幻方量化是国内量化私募领域的巨头之一,管理规模曾一度飙升至千亿,为DeepSeek提供了强大的资金和硬件支持。
DeepSeek的核心技术包括其创新的MLA(多头潜在注意力机制)架构和DeepSeekMoESparse结构。这些技术使得推理成本大幅降低。
例如,DeepSeek V2模型的推理成本仅为每百万token 1块钱,远低于市场上的其他同类产品。这种架构创新不仅降低了显存占用,还减少了计算量,从而实现了成本的大幅下降。
DeepSeek的主要产品包括多个百亿级参数的模型,如DeepSeek-LLM、DeepSeek-Coder、DeepSeek-V2和V2.5等。这些模型在数学、代码和复杂逻辑推理任务上表现出色。
DeepSeek还提供了API服务,支持128K上下文长度,并且与OpenAI API兼容容。DeepSeek的API定价为每百万输入token 0.14美元,每百万输出token 0.28美元。
这一价格显著低于当前市场上的其他同类产品,仅为GPT-4-Turbo价格的近百分之一。
由此,引发了中国大模型价格战,迫使包括字节、腾讯、百度、阿里等大厂纷纷降价。
deepseek也一举成名。
也是为什么DeepSeek被称为AI界的拼多多。