转,作者不详:
幻方上线了DeepSeek V3,经初步评测,已经与GPT-4o、Claude-3.5-sonnet推理能力相当,甚至编程媲美最领先的3.5 Sonnet,超过GPT-4o。几天前国外采访OpenAI员工,对DeepSeek的评价相当之高:“与OpenAI的差距大概也就6个月”。 Deepseek v3只用了2048卡的H800,训练两个月就完成了。是几乎所有投资者圈层都在问:你们公司买了10万张卡,单集群万卡,都搞出什么成果来了?有人质疑OpenAI干什么去了。 目前看得到了这么几个解释: -训练只有一次,推理是无数次。推理需求实质上远大于训练需求,尤其是用户基数大了。 - Deepseek是站在巨人的肩膀上,使用大量高质量合成数据。 - Deepseek这个统计口径只计算了训练,但数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。 - Deepseek的模型的MoE每个专家都可以单独拿出来训练,本身相比于dense架构就是省力一些的方案。 -人人都超越了GPT 4o,llama 3天天被踩在脚底下,消费者和企业界实际使用用的最多的还是这两个模型。这些宣传的成绩未必可靠。
幻方上线了DeepSeek V3,经初步评测,已经与GPT-4o、Claude-3.5-sonnet推理能力相当,甚至编程媲美最领先的3.5 Sonnet,超过GPT-4o。几天前国外采访OpenAI员工,对DeepSeek的评价相当之高:“与OpenAI的差距大概也就6个月”。 Deepseek v3只用了2048卡的H800,训练两个月就完成了。是几乎所有投资者圈层都在问:你们公司买了10万张卡,单集群万卡,都搞出什么成果来了?有人质疑OpenAI干什么去了。 目前看得到了这么几个解释: -训练只有一次,推理是无数次。推理需求实质上远大于训练需求,尤其是用户基数大了。 - Deepseek是站在巨人的肩膀上,使用大量高质量合成数据。 - Deepseek这个统计口径只计算了训练,但数据的配比需要做大量的预实验,合成数据的生成和清洗也需要消耗算力。 - Deepseek的模型的MoE每个专家都可以单独拿出来训练,本身相比于dense架构就是省力一些的方案。 -人人都超越了GPT 4o,llama 3天天被踩在脚底下,消费者和企业界实际使用用的最多的还是这两个模型。这些宣传的成绩未必可靠。