一道步骤难懂的数学奥赛试题、一场组会中的“头脑风暴”、一个需要做大量“功课”才能做出的生活决策——当大模型能像人类一样思考时,你会发现,这一切都将在一次回车的敲下后迎刃而解。

“什么样的场景最适合让AI锻炼思考能力?我们认为是数学场景。”11月16日,月之暗面创始人杨植麟发布了新一代数学能力可对标OpenAI o1系列的数学推理模型k0-math在中考、高考、考研以及包含竞赛题的MATH等数学基准测试中,k0-math初代模型成绩已经超过o1-mini和o1-preview模型。

“这可以说是,在OpenAI o1发布后,国内首个摸索出并实现o1思路的公司。”对于k0-math的推出,一位国内头部互联网公司的大模型技术人员表示,k0-math模型采用的全新强化学习和思维链(CoT)推理技术,正是业内普遍认为OpenAI o1系列的技术关键所在,国内多家互联网巨头均在破解这一“新思路”,但在k0-math发布时,尚未有其他类似模型问世。

在“百模大战”开战的一年多里,新技术、新团队、新应用不断涌现,战况也随之频繁变动。从月之暗面、零一万物等“新AI六小龙”和字节跳动、阿里等互联网大厂团队在混战中脱颖而出,到如今应用最广的AI智能助手陆续上线,可以观察到的是,豆包和Kimi的领先让AI智能助手领域逐渐呈现出了“两超多强”的新格局。

打开网易新闻 查看更多图片

新模型登场

Kimi对标o1

“如果你有100枚硬币,每枚硬币正面朝上。每次翻转包含当前正面朝上的硬币和它相邻的两枚硬币。最少需要翻转多少次才能使所有硬币反面朝上?”

仿佛一个数学天才型选手,Kimi数学版在40秒钟里完成了对该题的问题分解、3种思路尝试、解法验证并正确作答的全套解题流程。

值得注意的是,其中,“意识到逐个翻转硬币不可行,我开始思考如何最大化每次翻转的效果”“意识到翻转之间隔两枚硬币会导致重叠,我考虑增加间隔”等对思维链推理的展示,均是模型自我思考能力的体现。

今年9月,被Open AI创始人Sam Altman喻为“新范式开始”的o1诞生,以模仿人类思维过程进行的强化学习和思维链技术,突破了AI推理瓶颈。自此,行业的技术焦点也从预训练转向了推理和强化学习。

11月16日,Kimi率先交出国内首份答卷。据介绍,相较于以尽快提供答案为关键目标的常规模型,新推出的k0-math模型在做题过程中会花更长的时间来推理,包括思考和规划思路,并且在必要时自行反思改进解题思路,提升答题的成功率。

发布会上,月之暗面公布了k0-math的目前测评得分:在业界最常使用的数学能力基准测试MATH中,k0-math模型得分93.8分,超过o1-mini的90分和o1-preview的85.5分,且k0-math这一成绩仅次于o1完全版的94.8分。

在两个难度更大的竞赛级别的数学题库OMNI-MATH和AIME基准测试中,k0-math初代模型的表现分别达到了o1-mini最高成绩的90%和83%。

从线上AI社区的讨论中选取一道数学题进行实测,Kimi数学版用时2分10秒完成了对该题的正确解答。从线上该帖的评论区反馈来看,在求解该题时,o1-mini和o1-preview在用时上有约30秒的优势,但多次测试均未得出正确答案。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

“该数学推理模型上的技术也可以被放进更多的场景里,例如让Kimi探索版去做更多的探索。”正如杨植麟在发布会上所言,全新技术范式带来的推理能力提升,也能泛化到更多日常任务上。

编辑就“找到北上广深的各个市辖区内,有重点初中,还有直升高中并且每年至少20个清北,告诉我这个区最适合的学区房”这一较为复杂的指令,对Kimi探索版、Kimi普通版和另两款知名AI产品进行测试。

打开网易新闻 查看更多图片

测试结果显示,Kimi探索版在搜索量、搜索内容和生成内容上优势明显,甚至出现了对1311个网页的分析,直观感受到Kimi探索版在意图增强、信源分析和链式思考上的能力提升。

打开网易新闻 查看更多图片

豆包、Kimi的领先

分水岭明显

Kimi领先的每一步,都在一次次搜索中被用户清晰地感知着。“以前2、3个小时才能看懂的文章,用Kimi几分钟就能得到所有关键信息,现在也会在实验中让探索版给出研究设计、方法论选择上的建议。”一位江南大学的在读工科博士表示。

基于Kimi对学术研究、市场分析等专业应用场景的不断深耕和所体现出的明显优势,其用户群体涵盖了学生、科研人员、职场人士和内容创作者等知识需求型人群。月之暗面也表示,Kimi探索版发布后,受到了程序员、科学家、咨询顾问、投资人、律师等专业人群的喜爱。

从用户体量来看,根据量子位智库统计的数据,截至今年10月,在国内现有的68款AI智能助手产品中,只有豆包和Kimi迈过“5000万大关”,其中豆包历史累计下载量破亿,Kimi智能助手下载总量超过5700万。

榜单中,排名第3、4位的产品下载总量各超过2000万。同时,10月新增用户超1400万的Kimi还在将身后的差距逐渐拉大,有望成为“破亿俱乐部”的下一位成员。

第三方平台点点数据也显示,今年10月,ChatGPT、豆包和Kimi智能助手位列全球AI APP苹果端下载量前三,占据了全球苹果端AI APP下载量的51%。

在用户黏性方面,量子位智库指出,我国AI智能助手产品今年10月的留存率基本与上月持平,豆包和Kimi仍稳居前二,两者平均三日留存率超27%,平均七日新增留存率约18%。而其他AI助手产品的平均三日留存率均在25%以下。

此外,从用户活跃度来看,Kimi的10月日活用户量也仅次于豆包。月之暗面公布的数据显示,截至今年10月,Kimi的月活已超3600万人,而且数据仍在持续增长。

从用户体量、活跃度和黏性等多个重要维度来观察,豆包和Kimi已处于第一领跑集团,并与随后各梯队间出现鲜明的分水岭。

“竞争本身并不产生价值,我们做好模型思考推理能力,给用户带来价值,做正确的事情,而不是专门做不一样的事情。”在k0-math的发布会上,杨植麟谈及和以交互能力见长的豆包的竞争时,再度以“聚焦”作为回应。

学会“聚焦”,这是杨植麟过去一年中的一个大课题。如今,这个“创业明星”和他的团队决定眼看前方,继续以加速度向月之暗面迈步前去。

记者|杨昕怡

编辑|蒙锦涛