AI偏科的毛病「治」得咋样了？我们实测了6款大模型

AI好好用报道

编辑：杨文

省流版结论：有进步，但联系实际的题目还是歇菜。

生活会欺骗你，但数学不会，数学不会就是不会。

这个段子，在大模型身上同样成立。

9.9 和 9.11 哪个大、strawberry 有几个 r，如此简单的题目曾难倒一群大模型。

本着哪里薄弱补哪里的原则，大模型们近来「卷」起了数学推理。

先是 Kimi 网页端上线了首个数学模型 k0-math ，直接对标 OpenAI 的 o1-mini 和 o1-preview。

据 Kimi 官方介绍，在中考、高考、考研以及包含入门竞赛题的 MATH 等 4 个数学基准测试中，k0-math 初代模型成绩超过 o1-mini 和 o1-preview 模型。

没隔几天，昆仑万维和阿里均推出了自家 o1 模型。

其中，昆仑万维表示其 Skywork o1 系列模型，在各项数学指标上实现显著提升。

而阿里声称最新的 QwQ-32B-preview 在 GPQA 上击败了 o1-mini。

半个月前，夸克发布 AI 搜题功能，其背后的「灵知」学习大模型，号称在考研数学题上的正确率和得分率可以比肩 o1 模型。

还有一直跟数学「死磕」的学而思，推出的九章大模型一度成为家长辅导孩子的「利器」。

接下来，我们就测评一下这些大模型的真实数学水平。

对标选手 ——

OpenAI 的 o1-mini、o1-preview

踢馆选手 ——

月之暗面 Kimi 的 k0-math：

在 Kimi Web 版的侧边栏，找到图标，点击进入。

学而思九章大模型：

https://playground.xes1v1.cn/MathGPT

阿里 QwQ-32B-preview：

https://huggingface.co/spaces/Qwen/QwQ-32B-preview

夸克灵知大模型：

可在夸克 App 或夸克 PC 端，点击「AI 搜题」调用。

小学数学题

别看不起小学数学题。

小学数学多神题，大模型也最容易栽跟头。

小明 120 元买了一只鸡，130 元卖出去，150 元再买回来，160 元又卖出去，问：一共赚了多少钱？

答案：20 元。

o1-mini：

o1-preview：

Kimi 的 k0-math：

学而思九章大模型：

夸克灵知大模型：

阿里 QwQ-32B-preview：

总结：

一个西瓜进价 20 元，卖了 40 元，老板收了 100 元假币，问老板亏了多少钱？

答案：亏 80 元。

o1-mini：

o1-preview：

Kimi 的 k0-math：

学而思九章大模型：

夸克灵知大模型：

阿里 QwQ-32B-preview：

总结：

一段长 100 米的铁路，用 10 米长的铁轨铺，要多少根铁轨？

答案：20 根。一条火车轨道的铁轨有两条，所以要用到 20 根。这道题不仅考验数学能力，同时还要能结合实际生活。

o1-mini：

o1-preview：

Kimi 的 k0-math：

学而思九章大模型：

夸克灵知大模型：

阿里 QwQ-32B-preview：

总结：

初中数学题

某工程队承接一隧道工程，在挖掘一条 1000 米长的隧道时，为了尽快完成，实际施工时每天挖掘的长度是原计划的 2 倍，结果提前了 50 天完成了其中 800 米的隧道挖掘任务。求实际每天挖掘多少米？

答案：实际每天挖掘 16 米。

o1-mini：

o1-preview：

Kimi 的 k0-math：

学而思九章大模型：

夸克灵知大模型：

阿里 QwQ-32B-preview：

总结：

高中数学题

答案选：B

由于 Kimi、o1-mini、o1-preview、QwQ-32B-preview 无法上传图片，而题目中数学符号又难以输入，所以我们截图后，用 Kimi 常规版将其转为 LaTeX 格式：

\item 已知函数为 $f (x) = \left\{

\begin {array}{ll}

-x^2 - 2ax - a, & x < 0 \\

e^x + \ln (x + 1), & x \geq 0

\end {array}

\right.$，在 $\mathbb {R}$ 上单调递增，则 $a$ 取值的范围是 ()

\begin {enumerate}

\item A. $(-\infty, 0]$

\item B. $[-1, 0]$

\item C. $[-1, 1]$

\item D. $[0, +\infty)$

    \end {enumerate}

o1-mini：

o1-preview：

Kimi 的 k0-math：

学而思九章大模型：

夸克灵知大模型：

由于该题目已在夸克的题库中，因此无法调用灵知大模型，以下为夸克常规搜题的结果。

阿里 QwQ-32B-preview：

总结：

从最终测试结果来看，经过几个月来的进化，国产大模型在数学方面确实有了很大的进步。

在常规数学题上，o1-mini 和 o1-preview 频频翻车，反倒是国产大模型发挥稳定。

不过，对于联系生活实际的题目，大模型们仍搞不定。比如计算铁轨那道题，国内外大模型们「全军覆没」。

此外，在做数学题时，这些大模型们的「脑回路」并不太一样。

相较而言，Kimi 的 k0-math 和阿里 QwQ-32B-preview 做题时更加谨慎，它们得出答案后，会不断验证，并思考其他可能漏掉的情况。

学而思九章大模型则是先分析题目，然后解题并进行知识归纳，同时还提供了答案置信度。

夸克AI搜题的一大特色在于同一道题目提供多种解题思路，并可通过对话进一步请教相关知识点。

以后我们会带来更多AI大模型评测，也欢迎大家进群交流。

转载请联系本公众号获得授权

AI偏科的毛病「治」得咋样了？我们实测了6款大模型

2024，大模型杀进“决赛圈”

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

AI陪伴APP星野+猫箱的流量，居然和Kimi一个量级？

科学家构建全新数据驱动分析框架，推动控制系统向数据驱动变革

连塔罗牌都用上 AI 了，年轻人痴迷的玄学又多一个平替

人工智能：半个世纪的思想运动

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

AI看病比医生强？哈佛、斯坦福最新研究：o1-preview模型诊断准确率高达近80%

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

妈妈，今晚能不讲数学题的故事吗？小悦躺在床上眼中满是祈求

我是不是真的变笨了？这道小学数学题都不会

这小学数学题讲了N遍，她还是做错！爸爸气得脸红

潢川县宁西路小学开展“快乐六个一”数学周活动

几何朗兰兹猜想被解决！论文达800余页，中国学者陈麟系主要作者

015上海市小升初名校考试题题目太难不少同学毫无头绪

032中考几何题已知两边求一边难度四颗星

040小学数学易错题求下列图形周长这题看着不简单啊

039初中几何已知三角形三条边求面积一个公式就能搞定

578小学数学求阴影面积题，好方法轻松破解

574求最大公因数，五大好方法，学霸必学必会