AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

来源：腾讯网|AI寒武纪

大型语言模型（LLM）最近在各种数学benchmark上疯狂刷分，动辄90%以上的正确率，搞得好像要统治数学界一样。然而，Epoch AI看不下去了，联手60多位顶尖数学家，憋了个大招——FrontierMath，一个专治LLM各种不服的全新数学推理测试！结果惨不忍睹，LLM集体“翻车”，正确率竟然不到2%！

看看Epoch AI是怎么做的

FrontierMath是一个用于评估人工智能高级数学推理能力的基准测试。Epoch AI与60多位顶尖数学家合作，创建了数百道原创的、极具挑战性的数学问题，FrontierMath涵盖了现代数学的大多数主要分支——从数论中计算密集型问题到代数几何和范畴论中的抽象问题，目标是捕捉当代数学的概貌，即使是经验丰富的数学专家，也得绞尽脑汁，花费数小时甚至数天才能解出来

FrontierMath具有三个关键的设计原则：1）所有问题都是新的且未发表的，以防止数据污染；2）解决方案是自动可验证的，从而实现高效的评估；3）问题是“防猜测”的，在没有正确推理的情况下解决的可能性很低

评估结果

评估了六个领先的模型，包括o1 ,Claude 3.5 Sonnet、GPT-4o，Grok和Gemini 1.5 Pro。即使有延长的思考时间（10,000个token）、Python访问权限以及运行实验的能力，成功率仍然低于2%——相比之下，在传统基准测试中，成功率超过90%

Epoch AI指出，现有的数学benchmark，例如GSM8K和MATH，早就被LLM们刷烂了，高分的原因很大程度上是因为数据污染——说白了，就是LLM通过记忆大量的“考古题”来提高分数，真正考试的时候，当然容易！而FrontierMath则完全不同，所有题目都是全新的、未公开的，LLM想作弊都没门！这下LLM们，自然就暴露了它们的真实水平

连菲尔兹奖得主都服了

为了进一步验证FrontierMath的难度，Epoch AI还特意采访了多位菲尔兹奖（数学界的最高荣誉）得主，包括陶哲轩 (2006)、蒂莫西·高尔斯 (1998)、理查德·博赫兹 (1998)，以及国际数学奥林匹克竞赛 (IMO) 教练陈谊廷 (Evan Chen)。这些大佬们一致认为，FrontierMath的题目非常具有挑战性，需要深厚的专业知识和强大的推理能力才能解决

Andrej Karpathy对FrontierMath的看法 :LLM评估中的莫拉维克悖论克悖论

莫拉维克悖论（Moravec's paradox）是由人工智能和机器人学者所发现的一个和常识相佐的现象。和传统假设不同，人类所独有的高阶智慧能力只需要非常少的计算能力，例如推理，但是无意识的技能和直觉却需要极大的运算能力。这个理念是由汉斯·莫拉维克、罗德尼·布鲁克斯、马文·闵斯基等人于1980年代所阐释。如莫拉维克所写；“要让电脑如成人般地下棋是相对容易的，但是要让电脑有如一岁小孩般的感知和行动能力却是相当困难甚至是不可能的

Andrej Karpathy对这个新的前沿数学基准测试（LLM仅解决了2%）的反应：

之所以引入这个基准，是因为大模型越来越多地碾压现有的数学基准。有趣的问题是，尽管从许多方面（/evals）来看，大模型正逐步跻身顶级专家行列（如数学和编码等），但你不会雇用他们而不是让他们从事最琐碎的工作。如果你把问题描述整齐地放在盘子里，他们就能解决复杂的封闭式问题，但他们很难连贯地把长长的、自主的、解决问题的序列串联起来，而人却会觉得非常容易

这是莫拉维克悖论的变相，他在 30 多年前就观察到，对人类来说容易/困难的事情，与对计算机来说容易/困难的事情，在非直觉上可能大相径庭。例如，人类对计算机下国际象棋印象深刻，但国际象棋对计算机来说却很容易，因为它是一个封闭的、确定性的系统，具有离散的行动空间、完全的可观测性等等。反之亦然，人类可以系好鞋带或叠好衬衫，而且根本不需要考虑太多，但这是一项极其复杂的传感运动任务，对硬件和软件的技术水平都是挑战。这就像不久前 OpenAI 发布的魔方一样，大多数人都把注意力集中在解魔方本身（这是微不足道的），而不是用机器人的手转动魔方的一个面这一实际难度极高的任务

因此，我非常喜欢这个 FrontierMath 基准，我们应该制作更多的基准。但我也认为，如何为所有 "容易 "但其实很难的东西创建评估是一个有趣的挑战。很长的语境窗口、连贯性、自主性、常识、有效的多模态输入/输出...... 我们如何建立良好的 "初级工作 "评估？你对团队中任何初级实习生的期望

结语：

不管怎么说，数学为评估复杂推理提供了一个独特的理想环境。它需要创造力和 extended chains of precise logic——通常涉及复杂的证明——这些证明必须经过精心计划和执行，但允许对结果进行客观验证

衡量人工智能在创造性问题解决和在多个步骤中保持精确推理方面的能力，可能有助于深入了解在系统性、创新性思维（科学研究所需）方面的进展

探索FrontierMath：

https://epochai.org/frontiermath发布了带有详细解答、专家评论和研究论文的示例问题

阅读最新前沿科技研究报告，欢迎访问欧米伽研究所的“未来知识库”

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。

截止到10月25日 ”未来知识库”精选的100部前沿科技趋势报告

1. 牛津大学博士论文《深度具身智能体的空间推理与规划》230页

2. 2024低空经济场景白皮书v1.0（167页）

3. 战略与国际研究中心（CSIS）人类地月空间探索的总体状况研究报告（2024）

4. 人工智能与物理学相遇的综述（86页）

5. 麦肯锡：全球难题，应对能源转型的现实问题（196页）

6. 欧米伽理论，智能科学视野下的万物理论新探索（50页报告）

7. 《美国反无人机系统未来趋势报告（2024-2029 年）》

8. Gartner 2025 年主要战略技术趋势研究报告

9. 2024人工智能国外大模型使用手册+中文大模型使用手册

10. 详解光刻巨人ASML成功之奥妙-241015（94页）

11. CB Insights：未来变革者：2025年九大科技趋势研究报告

12. 国际电信联盟2023-2024年联合国人工智能AI活动报告388页

13. 《人工智能能力的人类系统集成测试和评估》最新51页，美国防部首席数字和人工智能办公室（CDAO）

14. 2024瑞典皇家科学院诺贝尔化学奖官方成果介绍报告

15. MHP：2024全球工业4.0晴雨表白皮书

16. 世界经济论坛白皮书《AI价值洞察：引导人工智能实现人类共同目标》

17. 瑞典皇家科学院诺贝尔物理学奖科学背景报告资料

18. AI智能体的崛起：整合人工智能、区块链技术与量子计算(研究报告，书）

19. OpenAI o1 评估：AGI 的机遇和挑战（280页）

20. 世界知识产权组织：2024 年全球创新指数（326页）

21. 美国白宫：国家近地天体防御策略与行动计划

22. 【CMU博士论文】持续改进机器人的探索，243页

23. 中国信通院：量子计算发展态势研究报告2024年58页

24. 2024年OpenAI最新大模型o1革新进展突出表现及领域推进作用分析报告

25. 【新书】通用人工智能，144页

26. 联合国：《未来契约》、《全球数字契约》和《子孙后代问题宣言》三合一

27. 世界气候组织：2024团结在科学中，守卫地球系统的未来

28. 世界经济论坛《量子技术助力社会发展：实现可持续发展目标》研究报告

29. 人工智能科学家：迈向全自动开放式科学发现

30. 欧盟：石墨烯旗舰项目十年评估报告

31. 美国信息技术和创新基金会：美国的数字身份之路研究报告

32. 麦肯锡：2024能源转型挑战未来研究报告

33. 联合国贸易与发展会议：2024世界投资报告

34. 兰德：评估人工智能对国家安全和公共安全的影响

35. 兰德：2024评估人工智能基础模型市场的自然垄断条件

36. 经合组织：2015-2022 年生物多样性与发展融资

37. ITIF：中国半导体创新能力研究报告

38. 英国皇家学会：数学未来计划，数学和数据教育的新方法研究报告

39. 欧盟：10年人类大脑计划创新评估报告

40. GLG格理集团：2024深度解读半导体行业关键趋势和专家洞见报告15页

41. 华为智能世界2030报告2024版741页

42. 联合国：2024为人类治理人工智能最终报告

43. 达信Marsh：2024全球科技产业风险研究报告英文版27页

44. 鼎帷咨询：2024英伟达人工智能发展战略研究报告149页

45. 【博士论文】大语言模型的测试与评价：准确性、无害性和公平性，223页pdf

46. 麦肯锡：2024世界能源产业展望

47. 世界经济论坛《太空：全球经济增长的 1.8 万亿美元机遇》

48. 世界经济论坛：世界“技术先锋”名单100家公司名单

49. 世界经济论坛：2024绘制地球观测的未来：气候情报技术创新

50. 核聚变技术作为清洁能源供应替代来源的全球发展和准备情况

51. 大模型生成的idea新颖性与人类对比研究报告（94页）

52. IQM ：2024 年量子状况报告

53. 2024十大新兴技术研究报告

54. 2024地球观测 (EO) 洞察带来的全球价值（58页）

55. 2023-2024世界基础设施监测报告

56. 世界银行：2024世界发展报告，中等收入陷阱

57. 2024国际前沿人工智能安全科学报告132页

58. 斯坦福大学2024人工智能指数报告

59. 美国总统科学技术顾问委员会：《利用人工智能应对全球挑战》63页报告

60. 柳叶刀行星健康：2024地球系统安全与健康评估报告

61. 中国未来50年产业发展趋势白皮书III

62. OpenAI o1系列产品原理与安全最新研究报告（80页）

63. 国家互联网信息办公室：国家信息化发展报告2023年110页

64. 埃森哲：2024年风险研究报告-重大颠覆需要持续重塑英文版39页

65. 36氪研究院：2024年中国城市低空经济发展指数报告41页

66. 美国信息技术与创新基金会：《中国在量子领域的创新能力如何》研究报告

67. 理解深度学习500页报告

68. 鼎帷咨询：2024全球人工智能发展研究报告44页

69. 【伯克利博士论文】大型语言模型迈向能够学习和发现一切的机器

70. 《量子技术：前景、危险和可能性》45页报告

71. 英国皇家学会报告：人工智能在科学、技术、工程和数学领域的应用

72. 未来今日研究所：2024世界技趋势报告（980页）

73. 面向大规模脉冲神经网络：全面综述与未来方向

74. 大模型+知识库市场全景报告

75. 《太空力量的理论基础：从经济学到不对称战争》2024最新94页报告

76. CBInsights：2024年第二季度全球企业风险投资状况报告英文版124页

77. 英国科学院：数据管理和使用：21 世纪的治理（2024），99页

78. 兰德智库：展望2045 一项前瞻性研究探讨未来 20 年全球趋势的影响

79. 世界知识产权组织：2024年世界知识产权报告：让创新政策促进发展

80. 全球灾难风险研究所：评估大型语言模型接管灾难的风险

81. 牛津马丁学院：人工智能风险国际科学评估的未来

82. 联合国贸易和发展署：2024世界投资报告

83. 兰德公司：人工智能军事应用的新风险和机遇

84. 英国皇家学会：AI时代的科学发展趋势研究报告

85. 百页风电行业研究方法论：从中国到世界从陆地到海洋-240902，98页

86. 中国信通院发布《大模型落地路线图研究报告（2024年）》

87. 星河智源：2024年无人驾驶技术全景报告35页

88. 星河智源：2024年光刻机技术全景报告37页

89. 人形机器人行业研究方法论：特斯拉领衔人形机器人的从1到N

90. 兰德：展望2045一项关于未来20年全球趋势影响的前瞻性研究报告英文版45页

91. 《军事创新与气候挑战》2024最新152页报告

92. 麦肯锡：2024困难点：驾驭能源转型的物理现实（196页）

93. 《麻省理工科技评论》万字长文：什么是人工智能？

94. 软件与服务行业：从特斯拉智能驾驶看人形机器人发展路径

95. 中国信通院：中国数字经济发展研究报告2024年82页

96. CB Insights：2024年第二季度全球风险投资状况报告 244页

97. 脑启发的人工智能：全面综述

98. 二十年关键技术跟踪报告

99. 中国首部城市大脑系列建设标准（8项）汇编

100. 麦肯锡2024技术趋势展望报告100页

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

国产AI视频神器X-Portrait 2，效果碾压Runway

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

毕马威中国发布中国智能制造科技十大趋势：智能机器人成热门赛道

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

AI是怎么认出AI视频的？人类靠寻找“违和感”，AI靠的是

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

Nature：AI也许可以拥有常识，但不是现在

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

一句话开发AI智能体，有人靠它一单赚10万！80万开发者已入局

大疆前高管带6人创业，做出了类目Top1的割草机器人

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

OpenAI、谷歌、Anthropic新模型遇瓶颈：缺数据、成本高、性能不及预期

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

国产AI视频神器X-Portrait 2，效果碾压Runway

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

毕马威中国发布中国智能制造科技十大趋势：智能机器人成热门赛道

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗 在世界顶级黑客大会DEF CON上，两名

AI是怎么认出AI视频的？人类靠寻找“违和感”，AI靠的是

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

Nature：AI也许可以拥有常识，但不是现在

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

Hinton揭秘Ilya成长历程：Scaling Law是他学生时代就有的直觉

Transformer打破三十年数学猜想！Meta研究者用AI给出反例，算法杀手攻克数学难题

一句话开发AI智能体，有人靠它一单赚10万！80万开发者已入局

大疆前高管带6人创业，做出了类目Top1的割草机器人

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

OpenAI、谷歌、Anthropic新模型遇瓶颈：缺数据、成本高、性能不及预期

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初