复旦大学高考数学大模型评测，阿里千问和讯飞星火力压 GPT-4o

近日，复旦大学 NLP（自然语言处理）实验室 LLMEVAL 团队发布了 2024 年高考数学大模型评测的结果。在这次评测中，阿里千问和讯飞星火分别获得了 2024 高考数学新 I 卷的第一名和第二名，以及高考数学新 II 卷的第二名和第一名，两份考卷的评测中，GPT-4o 均列第三名。

复旦 NLP 团队认为，全新出炉的高考试题具备高度的独创性和保密性，是用来评测大模型的绝好评测集合。在新 Ⅰ 卷中，阿里千问和讯飞星火对 14 道数学客观题的准确率达到 70% 以上，大幅领先 GPT-4o 的 57%，字节豆包、智谱清言、百川等大模型紧随其后，准确率超过 50%，百度文心一言、腾讯元宝、Kimi 等大模型准确率较低。而在在新 Ⅱ 卷的评测中，讯飞星火、阿里千问、GPT-4o 准确率均超过 60%，其他大模型的差距较小，除百川、DeepSeek 和海螺之外，准确率均在 50% 以上。

数学能力是 GPT-4o 一直以来引以为傲的能力模块，OpenAI 在 5 月 14 日的发布会上推出大语言模型 GPT-4o 时，曾重点演示其数学能力。

在现场演示中，GPT-4o 利用其实时的图像识别和语音能力进行在线教学。从评测结果可以看出，阿里千问和讯飞星火对数学问题的深入理解和分析能力已经超过 GPT-4o，使其在高考数学试题的解答上具有更高的准确率。有网友表示，做数学题毕竟还是咱中国人的特长。

以阿里千问和讯飞星火为代表，国产人工智能大模型在数学领域的出色能力，为未来人工智能技术在教育领域的应用提供了有力支持。

复旦大学高考数学大模型评测，阿里千问和讯飞星火力压 GPT-4o

1965年高考题：数字找规律，难倒大学生

韦东奕做2024年高考数学，能不能考满分？答案出乎意料

1974年高考：千人晒太阳？打一字 #每天学习一点点

2024高考日语小作文分析，你能得多少分？

英语美文朗读《你我就像野草一样坚强》

三分钟听懂一个专业系列之世界史#2024高考 #高中生

高考志愿同样分数，城市、大学、专业该如何选择！

同学们家长们！尽量做有确定结果的选择！这样才能减少求学的焦虑

本科很重要！本科的档次也很重要！怎么才能用低分读到好的大学呢

高考报考：诡异却又被普遍认可的事（六）

北京将于6月25日中午前发布高考成绩和各批次录取分数线

中国哪个省的高考难度最大？录取率就是最好的回答，河南考生破防

星辰大海 | 一份高考试卷的分数是怎样“出炉”的？

十大名校分数线出台，清华北大一分之差，是我这辈子够不到的终点

湖北一学霸放弃清华的保送，说要享受高考过程，后来他考多少分？

安徽宿州公示：拟录用一名，斯坦福大学博士为灵璧县乡镇公务员，在6名考生中其笔面试、总分成绩均位列第1

刚刚，安徽高考阅卷现场传来消息！

填写“高考志愿”，要注意以下这些点

太卷了！江苏高考结束，制服考生被劳斯莱斯接送！评论全是骂声！

台湾小姐姐竟羡慕大陆高考生很幸福，这是为啥？

复旦大学高考数学大模型评测，阿里千问和讯飞星火力压 GPT-4o

1965年高考题：数字找规律，难倒大学生

韦东奕做2024年高考数学，能不能考满分？答案出乎意料

1974年高考：千人晒太阳？打一字 #每天学习一点点

2024高考日语小作文分析，你能得多少分？

英语美文朗读《你我就像野草一样坚强》

三分钟听懂一个专业系列之世界史#2024高考 #高中生

高考志愿 同样分数，城市、大学、专业该如何选择！

同学们家长们！尽量做有确定结果的选择！这样才能减少求学的焦虑

本科很重要！本科的档次也很重要！怎么才能用低分读到好的大学呢

高考报考：诡异却又被普遍认可的事（六）

北京将于6月25日中午前发布高考成绩和各批次录取分数线

中国哪个省的高考难度最大？录取率就是最好的回答，河南考生破防

星辰大海 | 一份高考试卷的分数是怎样“出炉”的？

十大名校分数线出台，清华北大一分之差，是我这辈子够不到的终点

湖北一学霸放弃清华的保送，说要享受高考过程，后来他考多少分？

安徽宿州公示：拟录用一名，斯坦福大学博士为灵璧县乡镇公务员，在6名考生中其笔面试、总分成绩均位列第1

刚刚，安徽高考阅卷现场传来消息！

填写“高考志愿”，要注意以下这些点

太卷了！江苏高考结束，制服考生被劳斯莱斯接送！评论全是骂声！

台湾小姐姐竟羡慕大陆高考生很幸福，这是为啥？

高考志愿同样分数，城市、大学、专业该如何选择！