首个AI高考全卷评测结果发布：数学全都不及格

6月19日，上海人工智能实验室发布首个AI高考全卷评测结果，月初开源的阿里通义千问大模型Qwen2-72B排名第一，在语数外三科420分的满分中获得303分，OpenAI的GPT-4o和上海人工智能实验室的书生·浦语2.0文曲星（InternLM2-20B-WQX）排名二三位。

本次评测采用全国新课标I卷，参与评测的所有开源模型，开源时间均早于高考，确保评测 “闭卷”性。全卷试题既包含选择、填空等“答案唯一性”题目，也包括简答、阅读理解及作文等主观题，在更加接近真实高考的环境中测试模型能力。大模型的成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。

大模型数学成绩都不及格

因为受测的开源模型均为大语言模型，在评测过程中，仅输入文字题干（数学包含2道带图试题），英语听力部分（分值30分）不纳入此次评测。

结果，阿里Qwen2-72B以总分303分排名第一，其中语文124分（满分150分），数学70分（满分150分），英语109分（满分120分）；GPT-4o以总分296分位居第二，其中语文111.5分，数学73分，英语111.5分；“书生·浦语”2.0文曲星以0.5分之差排名第三，其中语文112分，数学75分，英语108.5分。

7个大模型的语数外得分情况

可以看到，“AI考生”三甲都擅长文科，语文和英语成绩优良，然而它们的数学推理能力有待提升，高考数学成绩都不及格。目前，数学是所有大模型的短板，得益于上海人工智能实验室在数学推理上的投入，“书生·浦语”2.0文曲星在高考中得到75分，在所有受测模型中位居榜首，但仍存在较大的提升空间。

阅卷老师点评“考生”表现

对于这些“AI考生”的语数外水平，老师们给出了中肯的评价——

语文评卷显示，大模型的现代文阅读理解能力普遍较强，但是不同模型的文言文阅读理解能力差距较大。大模型写的作文更像问答题，虽然有针对性，但缺乏修饰，几乎不用人类考生都会使用的举例论证、引用论证、名人名言等手法。多数大模型不理解“本体”“喻体”“暗喻”等语文概念。对于文章中的一些“潜台词”，大模型还无法完全理解。

7个大模型的语文各题型得分情况

数学评卷显示，大模型的主观题回答相对凌乱，而且解题过程有迷惑性，甚至出现过程错误但得到正确答案的情况。大模型的公式记忆能力很强，但无法在解题过程中灵活运用。

7个大模型的数学各题型得分情况

大模型的英语整体表现良好，然而部分模型由于不适应一些题型，在七选五、完形填空等题型上得分较低。大模型写的英语作文普遍存在因超出字数限制被扣分的情况，而人类考生大多因为字数不够被扣分。

7个大模型的英语各题型得分情况

（综合自上观新闻、）

首个AI高考全卷评测结果发布：数学全都不及格

福建一男生高考语文满分！语文满分和数理化满分，哪个更难？

高考语文145分惊呆一众网友，华师一附中学霸笔记公开，字迹清秀。学习秘籍是多阅读，该背的得背！

河南一妈妈守了一夜查高考成绩，结果英语只有7分，评论笑不活了

笑不活了，江苏一男生高考物理100分，英语49分，评论区笑死

英语美文朗读《你我就像野草一样坚强》

双胞胎姐妹高考喜提双600+

1965年高考题，当年的一道易错题，初中生秒杀了

高考语文145分惊呆一众网友，华师一附中学霸笔记公开

湖北历史类680分考生李慕凡，父母是襄阳五中语文和政治老师，“他们会帮我讲知识点整理素材，这是考得最好的一次”

数学决赛落幕，姜萍完成答卷，37名选手不服输，请愿公开姜萍答卷

湖北省高考物理类696分考生考完估了680分 16分的惊喜来自语文学科考了138分

福建一男生高考语文满分，他的满分作文秘籍是：摘抄和审题训练

真没想到2024年安徽省高考文理科状元都来自合肥一中和一六八中学

湖北学霸黄郑煊高考语文145分，字迹清透令人陶醉

笑不活了，江苏高考600分以上三万多个，怪不得家家必备打印机

湖北高考708分男生称：“没想到考这么高” 暑假将会预习大学知识

高考成绩一出，母女俩都哭了，三年总支出66.23万！

一个班高考分数全部600分以上！

数学单科143分，理科总分702，考生分享学习心得！

高考状元全国第一名是谁？不同分数线，满分900分，只有3个，全部来自同一个省！未来中国教育第一省！

首个AI高考全卷评测结果发布：数学全都不及格

福建一男生高考语文满分！语文满分和数理化满分，哪个更难？

高考语文145分惊呆一众网友，华师一附中学霸笔记公开，字迹清秀。学习秘籍是多阅读，该背的得背！

河南一妈妈守了一夜查高考成绩，结果英语只有7分，评论笑不活了

笑不活了，江苏一男生高考物理100分，英语49分，评论区笑死

英语美文朗读《你我就像野草一样坚强》

双胞胎姐妹高考喜提双600+

1965年高考题，当年的一道易错题，初中生秒杀了

高考语文145分惊呆一众网友，华师一附中学霸笔记公开

湖北历史类680分考生李慕凡，父母是襄阳五中语文和政治老师，“他们会帮我讲知识点整理素材，这是考得最好的一次”

数学决赛落幕，姜萍完成答卷，37名选手不服输，请愿公开姜萍答卷

湖北省高考物理类696分考生 考完估了680分 16分的惊喜来自语文学科 考了138分

福建一男生高考语文满分，他的满分作文秘籍是：摘抄和审题训练

真没想到2024年安徽省高考文理科状元都来自合肥一中和一六八中学

湖北学霸黄郑煊高考语文145分，字迹清透令人陶醉

笑不活了，江苏高考600分以上三万多个，怪不得家家必备打印机

湖北高考708分男生称：“没想到考这么高” 暑假将会预习大学知识

高考成绩一出，母女俩都哭了，三年总支出66.23万！

一个班高考分数全部600分以上！

数学单科143分，理科总分702，考生分享学习心得！

高考状元全国第一名是谁？不同分数线，满分900分，只有3个，全部来自同一个省！未来中国教育第一省！

湖北省高考物理类696分考生考完估了680分 16分的惊喜来自语文学科考了138分