大家好,我是章北海

高考结束了,前几天市面上有很多测评大模型在语文作文和高考数学的表现。

我凑热闹也测试了通义千问、Kimi、智谱清言、Gemini Advanced、Claude-3-Sonnet、GPT-4o

打开网易新闻 查看更多图片
文中,我设置了投票,观众评价这几个大模型谁“写”的作文最好。

收到了 106 个投票,GPT-4o 获55票,占比52%。

打开网易新闻 查看更多图片

大模型的数学能力如何呢?

机器之心做了测试,我也转载这篇文章:

文中选择了GPT-4o、GLM-4、文心一言 4.0、豆包、百小应(百川 4)以及通义千问 2.5 去做高考数学考试(新课标 Ⅰ 卷)等试题。

机器之心评测了前 14 个客观题,覆盖了基础的数学知识和计算能力,满分为 73 分。

测试时,将题目直接输入,不做 System Prompt 引导,直接输出结果;同时也没有触发搜索,没有来自外界的干扰。

最终得分如下:

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

我对这个结果蛮惊讶的

一是各路大模型表现都很一般,客观题表现居然都这么差。

二是GPT-4o表现居然仅排第三,这和它在作文上的表现差远了。

所以我有点好奇,如何把这GPT-4o做错的几道题用英语提问,结果会如何呢?

公平起见,也仅提问原题,不做Prompt引导。

单选题二:英文提问后回答正确✅

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

单选题六:英文提问后回答正确✅

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

单选题八:英文提问后回答依然错误❌

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

多选题二:英文提问后回答依然错误❌

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

多选题三:英文提问后回答依然错误❌

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

结论:

1、GPT-4o 用英文提问可以提升正确率,但有限。

2、国产大模型确实强,尤其是GLM-4,上周它还开源了,我很看好它。

3、大模型还是文科生,偏科严重,数学本身也是AI最难攻克的领域。

4、运用大模型应该扬长避短,要学会知“模型”而善用。

点这里关注我,记得标星哦~