AI大模型可以写诗，但不擅长数学

原标题：A.I. Can Write Poetry, but It Struggles With Math作者：Steve Lohr 来源：纽约时报编译：阿宅图源：Unsplash

人工智能聊天机器人就像学生一样，努力勤奋，孜孜以求，口齿伶俐。但奇怪的是，它们却经常在数学上遇到困难。

类似于ChatGPT这样的聊天机器人可以写诗、总结书籍摘要、回答问题，它们通常具有像人类一样的流畅性。虽然这些系统可以根据所学知识进行数学运算，但结果可能会有所不同，甚至可能是错的。这些聊天机器人经过微调，可以用于确定概率，而非进行基于规则的运算。可能性不等于准确性，而且语言比数学更灵活，标准更宽松。

美国西北大学计算机科学教授兼人工智能研究员克里斯蒂安·哈蒙德（Kristian Hammond）说：“人工智能聊天机器人在数学方面吃力，是因为它们从来不是为数学而设计的。”

看起来，世界上最聪明的计算机科学家创造的人工智能更像是文科专业的学生，而不是数字奇才。

乍一看，这与计算机的历史发展截然不同。自20世纪40年代早期计算机诞生以来，计算机一直在不知疲倦、快速、准确地计算。长期以来，计算机真正擅长的是处理棘手的数字，其表现远远优于人类。计算机遵循规则，并在结构化的数据库中检索信息。它们既强大又脆弱，因此，过去在人工智能方面的努力遇到了障碍。

然而，十多年前，这一障碍得以突破。作为底层技术的神经网络，可以松散地模拟了人脑中真实神经网络的复杂链接。这类人工智能不是按照严格的规则编程的，而是通过分析大量数据来学习。这类人工智能像人类一样，根据所吸收的所有信息生成语言，预测接下来最有可能出现的单词或短语。

“这项技术实现了很多了不起的事情，但并不意味着它是无所不能的。”哈蒙德博士说。

有时，人工智能聊天机器人会遇到简单的算术和数学单词问题，需要多个步骤才能找到解决方案，一些技术评论家最近注意到了这一点。虽然人工智能的熟练程度正在提高，但仍然有缺陷。

在最近召开的一次研讨会上，可汗学院的首席学习官克里斯汀·迪瑟博（Kristen DiCerbo）介绍了数学准确性这一主题。“正如你们许多人所了解的，这确实是一个问题。”迪瑟博说。

几个月前，可汗学院对其人工智能助手Khanmigo进行了大的调整，将许多数值问题发送到计算器程序，而不是要求人工智能解决数学问题。学生在等待计算器程序完成时，会在屏幕上看到“做数学”的字样，也会看到Khanmigo的图标在摇头。迪瑟博说：“我们实际上是在使用专门的数学工具。”

这一年多来，ChatGPT在解决一些数学问题时用了类似的解决方法。对于大数除法和乘法等任务，ChatGPT会向计算器程序寻求帮助。

OpenAI在一份声明中表示，数学是一个“需要持续研究的重要领域”。OpenAI表示，在包含数千个需要视觉感知和数学推理的问题的公共数据库上，其新版GPT达到了近64%的准确率，高于比上一版本的58%。

当人工智能聊天机器人消化了大量相关的训练数据，包括教科书、练习和标准化测试时，它们的往往表现出色。其结果是，聊天机器人之前已经看到并分析了非常相似的问题。OpenAI表示，ChatGPT技术的最新版本在高中生的SAT数学考试中得分为第89百分位。

人工智能聊天机器人在数学方面的不稳定表现为人工智能界关于该领域最佳前进方向的激烈辩论增添了亮点。大体上形成了两个阵营。

一方面，有人认为，为人工智能聊天机器人提供动力的高级神经网络，即大语言模型，是通向稳步发展并最终实现通用人工智能（AGI）的唯一途径。这是硅谷地区的主流观点。

但也人质疑，向大模型添加更多数据和计算能力是否足够。其中的代表人物是Meta首席人工智能科学家Yann LeCun。

LeCun博士说，大模型缺乏对逻辑的掌握，也缺乏常识推理。他坚称，我们需要的是一种更广泛的方法，他称之为“世界模型”（world modeling），即能够像人类一样学习世界如何运作的系统。这可能需要十年左右的时间才能实现。

与此同时，Meta正在基于其大模型LLaMA，将人工智能驱动的智能助理软件整合到其社交媒体服务中，包括Facebook、Instagram和WhatsApp。目前的模型可能有缺陷，但仍然做了很多工作。

大卫·费鲁奇（David Ferrucci）领导的团队打造了IBM著名的超级电脑“沃森”，这款电脑在2011年击败了《危险边缘》（Jeopardy）节目历史上最成功的两位选手。与大多数计算机科学家一样，费鲁奇认为最新的人工智能技术无疑令人印象深刻，但主要在于语言技能方面，而非在于准确性。他成立的初创公司Elemental Cognition开发软件，以改善金融、旅游和药物研发等领域的商业决策。Elemental Cognition将大语言模型作为一个组成部分，但也使用更多基于规则的软件。

费鲁奇博士说，这种结构化软件是目前运行世界上大部分基础系统（如银行、供应链和空中交通管制）的计算基础设施。他说：“许多重要的事情需要非常高的精确度。”

纽约高中数学老师柯克·施耐德（Kirk Schneider）表示，他认为人工智能聊天机器人对教育产生影响是不可避免的。他说，虽然学校管理人员可以禁用，但学生们仍会使用。

但施耐德先生有些不安。他说：“通常来说，这些人工智能聊天机器人表现较好，但数学方面还是不够好，数学必须准确。”

然而，这些偶尔的失误实际上是一个教学机会。施耐德经常将他的班级分成小组，聊天机器人的答案是学生讨论的焦点。将你的答案与机器人的进行对比，谁的对？你们是如何得出答案的？

“这教会学生带着批判性的眼光看待事物，并提高批判性思维。”他说，“这类似于问另一个人，这个人可能是正确的，也可能是错误的。”

对于他的学生来说，这似乎是人生一课。在学生以后甚至已经不记得勾股定理后，这堂课仍值得一直铭记：不要相信人工智能程序告诉你的一切。不要过于相信它。

机器人
数学
人工智能

1、本文是芥末堆网原创文章，转载可点击芥末堆内容合作了解详情，未经授权拒绝一切形式转载，违者必究；
2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章，只呈现有价值的内容给读者；
3、如果你也从事教育，并希望被芥末堆报道，请您填写信息告诉我们。

来源：芥末堆

AI大模型可以写诗，但不擅长数学

MIT开发新方法，无需从头训练机器人即可执行复杂任务

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

应用驱动是AI发展的第一性原理

大模型已达上限？科技巨头开始“卷”AI智能体，机构：未来五年市场规模激增420亿美元

人形机器人组队进厂打工！5只Figure 02在宝马工厂

网友用350美元造出能走能玩的端到端人形机器人

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

30年冷板凳，诺贝尔物理学奖得主Hinton的AI往事

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

链式思考如何激发大模型算术推理能力？科学家从神经元激活角度给出答案

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

AI大模型可以写诗，但不擅长数学

MIT开发新方法，无需从头训练机器人即可执行复杂任务

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

应用驱动是AI发展的第一性原理

大模型已达上限？科技巨头开始“卷”AI智能体，机构：未来五年市场规模激增420亿美元

人形机器人组队进厂打工！5只Figure 02在宝马工厂

网友用350美元造出能走能玩的端到端人形机器人

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗 在世界顶级黑客大会DEF CON上，两名

30年冷板凳，诺贝尔物理学奖得主Hinton的AI往事

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

链式思考如何激发大模型算术推理能力？科学家从神经元激活角度给出答案

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

论文登计算机体系结构顶会,芯片架构成为边缘AI最佳并行计算选择

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初