AI也懵圈：13.8%和13.11%到底哪个大？

文：董指导

-----------------------------------o------------------------------------

本期要点

#大模型 #数学 #比大小

---------------------------------o----------------------------------

理工科和金融的复合背景，让我更好地理解技术，也喜欢从投资的视角发现变化，毕竟资本永不眠、资本最敏锐。国内头部私募的投研、以及头部财经自媒体创业的两段经历，让我有了结构化的思考体系时，也更理解企业经营并非写报告。因而，剖析商战，就成为我理解商业、发现机遇的最佳视角。

今天就来聊一下“大模型的数学计算能力”。

前几天，《歌手2024》最新一期，孙楠以微弱优势超过了海外歌手，获得第三。结果，却引起了网友们的争执。

争执焦点不是孙楠和海外选手Chante Moore谁唱得好，而是13.8%和13.11%到底哪个大？

不少人感叹，5%本科率，诚不欺我。九年义务教育，都白普及了。

但你要以为只有网友们是这样，那就大错特错了。同样的类似的问题，抛给AI之后，也翻车了。

ChatGPT 也没反应过来，但是经过多次提问矫正后，可以给出正确答案。

那么，国内各AI会如何呢？测试是这样：第一轮，直接询问“9.8和9.11哪个大”。

第二轮：担心AI没理解是数学问题，所以更加明确是“数字比大小，9.8和9.11哪个大”。

第三轮：质疑。

第四轮：继续质疑。

结果是这样的：

1、文心一言

第一轮就直接回答正确，而且两次质疑后，依然回答正确。

2、字节

也是，第一轮就回答正确了。两次质疑后，依然十分确定。

3、讯飞星火

第一轮回答正确，但质疑之后，就懵圈了，回答错了。再次质疑后，又重新计算了一遍。然后，再质疑几次后，基本是坚持正确答案不变了。

4、通义千问

第一次回答错误；第二次告诉是数字比大小后，回答正确。

但是质疑之后，就连续错误了。

眼看着救不回来了，我又重复了一遍数学比大小，这次纠正了前面错误，而且在质疑之后能坚持正确答案了。

5、KIMI

KIMI还是处理中文结构化是非常好的，数学，这次翻车得很。怎么说都不行，脑海里浮现的就是吵架时女朋友的我不听我不听。

当然，数学计算只是AI的一个小功能，并不代表绝对的优劣。但是，还是提醒了我们，目前阶段，一个AI助手，是不够的。要多个交叉验证。

-全文完

理工/金融复合背景，头部私募/头部自媒体双重经历

董指导和大家一起

深度挖掘商战，前瞻发现机遇

点个在看和赞再走~

AI也懵圈：13.8%和13.11%到底哪个大？

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

AI三重劫

国内开店卷不动，换上AI出海试试

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

网友用350美元造出能走能玩的端到端人形机器人

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

国产AI视频神器X-Portrait 2，效果碾压Runway

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

大疆前高管带6人创业，做出了类目Top1的割草机器人

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

AI是怎么认出AI视频的？人类靠寻找“违和感”，AI靠的是

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

AI也懵圈：13.8%和13.11%到底哪个大？

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

两个AI关小黑屋：Llama3.1把Claude Opus聊自闭了

AI三重劫

国内开店卷不动，换上AI出海试试

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

网友用350美元造出能走能玩的端到端人形机器人

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

国产AI视频神器X-Portrait 2，效果碾压Runway

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

大疆前高管带6人创业，做出了类目Top1的割草机器人

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

AI是怎么认出AI视频的？人类靠寻找“违和感”，AI靠的是

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初