“Grok”一词不是马斯克原创,而是源于科幻作家罗伯特·海因莱因 (Robert A. Heinlein) 1961年的经典小说《异乡异客》(Stranger in a Strange Land)。在小说中,“Grok”是一个火星词汇,其含义远超“理解”,它代表着一种深刻、直观、感同身受的领悟,一种与被理解对象融为一体的境界。

放弃去火星的马斯克连时间观念也丢了。

如果说AI界要有自己的脱口秀的话,我投马斯克这次Grok4发布会一票,

整整推迟一小时,我开始思考午饭吃什么了。

来都来了,还是一起来看看这场时长还没推迟的时间长、背景全黑、全员黑衣服、全场主要靠运动鞋打光、发布前24小时还在测试性能,

打开网易新闻 查看更多图片

发布前一周马斯克还专门去XAI搭帐篷盯着开发的、

打开网易新闻 查看更多图片

得分豪华到把所有模型按在地上打的、

打开网易新闻 查看更多图片

(别一口气读完,我差点上不来气。)

Grok4发布会吧!

打开网易新闻 查看更多图片

我会先用一小段篇幅快速煸干发布会的水分,以及我充了215块/月的Grok4基础版在各种任务下真实表现。

还有就是做了一个表格,把这次没放出来的案例整理进去了,大家有啥想跑的case也贴上去,我定时跑,冤大头能救一个是一个。公众号回复“grok”就ok啦!

Here we go!

01|Grok4纸面实力

这次Grok更新了两个新的订阅套餐,对应Grok4和Grok4 Heavy,平均价格比隔壁OpenAI上涨了50%。我充的Grok4还没有 DeepSearch(深度搜索)和 Deeper search(深深度搜索)的功能。

打开网易新闻 查看更多图片

功能不多,上下文也不咋样。

Grok4的上下文是130k,Heavy版本是256k,只有隔壁Gemini 2.5 pro的13%到25%。

那么贵的话表现不好的话我包喷的。

还有就是哪个天才把摄像头对准演示那哥们的电脑的,四五个案例只有两个完整跑出来了,其他都是看的中间结果,等待过程还要跟马斯克尬聊,感觉这哥们都要碎了。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

从Grok3训练到Grok4,计算量增加了10倍,

打开网易新闻 查看更多图片

有工具的Grok4表现能提升12%

有工具还能多思考的Grok4还能提升10%,

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

高中数学竞赛数据集 AIME25 直接刷到100%了,离谱。。。比Claude4 Opus高了25个点。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

在视觉推理测试机 ARC-AGI 也刷到了 SOTA

打开网易新闻 查看更多图片

在 Vending-Bench 商业模拟中,Grok 4 通过高销量+高利润率策略,将平均净资产提高到第二名的两倍以上,比人工操作、Claude、Gemini、o3都要好。

打开网易新闻 查看更多图片

所以代码?

我那么多代码评测集被你马斯克吞了吗?

总结一下放出来的评分集中在数学、物理、长上下文(这个就搞笑的)、自然科学、人文科学和视觉推理。

是真的一点代码都没提到,发布会演示的时候唯二成功的还是代码和数学案例。。。

02|Grok4真实实力

平时用 Claude4 都习惯了,我都不带测贪吃蛇了,上来先手一个3D小猫,

使用three.js 生成一个由立方体组成的猫咪,然后猫咪在一个平面上原地奔跑的动画,所有代码放在一个html文件里面

打开网易新闻 查看更多图片

很好,四只腿一起跳很有精神。。。

不然试试看做个网页?

打开网易新闻 查看更多图片

只有基础联网搜索的Grok4连自己发布会的信息都没整理全。

我不信!一定还有别的方法用回这215块。

如果我不给Grok4任何限制,就让它出一个炫酷的网页给我呢?

打开网易新闻 查看更多图片

现在知道为什么后续八月第一个要发布会Grok4的代码模型版本了,

Grok4是真不会写代码。。。

那要不测测看多模态能力?毕竟视觉推理里Grok4也是“第一”了,

好消息,图像生成输出很快,

坏消息,图像质量倒退两年,

打开网易新闻 查看更多图片

说不定是可以做图像推理呢?

卡擦一张图就把所有要买的东西算好账了,卡擦一张图就把数量算好了,

打开网易新闻 查看更多图片

很好,也答错了。这里面确实有几个是重叠的,所以我决定降低难度。

我没有去掉图像的水印,想说给Grok4买个破绽。

打开网易新闻 查看更多图片

泪目了,终于答对了,还可以根据水印去找图片的来源了,但这个任务我已经有o3了。Grok4你没用了。

有没有充了Grok Heavy的朋友分享一下自己的案例,我严重怀疑Grok4刷分了,

03|还有啥?

被马斯克偷走215块的我尝试找找发布会没有的信息,

看看能不能回回本,

这次出了一组新的声音, Sal 和 Eve。估计也是只支持英文的了。没用,pass。

打开网易新闻 查看更多视频
一手实测让马斯克睡帐篷的Grok4,DeepSeekR2又多一位可笑的对手

Grok4上线支持了API,每 100 万个tokens是 21-107。没有价格优势,pass。

打开网易新闻 查看更多图片

太失望了,Grok系列本来还是相当不错的,

从OpenRouter统计的数据里看,在编程领域上Grok-3-Beta的使用量能排到第六,

现在看来有可能是因为前段时间频繁送的1000块API做出来的数据错觉,

打开网易新闻 查看更多图片

Grok3被马斯克称为“地球上最聪明的人工智能”,Grok4更是带着“重写全人类的在线知识库”使命诞生(马斯克自己说的不是我说的),

现在看来时间太早、制作太赶、

赶紧把Grok4回炉重造一下吧,

Grok3我用起来都没感觉那么烂。

时间我都给你安排好了,

打开网易新闻 查看更多图片

你就在Coding Model发布的那天,

宣布推出Grok4.1,然后说Grok4运算成本太高,后面只在API出现,

然后把这个模型伪装成Grok4-mini,

再把套餐价格跟OpenAI拉平。

这样还能回点口碑。

谢谢就不用了都是从奥特曼那学来的,

记得把我215块退给我就行了。。。

@ 作者 / 卡尔@ 动手学AI / learnprompt.pro

最后,感谢你看到这里如果喜欢这篇文章,不妨顺手给我们点赞|在看|转发|评论

如果想要第一时间收到推送,不妨给我个星标

更多的内容正在不断填坑中……

打开网易新闻 查看更多图片