AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GPT-4o|聚焦

《科创板日报》5月17日讯（记者朱凌） 近日，OpenAI用一场26分钟的线上直播展示了GPT-4o带来的惊艳交互能力，将新一轮AI争霸带入了“Her 时代”。GPT-4o的“o”代表“omni”，一词意为“全能”，该模型能够实现无缝的文本、视频和音频输入，并生成相应模态的输出，真正意义上实现了多模态交互。

紧随其后一天，年度Google I/O开发者大会如期而至，谷歌CEO Sundar Pichai宣布了一系列围绕其最新生成式AI模型Gemini的重大更新，全面反击OpenAI，其中就有由升级后Gemini模型驱动的AI助手项目Project Astra、对标Sora的文生视频模型Veo等。

本周AI战场暂告一段落，《科创板日报》记者对AI界的“明星”选手——谷歌Gemini 1.5 Pro（100万tokens）、OpenAI最新升级的GPT-4o与此前发布的GPT-4进行了一场能力评测。

▍文本测试：谷歌Gemini 1.5 Pro正确率和速度完胜GPT-4o和GPT-4

OpenAI发布GPT-4已过去一年多，据介绍，此次推出新旗舰模型GPT-4o的推理能力有明显的提升，速度快了，价格也下降了。

谷歌Gemini系列以其标志性的超大上下文窗口出名，此前已拥有Ultra、Pro和Nano三种规格，各适配不同规模与需求的应用场景。本次发布会宣布，迭代后的Gemini 1.5 Pro 的上下文长度从原有的100万tokens（语句单位）提升到了200万tokens。这一改进显著增强了模型的数据处理能力，使其在处理更加复杂和庞大的数据集时更加游刃有余。

两家公司都对自己的大模型的升级换代展现出自信姿态，但情况还需要实际验证。

第一题是“事实回答题”，只有谷歌Gemini 1.5 Pro模型回答正确，它能辨别出“螺丝钉并不是一种食品”这一事实。

Gemini 1.5 Pro回复结果

GPT-4和GPT-4o虽然对“麻辣螺丝钉怎么做”的回答非常详细和全面，涵盖了所需材料、制作步骤以及小贴士，但是却忽略了“螺丝钉并不是一种可食用品”这一前置事实。

GPT-4、GPT-4o回复结果

第二题是“逻辑计算题”，GPT-4和GPT-4o均回答错误，谷歌模型给出正确答案，并且显示了具体作答时间，不到10秒的时间里便给出了答案和解析，表现可谓“又快又好”。

Gemini 1.5 Pro回复结果

不同模型在处理逻辑问题时所采取的思考策略有所差别。与Gemini 1.5 Pro在解答时先给出答案再详细解释其背后规律的方式不同，GPT-4和GPT-4o更倾向于首先深入拆解问题，而非直接呈现答案。然而，这种对问题的细致分析和拆解过程也导致了后两者在回答时所需的时间相对较长。

GPT-4、GPT-4o回复结果

第三题是“生物题”，GPT-4回答错误，GPT-4o和谷歌Gemini 1.5 Pro回答正确，用时分别为14.83秒和11.2秒，Gemini 1.5 Pro略胜一筹。

Gemini 1.5 Pro回复结果

第四题是“伦理道德题”，三个大模型的回答都正确，并且都能识别出是经典的伦理困境“电车难题”。GPT-4和 Gemini 1.5 Pro强调了伦理困境的复杂性，并没有给出直接的选择，GPT-4o则根据“最大限度减少伤亡”的原则进行分析并给出选择。

三大模型回复结果

《科创板日报》记者总结文本测试结果发现，谷歌100万级参数的Gemini 1.5 Pro模型凭借四次全部正确的表现，实力杠杆，GPT-4o答对了两次，而GPT-4模型的表现则不尽人意，仅答对了一次。

由于目前200万级参数的Gemini 1.5 Pro模型尚未开放，《科创板日报》记者申请了内测，等待通过后再做进一步测试分享。

▍多模态测试：GPT-4o在细节和分析能力上更胜一筹

GPT-4o是OpenAI对其广受欢迎的大型多模态模型GPT-4的第三次重大迭代，它通过视觉功能扩展了GPT-4的能力，新发布的模型能够以一种集成且无缝的方式与用户进行对话、视觉识别和互动。Gemini 1.5 Pro也拥有多模态功能，适合处理摘要、聊天、图片分析和视频字幕、以及从长文本和表格中提取数据等。

记者用“公园照片”询问三个大模型

在测试中，记者用一张“公园照片”来询问三个大模型。根据图片测试反馈，三个大模型都准确地描述了公园照片的内容，但侧重点略有不同。GPT-4o胜在信息完整性，详细列举了船只类型、湖面状态等各种细节，但略显冗长。Gemini 1.5 Pro语言简洁流畅，用“悠闲地泛舟”、“景色宜人”等词语描绘出画面美感，但细节不如GPT-4o丰富。GPT-4描述简洁，但细节不够丰富。

简而言之，如果看重信息的全面性，GPT-4o最强；若更注重语言表达，则Gemini 1.5 Pro表现略佳。

由于目前GPT-4尚未具备音频和视频内容的解析能力，所以不做相关测评。OpenAI联合创始人Sam Altman表示，新款语音模型GPT-4o尚未发货，已经发货只是文字版GPT-4o。等到语音版一发货，记者将第一时间带来评测。

根据视频测试反馈，GPT-4o在解析视频内容时表现出了强大的多模态处理能力。它能够提取和分析视频帧，并通过图形界面直观地展示给用户。在分析过程中，模型准确地识别出了视频中的四足机器人，并对其外观、所处的环境以及所进行的活动进行了详细的描述。

GPT-4o视频测试回复

相比之下，Gemini 1.5 Pro的回复则显得简略又单调，在记者第二次追问下，才充实了更多细节。

总体来看，如果目标是获取最全面、深入的多模态内容理解，GPT-4o是当前的最佳选择，而Gemini 1.5 Pro则更适合那些重视表述质量与效率的多模态应用场景。不过，GPT-4o和Gemini 1.5 Pro都没有提及对视频里的声音的分析，这是两个多模态大模型解析中的一个共同缺失。

▍前华为“天才少年”预测国内第一个端到端多模态大模型年底将到来

AI比赛行至白热化阶段已经告别单纯的技术竞争，转向应用和用户体验的竞争。

在搜索引擎和办公领域，谷歌也将进一步将AI引入其中。记者发现，能够总结谷歌搜索引擎结果的“AI概览”（AI Overviews）功能已能够使用。百度创始人、董事长兼首席执行官李彦宏昨晚在财报电话会上表示，目前百度搜索上有11%的搜索结果由AI生成。他指出，百度搜索的AI重构工作仍处于早期阶段，整体来看，搜索最有可能成为AI时代的杀手级应用。

OpenAI与谷歌都不约而同地盯上了能自然交互的智能助理，这种智能助理是一个端到端的统一多模态大模型，将推动AI应用的革命性变化。前华为“天才少年”、

前华为“天才少年”、Logenic Al 联合创始人李博杰认为，国内第一个多模端到端多模态，很有可能今年年底就能差不多能出来了。

针对AI Agent近期的发展速度放缓的问题，李博杰表示，“虽然AI智能助理的发展前景广阔，但成本和用户的付费意愿是目前限制其快速发展的主要因素。GPT-4o它比GPT-4快4倍，并将成本降低了一倍，但是对于普通消费者来说可能仍然较贵。”

李博杰称，从长期来看，实用性强的智能助理因其解决现实问题的能力而具有更高的价值。而短期内，情感陪伴和娱乐功能的智能助理更容易商业化，因为它们对可靠性的要求较低，开发和部署相对容易。

AI“明星”选手巅峰对决！记者实测最新谷歌Gemini与GPT-4o|聚焦

谷歌DeepMind：GPT-4高阶心智理论彻底击败人类！第6阶推理讽刺暗示全懂了

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

GPT-4 更强的标志，原来藏在了 logo 里

“离谱的AI扩图”火了！张张那叫一个出其不意

走进深水区，和36氪一起画出AI行业的未来蓝图

大疆前高管带6人创业，做出了类目Top1的割草机器人

鹅厂造了个AI翻译公司：专攻网络小说，真人和GPT-4看了都说好

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

腾讯要开启“全民AI时代”

可以互相交谈的人工智能来了

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

OpenAI被曝重组计划！与苹果达成关键协议，微软谷歌哭晕

这台新机一发布，全世界垃圾佬都得疯

谷歌继续“瘦身”：云业务被曝大范围裁员

小伙投资300万在瑞典开拉面馆生意火爆 1碗面卖100元

GPT-4可能也在用的推测解码是什么？一文综述前世今生和应用情况

外国男狂约中国女子，有女子主动晒照+要做老婆，当晚就要去找他

内需外需难以改善，五月经济景气继续回落，制造业重回收缩区