谷歌对Gemini 3中的Deep Think模式进行了重大升级。
谷歌DeepMind团队携手多位顶尖科学家和工程师共同推动了这一突破。Deep Think模式专门针对复杂的科学计算、科研分析和工程问题解决场景设计,强调推理的准确性和深度,而非传统AI追求的响应速度。
谷歌官方表示,此次升级是其推理基础设施的“重大升级”,旨在满足研究人员、科学家和工程师处理多步骤复杂逻辑链的需求。
此次升级的时机极具战略意义。当前,OpenAI凭借其o1推理模型在推理能力上持续进步,Anthropic的Claude 3也在科研分析领域表现突出。谷歌的Deep Think升级被视为对这两大竞争对手的直接回应,核心在于“延伸推理”——即赋予AI更多时间进行深度思考,从而提升推理质量和准确率。
谷歌强调,这不仅是渐进式更新,而是面向专业领域的突破,尤其适合计算生物学、航空航天工程等对准确性要求极高的行业。
谷歌DeepMind团队长期积累了围棋、星际争霸等复杂游戏的推理经验,这为Deep Think的专业推理能力奠定了坚实基础。升级后的Deep Think在多个国际权威基准测试中表现卓越:在“人类的最后考试”中取得48.4%的新纪录,在ARC-AGI-2测试中达到84.6%,在Codeforces竞技编程平台获得3455 Elo分,达到世界顶尖程序员水平。
此外,Deep Think在2025年国际数学、物理和化学奥林匹克竞赛中均获得金牌级别成绩,显示其跨学科的深度推理能力。
从成本效益角度看,Gemini 3 Deep Think在ARC-AGI-1测试中的每任务成本仅为7.17美元,远低于OpenAI高计算版本的2000至3000美元,成本降低幅度高达280至420倍,极大提升了科研和工程领域AI应用的经济可行性。
谷歌还展示了Deep Think在实际科研中的应用案例,如罗格斯大学数学家利用其发现高能物理论文中的逻辑缺陷,杜克大学实验室借助其优化半导体晶体生长工艺,推动科研创新。
此次升级不仅体现了谷歌在AI推理领域的技术领先,也反映了企业人工智能应用的转型趋势。
随着企业客户对AI推理能力的需求日益增长,模型能否处理复杂财务模型、分析实验数据、发现方法论缺陷,甚至协助专利研究和药物发现,成为评估AI价值的新标准。
谷歌凭借其强大的云计算平台和Workspace生态系统,将Deep Think深度集成,提升了AI在企业和学术界的可用性和扩展性。
未来,随着Gemini 3 Deep Think的广泛应用,专业领域的AI推理能力将持续提升,推动科学研究和工程设计进入智能化新阶段。
谷歌的这一战略布局不仅巩固了其在AI领域的领先地位,也预示着人工智能技术正从通用应用向专业深度推理迈进,开启了以准确性和深度分析为核心的新竞争格局。企业和学术界将迎来更高效、更精准的智能辅助工具,推动创新速度和质量的双重提升。(本文首发钛媒体App , 作者|AGI-Signal,编辑|秦聪慧)

