智东西1月8日消息,昨日,谷歌首席AI架构师兼DeepMind CTO科雷·卡武克乔格鲁(Koray Kavukcuoglu)接受英国《金融时报》专访,深入解读了谷歌最新大语言模型Gemini 3的核心突破与战略意义。
他认为,Gemini 3在多模态理解和智能体能力上迈出了一大步,并将其成功归因于谷歌独特的“全栈”优势。
卡武克乔格鲁还说,谷歌的目标始终是开发通用人工智能(AGI)。但实现这一宏伟目标的务实路径,在于紧密围绕用户反馈进行产品化,而非空谈理论。他将Gemini 3视为将抽象AI思维转化为友好产品的关键一步。
此次发布的Gemini 3能够根据用户查询,动态生成交互式应用和小部件,这一能力甚至触动了竞争对手的神经。
外媒提到,OpenAI的联合创始人兼CEO萨姆·阿尔特曼(Sam Altman)因此拉响“红色警报”,加速改进ChatGPT,以赶上谷歌。
而谷歌正凭借其从芯片、数据中心到产品的完整技术栈,将前沿AI研究快速转化为数十亿用户可触达的产品体验。
整个访谈在3200字左右,以下是核心信息提炼:
1、谷歌正将基础AI研究与产品深度捆绑:其战略核心是确保前沿AI能力能无缝对接至全系产品,这需要构建全新的基础设施体系。
2、多模态理解是AI实用化的关键一跃:Gemini 3的核心突破在于能深入理解视频、图像、PDF等多元内容,改善信息获取质量,同时将编程转化为交互式学习工具。
3、AI需产品化且具备全栈能力:将抽象技术进展转化为直观的用户界面和交互,并依托从芯片到云端的全栈技术,实现模型、产品设计与基础设施的同步发布。
4、预训练赋予模型潜力:模型能理解数据、挖掘潜在价值。
5、谷歌每一项技术研发都以用户反馈为导向:坚持全栈方法与产品结合,围绕数十亿用户的产品生态展开,这种从真实场景需求反推技术发展的模式。
6、通用人工智能(AGI)尚无定式:目前还没有构建AGI的秘诀,当下重点是开发正确产品、理解用户信号,以安全为核心并获取用户反馈。
7、模型应提供用户所需信息,避免冗余和过度吹捧:谷歌做了大量研究来量化模型形象,“避免阿谀奉承”是考察维度之一。
8、智能体演进将重塑人机互动模式:AI下一阶段在于利用模型构建更强大的智能体,实现用户与内容更丰富、更普遍的深度连接与创造性互动。
9、Gemini 3基于Gemini 2.5开发:耗时六个月且整合了用户反馈,接下来会收集消费者、开发者、企业等不同群体的反馈,弥合模型缺陷。
以下是谷歌首席AI架构师科雷·卡武克乔格鲁与《金融时报》主持人梅丽莎·海基拉(Melissa Heikkilä)的访谈实录,为方便阅读,智东西在不改变原意的情况下对部分提问进行了精简:
一、谷歌的首席AI架构师在做什么?如何打通研究与产品
主持人:您自2024年初起担任DeepMind CTO,去年夏天又兼任谷歌首席AI架构师这一新职务。这个角色的主要职责是什么?
卡武克乔格鲁:我们正在构建的是一项真正基础性的技术,而我最核心的工作,是确保AI研发能够与产品紧密衔接。
我们的目标是,让谷歌旗下所有产品和业务领域,都能使用我们正在开发的顶尖AI技术。
在DeepMind,我们专注于前沿研究,目标是推动通用人工智能(AGI)的实现。但要做到这一点,必须与真实用户保持紧密连接,而实现这一点的唯一途径,就是通过产品。
▲谷歌的DeepMind(图源:金融时报)
这是一项全新的技术形态,要实现大规模应用,需要配套建设全新的基础设施。
我目前的重点工作,就是推动这种转型:一方面构建基础设施,另一方面与产品团队深度协作,确保他们能够使用最先进的技术,并以最合适的方式与用户建立连接。
二、Gemini 3:发布的不只是模型本身,而是与产品同步推出、经过深度设计的交互体验
主持人:对普通用户来说,市面上已经出现了大量AI模型,看起来多是渐进式改进。甚至有人觉得OpenAI的GPT-5并未带来太多惊喜。那么,Gemini 3的意义究竟在哪里?它如何帮助谷歌在AI竞争中取得优势?
卡武克乔格鲁:从我们的角度看,Gemini 3非常重要,因为它在多模态理解能力上实现了明显跃升,而这一点对用户至关重要。
现实世界中的信息并不只以文本形式存在,这也是为什么谷歌的AI研究和笔记助手NotebookLM这样的产品会受到欢迎。因为用户喜欢上传各种类型的文档,并围绕这些内容提问。
随着模型处理能力的提升,Gemini 3能够更深入地理解视频、图片、PDF等多种内容形式,这本身就是一项重要进展。
▲谷歌的Gemini 3(图源:金融时报)
我希望用户能够切实感受到这种变化,他们得到的不只是更准确的答案,而是信息形式和质量的整体提升。
AI的另一个关键点在于编程。如今,编程已经不再只是软件工程师的专属技能,而正逐渐演变为一种学习和表达方式。
借助Gemini的生成式界面,当用户提出问题时,模型不仅会给出解释性回答,还可能直接生成可视化结果、模拟过程或小工具,帮助用户在实践中理解和探索问题。
很多时候,人们提出问题后,获得的是更直观的答案,这些答案能够在当场学到东西。
在我看来,真正关键的,是如何将这些概念性、抽象性的技术进展,转化为切实可用、且具备长期影响力的用户界面和交互方式。而将这一能力直接与产品结合,正是谷歌的独特优势。
我们发布的不只是模型本身,而是与产品同步推出、经过深度设计的交互体验,并且这些体验构建在我们已有的全栈技术体系之上。
在工程层面,我们还推出了名为Antigravity的AI驱动集成开发环境。
这是一种以智能体为核心的全新代码构建方式,软件可以在更高抽象层级上自主运行,减少人工干预。这之所以成为可能,是因为模型已经具备在抽象层面执行任务、并以智能体方式运作的能力。
三、模型训练赋能,谷歌正全栈式将产品与技术结合
主持人:促成Gemini 3的关键研究和技术突破有哪些?
卡武克乔格鲁:模型的开发涉及多个技术方向。首先是预训练阶段,我们通过架构改进,构建了更高效的模型结构,同时也更好地理解了训练数据本身,这些改进显著提升了模型性能。
预训练赋予模型的是潜力,它让模型能够理解数据,不只是捕捉表层信息,而是挖掘其内在价值。而这种潜力,最终要通过后训练阶段,才能在产品中真正体现出来。在这个阶段,模型会学习如何与用户围绕具体产品进行交互。
在训练完成后,我们进一步推动模型展现出更高级的智能行为,使其具备更强的理解与编码能力。比如,模型可以判断某个问题适合用图文表格呈现,而这些图片可能来自实时搜索;在其他情况下,它则会选择编写一个小程序,用模拟或组件的方式来展示结果。
这些决策,都是模型基于其编码能力和智能体能力自主完成的。正是训练前、训练后以及公司整体技术体系的协同作用,才使这些能力成为现实。
主持人:如此庞大的计算投入,怎么从中盈利?
卡武克乔格鲁:最关键的有两点。第一,我们采用的是全栈式方法,我认为我们在这方面在业内独树一帜。第二,我们始终将前沿技术与产品紧密结合。
我们开展的所有研究和技术开发,最终都会通过产品触达用户。谷歌的产品每天服务着数十亿用户,这让我们能够持续获取真实需求,理解用户希望如何使用这些技术。
对我们来说,每一项前沿研发都以用户反馈为导向。这种务实的研发路径,是我们非常重视、也区别于其他公司的地方。
四、谷歌的AI路径选择:以产品落地和用户反馈驱动演进
主持人:谷歌曾表示,Gemini 3是迈向通用智能的重要一步。这是否已经接近人们所期待的通用人工智能形态?
卡武克乔格鲁:坦率地说,我并不会这样描述。我们确实以实现通用人工智能为目标,也在为此持续努力,但目前仍然没有实现AGI的“秘诀”,这依然是一个研究问题。
正因为如此,开发正确的产品、做出正确的产品选择、理解真实的用户信号,才成为我们技术发展的核心指引。AGI最终必须造福用户,而通向这一目标的唯一方式,就是以负责任的方式持续获取用户反馈。
当我们说从一开始就将安全作为模型设计的核心,这并不是一句口号,而是贯穿在产品和技术决策中的原则。
谷歌拥有长期积累的庞大用户基础,覆盖数十亿人。正是通过这些真实使用场景,我们才能判断技术究竟应该解决哪些问题,这也是我们探索通用人工智能的重要路径。
主持人:您提到,Gemini 3刻意避免了奉承和套话,这是生成式AI中常见的问题。你们是如何做到的?
卡武克乔格鲁:模型的“形象”确实很重要。我们既与外部合作伙伴合作,也服务于谷歌内部的不同产品,而每个产品对模型表现都有不同要求。
我们做了大量研究,尝试将模型的行为特征量化,“是否过度奉承”就是其中一个重要维度。坦率地说,没有人能宣称已经找到了完美答案。
但我们认为,已经在如何构建一个可控、且适用于广泛场景的模型方面,迈出了重要一步。
核心原则是,模型应当提供用户真正需要的信息,而不是输出冗余内容或过度修饰的表达。在极少数场景下,这类表达可能有用,但在大多数情况下并无必要。
主持人:你会如何描述Gemini 3的“性格”?
卡武克乔格鲁:我们并没有刻意为Gemini设定明确的人格标签。对我们来说,最重要的是产品是否好用、信息是否真实,以及语言是否清晰易懂。用户体验主要是在后训练阶段逐步形成的。
五、AI切实带给人们生活便利,未来会在创造性使用中继续学习
主持人:作为一名科学家,目前AI研究中最让你感到兴奋的是什么?
卡武克乔格鲁:当前AI的发展速度非常快,原因在于这些模型已经在现实世界中产生了切实影响。人们正在将它们用于工作、学习和教育,并且确实带来了积极变化。
对我来说,最令人兴奋的是,我们正在探索如何利用这些模型构建更成熟的智能体。很多人谈到智能体时,往往只关注代码本身,但真正关键的是:人们如何使用这些智能体,以及在生活中哪些环节会真正依赖它们。
学习场景尤其让我感到振奋。用户突然能够以更丰富的方式与已有内容互动,这极大拓展了信息与人的连接方式。随着智能体能力持续提升,这种变化只会越来越普遍。
主持人:接下来,外界可以期待什么?
卡武克乔格鲁:Gemini 3的开发周期大约为六个月,它是在Gemini 2.5的基础上构建的,每一代更迭都整合了我们从用户那里获得的各种反馈和经验。
▲Gemini的更迭(图源:google blog)
接下来,我们会持续从消费者、开发者和企业等不同群体中收集反馈,重点放在理解这些信号上。模型不可避免会存在不足,而弥补这些不足正是关键过程。
通过这一过程,我们也能更清楚地看到用户真正试图解决的问题。当模型达到一定质量水平后,人们会以更具创造性的方式使用它,而我们的下一步,就是从这种创造性使用中继续学习。
来源:金融时报

