谷歌AI“掌门人”最新专访，9大关键信息解密

智东西编译｜万贵霞编辑｜云鹏

智东西1月8日消息，昨日，谷歌首席AI架构师兼DeepMind CTO科雷·卡武克乔格鲁（Koray Kavukcuoglu）接受英国《金融时报》专访，深入解读了谷歌最新大语言模型Gemini 3的核心突破与战略意义。

他认为，Gemini 3在多模态理解和智能体能力上迈出了一大步，并将其成功归因于谷歌独特的“全栈”优势。

卡武克乔格鲁还说，谷歌的目标始终是开发通用人工智能（AGI）。但实现这一宏伟目标的务实路径，在于紧密围绕用户反馈进行产品化，而非空谈理论。他将Gemini 3视为将抽象AI思维转化为友好产品的关键一步。

此次发布的Gemini 3能够根据用户查询，动态生成交互式应用和小部件，这一能力甚至触动了竞争对手的神经。

外媒提到，OpenAI的联合创始人兼CEO萨姆·阿尔特曼（Sam Altman）因此拉响“红色警报”，加速改进ChatGPT，以赶上谷歌。

而谷歌正凭借其从芯片、数据中心到产品的完整技术栈，将前沿AI研究快速转化为数十亿用户可触达的产品体验。

整个访谈在3200字左右，以下是核心信息提炼：

1、谷歌正将基础AI研究与产品深度捆绑：其战略核心是确保前沿AI能力能无缝对接至全系产品，这需要构建全新的基础设施体系。

2、多模态理解是AI实用化的关键一跃：Gemini 3的核心突破在于能深入理解视频、图像、PDF等多元内容，改善信息获取质量，同时将编程转化为交互式学习工具。

3、AI需产品化且具备全栈能力：将抽象技术进展转化为直观的用户界面和交互，并依托从芯片到云端的全栈技术，实现模型、产品设计与基础设施的同步发布。

4、预训练赋予模型潜力：模型能理解数据、挖掘潜在价值。

5、谷歌每一项技术研发都以用户反馈为导向：坚持全栈方法与产品结合，围绕数十亿用户的产品生态展开，这种从真实场景需求反推技术发展的模式。

6、通用人工智能（AGI）尚无定式：目前还没有构建AGI的秘诀，当下重点是开发正确产品、理解用户信号，以安全为核心并获取用户反馈。

7、模型应提供用户所需信息，避免冗余和过度吹捧：谷歌做了大量研究来量化模型形象，“避免阿谀奉承”是考察维度之一。

8、智能体演进将重塑人机互动模式：AI下一阶段在于利用模型构建更强大的智能体，实现用户与内容更丰富、更普遍的深度连接与创造性互动。

9、Gemini 3基于Gemini 2.5开发：耗时六个月且整合了用户反馈，接下来会收集消费者、开发者、企业等不同群体的反馈，弥合模型缺陷。

以下是谷歌首席AI架构师科雷·卡武克乔格鲁与《金融时报》主持人梅丽莎·海基拉（Melissa Heikkilä）的访谈实录，为方便阅读，智东西在不改变原意的情况下对部分提问进行了精简：

一、谷歌的首席AI架构师在做什么？如何打通研究与产品

主持人：您自2024年初起担任DeepMind CTO，去年夏天又兼任谷歌首席AI架构师这一新职务。这个角色的主要职责是什么？

卡武克乔格鲁：我们正在构建的是一项真正基础性的技术，而我最核心的工作，是确保AI研发能够与产品紧密衔接。

我们的目标是，让谷歌旗下所有产品和业务领域，都能使用我们正在开发的顶尖AI技术。

在DeepMind，我们专注于前沿研究，目标是推动通用人工智能（AGI）的实现。但要做到这一点，必须与真实用户保持紧密连接，而实现这一点的唯一途径，就是通过产品。

▲谷歌的DeepMind（图源：金融时报）

这是一项全新的技术形态，要实现大规模应用，需要配套建设全新的基础设施。

我目前的重点工作，就是推动这种转型：一方面构建基础设施，另一方面与产品团队深度协作，确保他们能够使用最先进的技术，并以最合适的方式与用户建立连接。

二、Gemini 3：发布的不只是模型本身，而是与产品同步推出、经过深度设计的交互体验

主持人：对普通用户来说，市面上已经出现了大量AI模型，看起来多是渐进式改进。甚至有人觉得OpenAI的GPT-5并未带来太多惊喜。那么，Gemini 3的意义究竟在哪里？它如何帮助谷歌在AI竞争中取得优势？

卡武克乔格鲁：从我们的角度看，Gemini 3非常重要，因为它在多模态理解能力上实现了明显跃升，而这一点对用户至关重要。

现实世界中的信息并不只以文本形式存在，这也是为什么谷歌的AI研究和笔记助手NotebookLM这样的产品会受到欢迎。因为用户喜欢上传各种类型的文档，并围绕这些内容提问。

随着模型处理能力的提升，Gemini 3能够更深入地理解视频、图片、PDF等多种内容形式，这本身就是一项重要进展。

▲谷歌的Gemini 3（图源：金融时报）

我希望用户能够切实感受到这种变化，他们得到的不只是更准确的答案，而是信息形式和质量的整体提升。

AI的另一个关键点在于编程。如今，编程已经不再只是软件工程师的专属技能，而正逐渐演变为一种学习和表达方式。

借助Gemini的生成式界面，当用户提出问题时，模型不仅会给出解释性回答，还可能直接生成可视化结果、模拟过程或小工具，帮助用户在实践中理解和探索问题。

很多时候，人们提出问题后，获得的是更直观的答案，这些答案能够在当场学到东西。

在我看来，真正关键的，是如何将这些概念性、抽象性的技术进展，转化为切实可用、且具备长期影响力的用户界面和交互方式。而将这一能力直接与产品结合，正是谷歌的独特优势。

我们发布的不只是模型本身，而是与产品同步推出、经过深度设计的交互体验，并且这些体验构建在我们已有的全栈技术体系之上。

在工程层面，我们还推出了名为Antigravity的AI驱动集成开发环境。

这是一种以智能体为核心的全新代码构建方式，软件可以在更高抽象层级上自主运行，减少人工干预。这之所以成为可能，是因为模型已经具备在抽象层面执行任务、并以智能体方式运作的能力。

三、模型训练赋能，谷歌正全栈式将产品与技术结合

主持人：促成Gemini 3的关键研究和技术突破有哪些？

卡武克乔格鲁：模型的开发涉及多个技术方向。首先是预训练阶段，我们通过架构改进，构建了更高效的模型结构，同时也更好地理解了训练数据本身，这些改进显著提升了模型性能。

预训练赋予模型的是潜力，它让模型能够理解数据，不只是捕捉表层信息，而是挖掘其内在价值。而这种潜力，最终要通过后训练阶段，才能在产品中真正体现出来。在这个阶段，模型会学习如何与用户围绕具体产品进行交互。

在训练完成后，我们进一步推动模型展现出更高级的智能行为，使其具备更强的理解与编码能力。比如，模型可以判断某个问题适合用图文表格呈现，而这些图片可能来自实时搜索；在其他情况下，它则会选择编写一个小程序，用模拟或组件的方式来展示结果。

这些决策，都是模型基于其编码能力和智能体能力自主完成的。正是训练前、训练后以及公司整体技术体系的协同作用，才使这些能力成为现实。

主持人：如此庞大的计算投入，怎么从中盈利？

卡武克乔格鲁：最关键的有两点。第一，我们采用的是全栈式方法，我认为我们在这方面在业内独树一帜。第二，我们始终将前沿技术与产品紧密结合。

我们开展的所有研究和技术开发，最终都会通过产品触达用户。谷歌的产品每天服务着数十亿用户，这让我们能够持续获取真实需求，理解用户希望如何使用这些技术。

对我们来说，每一项前沿研发都以用户反馈为导向。这种务实的研发路径，是我们非常重视、也区别于其他公司的地方。

四、谷歌的AI路径选择：以产品落地和用户反馈驱动演进

主持人：谷歌曾表示，Gemini 3是迈向通用智能的重要一步。这是否已经接近人们所期待的通用人工智能形态？

卡武克乔格鲁：坦率地说，我并不会这样描述。我们确实以实现通用人工智能为目标，也在为此持续努力，但目前仍然没有实现AGI的“秘诀”，这依然是一个研究问题。

正因为如此，开发正确的产品、做出正确的产品选择、理解真实的用户信号，才成为我们技术发展的核心指引。AGI最终必须造福用户，而通向这一目标的唯一方式，就是以负责任的方式持续获取用户反馈。

当我们说从一开始就将安全作为模型设计的核心，这并不是一句口号，而是贯穿在产品和技术决策中的原则。

谷歌拥有长期积累的庞大用户基础，覆盖数十亿人。正是通过这些真实使用场景，我们才能判断技术究竟应该解决哪些问题，这也是我们探索通用人工智能的重要路径。

主持人：您提到，Gemini 3刻意避免了奉承和套话，这是生成式AI中常见的问题。你们是如何做到的？

卡武克乔格鲁：模型的“形象”确实很重要。我们既与外部合作伙伴合作，也服务于谷歌内部的不同产品，而每个产品对模型表现都有不同要求。

我们做了大量研究，尝试将模型的行为特征量化，“是否过度奉承”就是其中一个重要维度。坦率地说，没有人能宣称已经找到了完美答案。

但我们认为，已经在如何构建一个可控、且适用于广泛场景的模型方面，迈出了重要一步。

核心原则是，模型应当提供用户真正需要的信息，而不是输出冗余内容或过度修饰的表达。在极少数场景下，这类表达可能有用，但在大多数情况下并无必要。

主持人：你会如何描述Gemini 3的“性格”？

卡武克乔格鲁：我们并没有刻意为Gemini设定明确的人格标签。对我们来说，最重要的是产品是否好用、信息是否真实，以及语言是否清晰易懂。用户体验主要是在后训练阶段逐步形成的。

五、AI切实带给人们生活便利，未来会在创造性使用中继续学习

主持人：作为一名科学家，目前AI研究中最让你感到兴奋的是什么？

卡武克乔格鲁：当前AI的发展速度非常快，原因在于这些模型已经在现实世界中产生了切实影响。人们正在将它们用于工作、学习和教育，并且确实带来了积极变化。

对我来说，最令人兴奋的是，我们正在探索如何利用这些模型构建更成熟的智能体。很多人谈到智能体时，往往只关注代码本身，但真正关键的是：人们如何使用这些智能体，以及在生活中哪些环节会真正依赖它们。

学习场景尤其让我感到振奋。用户突然能够以更丰富的方式与已有内容互动，这极大拓展了信息与人的连接方式。随着智能体能力持续提升，这种变化只会越来越普遍。

主持人：接下来，外界可以期待什么？

卡武克乔格鲁：Gemini 3的开发周期大约为六个月，它是在Gemini 2.5的基础上构建的，每一代更迭都整合了我们从用户那里获得的各种反馈和经验。

▲Gemini的更迭（图源：google blog）

接下来，我们会持续从消费者、开发者和企业等不同群体中收集反馈，重点放在理解这些信号上。模型不可避免会存在不足，而弥补这些不足正是关键过程。

通过这一过程，我们也能更清楚地看到用户真正试图解决的问题。当模型达到一定质量水平后，人们会以更具创造性的方式使用它，而我们的下一步，就是从这种创造性使用中继续学习。

来源：金融时报

谷歌AI“掌门人”最新专访，9大关键信息解密

《麻省理工科技评论》预测2026年AI五大趋势

ChatGPT智能体来了：自己操作电脑干活，接管你的电脑，自动执行各种任务

早报｜雷军：小米将会在今年推出一款重磅产品/「全球首款」可量产全固态电池遭质疑/Google逆袭成功，母公司市值超苹果

大模型也会赌博上瘾！理智出走！

李飞飞发起机器人家务挑战赛，老黄第一时间批钱赞助

AI需要破壁人

行业最大规模具身数据集！出自简智机器人GenRobot.AI

荒野求生（机器狗全自主版），2025ATEC挑战真实户外无遥操

行业最大规模具身数据集：10Kh RealOmni-Open DataSet

灵巧手作为独立执行平台，实现工业与家庭场景应用

机器人终于有自己的真机评测大考了

未来医生摘得全球第一，临床安全有效性评估新基准

机器人管家Figure 03来了，承包一切家务！

五八智能四足机器人平台Q20A，适用于千行百业

波士顿机器狗练成“轻功”！连续七个后空翻

陶哲轩：AI看似在推理，其实是在背答案

当咖啡机器人席卷CES：一场商用具身智能的消费革命

「听觉」引导「视觉」，OmniAgent开启全模态主动感知新范式

微信聊天遭老板监视，主流杀毒软件失明

把超算装进口袋，无影在CES上给个人AI的新答案