李飞飞专访：实现全面智能，解决3D智能是基础性工程

智东西编译风衣编辑程茜

智东西12月17日消息，斯坦福大学教授、AI教母李飞飞于12月11日在重量级AI会议NeurIPS上发表了主题演讲，并在演讲前接受了IEEE Spectrum的独家采访。在专访中，李飞飞表示AI视觉模型与语言模型同等重要，而空间智能正是视觉智能的发展方向。未来空间智能将深度参与到我们的日常生活中，这一领域大有可为。

李飞飞也提到，应该为公共部门提供足够的数据与算力资源，以推动AI研究更好的发展。

李飞飞的研究已足以让她在AI的发展历史上占据一席之地。在深度学习革命中，她发挥了重要作用：深耕数年创建ImageNet数据库和竞赛，让AI系统挑战识别逾一千种物体和动物。2012年，一个名为AlexNet的神经网络在AI研究界引起了轰动，它的性能远远超过了所有其他类型的模型，并赢得了ImageNet比赛。从此，靠着海量、免费的网络数据和显卡提供的前所未有的算力，神经网络研究一飞冲天。在ImageNet问世后的13年里，计算机视觉研究人员掌握了对象识别技术，并转向图像和视频生成。

李飞飞是斯坦福大学人类中心AI研究所（HAI）的联合创始人，持续致力于突破计算机愿景的边界。就在今年，她创办了一家公司World Labs，生成用户可以探索的3D场景。World Labs致力于为AI提供“空间智能”，即生成3D世界、在3D世界中进行推理和交互的能力。

一、视觉和语言互补，空间智能是实现全面智能的基础

问题：您为什么将演讲的题目定为“攀登视觉智能之梯（Ascending the Ladder of Visual Intelligence）”？

李飞飞：我认为，仅凭直觉就能知道，AI的复杂程度和成熟程度是有不同层次的。在演讲中，我想传达这样一种感觉，即在过去几十年中，尤其是过去10多年的深度学习革命中，我们在视觉智能领域学到的知识已令人叹为观止，在这项技术上的能力也日趋成熟。我还受到了犹大·伯尔（Judea Pearl）“因果阶梯”的启发（《因果革命（The Book of Why）》,2020）。

这个演讲还有一个副标题，叫“从看到做（From Seeing to Doing）”，这是一个被大家低估的理念：无论对于动物还是AI，视觉都与交互、做事密切相关，这是对语言的某种悖反。但从根本上说，语言还是一种用来传递想法的交流工具。在我看来，视觉和语言恰好互补，都是极其重要的AI发展模式。

问题：您的意思是，我们会本能地对某些场景做出反应吗？

李飞飞：我说的不仅仅是直觉。如果多了解一下感知能力和动物智力的演变，就会发现视觉与这些都是紧密联系的。当我们能够从环境中获取更多信息时，进化的力量就会推动能力和智力向前发展。如果你感知不到环境，那与世界的关系就非常被动，不管是吃还是被吃，都会是非常被动的举动。但是，一旦你能通过感知从环境中获取线索，进化的力量就会增强，从而推动智力向前发展。

问题：您认为，让机器从环境中获得更多信息是我们深化机器智能的方式吗？

李飞飞：我不确定我会用“深化”来形容。我认为我们正在创造更强大的能力，AI正变得越来越复杂，功能越来越强大。我相信，解决空间智能问题是迈向全面智能的基础和关键，这点是绝对没问题的。

二、“世界是3D的”，空间智能是基础性工程

问题：我看过World Labs的演示视频，您为什么想要研究空间智能并构建3D世界？

李飞飞：我认为空间智能是视觉智能的发展方向。如果我们想要认真解决视觉方面的问题，将视觉与实际操作建立链接，那就会发现一个非常简单的、显而易见的事实：世界是3D的。我们不是生活在平面世界里，不管是机器人还是设备，所有的物理主体都将会生活在3D世界里，甚至虚拟世界也变得越来越3D。如果与艺术家、游戏开发人员、设计师、建筑师、医生交谈，您会发现即使他们在虚拟世界工作，这些虚拟世界也大都是3D的。如果花点时间仔细想想，认识到这个简单却重要的事实，那么毫无疑问，解决3D智能的问题就是基础性工程。

问题：我很好奇World Labs生成的场景是怎么做到既让物体持续存在、又让其运动符合物理规律的，感觉这是个让人兴奋的进步，因为即使是Sora这样的视频生成工具，也都还处于摸索阶段。

李飞飞：一旦你认识到世界的3D性，很多事情都是很自然的。例如，我们发布在社交媒体上的一条视频中，篮球被扔到某个场景里。因为它是3D的，所以才能实现这种效果。如果场景只是2D生成的像素，篮球就无处可去了。

问题：或者就像在Sora生成的视频一样，篮球可能会出现在某个地方，然后又莫名其妙地消失。在尝试推动这项技术向前发展的过程中，您面临的最大技术挑战是什么？

李飞飞：没有人能解决这个问题，这非常非常难。你在World Labs演示视频中可以看到：我们拍摄了一幅梵高的画，并用统一的风格围绕这幅画生成了整个连贯场景：艺术风格、光线，甚至那个地方会有什么样的建筑。如果你转过身，发现画面变成了摩天大楼，那就很没有说服力了。而且它必须是3D的，你必须能够进入其中进行探索。所以，它不仅仅是像素而已。

问题：您能谈谈用来训练它的数据吗？

李飞飞：那就太多了。

三、知识探索需算力资源支持，AI理解3D世界或带来大量创造力

问题：您在计算机负载方面有遇到什么技术困难吗？

李飞飞：空间智能需要大量的算力，而这是公共部门难以负担的。这也是我对进行学术休假、创建私营企业研发AI这件事感到兴奋的一部分原因。同时，这也是我一直倡导公共部门获取计算资源的原因之一，因为我自己的经历突出了必须拥有足够资源、以推动创新的重要性。

问题：让公共部门拥有更大的权力是很有意义的，因为它通常更专注于为了知识本身以及造福人类而追求知识。

李飞飞：知识探索确实需要资源的支持。在伽利略时代，正是最好的望远镜帮助天文学家观察到了新天体。而列文虎克则意识到放大镜可以成为显微镜，然后发现了细胞。每当新的技术工具出现时，它就会推动知识的探索。而在AI的时代，技术工具包括算力和数据。我们必须意识到，公共部门也需要这些资源。

问题：在联邦政府层面，您希望采用他们哪些措施来提供资源？

李飞飞：过去五年里，这一直是斯坦福大学人类中心AI研究所（Stanford HAI）的工作内容。我们一直在与国会、参议院、白宫、行业和其他大学合作，以创建NAIRR，即国家AI研究资源中心(the National AI Research Resource）。

问题：假设我们可以让AI系统真正理解3D世界，那会给人类带来什么好处？

李飞飞：它将给人们带来大量的创造力和生产力。我很希望能用一种更高效的方式设计我的房子。我知道，很多医学应用都涉及到要理解人体，这个非常特殊的3D世界。我们总在讨论一种人类能够创造机器人帮助自己的未来。但机器人是在3D世界中工作的，它们的大脑必须具备空间智能。我们也在谈论虚拟世界，让人们可以参观各地、学习概念或娱乐。而这些都依赖3D技术，特别是我们所说的增强现实（AR）这样的混合技术。我希望当我戴着眼镜漫步在国家公园时，它能为我提供关于树木、小径、云层的信息。我也希望借助空间智能来学习不同的技能。

问题：什么样的技能？

李飞飞：我举一个很普通的例子：如果我在高速公路上爆胎了，我该怎么办？现如今我会打开“如何更换轮胎”的视频。但如果我能戴上眼镜，看见我的车发生了什么，然后在指导下完成换胎，那就太好了。但这是一个最普通的例子。你也可以想到做饭、可以想到雕塑，各种有趣的事情。

问题：您认为有生之年我们能走多远？

李飞飞：我认为这在我们有生之年一定会实现，因为技术进步的速度特别快。你已经看到了过去十年发生的变化，毫无疑问，这也预示着未来的发展。

来源：IEEE Spectrum

李飞飞专访：实现全面智能，解决3D智能是基础性工程

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

李飞飞空间智能交卷：一张图生成交互3D世界

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

链式思考如何激发大模型算术推理能力？科学家从神经元激活角度给出答案

沈向洋，发了一个可以识别万物的大模型

字节AI版小李子一开口：黄风岭，八百里

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

网友用350美元造出能走能玩的端到端人形机器人

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

30年冷板凳，诺贝尔物理学奖得主Hinton的AI往事

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

豆包视频理解模型发布，一块钱可处理284张高清图！3D生成模型首披露

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

所有APP都会被AI重塑，背后的变革关键是什么？

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

李飞飞专访：实现全面智能，解决3D智能是基础性工程

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

李飞飞空间智能交卷：一张图生成交互3D世界

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

链式思考如何激发大模型算术推理能力？科学家从神经元激活角度给出答案

沈向洋，发了一个可以识别万物的大模型

字节AI版小李子一开口：黄风岭，八百里

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

告别屈膝小碎步 让机器人像人一样走路 国产团队造出“钢铁侠”

网友用350美元造出能走能玩的端到端人形机器人

人形机器人狂奔！山地、草地、公路无障碍，原速演示全程高能

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

30年冷板凳，诺贝尔物理学奖得主Hinton的AI往事

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

豆包视频理解模型发布，一块钱可处理284张高清图！3D生成模型首披露

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

练习时长两年半，机器人转笔大师诞生！ 不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

所有APP都会被AI重塑，背后的变革关键是什么？

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

告别屈膝小碎步让机器人像人一样走路国产团队造出“钢铁侠”

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到