在生成式AI领域不断发展的今天,给AI一张静态图片,它就能创造出一个可交互的3D世界,真可谓是“开局一张图,剩下全靠编”。

当地时间12月2号,由“AI教母”李飞飞(Fei-Fei Li)创立的初创公司World Labs发布了令人眼前一亮的“空间智能”(spatial intelligence)技术,即一套能够将单张静态图片转化为可交互3D场景的AI系统。

比如下面这样:

打开网易新闻 查看更多图片

短视频平台很火的“希区柯克式变焦”(dolly zoom)也是信手捏来:

打开网易新闻 查看更多图片

用户还可以通过键盘和鼠标在网页上实时控制场景:

打开网易新闻 查看更多图片

它还能模拟景深,调节景深效果,让背景物体产生自然的虚化效果,营造出专业的摄影效果:

打开网易新闻 查看更多图片

可惜的是,World Labs目前只向公众发布了关于该技术的博客,人们能够体验的功能极为有限,而且并未放出任何代码和模型。至于如何尝鲜,World Labs现在开放了Waitlist申请,感兴趣的可以在文末找到链接。

当然,这并不妨碍技术创新本身带来的震撼。随着它未来面向公众开放,一旦用户体验优秀,不仅标志着生成式AI向3D领域的重要突破,更预示着数字内容创作方式即将迎来革命性变革。

这套系统最引人注目的特点在于其独特的交互性和可修改性。根据World Labs网站提供的演示界面和描述,用户仅需一张普通照片,就能生成一个可以自由探索的3D环境。虽然生成的场景略显卡通风格,分辨率和细节也有瑕疵,但已经展现出令人印象深刻的真实感和稳定性。

打开网易新闻 查看更多图片

与市面上其他AI系统相比,World Labs展示的技术优势显然是3D空间生成。它在博客中表示,大多数生成模型都会预测像素,而预测 3D 场景有许多好处:

  • 持久现实:3D场景一旦生成,它就会一直存在。即使你把视线移开然后又回来,场景也不会改变。

  • 实时控制:3D场景生成后,用户可以在其中实时移动。你可以仔细观察花朵的细节,也可以窥视藏在角落里的物体。

  • 正确的几何形状:生成的世界遵循 3D 几何的基本物理规则。它们兼具真实感和深度感,与某些 AI 生成视频的梦幻感形成了鲜明对比。

传统的生成式AI工具往往只能创建2D内容,如图片或视频,而World Labs选择直接在3D空间中进行生成,这种方式不仅提供了更好的控制性和一致性,更确保了场景在生成后保持稳定,并遵循基本的物理法则。

这意味着生成的3D世界具有真实的空间感和深度感,避免了其他AI模型常见的“健忘”问题。比如初创公司Decart的Minecraft模拟世界模型Oasis就存在分辨率低下、容易“遗忘”场景布局等问题。

World Labs的系统还提供了丰富的互动特效和动画功能。用户可以改变物体的颜色、调整场景的光照效果,甚至能够将经典艺术作品转化为可探索的3D空间。

比如,他们成功地将梵高的知名画作《夜晚露天咖啡座》中的场景扩展成了一个完整的街区环境。

打开网易新闻 查看更多图片

这种技术还能与其他AI工具完美结合,创作者可以先使用文本生成图像,再将其转化为3D场景,继承不同图像生成模型的独特风格。在博客中,他们使用的许多图片都来自于FLUX、Ideogram 和Midjourney 等生成式AI工具:

打开网易新闻 查看更多图片

当然,目前这项技术仍有改进空间。比如,用户的移动范围仍然受限于较小的区域,一旦超出边界就会遇到限制。实测下来,目前用户只能在生成的3D空间中挪动几步,就会碰上所谓的“空气墙”。

有时还会出现渲染错误,例如物体之间会以不自然的方式混合在一起。不过,World Labs表示这些只是“早期预览”,他们正在努力提升生成世界的规模和真实度,并探索新的交互方式。

从商业角度来看,World Labs展现出强劲的发展势头。公司由李飞飞联合创办,成立之初就获得了来自A16z、Intel Capital、AMD Ventures和埃里克·施密特(Eric Schmidt)等投资者共计2.3亿美元的风险投资,估值已超过10亿美元。公司计划在2025年推出首款正式产品。

World Labs表示,其愿景不仅限于创建互动场景,他们计划开发一系列工具,服务于艺术家、设计师、开发者、电影制作人和工程师等专业人士。

公司联合创始人贾斯汀·约翰逊(Justin Johnson)在接受采访时表示:“传统的虚拟互动世界开发需要投入数亿美元和大量时间。我们的世界模型技术将让创作者不只是得到一张图片或一段视频,而是能够获得一个完全模拟的、充满活力的、可交互的3D世界。”

目前World Labs已经对公众开放了Waitlist候补名单申请,不过作为开发和测试的一部分,有的创作者已经受邀并将其整合到了现有的工作流程中。

例如,内容创作者埃里克·索洛里奥(Eric Solorio)发现,这项技术完美地填补了他创作过程中的空白,可以“让角色布置和精确的镜头调度变得更容易”。从电影制作到游戏开发,从模拟器到各类数字内容创作,World Labs的技术都可能带来革命性的改变。

随着技术的不断完善和应用场景的拓展,World Labs希望重新定义数字世界的创作方式。这不仅是AI技术的一次重要突破,更预示着数字内容创作即将迎来一个全新的时代。或许在不久的将来,从单张图片到沉浸式3D世界的转变,可能就像现在的文字生成图片一样简单而自然。

最后附上官方宣传视频:

打开网易新闻 查看更多视频
李飞飞World Labs官宣新AI产品,一张图片生成交互式3D世界

参考资料:

https://www.worldlabs.ai/blog

https://techcrunch.com/2024/12/02/world-labs-ai-can-generate-interactive-3d-scenes-from-a-single-photo/

https://x.com/theworldlabs/status/1863617989549109328

Waitlist表格:

https://docs.google.com/forms/d/e/1FAIpQLSf9jHsaDq1IwM_FADQP0Gbd82tbW4CBOI5YfUAdPfqrFrWEeA/viewform