日前,腾讯发布了一种新的 AI 模型,称为“InstantMesh”,可以使用静态照片渲染 3D 对象。

据悉,新的 AI 模型是该公司旧版 Instant3D 框架的升级版,可以结合多视图扩散模型和基于大型重建模型 (LRM) 架构的稀疏视图重建 3D 对象。腾讯还将 InstantMesh 模型开源,并为开发者提供了一个预览应用程序,以测试其功能或生成和导出 3D 渲染。

打开网易新闻 查看更多图片

该公司已经在 Hugging Face 上开源了 AI 模型,因此开发者可以测试其效率。对于发烧友来说,还有一个应用程序视图,他们可以在其中添加照片并观看它变成 3D 渲染。通过测试,这一建模过程可以在 10 秒内完成,但渲染质量仍有待提高。

谈到人工智能模型背后的技术,该公司使用了两种不同的架构——多视图扩散模型和 LRM 架构。前者有助于将图像作为输入进行处理,并生成图像中不可见的不同维度,而 LRM 则构建了一个可以在 3D 环境中体验的轨道视图对象。

据腾讯称,InstantMesh 解决了 3D 渲染领域的 Janus 问题。Janus 问题是 3D 渲染空间中的一种现象,由于模型必须“想象”参考对象的不同侧面并创建它们,因此它会创建对象的多个规范视图,而不是一个有凝聚力的 3D 对象。该公司通过使用从 Stable Diffusion 微调的新型视图生成器解决了这个问题。

该研究论文还分享了与不同现有模型的基准分数,包括最近推出的 Stability AI 的 Stable Video 3D。根据分数,InstantMesh 在 Google 扫描对象 (GSO) 和 OmniObject3D (Omni3D) 轨道视图上的表现优于SV3D。SV3D 在 Omni3D 基准测试中的几个参数中表现更好,这些参数与输出的分辨率相对应。