3D-GPT 来了

近日,来自澳大利亚国立大学牛津大学北京智源人工智能研究院的研究人员已经开发了一种名为"3D-GPT"的新人工智能系统,它可以根据用户提供的简单文本描述生成3D模型。

这个AI系统相比传统的3D建模工作流程,提供了一种更高效和直观的创建3D模型的方法。这是一个利用大语言模型(Large Language Models,缩写:LLMs)进行指令驱动的3D建模框架。根据研究人员发布的论文,3D-GPT 将LLMs赋予了问题终结者的能力,将3D建模任务拆分为易于处理的问题,并为每个任务指派适当的代理。它利用了多个人工智能代理,每个代理专注于理解文本提示的不同部分并执行建模功能。

3D-GPT 核心流程 速读

3D-GPT 包括三个关键代理

  • 任务调度代理(Task Dispatch Agent): 用于解析文本指令
  • 概念化代理(Conceptualization Agent): 用于添加初始描述中缺失的细节
  • 建模代理(Modeling Agent): 用于设置参数并生成代码以驱动像Blender这样的3D软件
注:Blender是一款免费并开源的三维计算机图形软件,它可以用于创建和渲染三维模型、动画、游戏、视觉效果等。

这些代理主要去实现两个重要目标

  • 首先,需要系统地增强简洁的初始场景描述,将它们演化为详细的形式,同时根据后续指令动态调整文本。
  • 其次,需要无缝集成程序化生成,从丰富的文本中提取参数值,以便与3D软件轻松交互,并最终生成符合用户设想的3D模型。

3D-GPT 的处理流程如下图所示:

打开网易新闻 查看更多图片

  1. 用户输入文本描述的指令
  2. 通过3大关键代理的处理和提取参数生成Python代码
  3. 调用3D 软件去生成3D模型
3D-GPT 的实战演示成果

经过实战测试,3D-GPT能够生成完整的3D场景,准确地反映了文本中描述的元素。

闲话少说,直接上菜:

打开网易新闻 查看更多图片

打开网易新闻 查看更多图片

互动一下,看图说话,这8个效果图全是英文的描述,大家能不能猜出是什么意思呢?评论区分享交流一下哦!

展望一下未来

尽管图形质量尚未达到照片般逼真,但初步结果表明这种基于代理的方法显示出简化3D内容创建的潜力。研究人员表示,他们的系统“突显了大型语言模型在3D建模中的潜力,为未来在场景生成和动画方面的进展提供了基础框架”。

这项研究可能会彻底改变3D建模行业。随着我们不断进入元宇宙时代,3D内容创建作为催化剂,像3D-GPT这样的工具对于各行各业的创作者和决策者,从游戏和虚拟现实到电影和多媒体体验,都会是非常宝贵的。

当然,3D-GPT框架仍处于早期阶段,存在一些限制,但它的开发标志着AI驱动的3D建模迈出了重要的一步,并为未来的进展开辟了令人兴奋的可能性。

唯一的遗憾是,虽然这个论文的6位研究人员里除了一位澳洲教授,其他5人的名字都是用拼音的,但是这个3D-GPT还是需要英文文本描述作为输入,要是能支持中文就YYDS了!

打开网易新闻 查看更多图片

都看到这儿了,诚邀您“点赞+关注”,一起讨论交流。有了您的支持,我才能不断为大家带来更多优质的内容。非常感谢! 文:AI小狂人

#妙笔生花创作挑战#