打开网易新闻 查看更多图片

新智元报道

编辑:桃子 好困

【新智元导读】消失一天后的Aurora,正式上线了。一大早,马斯克官宣了Grok集成了自研图像新模型Aurora,MoE架构自回归模型,直接将生成编辑能力一统。在人物肖像生成上,已经逼真到肉眼无法辨别。

消失的Aurora再度回归了!

刚刚,xAI发布了首款完全自研图像生成模型Aurora,直接集成到了Grok当中。

打开网易新闻 查看更多图片

整个研发过程,耗时6个月。

打开网易新闻 查看更多图片

马斯克:模型选项中已经删除了Aurora名字,选择Grok 2即可无缝体验全新模型

这款从0开始搭建的新模型,是一个自回归模型,采用了MoE架构,在混合文本和图像数据集上完成了训练。

打开网易新闻 查看更多图片

网友在周末展开的一波疯狂测试,早已见识到了Aurora模型强大生图能力。

如今一大波惊艳的评测,正在刷屏全网。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

左右滑动查看

自研6个月,Grok图像生成功能正式上线

官博中,xAI介绍了Aurora专为提升Grok的图像生成能力而推出。

此前,Grok集成的图像模型,还只是别家的FLUX模型。

如今,自研新模型不论在人物肖像,还是表情包、艺术字体、实物生成方面,取得了极大的一致性。

打开网易新闻 查看更多图片

如前所述,Aurora是一种自回归混合专家模型(MoE),能够通过混合的文本和图像数据预测下一个 Token。

xAI研究团队在互联网上数十亿个示例数据上训练了模型,赋予其对世界深刻的理解能力。

Aurora的强大体现在多个维度:无论是生成逼真的图像渲染,还是精准执行复杂的文本指令,都展现出卓越的性能。

更令人兴奋地是,它还能原生支持多模态输入,用户可以直接使用图像进行创作和编辑。

这些强大的生图、编辑能力,极大地拓展了AI交互的边界。

目前,Grok全新图像生成功能,现已在平台的部分国家上线,预计将在一周内向所有用户全面开放。

接下来,一起看一些让人拍案叫绝的demo吧。

图像生成

首先,Grok能够能够在多个领域生成高质量的图像,这些领域通常来说,是图像生成模型的难点。

它可以呈现真实世界实体的精确视觉细节、文本、标志,还能生成逼真的人像。

Entity generation(实体):

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

Artistic text(艺术字):

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

Meme generation(梗图):

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

Realistic portraits(肖像):

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

Celebrities(名人):

可以看到,其他的AI生图模型在这个场景下,不仅容易触发安全机制拒绝生成,而且即便是生成出来了,效果也不尽人意。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

图像编辑

其次,Grok还将编辑与生成能力合二为一,用户可以直接在生成的图像上进行修改,提供了更大创作自由度和灵活性。

据介绍,这一功能将很快在平台上正式推出。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

网友大波试用来袭

网友再次惊叹道,Grok在生成真实的人的图像方面,比自己用过的任何模型都要好。

打开网易新闻 查看更多图片

不久后,AI制作的表情包就会覆盖全网。

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

Cybertruck正接近木星。

打开网易新闻 查看更多图片

还有坐在Cybertruck上的小浣熊。

打开网易新闻 查看更多图片

更多测试案例:

打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

左右滑动查看

团队介绍

xAI团队的执行力,完全以高效著称。

在Aurora还未正式发布之前,联创Greg Yang曾表示,在xAI工作起来太有趣了,不仅高效,还很有趣。

打开网易新闻 查看更多图片

马斯克称赞道,xAI团队超硬核。

打开网易新闻 查看更多图片

研究员Ethan Knight分享了这次模型背后是由一个小团队完成。

打开网易新闻 查看更多图片

四位核心研究人员分别是:

Gabriel Ilharco

打开网易新闻 查看更多图片

Gabriel Ilharco目前在xAI从事大规模多模态模型的研究工作。

在此之前,他曾在华盛顿大学获得博士学位,师从Ali Farhadi和Hannaneh Hajishirzi教授。在进入华盛顿大学之前,他曾在谷歌研究院担任AI研究员。

Ilharco的研究兴趣广泛,涉及自然语言处理和计算机视觉领域。尤其是,多模态模型、迁移学习、分布鲁棒性和以数据为中心的机器学习。

Eric Zelikman

打开网易新闻 查看更多图片

Eric Zelikman对算法如何(以及是否能够)学习有意义的表征和推理这个问题非常着迷,并且正在xAI探索这些问题。

入职xAI之前,他曾是斯坦福大学博士候选人,导师是Nick Haber和Noah Goodman。

Haotian Liu

打开网易新闻 查看更多图片

Haotian Liu是xAI的一名技术人员。他于2024年5月在威斯康星大学麦迪逊分校获得博士学位,师从Yong Jae Lee教授。

在此之前,他曾在浙江大学获得学士学位(荣誉学位)。

Haotian Liu对计算机视觉和机器学习领域非常感兴趣,最近的研究重点是构建可控的大型模型。此前,他还曾参与开发的研究成果包括LLaVA、Grok-1.5V和Grok-2。

Lianmin Zheng(郑怜悯)

打开网易新闻 查看更多图片

Lianmin Zheng是xAI的技术人员。他曾在UC伯克利完成了博士学位,导师是Ion Stoica和Joseph E. Gonzalez教授。他本科就读于上海交通大学ACM班。

他曾和团队共同创立了非营利组织LMSYS.org,致力于推进开源大语言模型研究。

他的研究兴趣包括机器学习系统、大型语言模型、编译器和分布式系统。

还有整个产品团队,也在Aurora模型上做出了杰出的贡献,尤其是Greg Yang、Ehsan Ghandhari、Yaroslav Nazarov和Vincent Stark。

打开网易新闻 查看更多图片

参考资料:

https://x.ai/blog/grok-image-generation-release