SD3已开源，AI绘画的新标杆！

Stable Diffusion 3（以下简称SD3）今天正式开源！！

（文末附使用方法）

之前就有很多人在讨论，SD3是否会超越当前市场上的领头羊Midjourney，成为AI绘画领域的新标杆。

SD3采用了与Sora相同的底层架构，并引入了全新的多模态DiT（Multimodal Diffusion Transformer）模型，使得画面质量、文字渲染、复杂对象理解能力都有了显著提升。

SD3 vs Midjourney：性能对比

图像质量与美学体系

SD3在图像质量上的提升是显而易见的。它不仅拥有DALL-E 3的文生图准确性，同时也具备Midjourney V6的美学体系。

通过对比测试，我们可以看到SD3在处理复杂场景和细节方面的能力远超前代产品。例如，在处理包含多个对象和文本元素的场景时，SD3能够更准确地理解和渲染用户输入的指令。

语义理解与指令展现

SD3的另一个显著优势是其对复杂语义的理解能力。在输入相同的prompt指令时，SD3能够更真实地展现美术风格，并对指令进行更精确的展现。

这一点在Midjourney中也有所体现，但SD3在理解和执行复杂指令方面表现得更为出色。

SD3的技术亮点

MMIDT架构

SD3采用了MMDiT架构，这是一种专为处理多模态能力而设计的架构。它结合了文本和图像两种模态。

’ 通过三种不同的文本嵌入模型——两个CLIP模型和一个T5，以及一个自编码模型来编码图像token。

这种架构使得图像和文本信息之间可以相互流动和交互，从而在生成的结果中提高对内容的整体理解和视觉表现。

图像-文本对齐与VAE

SD3在图像-文本对齐方面的表现尤为突出。它使用了强大的VAE（变分自编码器）技术，这不仅提高了模型的质量，而且实际上带来了更快的训练速度。这种技术的应用，使得SD3在512x512分辨率下的表现令人难以置信，即使在较小的图像尺寸下，也能捕捉到丰富的细节。

光影操控与IC-Light

除了核心的绘画功能，SD3还可能与IC-Light这样的AI图像照明操纵工具相结合，实现对光影的精细控制。

IC-Light能够在不依赖复杂提示的情况下，通过简单的文本描述或背景条件，对图像的光照进行调整，创造出各种光影效果。

SD3下载地址：https://huggingface.co/stabilityai/stable-diffusion-3-medium/tree/main

电脑配置不足的同学可以关注一下下面几个网站的更新:

都看到这里了感觉得还不错，随手点个赞、在看、转发三连支持一下吧。

欢迎加入星球！

SD3已开源，AI绘画的新标杆！

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

纯太阳能电车何时能实现，马斯克怎么看？

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

国产机器人也会空翻了！打破限制，世界首款！

大疆前高管带6人创业，做出了类目Top1的割草机器人

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开

被AI量产的短视频营销号气疯了，于是，我也做了一个

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

AI时代，谁还没用AI智能硬件提升工作效率？

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

小伙看到女友的画，直呼女友想的太脏，谁料是自己思想不洁！

最强倒钩狼——忽必烈

华为业界首创AI语音修复功能，通过AI语音修复，帮助有语言障碍的用户恢复说话

一哄而上，打不赢美国高科技

Meta 将真实照片标记为“AI 生成”，引发多名摄影师不满

原来陶瓷碗里的画，是这样做的

SD3已开源，AI绘画的新标杆！

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

纯太阳能电车何时能实现，马斯克怎么看？

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

国产机器人也会空翻了！打破限制，世界首款！

大疆前高管带6人创业，做出了类目Top1的割草机器人

GPT-4批评GPT-4实现「自我提升」！OpenAI前超级对齐团队又一力作被公开

被AI量产的短视频营销号气疯了，于是，我也做了一个

LeCun谢赛宁首发全新视觉多模态模型，等效1000张A100干翻GPT-4V

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

这个机器人的手真的太灵活了！ 收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。 这是星动纪

AI时代，谁还没用AI智能硬件提升工作效率？

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

小伙看到女友的画，直呼女友想的太脏，谁料是自己思想不洁！

最强倒钩狼——忽必烈

华为业界首创AI语音修复功能，通过AI语音修复，帮助有语言障碍的用户恢复说话

一哄而上，打不赢美国高科技

Meta 将真实照片标记为“AI 生成”，引发多名摄影师不满

原来陶瓷碗里的画，是这样做的

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪