拿下文生图模型历史最高融资，这个新晋AI独角兽到底有多强？

AI生图的天变了！

近日，根据彭博社报道，Flux背后公司黑森林工作室（Black Forest Labs）即将在新一轮融资中获得由a16z领投的2亿美元，预计公司估值突破10亿美元大关。

2亿美元，是文生图领域迄今为止规模最大的融资。此次融资完成后，黑森林也是文生图领域为数不多的独角兽公司。

成立仅5个月，黑森林的估值增长神速。今年8月，黑森林刚刚完成了一轮3100万美元的种子轮融资，由a16z领投。

为何黑森林能够获得投资人的青睐？这对文生图领域又会有哪些影响？

Flux出道即巅峰，生成效果惊艳

说起来，黑森林团队大有来头，其创始成员Robin Rombach不仅曾参与开发开源图像生成模型Stable Diffusion（下简称“SD”），也是扩散模型领域的权威，代表作有VQGAN、Taming Transformers和Latent Diffusion。

今年8月，黑森林工作室推出了首个文生图模型FLUX.1。自发布以来，FLUX.1已在开发者和创意工作者之间引起了巨大轰动。许多人在尝试过FLUX.1之后，发出“根本分不清到底是真人和AI”的惊叹。

▲8月，一张极其逼真的“TED演讲者”图片刷屏。该图基于FLUX训练的LoRA模型生成。

逼真的效果和FLUX.1的训练度脱不开关系，它的参数训练量达到了12B，是目前已知最大的文生图模型，且支持自然语言。

参数对比

FLUX.1：训练参数12B（120亿）

SD3 Large：训练参数8B（80亿）

SD3 Medium：训练参数2B（20亿）

黑森林称，FLUX.1采用“多模态和平行扩散Transformer块的混合架构”，比之前的扩散模型更进一步，融合了流匹配和其他优化技术。

在模型应用方面，FLUX.1模型在视觉质量、快速响应、尺寸/长宽比变化、排版和输出多样性等方面超越了Midjourneyv6.0、DALL·E3（HD）和SD3 Ultra等热门模型。更难得的是，FLUX.1解决了文字生成、复杂构图、人手描绘等难题。

竞品对比

与SD比，专有功能、增强的易用性和精致的输出；

与DALL·E 3比，能完成某些特定任务，例如指定的艺术风格；

与MidJourney比，能提供更多自动化工具，进行创意改进，简化工作流程。

下面是一些FLUX.1模型的用例：

（1）处理图像文本：FLUX.1可以将文本合并到图像中，与SD3 Medium比更准确、更少失误。

▲Prompt：在奶油咖啡中，“Stablecog”刻在白色泡沫中。场景如电影，灯光是柔和的。

（2）更好的依从性：FLUX.1能够理解复杂的提示词，适用于生成复杂的场景。有科技博主测评后认为，Flux.1的输出在提示忠实度上与DALL-E 3相当，且在真实感上接近Midjourney 6。

▲Prompt：在一个微型小镇中有3栋房子，分别是紫色、橙色、蓝绿色的，黄色的树环绕着房子。

（3）风格化：适合指定的艺术风格，例如从超现实主义到抽象主义，泛用性强。

▲Prompt：一头大象的超现实主义描绘，它坐在沙漠里的一根瘦弱、脆弱的光秃秃的树枝上，背景是月亮。

黑森林此次获得大额融资，很有可能和他们的视频生成模型计划有关。

8月，黑森林预告了将发布一款SOTA（当前最好的技术水平）文生视频模型，“让所有人都能将文本转为视频，精确创作和编辑”。

打开网易新闻查看更多视频

拿下文生图模型历史最高融资，这个新晋AI独角兽到底有多强？

▲黑森林的视频模型预告片

黑森林创始人Robin Rombach正是视频生成模型Stable Video Diffusion的核心研发人员之一。在SD工作时期，Robin的研究成果解决了SD视频模型中的数据量、运动物理、三维物体呈现等复杂问题。

据称，FLUX.1系列模型是为了视频生成模型的系统套件奠定基础。这也意味着，黑森林未来可能将与OpenAI的Sora、Runway的Gen-3 Alpha等产生激烈竞争。

/ 02 /

文生图的王位争夺战从未停止

FLUX.1的出现，一下子拔高AI生图的行业标准。

拿下此次融资后，意味着黑森林已经成为文生图模型领域估值最高的公司之一。要知道，黑森林才成立5个月。

这背后有一个很有意思的现象：与ChatGPT稳定领跑通用型聊天产品不同，垂直AI应用的“王位易主”显然更加容易。

8月，FLUX.1的出现，就像乔峰聚贤庄一人单挑天下英雄，刷新了AI生图的各项指标。而从流量角度看，文生图模型的座次也一直在变化。

曾经，Stable Diffusion以三个月用户量增长1000万称霸市场；到后来，Midjourney通过产品迭代，在相当长时间内流量高居行业第一；到现在，Stable Diffusion陨落、Midjourney流量被Leonardo AI反超。

▲AI生图产品，10月Web端的流量情况

一个很重要的原因是，AI生图赛道集中度很低，产品结构极为分散。

根据今年8月Similarweb发布AI产业半年报，Midjourney与Leonardo AI的流量加起来，占比也没到这个赛道流量的25%，长尾产品占据了50%以上的流量。这与大部分AI赛道流量集中的趋势形成了明显对比。（）

▲8月，similarweb发布AI产业半年报，其中AI生图产品的流量变化

行业集中度低的原因主要有两个：

（1）开源生态完善、低成本，加快了创新和竞争的速度

文生图领域开源生态相对成熟，新进入者可以利用现有技术，针对特定应用微调现有模型，无需承担训练新模型的大部分成本。例如，Leonardo AI的底层模型是用SD微调的。FLUX AI、SD等模型重用公开可用的数据集（如LAION），降低了开发成本。

▲AI社区人士支持图像生成模型开源（图源：X）

同时，AI图片模型不像AI视频模型那样，技术上需要跨时间和空间域同步，开发图像模型的成本较低，这加速了这一领域竞争。

（2）用户需求的精细化

与通用型AI个人助理不同，文生图模型赛道用户更强调地并非体验性、趣味性和新鲜感。从长远看，用户使用模型的工具导向更强，更加强调操作简易性和出图质量。简而言之，模型生成的图像是否符合输入指令，质量高不高，上手快不快。

在这个情况下，文生图领域的新玩家可以通过专降低复杂性、提高可用性，让非技术用户更容易创建高质量的输出。

以Leonardo AI和Midjourney为例，前者适用于低成本生成大量艺术素材，免费版每月可以生成4500张图像；后者在细节质量、审美和语义理解方面表现出色，基础版10美元/月，每月生成200张图像。前者在小白和学生党中受欢迎，后者在设计师等专业创意人士中受欢迎。

总之，由于技术开放、低成本和市场需求细化，AI图片模型领域将有源源不断的新玩家进入，唯一的不变就是变化，这或许是这个领域的常态局面。

文/朗朗

PS：如果你对AI大模型领域有独特的看法，欢迎扫码加入我们的大模型交流群。

拿下文生图模型历史最高融资，这个新晋AI独角兽到底有多强？

视觉理解、3D生成，豆包这次又玩出了什么新花样？

沈向洋，发了一个可以识别万物的大模型

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦

字节AI版小李子一开口：黄风岭，八百里

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

AI Agent就是新APP，Salesforce在讲一个“数万亿美元”的大故事

极越崩盘启示录：从员工、供应商到车主的多面视角

摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

“AI和自动驾驶至少值1万亿美元”！“死多头”Dan Ives大幅上调特斯拉目标价至515美元

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

融资路上的妖魔鬼怪：一位董事长的心酸融资史 | 钛媒体创投家

一口气融728亿！AI融资新纪录，比OpenAI还吸金，华人联合创办

砥砺前行十三载奋楫扬帆谱新篇——甘肃银行以高质量金融供给赋能地方经济社会发展

湖南省融资担保集团有限公司原党委书记、董事长李勤被提起公诉

大叔相亲以为遇到了女富婆没想到被骗的只剩250块钱

精通“猪周期”，但血亏340亿，养猪企业为何集体翻车？

极越失火，殃及池鱼丨K·Focus

拿下文生图模型历史最高融资，这个新晋AI独角兽到底有多强？

视觉理解、3D生成，豆包这次又玩出了什么新花样？

沈向洋，发了一个可以识别万物的大模型

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

Pika 2.0横扫Sora惊艳全网，一键颠覆广告业！上传自拍秒变好莱坞大片，和明星同框不是梦

字节AI版小李子一开口：黄风岭，八百里

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

AI Agent就是新APP，Salesforce在讲一个“数万亿美元”的大故事

极越崩盘启示录：从员工、供应商到车主的多面视角

摒弃人工标注，AutoAlign方法基于大模型让知识图谱对齐全自动化

“AI和自动驾驶至少值1万亿美元”！“死多头”Dan Ives大幅上调特斯拉目标价至515美元

字节大模型同传智能体，一出手就是媲美人类的同声传译水平

融资路上的妖魔鬼怪：一位董事长的心酸融资史 | 钛媒体创投家

一口气融728亿！AI融资新纪录，比OpenAI还吸金，华人联合创办

砥砺前行十三载 奋楫扬帆谱新篇——甘肃银行以高质量金融供给赋能地方经济社会发展

湖南省融资担保集团有限公司原党委书记、董事长李勤被提起公诉

大叔相亲以为遇到了女富婆 没想到被骗的只剩250块钱

精通“猪周期”，但血亏340亿，养猪企业为何集体翻车？

极越失火，殃及池鱼丨K·Focus

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

砥砺前行十三载奋楫扬帆谱新篇——甘肃银行以高质量金融供给赋能地方经济社会发展

大叔相亲以为遇到了女富婆没想到被骗的只剩250块钱