AI生图的天变了!
近日,根据彭博社报道,Flux背后公司黑森林工作室(Black Forest Labs)即将在新一轮融资中获得由a16z领投的2亿美元,预计公司估值突破10亿美元大关。
2亿美元,是文生图领域迄今为止规模最大的融资。此次融资完成后,黑森林也是文生图领域为数不多的独角兽公司。
成立仅5个月,黑森林的估值增长神速。今年8月,黑森林刚刚完成了一轮3100万美元的种子轮融资,由a16z领投。
为何黑森林能够获得投资人的青睐?这对文生图领域又会有哪些影响?
Flux出道即巅峰,生成效果惊艳
说起来,黑森林团队大有来头,其创始成员Robin Rombach不仅曾参与开发开源图像生成模型Stable Diffusion(下简称“SD”),也是扩散模型领域的权威,代表作有VQGAN、Taming Transformers和Latent Diffusion。
今年8月,黑森林工作室推出了首个文生图模型FLUX.1。自发布以来,FLUX.1已在开发者和创意工作者之间引起了巨大轰动。许多人在尝试过FLUX.1之后,发出“根本分不清到底是真人和AI”的惊叹。
▲8月,一张极其逼真的“TED演讲者”图片刷屏。该图基于FLUX训练的LoRA模型生成。
逼真的效果和FLUX.1的训练度脱不开关系,它的参数训练量达到了12B,是目前已知最大的文生图模型,且支持自然语言。
参数对比
FLUX.1:训练参数12B(120亿)
SD3 Large:训练参数8B(80亿)
SD3 Medium:训练参数2B(20亿)
黑森林称,FLUX.1采用“多模态和平行扩散Transformer块的混合架构”,比之前的扩散模型更进一步,融合了流匹配和其他优化技术。
在模型应用方面,FLUX.1模型在视觉质量、快速响应、尺寸/长宽比变化、排版和输出多样性等方面超越了Midjourneyv6.0、DALL·E3(HD)和SD3 Ultra等热门模型。更难得的是,FLUX.1解决了文字生成、复杂构图、人手描绘等难题。
竞品对比
与SD比,专有功能、增强的易用性和精致的输出;
与DALL·E 3比,能完成某些特定任务,例如指定的艺术风格;
与MidJourney比,能提供更多自动化工具,进行创意改进,简化工作流程。
下面是一些FLUX.1模型的用例:
(1)处理图像文本:FLUX.1可以将文本合并到图像中,与SD3 Medium比更准确、更少失误。
▲Prompt:在奶油咖啡中,“Stablecog”刻在白色泡沫中。场景如电影,灯光是柔和的。
(2)更好的依从性:FLUX.1能够理解复杂的提示词,适用于生成复杂的场景。有科技博主测评后认为,Flux.1的输出在提示忠实度上与DALL-E 3相当,且在真实感上接近Midjourney 6。
▲Prompt:在一个微型小镇中有3栋房子,分别是紫色、橙色、蓝绿色的,黄色的树环绕着房子。
(3)风格化:适合指定的艺术风格,例如从超现实主义到抽象主义,泛用性强。
▲Prompt:一头大象的超现实主义描绘,它坐在沙漠里的一根瘦弱、脆弱的光秃秃的树枝上,背景是月亮。
黑森林此次获得大额融资,很有可能和他们的视频生成模型计划有关。
8月,黑森林预告了将发布一款SOTA(当前最好的技术水平)文生视频模型,“让所有人都能将文本转为视频,精确创作和编辑”。
▲黑森林的视频模型预告片
黑森林创始人Robin Rombach正是视频生成模型Stable Video Diffusion的核心研发人员之一。在SD工作时期,Robin的研究成果解决了SD视频模型中的数据量、运动物理、三维物体呈现等复杂问题。
据称,FLUX.1系列模型是为了视频生成模型的系统套件奠定基础。这也意味着,黑森林未来可能将与OpenAI的Sora、Runway的Gen-3 Alpha等产生激烈竞争。
/ 02 /
文生图的王位争夺战从未停止
FLUX.1的出现,一下子拔高AI生图的行业标准。
拿下此次融资后,意味着黑森林已经成为文生图模型领域估值最高的公司之一。要知道,黑森林才成立5个月。
这背后有一个很有意思的现象:与ChatGPT稳定领跑通用型聊天产品不同,垂直AI应用的“王位易主”显然更加容易。
8月,FLUX.1的出现,就像乔峰聚贤庄一人单挑天下英雄,刷新了AI生图的各项指标。而从流量角度看,文生图模型的座次也一直在变化。
曾经,Stable Diffusion以三个月用户量增长1000万称霸市场;到后来,Midjourney通过产品迭代,在相当长时间内流量高居行业第一;到现在,Stable Diffusion陨落、Midjourney流量被Leonardo AI反超。
▲AI生图产品,10月Web端的流量情况
一个很重要的原因是,AI生图赛道集中度很低,产品结构极为分散。
根据今年8月Similarweb发布AI产业半年报,Midjourney与Leonardo AI的流量加起来,占比也没到这个赛道流量的25%,长尾产品占据了50%以上的流量。这与大部分AI赛道流量集中的趋势形成了明显对比。()
▲8月,similarweb发布AI产业半年报,其中AI生图产品的流量变化
行业集中度低的原因主要有两个:
(1)开源生态完善、低成本,加快了创新和竞争的速度
文生图领域开源生态相对成熟,新进入者可以利用现有技术,针对特定应用微调现有模型,无需承担训练新模型的大部分成本。例如,Leonardo AI的底层模型是用SD微调的。FLUX AI、SD等模型重用公开可用的数据集(如LAION),降低了开发成本。
▲AI社区人士支持图像生成模型开源(图源:X)
同时,AI图片模型不像AI视频模型那样,技术上需要跨时间和空间域同步,开发图像模型的成本较低,这加速了这一领域竞争。
(2)用户需求的精细化
与通用型AI个人助理不同,文生图模型赛道用户更强调地并非体验性、趣味性和新鲜感。从长远看,用户使用模型的工具导向更强,更加强调操作简易性和出图质量。简而言之,模型生成的图像是否符合输入指令,质量高不高,上手快不快。
在这个情况下,文生图领域的新玩家可以通过专降低复杂性、提高可用性,让非技术用户更容易创建高质量的输出。
以Leonardo AI和Midjourney为例,前者适用于低成本生成大量艺术素材,免费版每月可以生成4500张图像;后者在细节质量、审美和语义理解方面表现出色,基础版10美元/月,每月生成200张图像。前者在小白和学生党中受欢迎,后者在设计师等专业创意人士中受欢迎。
总之,由于技术开放、低成本和市场需求细化,AI图片模型领域将有源源不断的新玩家进入,唯一的不变就是变化,这或许是这个领域的常态局面。
文/朗朗
PS: 如果你对AI大模型领域有独特的看法,欢迎扫码加入我们的大模型交流群。