文生影像年末「大考」，字节跳动携即梦AI「交卷」

让想象力成为现实。

2024年尾声，文生影像领域硝烟四起。

12月初，OpenAI终于端上了Sora这盘硬菜，最高1080P的分辨率、20秒的时长以及故事板、Remix等功能，无疑再次搅动已经进入白热化竞争的文生影像江湖。但很快，竞争格局再次被刷新——谷歌发布了文生视频模型Veo 2，它在指令遵循、镜头控制以及画面质量上都表现惊艳。国内玩家也不遑多让。背靠字节跳动强大短视频基因的即梦AI，在上线后的四个月里经历了数次迭代，终于解决了AI生成影像的中文嵌入痛点。

在影像叙事大行其道的当下，文生图/视频无疑成为了AI应用的必争之地，而这场竞逐还远未及终局。不符合物理原则的AI生成视频，在让人发笑之余，折射的是目前文生图像领域，生成质量不高、反应速度慢、操作复杂以及伪影频现等诸多痛点。

对比国内外其他文生影像主要玩家，即梦AI入局相对较晚，但已足够让行业不容轻视，也让用户对其抱持着很高的期待。事实上，即梦AI自己也野心不小，喊出了“想象力相机”的口号。

那么，自2024年5月上线以来的即梦AI，到底有哪些看家本领，与包括Sora等在内的海内外同类应用相比，功力几何？通过即梦AI，或者可以一览字节跳动在AI应用元年于文生影像领域的成绩单。

一句话改图：简单、精准

即梦AI在11月上线了“智能参考”功能，号称用户可以通过一句话实现零门槛改图，并精准收获预期效果。

比如用时下流行的文物动作改造进行尝试。选取一张兵马俑的照片，点击使用“智能参考”功能，输入简单的promt：兵马俑喝奶茶，仅几秒钟，原图就生成为一张左手握奶茶的兵马俑图片，且可以看到，图片的其余部位都基本保持了原图状态，没有变形，全程也不需要额外再做涂抹描边等步骤。

prompt：兵马俑喝奶茶

再尝试一下更复杂的改图效果。去掉原图中女孩面前的玻璃，从效果图中可以看到，即梦AI对prompt的理解还是很精准到位的，玻璃被完整消除了，而原图其他细节基本上都实现了保留。

prompt：去除图片的碎玻璃

在多次测试中，可以看到，即梦AI的图像生成模型，能够辨别表情、情绪、风格以及成语等词汇，并且可以实现指哪打哪的精准任务执行。

从效果来看，目前即梦AI的改图功能可实现改风格、改动作、改表情、2D变3D、换装/换人、增减主体以及改场景等多种效果。对比同类模型而言，覆盖相对全面。

简单、精准且效果多元，这对C端大众用户来说，可以满足社交媒体使用过程中大部分的制图需要，比如最近很火的经典卡通头像拟人化制作，还有朋友圈爆火的AI雪景。对创作者而言，这种简单、精准的图像生成实现，无疑可以大幅度降低使用成本，提高创作的效率。

这个月初，即梦AI上线了“文字海报”功能，输入一句话即可生成中/英文海报，后续还增加了涂抹修改错字的功能。

在实测中，即梦AI除了实现简单快速和排版设计这些比较基础的要求，更亮眼的表现，无疑是AI图像生成中中文难以生成的问题，同平台迅速涂抹修改错别字也是当前国内外文生图模型还难以实现的。另外，即梦的模型还可以根据提示词，自动完善文案并补充画面细节。在控制图片中的文字生成这方面，即梦是行业首创。

有了这个功能，B端在电商大促、新品宣传、年末活动以及视频封面等场景的需求基本上都可以满足。尤其是不会做海报但是有需求的小商家或者营销个体、半专业设计师、文字媒体工作者，即梦都会是不错的辅助工具。

视频生成：复杂，多元

视频生成是目前是AI应用领域当之无愧的竞争热土，也是各应用能力的重要试金石。即梦AI在11月中旬上线了S&P双模型。根据介绍，采用DiT架构，S2.0 pro 模型在首帧一致性和画质上有不俗表现，而P2.0 pro模型则有较高的“提示词遵循能力”，即输入复杂提示词，如镜头切换、人物连续动作、情绪演绎、运镜控制等，模型也能理解并精准生成视频。

对指令理解、镜头切换以及相机控制的最大程度实现，在目前视频生成领域的几个主要模型已经“卷”出新高度。姗姗来迟的OpenAI Sora，就有可以让用户自由添加分镜的故事板功能；而被公认已经全面超越Sora的谷歌Veo 2，在复杂指令理解以及相机控制方面更是做到了极致，景深等摄影专业术语都可以直接输入，并且被精准理解实现理想的效果输出。

而即梦的P2.0pro模型，也在这些领域进行了发力。在镜头切换方面，输入一张图和prompt，就可以生成多镜头视频，实现全景、中景、特写等镜头切换，并保持了视频与原图总体风格、场景以及人物的高度一致。在下面的实测中，可以看到视频与原图画面基本保持了一致，生成的面部表情以及肢体细节等也都较为精准、生动。

prompt：视频呈现转化为动画风格，突出女孩脸部表情，表现出购物后的喜悦心情

打开网易新闻查看更多视频

字节跳动携即梦AI「交卷」1

从人物动作来看，目前P2.0pro模型生成可以实现单主体、多主体，连续、复杂的一整套动作。比如，在实测中，输入下面这张单人静态图，以及prompt：一个男人走进画面，女人转头看着他，他们互相拥抱，背景周围的人在走动。生成效果中，除了大多数模型目前都存在的人物眼神无法聚焦的问题外，人物动作还是相当连贯的，并且互动效果也符合现实物理原则，四肢等也没有出现错位和变形等问题。

字节跳动携即梦AI「交卷」2

在运镜控制方面，除了简单的“推、拉、摇、移”外，即梦P2.0 pro模型还能实现变焦、主体环绕、升降、旋转、晃动、鱼眼镜头等多种运镜，其中“变焦”表现尤其突出。在以下这张原图+prompt（镜头环绕着戴墨镜的女人拍摄，从她侧面移动到正面，最后聚焦于女人的墨镜特写）的实测中，除了镜头还有点晃之外，prompt的描述都得到了较大程度的实现。

字节跳动携即梦AI「交卷」3

另外，除了对镜头语言以及动作语言的精准理解，即梦的P2.0pro模型，对情绪的演绎也堪称精准。它不仅可以演绎哭、笑、悲伤、生气等单一的简单情绪，还可以理解并生成“哭中带笑”等这类复杂情绪。

字节跳动携即梦AI「交卷」4

视频生成的场景就很多，比如最近很火的让文物动起来，用即梦的S/P2.0Pro模型，只要输入prompt词就可以简单快速完成，不仅是雕塑文物，古画里面的人物、动物都可以。

即梦AI在B端场景也有很大的想象空间，商品展示类的广告短片、红人口播短视频等，目前的模型能力都可以基本实现。目前即梦还上线了“对口型”功能，一张图片、一段文字或者一段音频，就能生成对口型视频，不需要额外再写prompt。在实测中，除了口型对上之外，生成的视频中，人物的表情、神态也都基本可以还原音频的情绪表现；另外服饰、配饰乃至头发的细节都能达到动态逼真。

字节跳动携即梦AI「交卷」5

打造想象力相机，字节的AI野心

总体而言，上线相对较晚的即梦AI，还是跟上了同类文生影像产品的节奏，在清晰度、准确度以及细节质量等基本的评价维度上，都给出了较为惊艳的表现；同时在视频生成方面的情绪理解以及运镜控制等更复杂任务的完成上，也在不断迭代，超海内外强势产品追赶。尤其是在生图方面，即梦也解决了插入中文这一痛点。

另外，相比Sora等海外产品，即梦AI目前的订阅门槛还是相对亲民的，高频使用的用户还可以通过每天登陆领取积分兑换使用次数。这对于大众用户来说，是另一种维度的低使用门槛。

目前，文生影像领域的产品形态和功能都还在比较早期的阶段，竞争格局远未定型。表现在用户侧，不少用户都是同时使用多个AI应用工具以完成一个任务，一方面是，目前单个工具还无法给出最优的成果；另一方面是，各个工具目前都有各自的长板，用户将不同工具的生成效果综合，可以逼近最理想的效果。因此，随着字节跳动在生成式AI领域投入的进一步加大，即梦AI未来必然还会有更大的想象空间。

相比于一部分同类产品，背靠字节跳动，即梦AI显然有着更加优越的资源禀赋。字节跳动在基础模型方面的投入，可以为即梦AI提供底层架构，另外背靠大厂的算力资源，也是当前环境下应用产品的比较优势。

另一方面，抖音也需要源源不断的内容，即梦还可以和剪映结合，引入AI生产力工具后将内容反哺给抖音，可以说，比起其他同类模型，这是即梦之于独特的生态站位优势。

在12月18日的即梦发布会中，今年2月辞去抖音集团CEO、转任剪映负责人的张楠称，视觉模型将极大改变我们观看视频的方式——实际上，用户将不再是被动观看，而是可以在任何时刻介入、参与和影响剧情走向或者观看不同的故事分支。不仅如此，技术还可以使生物脑电波可视化，意味着我们可以探索潜意识的创作之路。

“科学家估算过，人的一生可以容纳 10 亿个想法。”张楠说，如果抖音是记录“真实世界的相机”，即梦就是一款“想象力的相机”。在字节跳动的AI野心之下，这款“想象力的相机”无疑将加速迭代。

剪映业务负责人张楠