AI好好用报道
编辑:杨文
人人免费可用。
大洋彼岸,两大巨头 OpenAI 和谷歌轮番炸场。
一个发布了那个传说中的 Sora,一个推出了最强视频生成模型 Veo2。
不过,每月 200 美金的 Sora 上线即翻车,而好评不断的 Veo 2 则尚未对公众开放。
与他们相比,国内这家视频大模型公司显得尤为豪横,直接大手一挥,将自家模型开源了。
12 月 17 日,图森未来发布了一款图生视频的开源大模型,名字很中国风,叫 Ruyi(如意)。
同时,他们还将 Ruyi-Mini-7B 版本正式开源,网友们现在就可以去 Hugging Face 上下载使用。
Hugging Face 模型链接:
https://huggingface.co/IamCreateAI/Ruyi-Mini-7B
GitHub 代码链接:
https://github.com/IamCreateAI/Ruyi-Models
为了让网友们能够快速上手,他们还提供了部署说明和 ComfyUI 工作流,网友只需在消费级显卡(例如 RTX 4090)上运行即可。
不要钱就能上手玩,Ruyi 效果究竟如何?我们先放几个官方 demo。
头戴耳机的女孩眼神自然流转:
宇航员漫步在荒凉的月球:
还有忽闪着大眼睛的动漫角色:
以及海浪拍打着礁石:
看着效果还挺 OK,接下来我们亲自上手评测一番。
一张图片直出 5 秒视频
Ruyi 是图森未来正式发布的第一款「图生视频」模型。
无需输入提示词,只要上传一张图片,Ruyi 就能生成一段最高分辨率 720P、时长 5 秒的视频。
它支持任意长宽比,会根据「喂」给它的图片生成相应尺寸的视频。
(动图:16:9 尺寸)
Ruyi 还支持最多 5 个起始帧、最多 5 个结束帧基础上的视频生成,通过循环叠加可以生成任意长度的视频。
此外,Ruyi 提供了 4 档运动幅度控制,方便创作者对整体画面的变化程度进行控制。
以及上、下、左、右、静止 5 种镜头控制。
接下来,我们将从写实风格、影视剧照、动画风格、动物、风景等 5 个维度进行测评。
写实风格
写实风格是评价视频生成模型性能的关键指标之一。
这是因为它要求模型能够精准捕捉并再现现实世界中的细节,包括人物面部表情、光影效果、物体材质等。
我们先上传了一张 AI 生成的写实人物图片,再让 Ruyi 将其转为视频。
视频中,金发女郎微微抬头并轻晃身体,形象保持了一致性,面部表情也没崩。
我们又丢给它一张韩国影星金敏喜的真人照片,在生成的 3 秒视频中,Ruyi 对于人物面部识别和细节拿捏得还挺到位。
影视剧照
我们再来看看 Ruyi「拍」电影镜头的水平。
在 Ruyi 一顿操作下,《老友记》中身着红衣的莫妮卡似乎在和某人进行对话。
画面色彩丰富,很有美感,动作幅度也较大。
还有《公主日记》中的安妮・海瑟薇,如果不加以说明,Ruyi 生成的视频甚至能「以假乱真」。
动画风格
与其他模型类似,Ruyi 还很擅长生成动画卡通风格的视频。
比如这只皮克斯风格的腊肠犬,眼神凌厉,摇头晃脑:
还有卡通风格的拟人小兔,迈着八字步缓缓走来,虽然运动幅度较大,但画面很稳定,动作流畅丝滑。
动物
仅需一张小狗的图片,连提示词都省了,Ruyi 就能让静态的小狗变得活灵活现。
在下面这则小猫的生成视频中,扭头动作倒也连贯逼真。
风景
水流的动态涉及到流体动力学的原理,AI 模型需要能够理解和模拟水流的运动,包括水流的速度、方向等。
Ruyi 呈现了一个微风吹过,湖面泛起阵阵涟漪的画面。其细节之处在于水波的纹理、阳光照在水面的光影以及水流与岩石碰撞时产生的回流。
下面这则视频是 Ruyi 模拟摄像机缓慢推进镜头的场景。
画面沿着马路向前延伸,远处的行道树逐渐逼近,很有纪录片的感觉。
总体来看,Ruyi 的图生视频在画面一致性、动作流畅性以及真实性上表现还不错,不过仍存在手部畸形、多人时面部细节崩坏、不可控转场等问题。
智驾公司「半路出家」搞生成式 AI
实际上,图森未来曾是一家正儿八经的智能驾驶公司。
不过今年 8 月 15 日,这家公司突然宣布进军动画与视频游戏市场,并成立「生成式 AI」新业务部门。
据官方称,此举是为了充分利用图森在自动驾驶领域的技术积累,探索下一个商业化机会。
该公司认为,他们在自动驾驶领域的技术优势可以转化为 AI 生成领域的竞争力,做自动驾驶时所积累的 AI 基础设施和工具、大规模数据处理能力以及模型训练优化经验等可以直接转换到大模型训练上。
而最佳应用场景又是孵化生成式 AI 工具的原动力,于是他们盯上了动漫和游戏产业,试图利用大模型降低动漫和游戏内容的开发周期和开发成本。
短短 4 个月时间,图森就搞出了图生视频模型 Ruyi。
除了模型开源外,图生未来研发团队还揭秘了背后的模型架构和训练方式。
作为 Sora 的「幕后功臣」,DiT 架构在近几年逐渐流行起来。
Ruyi 也是一个基于 DiT 架构的图生视频模型。它由两部分构成:一个 Casual VAE 模块负责视频数据的压缩和解压,一个 Diffusion Transformer 负责压缩后的视频生成。
其中 Casual VAE 模块会将空间分辨率压缩至 1/8,时间分辨率压缩至 1/4,压缩后每个像素由 16 位的 BF16 进行表示。
DiT 部分使用 3D full attention,在空间上使用 2D RoPE 进行位置编码,时间上使用 sin_cos 进行位置编码,最终的 loss 选用了 DDPM 进行训练。
模型的总参数量约为 7.1B,使用了约 200M 个视频片段进行训练。
虽然与其他视频生成模型相比,Ruyi 发布似乎慢了一拍,功能也相对单一,但毕竟目前开源免费。
对于后续的技术路线和功能升级,图森未来也有规划。
他们将在 2025 年推出 Ruyi Standard 闭源模型和一系列 ACG-GEN 工具,满足专业内容制作团队的需求。
到 2026 年则发布最强性能版本,支持强大语义理解能力和多条件可控生成。
对此,你有什么看法?来评论区聊聊吧。
© THE END
转载请联系本公众号获得授权