腾讯表示,通过人工测试,其模型优于Runway Gen-3、Luma 1.6和三种领先的中国视频生成工具。
当 OpenAI 在数月的延迟之后不断暗示 Sora 时,腾讯却悄然放弃了一个已经显示出与现有顶级视频生成器相当结果的模型。
腾讯发布了免费开源 AI 视频生成器“混元视频”,这一发布恰逢 OpenAI 为期 12 天的发布活动,人们普遍预计该活动还将包括其备受期待的视频工具 Sora 的首次亮相。
腾讯在官方声明中表示:“我们推出了混元视频,一种新颖的开源视频基础模型,其视频生成性能与领先的闭源模型相当,甚至优于它们。”
这家总部位于中国深圳的科技巨头声称,根据专业人工评估结果,其模型“优于”Runway Gen-3、Luma 1.6 和“三种表现最好的中国视频生成模型”。
时机再合适不过了。
在其视频生成器发布之前(在开源图像生成器的 SDXL 和 Flux 时代之间),腾讯发布了一个名称类似的图像生成器。
混元滴模型效果很好,提高了对双语文本的理解,但并未得到广泛采用。该模型家族由一组大型语言模型组成。
混元视频使用仅解码器的多模态大型语言模型作为其文本编码器,而不是其他 AI 视频工具和图像生成器中常见的 CLIP 和 T5-XXL 组合。
腾讯表示,这有助于模型更好地遵循指令,更准确地掌握图像细节,并无需额外训练即可即时学习新任务 - 此外,其因果注意力设置得到了特殊标记细化器的提升,帮助它比传统模型更彻底地理解提示。
它还重写了提示,使其更加丰富,并提高其生成的质量。例如,一条简单的提示“一名男子遛狗”可以得到增强,包括细节、场景设置、光线条件、优质文物和种族等元素。
免费向大众开放
与 Meta 的 LLaMA 3 一样,《混元》可免费使用并免费盈利,直至用户数量达到 1 亿——短期内大多数开发人员无需担心这一门槛。
问题是什么?你需要一台性能强大的计算机,至少配备 60GB 的 GPU 内存,才能在本地运行其 130 亿参数模型 — 比如 Nvidia H800 或 H20 显卡。这比大多数游戏电脑的总 vRAM 还要多。
对于那些手头没有超级计算机的人来说,云服务已经可以满足他们的需要了。
FAL.ai 是一个专为开发者量身定制的生成媒体平台,它集成了Hunyuan,每段视频收费 0.5 美元。其他云提供商(包括Replicate或GoEhnance)也已开始提供该模型的访问权限。官方Hunyuan 视频服务器以 10 美元的价格提供 150 个积分,每段视频生成最低费用为 15 个积分。
当然,用户可以使用 Runpod 或 Vast.ai 等服务在租用的 GPU 上运行模型。
早期测试表明,Hunyuan 的质量可与 Luma Labs Dream Machine 或 Kling AI 等商业巨头相媲美。视频生成时间约为 15 分钟,可生成具有自然人类和动物动作的逼真序列。
测试揭示了当前的一个弱点:该模型对英语提示的掌握可能比其竞争对手更敏锐。然而,开源意味着开发人员现在可以修改和改进该模型。
腾讯表示,其文本编码器的对齐率高达 68.5%,即输出与用户要求的匹配程度,同时根据内部测试保持 96.4% 的视觉质量得分。
完整的源代码和预先训练的权重可以在GitHub和Hugging Face平台上下载。
免责声明:
本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系。所有信息仅供参考和分享,不构成任何投资建议。加密货币市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。
关注我们,一起探索AWM!
2024-12-03
2024-11-17
2024-11-16

