‍自从今年 2 月 OpenAI 发布了基于日语词汇“Sora”所开发的惊艳视频生成技术以来,该技术以其能够将简短文本描述转化为高清一分钟视频而引起了全球技术界的广泛关注。北京大学及兔展智能携手于三月启动了开源项目 Open-Sora-Plan,旨在通过开源方式再现 Sora 技术,并训练涵盖无条件视频生成、类似视频生成以及文本驱动视频生成等多个技术模块的综合模型。

打开网易新闻 查看更多视频
国产开源Sora:Open-Sora-Plan支持华为昇腾芯片,生成10秒高清视频

日前,Open-Sora-Plan 已成功发布了 v1.0.0 版本,显著提升了视频生成效果和文本引导控制功能,目前还在训练更高分辨率(超过 1024)和更长持续时间(超过 10 秒)的视频内容。项目核心技术架构包括 Video VQ-VAE、Denoising Diffusion Transformer 以及 Condition Encoder,其中 CausalVideoVAE 架构尤为关键,它结合了变分自编码器(VAE)和矢量量化(VQ)原理,有效实现视频数据的高效压缩和重建,并且特别优化了对首帧图像的处理,使其既能单独编码静态图像又能无缝应用于视频编码,进而助力扩散模型精准捕捉视频的空间细节,提升视觉品质。

打开网易新闻 查看更多图片

Open-Sora-Plan 在训练过程中采取了创新的 CausalConv3D 设计,将 2D 卷积转换为适用于图像和视频数据的同时训练,并针对首帧采用了独特的尾部初始化策略,这一策略使得模型无需预先训练就能直接对图像和视频进行高质量重建,相较于常见的平均初始化和中心初始化方法,尾部初始化在实际损失曲线表现上更优,避免了长时间训练中的误差累积和潜在崩溃风险。

国产开源Sora:Open-Sora-Plan支持华为昇腾芯片,生成10秒高清视频

为了应对 CausalVideoVAE 在较高分辨率和较长视频推理上的内存瓶颈问题,团队巧妙采用瓦片卷积技术,实现了在固定内存消耗下对任意长度和分辨率视频的推理处理。在数据集构建方面,Open-Sora-Plan 团队精心收集了约 40,000 个来自多个开源网站的无水印高品质视频资源,建立了遵循严格标准的数据集,专注于去除无关水印,并细分出约 434,000 个独立视频片段。

国产开源Sora:Open-Sora-Plan支持华为昇腾芯片,生成10秒高清视频

针对高质量字幕需求,团队通过比较 ShareGPT4V-Captioner-7B 和 LLaVA-1.6-34B 两款多模态大模型的性能,证实两者在生成高标准字幕方面的效果相近,但推理速度有所不同。同时,项目发起人之一,北京大学信息工程学院助理教授袁粒博士透露,团队正积极与华为等国产算力厂商深入合作,探索如何更好地运用国产芯片加速模型训练,并提倡国内企业积极参与开源项目适配工作,共建基于国产算力环境的开源生态系统。

Open-Sora-Plan 的社区贡献者

截止至 4 月 8 日,Open-Sora-Plan 社区反响热烈,已在 GitHub 上收获了 6.7k 的星标认可。随着华为等企业的大力支持和技术配合,Open-Sora-Plan 不仅在硬件层面支持华为升腾 910b AI 芯片,而且在 Hugging Face 平台上提供了在线演示,展示了其在视频生成领域的重大突破。展望未来,Open-Sora-Plan 将继续迭代升级 CausalVideoVAE 模型以解决动态模糊和网格效应等问题,并致力于开发新型视频字幕生成技术,以及构建更高清、更多元化的开源视频数据集 Open-Sora-Dataset。

开源精神在 Open-Sora-Plan 项目中体现得淋漓尽致,袁粒博士强调:“我们的目标并非简单复制 Sora 或急于赶超 OpenAI,而是把开源事业本身当作核心价值追求。通过开源共享,让更多人在此基础上共同推动技术进步。”正如 Linux 之父 Linus Torvalds 所言,开源如今已成为业界公认的标准,而 Open-Sora-Plan 正是在这一理念下点燃的开源火焰,生生不息,不断向前。

GitHub 链接:

https://github.com/PKU-YuanGroup/Open-Sora-Plan

Hugging Face 在线演示:

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0

扫码邀请进群,一起分享、学习AI工具,顺便学一些AI搞钱技能。