国产开源Sora：Open-Sora-Plan支持华为昇腾芯片，生成10秒高清视频

‍自从今年 2 月 OpenAI 发布了基于日语词汇“Sora”所开发的惊艳视频生成技术以来，该技术以其能够将简短文本描述转化为高清一分钟视频而引起了全球技术界的广泛关注。北京大学及兔展智能携手于三月启动了开源项目 Open-Sora-Plan，旨在通过开源方式再现 Sora 技术，并训练涵盖无条件视频生成、类似视频生成以及文本驱动视频生成等多个技术模块的综合模型。

打开网易新闻查看更多视频

国产开源Sora：Open-Sora-Plan支持华为昇腾芯片，生成10秒高清视频

日前，Open-Sora-Plan 已成功发布了 v1.0.0 版本，显著提升了视频生成效果和文本引导控制功能，目前还在训练更高分辨率（超过 1024）和更长持续时间（超过 10 秒）的视频内容。项目核心技术架构包括 Video VQ-VAE、Denoising Diffusion Transformer 以及 Condition Encoder，其中 CausalVideoVAE 架构尤为关键，它结合了变分自编码器（VAE）和矢量量化（VQ）原理，有效实现视频数据的高效压缩和重建，并且特别优化了对首帧图像的处理，使其既能单独编码静态图像又能无缝应用于视频编码，进而助力扩散模型精准捕捉视频的空间细节，提升视觉品质。

Open-Sora-Plan 在训练过程中采取了创新的 CausalConv3D 设计，将 2D 卷积转换为适用于图像和视频数据的同时训练，并针对首帧采用了独特的尾部初始化策略，这一策略使得模型无需预先训练就能直接对图像和视频进行高质量重建，相较于常见的平均初始化和中心初始化方法，尾部初始化在实际损失曲线表现上更优，避免了长时间训练中的误差累积和潜在崩溃风险。

国产开源Sora：Open-Sora-Plan支持华为昇腾芯片，生成10秒高清视频

为了应对 CausalVideoVAE 在较高分辨率和较长视频推理上的内存瓶颈问题，团队巧妙采用瓦片卷积技术，实现了在固定内存消耗下对任意长度和分辨率视频的推理处理。在数据集构建方面，Open-Sora-Plan 团队精心收集了约 40,000 个来自多个开源网站的无水印高品质视频资源，建立了遵循严格标准的数据集，专注于去除无关水印，并细分出约 434,000 个独立视频片段。

国产开源Sora：Open-Sora-Plan支持华为昇腾芯片，生成10秒高清视频

针对高质量字幕需求，团队通过比较 ShareGPT4V-Captioner-7B 和 LLaVA-1.6-34B 两款多模态大模型的性能，证实两者在生成高标准字幕方面的效果相近，但推理速度有所不同。同时，项目发起人之一，北京大学信息工程学院助理教授袁粒博士透露，团队正积极与华为等国产算力厂商深入合作，探索如何更好地运用国产芯片加速模型训练，并提倡国内企业积极参与开源项目适配工作，共建基于国产算力环境的开源生态系统。

Open-Sora-Plan 的社区贡献者

截止至 4 月 8 日，Open-Sora-Plan 社区反响热烈，已在 GitHub 上收获了 6.7k 的星标认可。随着华为等企业的大力支持和技术配合，Open-Sora-Plan 不仅在硬件层面支持华为升腾 910b AI 芯片，而且在 Hugging Face 平台上提供了在线演示，展示了其在视频生成领域的重大突破。展望未来，Open-Sora-Plan 将继续迭代升级 CausalVideoVAE 模型以解决动态模糊和网格效应等问题，并致力于开发新型视频字幕生成技术，以及构建更高清、更多元化的开源视频数据集 Open-Sora-Dataset。

开源精神在 Open-Sora-Plan 项目中体现得淋漓尽致，袁粒博士强调：“我们的目标并非简单复制 Sora 或急于赶超 OpenAI，而是把开源事业本身当作核心价值追求。通过开源共享，让更多人在此基础上共同推动技术进步。”正如 Linux 之父 Linus Torvalds 所言，开源如今已成为业界公认的标准，而 Open-Sora-Plan 正是在这一理念下点燃的开源火焰，生生不息，不断向前。

GitHub 链接：

https://github.com/PKU-YuanGroup/Open-Sora-Plan

Hugging Face 在线演示：

https://huggingface.co/spaces/LanguageBind/Open-Sora-Plan-v1.0.0

扫码邀请进群，一起分享、学习AI工具，顺便学一些AI搞钱技能。

国产开源Sora：Open-Sora-Plan支持华为昇腾芯片，生成10秒高清视频

神仙来了虎扑，也得先排个名

巨头雄霸天下，微软、谷歌、Meta、亚马逊能一直无敌吗？

真诚地给华为道个歉

“数字后福特主义”: 中国互联网平台的唯一明路?｜文化纵横

没人讨厌华为的ADS2.0，他们是讨厌余承东无底线的“遥遥领先”！

人人反感宗教车！特斯拉车祸让人看透：华为错在低估了网友认知

只用苹果手机？华为前高颜值HR直播引争议，本人回应

牛弹琴：中国人还在过节世界有2个好消息和2个坏消息

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

这个扭秧歌的华人大叔，干了家10万亿公司

一哄而上，打不赢美国高科技

造车新势力最新排名，华为明显在“作弊”，小米上榜

失望了吧！比亚迪4月卖31万辆车！华为发力问界最新订单2700台！

俄罗斯政府暂时禁止食糖出口

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

“很快英伟达的垄断将被打破”

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

“农业税”即将重新登场？废除至今已有15年，为啥如今再次出现？

拜登向杨紫琼授予"总统自由勋章" 还把她名字说错了

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

国产开源Sora：Open-Sora-Plan支持华为昇腾芯片，生成10秒高清视频

神仙来了虎扑，也得先排个名

巨头雄霸天下，微软、谷歌、Meta、亚马逊能一直无敌吗？

真诚地给华为道个歉

“数字后福特主义”: 中国互联网平台的唯一明路?｜文化纵横

没人讨厌华为的ADS2.0，他们是讨厌余承东无底线的“遥遥领先”！

人人反感宗教车！特斯拉车祸让人看透：华为错在低估了网友认知

只用苹果手机？华为前高颜值HR直播引争议，本人回应

牛弹琴：中国人还在过节 世界有2个好消息和2个坏消息

20%的杨幂+80%的泰勒长什么样？全新风格化AI来了，可兼容SD

这个扭秧歌的华人大叔，干了家10万亿公司

一哄而上，打不赢美国高科技

造车新势力最新排名，华为明显在“作弊”，小米上榜

失望了吧！比亚迪4月卖31万辆车！华为发力问界最新订单2700台！

俄罗斯政府暂时禁止食糖出口

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

“很快英伟达的垄断将被打破”

再也不怕合照缺人，Anydoor为图片编辑开了一道「任意门」

“农业税”即将重新登场？废除至今已有15年，为啥如今再次出现？

拜登向杨紫琼授予"总统自由勋章" 还把她名字说错了

曾经卖7000元的顶配商务本，现在成了闲鱼上最火的洋垃圾

牛弹琴：中国人还在过节世界有2个好消息和2个坏消息