文生视频模型Sora刷屏：高度理解视频中的语义成为至胜关键

OpenAI文生视频模型Sora的横空出世，即刻引起业内广泛的关注和讨论。A股AI板块各股掀起了涨停潮，AIGC概念、Web3.0等板块涨幅居前。Sora相关新闻快速登上了新闻头条，央视也针对Sora进行了报道。

01 Sora的创新表现

继文本、图像之后，OpenAI在视频领域进行了又一技术拓展。其推出的全新人工智能模型Sora通过文本指令，即可直接输出长达60秒的视频内容，背景逼真，细节还原，转场细致，角度惊艳，画面逼真到难以区分虚拟还是现实。

同样的提示词，与放在其他视频生成模型中并将输出画面进行详细的对比，无论是色彩饱和度、镜头运动轨迹、细节真实度还是文本语义还原等多个方面，Sora可谓完胜。

以下是通过Sora生成中国舞龙的视频，同样与别家大模型进行了细致的对比，各个方面Sora的效果堪称完美。同样，Sora模拟的绘画动作、生成的倒映真实感、在零拍摄情况下剪辑的赛博朋克画面等效果超常。

这些高难度视频展示了Sora在模拟物理世界中的人、动物和环境等多个方面的有趣能力。目前OpenAI官网上已经更新了数十个视频demo，Sora可以根据任意提示、静止图像等完成缺失帧的视频生成。

02 Sora的技术原理

在发布Sora这一新技术的同时，OpenAI也将其详细的技术报告一并发布。转场连贯性、拓展生成视频、模拟物理世界运动等等这样一系列超强技术功能，究竟是通过怎样的原理实现的呢？

类似于LLM中token的概念，即将文本的多种模态统一起来的训练能力，是Sora很大的灵感来源。OpenAI将视频压缩到低维潜在空间中（Video Compression Network），然后将其分解为spacetime patches，即模型从中学习视频的内容和结构，并处理各种视频任务，使得长度更长、分辨率不同、长宽比不等的图像或视频都能输出更好连续性表现能力的视频内容。

同样结合ChatGPT的Transformer架构在各个领域表现的卓越缩放特性，Sora实质也是一个扩散Transformer。通过给定的“noisy”patches或者问题提示等，被训练预测原始的“clean”patches。通过这样的方式，模型能够从文本或者图像视频出发，逐渐推理并生成新的视频内容。

Sora是怎样完成语义理解的呢？OpenAI将DALL·E 3中的re-captioning技术应用于视频。具体来说，就是先要训练一个高度描述性的字幕生成器模型，然后使用它为训练集中的视频制作文本字幕。OpenAI表示，通过这样的视频字幕生成方式进行训练，可以有效提高文本的保真度及视频的整体质量。

纵览这份技术报告，Sora更像是一款OpenAI的技术集合模型，使用了很多ChatGPT、DALL·E 3以及之前研究积累的技术经验，各方合力促成了Sora如此强大的视频技术能力。

03 文生视频模型背后的数据

大量的高质量视频训练数据集是让输入的文字和生成的内容更加匹配的关键。Sora模型的语义理解和物理属性学习的能力都是通过深度学习和大规模的训练数据结合而来的。也就是说，准确、生动的视频内容，建立于高度理解这些视频数据中所涵盖的场景、情境、运动规律、人类活动特征等语义内容。

通过Sora技术原理可以发现，高质量、大规模、描述精细且充分的视频描述数据成为了模型学习至关重要的一环。数据堂自有大规模、高质量人体行为&通用场景视频描述成品数据集近百万段，内容涵盖广泛，以下例举数据堂近期上线的视频文本描述数据集！

10万组人体行为视频描述数据

数据规模为10万段视频及文本描述，涵盖不同年龄段、不同光照、不同采集环境、不同季节服饰、多人种以及多种人体行为等多样性采集内容。文本描述囊括性别、年龄、衣着、行为描述、多种肢体动作等多个层面，正确标注的图像占比不低于97%。针对视频内容，采取简述和详细说明两种标注方式，在完成视频整体内容的简单描述后，针对视频中内容变化部分进行时间起始标定，并分别描述每段时间范围内的子视频详细内容。准确率不低于98%。

10万组通用场景视频描述数据

数据包含风景、动物、人体运动等多种视频内容，视频采集场景包括室内、室外场景，视频描述语言包含中文、英文等。文本描述客观准确，无敏感内容、无语法、单词拼写错误等问题。

尽管Sora在视频生成领域产生了突破性的进展，然而面对空间感知能力等方面，仍呈现不足。但国内已有应用针对逻辑关系理解不足等问题进行着重训练。

在近期数据堂所处理的文生视频数据需求中，客户希望我们在短时间内完成5亿对视频文本描述数据，内容要求涵盖主体数量、主体各表向因素以及主体情绪、姿态、方位、场景等重要逻辑关系文本描述内容。为研发人像类领域文生视频模型提供高质量的数据支持。

04 结语

Sora的出现，让我们再一次领略了人工智能带来的无限可能。其在视频领域展现出了巨大的应用潜力。AI技术的进步将推动着各个行业向着更高端、更创新的方向快速发展。

文生视频模型Sora刷屏：高度理解视频中的语义成为至胜关键

崩盘!快船惨败2-3独行侠哈登12中2乔治13中4东契奇35+10

后续！周鸿祎和二手车商聊天内容曝光，火药味十足，周鸿祎很硬气

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

美众议院通过法案打击大学校园的反犹太主义行为

碾压局！绿军4-1淘汰热火晋级布朗25+6怀特25分

990万拍下周鸿祎迈巴赫当事人：已完成支付

恨官、仇富、仇体制，背后真实目的是放大社会矛盾，制造社会分裂

五一假期首日，多地领导以“四不两直”方式检查城市安全

福建舰冒烟明显，看来是烧油的和核动力无关

大妈在火车上跳舞直播旁边有男子拿手机拍摄

87岁王德民被称"最帅院士"爆红网络高考曾接近满分

山西恒山景区落石砸伤游客，景区称落石已清理，正有序组织游客下山

万亿城市常住人口变局：去年六城增加逾十万，合肥增量第一

特斯拉据悉退出下一代“一体化压铸”制造工艺

广东两“70后”省委常委，进京履新

博主苏州旅游遇“辣条刺客”85元一斤？官方通报

5月2日下午上海南京路步行街依然人山人海

90后烧饼哥回应“投入3800元赚百万”争议：质疑合理，但我也有很多煎熬时刻

这是今天的灵隐景区早上五点半就排长队根本挤不进去

美国哈马斯支持者高呼：哈马斯不是恐怖分子，是自由抵抗的战士

文生视频模型Sora刷屏：高度理解视频中的语义成为至胜关键

崩盘!快船惨败2-3独行侠 哈登12中2乔治13中4东契奇35+10

后续！周鸿祎和二手车商聊天内容曝光，火药味十足，周鸿祎很硬气

说好得的三次3800，结果做了一次不退钱想开溜，小伙不愿意了

美众议院通过法案 打击大学校园的反犹太主义行为

碾压局！绿军4-1淘汰热火晋级 布朗25+6怀特25分

990万拍下周鸿祎迈巴赫当事人：已完成支付

恨官、仇富、仇体制，背后真实目的是放大社会矛盾，制造社会分裂

五一假期首日，多地领导以“四不两直”方式检查城市安全

福建舰冒烟明显，看来是烧油的和核动力无关

大妈在火车上跳舞直播 旁边有男子拿手机拍摄

87岁王德民被称"最帅院士"爆红网络 高考曾接近满分

山西恒山景区落石砸伤游客，景区称落石已清理，正有序组织游客下山

万亿城市常住人口变局：去年六城增加逾十万，合肥增量第一

特斯拉据悉退出下一代“一体化压铸”制造工艺

广东两“70后”省委常委，进京履新

博主苏州旅游遇“辣条刺客”85元一斤？官方通报

5月2日下午上海南京路步行街 依然人山人海

90后烧饼哥回应“投入3800元赚百万”争议：质疑合理，但我也有很多煎熬时刻

这是今天的灵隐景区 早上五点半就排长队根本挤不进去

美国哈马斯支持者高呼：哈马斯不是恐怖分子，是自由抵抗的战士

崩盘!快船惨败2-3独行侠哈登12中2乔治13中4东契奇35+10

美众议院通过法案打击大学校园的反犹太主义行为

碾压局！绿军4-1淘汰热火晋级布朗25+6怀特25分

大妈在火车上跳舞直播旁边有男子拿手机拍摄

87岁王德民被称"最帅院士"爆红网络高考曾接近满分

5月2日下午上海南京路步行街依然人山人海

这是今天的灵隐景区早上五点半就排长队根本挤不进去