【眼观】Sora一夜刷屏，文生视频大模型何以如此炸裂？

继ChatGPT之后，Open AI旗下的Sora或再次颠覆行业

最近，关于Open AI的消息更多是关于其涉足AI芯片制造的讨论，却不曾想山姆·奥特曼（Sam Altman）又悄无声息地放了一个“大招”——几天前，Open AI发布了名为“Sora”的文生视频大模型，成为继Gen-2（Runway）、Pika、Stable Video、Emu Video（Meta）、Lumiere（谷歌）等之后，文生视频领域的又一重磅玩家。从目前Sora的演示视频效果来看，其在视频延续性、视觉逼真性及连贯性等方面的出色表现，无疑让一众竞品相形见绌。

前阵子，笔者分享过谷歌的VideoPoet大模型，当时其多元化的通用能力和出众的表现力，便较之前的同类大模型进步明显；彼时，谷歌这款AI大模型大有盖过Open AI风头的趋势，没想到这次Open AI“反将一军”，瞬间又回归了行业“顶流”，并引发科技圈的不小震动。

也几乎在一夜之间，全行业都在讨论Sora是何来路，其效果如何如何炸裂等。连马斯克、周鸿祎等大佬都忍不住下场发声。

马斯克表示，人类已完败（gg humans）；周鸿祎则表示，Sora的诞生意味着AGI（通用人工智能）实现可能从10年缩短至一两年。

这种全球围观的情形，丝毫不亚于当年AlphaGo的横空出世以及ChatGPT的一鸣惊人，所不同的是，这次人类所受到震惊和威胁似乎更大一些。

类似下面这些视频片段，如果不提前说明，你很难想象AI已经进化到如此自然、细腻且逼真的程度了。

图一：夜景下的城市街头模特

图二：浪漫东京的街头漫步

图三：中国龙年舞龙视频

图四：东京郊区火车窗外的倒影

图五：美丽的黄金海岸

在动画领域，Sora也手到擒来，仅通过自然学习，便可以短时间内完成类似动画电影《怪兽公司》的毛发质感。

要知道，为了呈现《怪兽公司》当中极其复杂的毛发质感，创意团队付出了大量时间和人力成本。可AI仅用几分钟便完成了效果“秒杀”，多少有些让人细思恐极。

Sora的最突出优势在于生成视频的时间超长性、镜头的连贯性以及角色（或建筑）在镜头多角度运动下的一致性。以往的图生视频或文生视频，最多只能持续几秒钟，并且镜头的连贯性和人物的运动性往往也存在瑕疵。

而Sora不仅能支持最长达60秒的视频生成，并且其自然和逼真程度，也几乎到了以假乱真的地步。因此，不少人惊呼：视频从业人员恐将迎来集体失业的黑暗时刻！

据悉，Sora使用了世界模型，即能够理解和模型现实世界的模型，这无疑有AGI的味道了。

得益于ChatGPT的革新优势，人们丝毫不怀疑Open AI能够开启并引领一个崭新的时代。但这里有一个前提，即Open AI的优势更多基于文字这种单模态的输入与输出，对于其能否在图文、视频等多模态领域同样表现出众，其实要打一个问号；尤其是谷歌、Meta等纷纷入局多模态，且向外界展示了各自的阶段性成果之后，Open AI的“静悄悄”，反而让人替奥特曼捏一把汗。

但借助本次Sora的演示，我们恐怕要改变之前的看法了。

作为生成式人工智能领域的先行者和首屈一指的大玩家，Open AI并未满足于ChatGPT的持续惊艳，而是悄然在文生视频领域下了重注，这不免让我们看到了“AI时代，赢家通吃”的可怕。而在各大小玩家纷纷杀入文生视频赛道的当下，对于Open AI在多模态领域的建树，我们同样多了几分期待。

随着文生视频或图生视频行业的发展，不少专家、学者预言：全部由AI大模型生成的90分钟以上的AI大电影或将很快诞生。而Sora大模型的出现，无疑将加速这一进程。

当然，Sora的强大不仅体现在对电影制作效率的极大提升，以及新电影风格的开创，更可能给诸多行业带来颠覆性的变化。

比如广告行业，视频演示和提案，将在很大程度上取代传统的PPT汇报或图片展示，演示变得更生动，也更具说服力，同时传统的广告视频制作模式将被彻底颠覆，百万甚至千万级预算和数十人的团队，将变为几万甚至几千预算，外加一个导演和一个AI大模型；

比如教学方面，AI视频无疑将成为辅助教学的常用工具之一，教师的生产力和教学效果将得到极大提升；

再比如短视频领域，大量创意型的视频内容会被批量化生产出来，自媒体视频创作将变得更加容易。

当然，这同时也会带来一些负面影响，比如假视频更加难以甄别，虚假旅游、虚假体验等，可能也会在一定程度上，重创现有的创作者生态。

不过，先不必过于恐慌，因为目前1.0版本的Sora并不完美，一些明显的瑕疵和不自然，还是能够轻易捕捉到。比如下面这些视频片段，仔细观察，你便能发现其中的不合理之处（吹不灭的蜡烛、悬浮的椅子、穿帮的篮球、由少变多的狗狗等等）。

但是，面对不完美的Sora，我们也不可大意。就像当初大家对AI画不好人手的嘲讽一样，随着技术的进步，这些明显违反常识的错误会得到逐步修正，而技术的迭代速度往往要比想象中来得更快。到那时，我们恐怕再也笑不出来了。

同谷歌的Lumiere、VideoPoet类似，目前Sora尚未开源，相关技术报告也刚刚发布，普通消费者想要体验，还需要等待时日。不过，相信这个时间不会太久。

结语：

继AI文字对话、文生图之后，文生视频成为生成式AI的下一个战场。而随着Open AI的参赛，文生视频赛道或迎来新的发展契机。

从更长远的角度看，文生视频或成为未来行业竞争的主流。参考如今视频成为继文字、图片之后的主流信息载体和信息传播方式，文生视频或迎来属于AGI的“iPhone时刻”。

当然，机会不是属于所有人，产业重构之下，有人得利，也必然有人出局。

“大模型全行业通吃”已逐渐成为趋势共识之下，Open AI最终会不会成为那个全球科技领域的唯一霸主，谷歌、Meta们有没有机会将Open AI挑落马下，我们不妨持续关注。

【眼观】Sora一夜刷屏，文生视频大模型何以如此炸裂？

结语：

周鸿祎新选的车定了，是它

智谱AI正研发对标Sora的国产文生视频模型，最快年内发布

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！

贾跃亭还不死心？FF欲回归中国市场

周鸿祎直播现场发飙啦！周围人惊慌失措！周鸿祎本人事后回应！

五菱副总经理建议哪吒汽车不要改名：没有成功先例

“离谱的AI扩图”火了！张张那叫一个出其不意

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

特斯拉和问界事故只差一天，为何捂8天？我是乖宝宝，等大人发话

一哄而上，打不赢美国高科技

外国网红在日本游玩意外拍到小偷3秒行窃现场，日网友破防：不是日本人！

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

马斯克：如没有贸易壁垒，中国技术将征服全球

曝特斯拉FSD全面落地暂未被批准仅允许测试、作示范

「超凶大福妹」正面大破防！竟是广末凉子…43岁状态打趴年轻妹子

官方通报"僧人开宾利载女人":车主不熟悉路请代为驾车

程晓玥夫妇结束假期回到上海，准备接女儿回家，称呼老公为王子

老款相机不会选？看看这几款，性价比拉满！

【眼观】Sora一夜刷屏，文生视频大模型何以如此炸裂？

结语：

周鸿祎新选的车定了，是它

智谱AI正研发对标Sora的国产文生视频模型，最快年内发布

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

特斯拉机器人进厂打工，马斯克：手的自由度今年将达到22个！

贾跃亭还不死心？FF欲回归中国市场

周鸿祎直播现场发飙啦！ 周围人惊慌失措！周鸿祎本人事后回应！

五菱副总经理建议哪吒汽车不要改名：没有成功先例

“离谱的AI扩图”火了！张张那叫一个出其不意

火爆全网的Kimi+首测：用23个分身智能体解决场景化需求

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

特斯拉和问界事故只差一天，为何捂8天？我是乖宝宝，等大人发话

一哄而上，打不赢美国高科技

外国网红在日本游玩意外拍到小偷3秒行窃现场，日网友破防：不是日本人！

Mac专属大模型框架来了！两行代码部署，能聊本地数据，支持中文

马斯克：如没有贸易壁垒，中国技术将征服全球

曝特斯拉FSD全面落地暂未被批准 仅允许测试、作示范

「超凶大福妹」正面大破防！竟是广末凉子…43岁状态打趴年轻妹子

官方通报"僧人开宾利载女人":车主不熟悉路请代为驾车

程晓玥夫妇结束假期回到上海，准备接女儿回家，称呼老公为王子

老款相机不会选？看看这几款，性价比拉满！

周鸿祎直播现场发飙啦！周围人惊慌失措！周鸿祎本人事后回应！

曝特斯拉FSD全面落地暂未被批准仅允许测试、作示范