Sora颠覆视频生产行业？美国AI专家：未必

打出一行文字，上面写着“一个华丽的珊瑚礁纸艺世界，充满了色彩缤纷的鱼类和海洋生物”。随后，一个长达20秒的视频由此生成，镜头从巨大的纸质珊瑚礁开始，依次转向鱼群、海龟和海马，在结尾处还可以看到纸质海马的尾部在微微晃动。

该技术平台被称为“Sora”。推出ChatGPT一年多后，美国人工智能公司“开放人工智能研究中心”（OpenAI）宣告将推出视频生成模型Sora 。根据OpenAI的介绍，Sora可以根据文本指令制作长达60秒的视频，其中包括“详细的场景、复杂的镜头运动和多个充满活力的角色”。

这是OpenAI首次进军人工智能视频生成领域，Sora还没有正式对外发布，只是在社交媒体上发布了数个视频作品作为预告。预告视频得到了众多夸赞评论，但也不乏质疑担忧之声。有人担心今后难以辨别视频真假，也有人担心随着技术的快速发展，自己的工作将会被人工智能取代。

近日，新京报记者对话美国密歇根州立大学丹佛分校计算机科学系主任史蒂夫·比蒂（Steve Beaty），比蒂在计算机网络理论和实践领域都有广泛的背景。谈及Sora的诞生，比蒂认为，Sora增加了图像的真实感，可以在场景之间平滑过渡，是一个非常引人注目的产品。

针对外界对人工智能技术将进一步模糊真假界限，甚至造成深度伪造的担忧，比蒂指出，这就像打开一个“潘多拉盒子”，得到了人工智能技术，其他潜在风险也随之出现。面对一个难辨真假的世界，公众不应轻易对网络信息作出判断，须依赖常识找到多个信源。另外，问题的根源中也有解决问题的方法，人们也可以利用人工智能来检测信息是否由人工智能生成。

打开网易新闻查看更多视频

Sora颠覆视频生产行业？美国AI专家：未必

对话美国密歇根州立大学丹佛分校计算机科学系主任史蒂夫·比蒂（Steve Beaty）。地球连线出品

“Sora或不会对视频生产行业产生太大影响”

新京报：人工智能公司OpenAI公布了一种新的人工智能系统Sora，该系统可以根据用户 的文本提示创建高质量逼真的视频。Sora并不是首个类似产品，谷歌、Meta等公司都有类似技术。与它们相比，Sora突出的特点有哪些？

比蒂： Sora明显提高了（生成视频内容的）标准，增加了保真度，提高了像素。OpenAI还有其他产品，例如DALL-E3，但这仍针对的是图片。Sora增加了图像的真实感，在场景之间平滑过渡，这些都在Sora中得到了实现。我们在研究之后会发现，Sora是个非常引人注目的产品。

2月20日，新京报记者对话美国密歇根州立大学丹佛分校计算机科学系主任史蒂夫·比蒂（Steve Beaty）。图/地球连线截图

新京报：Sora目前还没有对公众开放，但已有观察人士认为Sora可能代表人工智能的重大进步。你如何看待Sora给视频生产行业带来的机遇和挑战？

比蒂： 最明显的一点是，现在可以创作出在10年、20年前不可能完成的电影。我们可以对想要的电影画面进行描述，然后Sora可以帮助呈现。我虽然不是视频生产行业的专家，然而我想强调的是，许多观众主要关注的都是故事情节，而我不认为Sora背后的技术将会对故事情节产生多大影响。

我们确实看到了这项技术基于故事情节对图像创作能力的影响，但绝大多数引人注目的图片、电影以及视频都是基于某个人撰写的故事情节，我们相信这些情节并与之共情，让自己沉浸其中。

我不认为自己能写出一个足以转换成视频的好故事。如果其他有创造力的人，撰写了这些引人入胜的故事，并通过Sora或其他技术表达出来，也许这是件好事，即便没有数百万美元身家，他们也有能力创造性地表达自己。

例如当我们观看电影的时候，重点永远是故事情节而不是特效。现在我们可以把视频做成任何我们想要的样子，行业里也早就有了绿幕以及其他背景特效，但如果这不是一个好故事，那么没人会在意其余这些。

“人工智能技术几乎不可能不被滥用”

新京报：正如你所说，世界越来越担心深度伪造可能产生的影响。世界经济论坛发布的《2024年全球风险报告》将人工智能产生的错误信息和虚假信息列为2024年世界面临的最重大风险之一。你如何看待人工智能技术将网络上本就模糊的真假界限变得愈发难以分辨？

比蒂： 从区分信息、虚假信息和错误信息的角度来看，这是一个非常重大的问题。例如，现在Sora已经将技术公布给所谓的“红队”（由“错误信息、仇恨内容和偏见等领域的专家”对模型进行对抗性测试以评估危害或风险），接下来“红队”要想办法评估：如何破解它？它的缺点是什么？怎样能让视频看起来非常真实？Sora也表示他们会用类似水印的工具来标记由他们制作生成的视频，用户可以借此辨别这个特定的视频不是真的，但并不是所有公司都会在产品上打上水印。

在美国还有拿公众人物取笑的文化历史，深度伪造也成了取笑他们的一种新方式。网络上有许多不同的软件，任何人都可以去一个类似网站，创造属于他们的深度伪造的音频及视频。

有鉴于这种情况，也展开了相应立法行动。我所在的科罗拉多州正在推进关于候选人选举深度伪造的法案，其中包括如果分发含有与选举职位候选人有关的深度伪造信息的通信，可以实施民事处罚。我们需要确保选举是自由和公平的，从中找到界限，不能让那些不是候选人的人假装他们是候选人，或者让人们伪造候选人说他们从未说过的话，这真的非常重要。

OpenAI将发布人工智能文生视频模型“Sora”。图/IC photo

新京报：即便人工智能公司将软件公开给“红队”，试图打造工具监测虚假内容，这可能做到让技术完全不被滥用吗？

比蒂： 几乎不可能。我们称之为“潘多拉的盒子”，打开盒子后，我们拥有了视频生成等系列技术，我们不可能回到过去了。打开人工智能这个盒子后，可能有公司选择不遵循这些道德和伦理标准，这是我们必须接受并融入生活的事情之一——你不能简单相信你所看到的，不能轻易相信单一信源消息。

新京报：作为普通人，我们应该如何应对人工智能产品可能带来的风险？

比蒂： 简而言之，我们现在很难知道该相信什么。比方说，10年前我们就已经不相信照片了，但我们相信视频，因为它是移动的，这类内容很难伪造。现在我们不仅不相信照片，也不相信视频，任何人都可以伪造它们。

如何判断事实真相，这个问题在两三千年前就已经被提出，古人与我们在同样的问题上挣扎，这并不是什么新问题。虽然对于社会上的很多人来说，新科技让人们更难以识别虚假信息，这并不是说完全不可能识别出它是虚假信息。

我们仍需要依赖常识，例如询问自己这个人应该给我打电话吗？这是普通人会在视频中发表的言论吗?此外，对于网络上的信息，我们需要找到多个信源，去找那些花时间审查消息内容的信源。如果只是一个消息来源，一个社交媒体网站，无论是哪一家，他们都无法审查上传到其网站上的所有信息，并确保所有信息都是正确的。

面对海量信息，我们也需要慢下来，等待一两天的时间，看看事情是如何发展的。另外有一个很有趣的地方在于，问题的根源中也有解决问题的方法，有许多网站可以使用人工智能来确定一个特定的视频、音频以及照片是否由人工智能合成。

“目前人工智能监管工作只触及了表面”

新京报：由于潜在风险的存在，人工智能监管工作也提上了日程。2023年召开了首届人工智能安全峰会，欧盟通过了全球首部人工智能法。你如何评价目前全球对于人工智能使用的监管水平？接下来还需要做哪些工作？

比蒂： 在人工智能监管方面的工作，我们只触及了表面。根据我的经验，技术总是领先于监管。任何一种技术，包括电视、电话甚至医疗技术，都是技术先行，随后监管才跟上脚步。在人工智能领域，我们也在经历一模一样的事。无论是从国家层面还是州层面，他们都不太知道应该如何监管一种全新的技术。

例如，美国《通信规范法》第230条款中规定服务提供者（脸书、图片墙等）对第三方在平台上发布的内容不负责，他们只是提供这些内容。从现在来看，这是否依然合适？尤其是在（法案颁布）二三十年后，恐怕这些内容不太适用当今语境。我认为如今的监管至少落后了十到二十年。

我参加了科罗拉多州一个立法特别工作组，试图弄清楚深度伪造、面部识别以及其他技术的意义和影响，但我们的确远远落后了，我们所能做的就是尽最大努力制定一套合理的法规，与此同时教育民众，让他们知道这项技术的能力，即便它目前还没有受到全面监管。

这是我们在很大程度上一直讨论的问题，即内容是有意义、合理的吗？我是否可以在美国取笑一个公众人物，答案是肯定的，这种情况经常发生。那么我是否可以在选举季制作一个公众人物视频，让他或她在里面说一些他们本没有说的话，我想答案是否定的。我们有能力做许多我们并不应该做的事情，需要对技术做出有意义的平衡。接下来问题就变成了，我们如何确保任何技术被用于善，而不是恶。

OpenAI官网上介绍Sora的页面。图/IC photo

新京报：许多媒体将过去一年称为“人工智能之年”，也有不少词典的年度词语都与人工智能相关。你会如何形容人工智能在2023年取得的进展？

比蒂： 人工智能已经发展了很长一段时间，从本质上讲，人工智能早在20世纪80年代就开始崭露头角，但受到计算机硬件能力的限制。迈入2020年后，图形处理器等背后的硬件能力终于赶了上来，似乎在突然之间，它开辟了广阔的视野，人类可以将其应用于文字、音频以及制作图像逼真的视频。

2023年以及2024年是这些技术从理论进入实践的年份，从只有学者使用高功率机器才能完成相应技术到几乎任何人只要拥有一部连接网络的电脑，就可以制作各种各样的图像、视频与音频。

另外一种需要注意的情况是，不是特指Sora，类似人工智能技术都可以实现深度伪造。在现在这个阶段，深度伪造已经成为人工智能机器学习中非常重要的一个方面，所有人都可以制造出某一个人的复制图像，让他们完美地说出我们想让他们说的话，这是外界的一个主要担忧。

我正在科罗拉多州立法委员会研究深度伪造，尤其是它们出现在选举周期时意味着什么，这种特殊的技术肯定会对此产生影响。我还想提示的一点是，这并不是什么特别新鲜的事，多年来我们一直有修改图片的技术，还有其他方式可以在选举中向公众发布错误信息。

新京报：谈到人工智能，一个总会被提及的问题是，人工智能是否会在未来取代人类的工作。长期而言，你如何看待人类与人工智能之间的关系？

比蒂： 我相信电脑有一天会变得像人一样聪明，而且它们还没有任何物理形式上的限制。我们所讨论的这个机器拥有的晶体管数量大约相当于人类的神经元数量，它为什么不能变得更聪明呢？它没有任何物理限制，只有编程限制。在我看来，在不久的将来，电脑当然会变得更加聪明、智能。而这意味着什么？是否意味着它们将取代一些工作？答案是当然的。它们将从事一些不需要更高水平人类创造力的工作，这是毫无疑问的，这可能也是一件好事。

也就是说，它很可能把人类从目前的工作中解放出来，去做重要的工作。我不认为将人类的创造力释放到以前从未涉足的领域有何负面影响。假设有人有一个很棒的剧本，他可以和Sora交流，创造一部电影，让我们所有人都从中受益，这没什么不好的地方。

当然，那些工作可能受到人工智能威胁的人，其中也包括我自己，我们进一步熟悉和利用人工智能是非常重要的。我同样会在课上鼓励人们在作业和论文中使用人工智能，需要强调的是，他们须标注引用来源，包括使用ChatGPT等技术的内容，做到学术严谨。

记者 | 栾若曦刘婧瑜

编辑 | 张磊

往期 • 精选

冯德莱恩寻求连任欧盟委员会主席，仍面临挑战

以色列占领巴勒斯坦领土是否非法？52国在国际法院展开历史性辩论

Sora颠覆视频生产行业？美国AI专家：未必

纯太阳能电车何时能实现，马斯克怎么看？

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

大疆前高管带6人创业，做出了类目Top1的割草机器人

技术吹得再强，离用户不近有何用？

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

AI时代，谁还没用AI智能硬件提升工作效率？

国产机器人也会空翻了！打破限制，世界首款！

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

被AI量产的短视频营销号气疯了，于是，我也做了一个

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

媒体：为最终"肢解"俄罗斯美国与北约正在"三管齐下"

帅化民：为了阻止中国理工生赴美，美国讲了很难听的话！

兰萱：真是巧合的话，美国的情报太好了！

雷倩：只要看到美国打压那里，说明中国变强了！

埃及开火了！以色列完全众叛亲离

美国抛弃菲律宾，马科斯突然认输，菲律宾高等法院向中方赔礼道歉

介文汲：看了菲律宾公布的影片，简直被暴打，太惨了！

Sora颠覆视频生产行业？美国AI专家：未必

纯太阳能电车何时能实现，马斯克怎么看？

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

大疆前高管带6人创业，做出了类目Top1的割草机器人

技术吹得再强，离用户不近有何用？

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

AI时代，谁还没用AI智能硬件提升工作效率？

国产机器人也会空翻了！打破限制，世界首款！

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

被AI量产的短视频营销号气疯了，于是，我也做了一个

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

这个机器人的手真的太灵活了！ 收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。 这是星动纪

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

媒体：为最终"肢解"俄罗斯 美国与北约正在"三管齐下"

帅化民：为了阻止中国理工生赴美，美国讲了很难听的话！

兰萱：真是巧合的话，美国的情报太好了！

雷倩：只要看到美国打压那里，说明中国变强了！

埃及开火了！以色列完全众叛亲离

美国抛弃菲律宾，马科斯突然认输，菲律宾高等法院向中方赔礼道歉

介文汲：看了菲律宾公布的影片，简直被暴打，太惨了！

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

媒体：为最终"肢解"俄罗斯美国与北约正在"三管齐下"