◎ 文 《法人》杂志全媒体记者 李辽

一位身穿皮衣的时髦女人走在日本东京雨后的街头,她的身后霓虹闪烁、游人穿梭,地面上的积水映出光怪陆离的城市倒影。跟随她自信的脚步,镜头移动,水中倒影变幻,与繁华的街头交相辉映。切换到脸部特写,女人展露出惬意的笑容,墨镜映照出这座城市的灵动镜像······

打开网易新闻 查看更多图片

▲CFP

这段视频总长60秒,一镜到底,画面主体稳定,人物表情生动,场景逼真,运镜复杂,一经发布便引发热议。因为这并非实景拍摄,而是今年2月,由OpenAI公司推出的文生视频大模型Sora根据文本提示所生成,其以假乱真的程度令人惊叹“眼见不再为实”,也对即将到来全新的AI风险显现出隐隐担忧。

从“一眼假”到“真假难辨”

文生视频是生成式AI的一个重要分支,能够根据用户提供的文字内容和图片自动生成视频。上一个引发网络热议的AI生成视频是2023年年初网友发布的“威尔·史密斯吃意大利面”。该视频画质粗糙,主人公动作机械,面条在快要进嘴时发生严重形变,无端消失后又重新从下巴出现,各种诡异、滑稽而又尴尬的细节提醒着大家,这是一个“AI味十足”的视频。

当时,AI生成视频仅停留在博网友一笑的层面,很难正常使用,更别提为商业赋能。但不到一年时间,Sora发布的几段视频竟足以令人真假难辨。

据悉,这次Sora发布了多个视频。除了时髦女人在东京街头的漫步,还有AI想象中的龙年春节视频,画面中有舞狮团队、抬头观望的儿童、举着手机拍照的路人,近百人在各自的角色中有条不紊地活动。另有一段视频,镜头对准列车窗玻璃,当列车行驶时,窗外不时出现近距离的高楼遮挡物,此时车内人物投射在窗玻璃上的镜像短暂出现,惊鸿一瞥,让人很难看出破绽。

近日,浙江大学光华法学院特聘研究员、硕士生导师周翔在接受《法人》记者采访时称:“此次Sora生成的视频,在保持一致的连续时空内,对合成内容中的最小单元进行了有意义的关联组合,将其拼接成一段有逻辑的动感视频,展现了令人震撼的技术。”

中国科学院大学计算机博士、瑞泊(北京)人工智能科技有限公司联合创始人苟甜也认为,这次Sora生成的视频说明,它可以很好地理解空间与时间的关系,实现了对现实世界的理解和对世界的模拟两层能力。她举例说:“东京街头的视频中,水洼中的倒影跟随镜头移动发生变化,而这个变化符合物理规律,但之前的视频做不到这么精细。另一段视频中,镜头以第一人称视角,跟随滑轨车从高处滑下,呈现出的空间感十分真实,但此前的视频展现出的空间感却显得混乱,可以说是‘一眼假’。”

如今,Sora能生成60秒的视频,已经把以往的模型和其他模型远远甩在身后。毕竟,有很多模型仍在几秒钟的视频连贯性中苦苦挣扎。

趣解生成原理

大模型的训练原理是什么?文生视频Sora的原理又是什么?为什么之前的视频达不到逼真的效果?

苟甜做了一个形象的比喻:“训练大模型如同我们要训练一个人闭着眼睛打麻将。初始阶段,我们让他只接触‘一饼’的牌,通过触感来记忆它的形状和质感。随后引入‘二饼’和‘三饼’,让他通过触摸来区分和记忆每种牌的特点。虽然他看不到牌的具体模样,但通过触感学习能够识别出不同的牌。在学习过程中,他还被告知,当这三种牌结合在一起时,可以形成一种赢牌的组合。通过这种方式,即便是闭眼,他也能根据已学的触感策略来玩游戏并寻求胜利。”

她说:“当Sora对海量视频进行学习时,其实不只是学习了视频中的画面特征。可能还学习到,随着时间推移,一些物体动作的变化引起其它物体变化,这种真实世界中的互动关系,从而对真实世界进行了较好的模拟。同时,Sora也学习到了视频对应提示文字内容中的语义特征。”但她也称,这次Sora的成功,倒不是因为其背后所使用的技术有多大创新,而是使用了更多更好的数据。通过收集和预处理大量视频数据来训练模型,并使用GPT-4等语言模型对提示的文字进行细化和润色,同时融合了Transformer模型和扩散模型技术。“事实证明,‘大力出奇迹’的技术路线再次展现出强大威力。”

周翔认为,就像是为了练就修建大桥的能力,不断将大桥拆散再拼装,在反复的过程中,去学习跨结构、支座系统、桥墩、桥台和墩台之间的组合关系。因此,Sora学习视频的过程并非简单和随机的,而是对物理世界进行了充分理解。

尽管目前Sora并未使用与以往不同的新技术,但其视频生成方式需要强大的算力和巨大的资金支持。对于一个60帧的视频(约6秒至8秒),Sora要生成至少约120万个token(文本处理最小单位),这是相当大的计算量,无疑提高了门槛,使同行难以跟进。这也意味着,未来对算力的需求将再次迎来爆发。

谈“颠覆”为时过早

目前,文生视频主要应用在传媒影视领域。Sora展现出的强大视频生成能力,让人不禁担心,未来是否将淘汰掉编剧、导演、演员、摄影、灯光、特效等传统工种?其实,早在2016年,AI就参与到影视剧本的创作中。在当年的伦敦科幻电影节,名为“Benjamin”的AI模型在学习了《星际穿越》等多部科幻影片的剧本之后,创作出了长达9分钟的科幻电影《Sunspring》。这让网友惊叹:“编剧不是人,这才是真正的科幻。”

据悉,Sora生成视频发布后,科幻片导演葛云峰便与团队紧急开会,探讨后期制作业务转型、新片拍摄调整等问题。他对媒体称:“新片预计投资数千万元规模,如果后期制作引入Sora或类似模型,预计拍摄成本会降低700万元至800万元,相当于空出了一位或者几位主演的片酬。”另一位科幻片导演郁刚则对媒体表示,Sora的出现,意味着科幻电影的优秀创作者终于不再被巨额视效费用限制。

在电影制作界,AI平台Wonder Studio被广泛应用于3D效果生成。北京冬奥会开幕式倒计时短片导演龙江波因为擅长利用特效,被网友们称为视觉系导演。他称:“如果之后Sora继续进化,再与Wonder Studio相结合,3D动画及相关行业将被颠覆。”

但目前,龙江波还没有应用Sora进行电影创作。“要说它能颠覆整个电影行业,还为时过早。”他称,制作一部电影非常复杂,“要有引发观众共鸣的剧本,根据每一个情节做相应分镜,寻找演员拍摄,完成后要将拍摄素材进行剪辑,而Sora目前还无法对这个任务拥有成熟的理解。另外,真人表演及表情的随机感和温度感极为复杂和不可预测,这种不确定性和非工业性,往往是作品独特的魅力所在。就像社会发展到今天,仍然会有手工作业的模式存在。不可否认,AI制作开创了一个新纪元,它一定是一个绝佳的数字工具,创作者自身的美学和认知及观点的输出和表达,会变得比以往更加重要。具体来说,其中最为重要的是创作者要懂得如何选择,如何在大大小小的节点中懂得作判断,真正好的作品都是基于无数个超凡智慧的选择而成为经典,而不是依靠某种工具,神笔马良的故事是童话、神话,却不是科学。”

想让模型生成一部真正的电影,苟甜认为,首先它必须是一位非常成熟的电影制作人,知晓电影制作背后的所有步骤,明白怎么拆分任务,但目前,专业知识在模型的整个知识体系里占比较小。“现在模型学习到的,更多是一种对事物或事件的描述性语言,是对结果的描述,缺少实现结果的步骤,也就是说缺少过程数据。因此,目前能让Sora发挥效果的领域,可能只是在电影制作分拆后的每个阶段性任务中。”

“眼见不再为实”

近年来,多地出现AI诈骗及不当牟利案件。2023年5月24日,中国互联网协会称,利用“AI换脸”“AI换声”等进行诈骗、诽谤的违法行为屡见不鲜。

今年2月香港警方披露的多人“AI换脸”诈骗案,涉案金额高达两亿港元。受害人受邀参加某企业总部首席财务官发起的“多人视频会议”,并按照要求先后进行转账,一周后才知受骗。而这起所谓的视频会议,只有受害人是“真人”,其他“参会人员”均为AI技术换脸的数字人。

可见,AI风险一直存在,而Sora又将这种可能性扩大了一个数量级,如果被不法分子利用,将使犯罪成本大大降低。同时,一旦AI生成视频技术得到推广,视频证据的法律效力也面临更大考验。比如,在提交视频证据时,必须先对视频证据的真伪进行鉴定。或许,能够分辨视频真假的甄别技术也该适时出现。

永生人的伦理问题也引发了业内的热烈探讨。电影《流浪地球2》中,刘德华饰演的科学家,在女儿丫丫车祸去世后,利用AI技术复刻了一个数字人“丫丫”,可以即时应答与互动。现实中,音乐人包小柏在痛失女儿后,利用AI技术,重现女儿影像,不仅可以唱歌还可以对话,使女儿在数字世界“复活”并“永生”。

用AI“复活”逝去的亲人,可以抚慰人心和填补遗憾,这样的产业极具市场前景。据悉,南京有一个5人的AI技术团队,在半年多时间里,利用AI技术帮助顾客复活逝去的亲人,帮助600个家庭实现了“在线团聚”。

其积极意义无法忽视,但另一方面,如果该类技术成熟,人类的伦理规则也许会发生重构。“如果利用AI技术对没有本人授权的形象进行数字人的创造,并做出不被本人许可的行为,甚至利用数字人进行非法犯罪,将为社会带来较大风险。”苟甜称,“因此,在叫好的同时也要保持警惕。”

编审|渠 洋

责编|惠宁宁

校对|张 波 张雪慧

来源|《法人》杂志2024年03月总第241期