我最喜欢就是那些你根本没听过,就像什么法国的混凝土公司,他们有 1500 人员工,完全不在乎 AI,只是想把工作做得更好。Synthesia 就是那个合适他们的工具。

Synthesia CEO Victor Riparbelli 在一次接受采访时说道。

打开网易新闻 查看更多图片

他说描述的的确是不少 AI 创业公司想要的完美顾客 —— 有钱、有规模、有稳定需求,而他的公司 Synthesia 也真有不少这样的客户。

Synthesia 的愿景很好理解,就是要做出最「拟真」的生成式 AI 数字人(AI Avatar),但其商业化定位就有点「曲折」。

在成立后的前三年里,Synthesia 都在搭建配音对嘴型类 AI 工具,跟去年让泰勒·斯威夫特「讲中文」的 HeyGen 有点类似。

他们的产品挺不错,也带来了挺好的收益,但也让创始团队发现这很难做大,「我们就只能卡在做一家特效服务公司。很难想象能怎样创造更大影响力」。

Synthesia 意识到,他们要服务的不是那些视频内容创作者,而是完全没有任何条件和内部资源去做视频,但又有需要的企业。

到了现在,这家成立于 2017 年,获得英伟达投资的英国 AI 公司,去年 6 月估值已达到 10 亿美元,10 月已经拥有超过 5 万个企业用户,甚至连「财富 100」里的公司都有 47% 是它的付费企业用户。

近日,Synthesia 发布了新一代数字人技术 Expressive Avatars,主打可能生成相对更能表达情绪的数字人。

打开网易新闻 查看更多视频
英伟达投资的这家 AI 公司,要帮你做「未来的 PPT」

会做 PPT 就能做视频

当我打开 Synthesia 的视频编辑界面时,不禁感叹「这不就是 PPT 吗?」

这让我想起 Riparbelli 说过,他们的客户是那些「想做内容,但完全不知道要怎样起步去做的人。他们不知道怎样用摄影机,也没法获得内部预算支持」。

在这认知基础上,Synthesia 选择了打工人其中一个最熟悉(也憎恨)的软件 PPT 来做交互参考也真够贴心。

打开网易新闻 查看更多图片

在一套模版下有很多不同情景「页」选择

左边每页都都代表一个场景,可以非常 PPT 地去修改场景中的文字、背景、配乐等设计,然后可以在内置的数字人库里选择合适的数字人角色(暂时只有两个数字人角色支持 Expressive Avatars 模式)和声音。

甚至,连视频的「台词」,也安排在一般 PPT 用来写备注的页面正下方,的确相当「直觉」。

如此同时,写下的台词也会成为视频的「时间轴」,用户可以直接插入演绎上的指令,譬如停顿、 用「标记(Marker)」增加动效,或者为特定单词指定发音(Diction)。

在正式生成影片前,用户可在软件中快速播放预览,快速过一次台词、背景音乐和其他视觉元素是否满意。为了保持足够高效,「数字演员」则会保持静止,只有在正式生成后才会「动起来」。

正式生成影片后,用户也还是可以随时编辑影片,重新生成,甚至也可以邀请伙伴加入一起编辑。

和前几代的数字人服务相比,Expressive Avatars 会在讲台词时同时「理解」台词蕴含的情绪,尝试以一种合适的情绪来「表演」。

英伟达投资的这家 AI 公司,要帮你做「未来的 PPT」

我们生成的测试视频,数字人虽然表情多,但仍然可看出不自然

为了做到这个效果,Synthesia 实时生成中会涉及两种模型:1. 大语言模型帮助数字人理解脚本所意指的情绪;2. 深度扩散模型则负责根据理解生成影像。

不过,现在 Synthesia 的模型在理解该用什么情绪来表演上还是有限制。在 MIT Review 记者用它来朗读自己的文章时,数字人就以一种很欢快的方式演出了一句反讽评论。

Riparbelli 在线上沟通会上表示,公司在今年下半年还会推出另一个重要更新,将数字人生成推向更拟人的效果。

自发「严苛」,才能服务大公司

大公司愿意花钱,但也极度保守。

Synthesia 在交互上的简单直接,正好与其合规和审核机制的不断叠加相反。

Synthesia 的原则很「基本」 —— 在未获得明确同意前,不会生成任何人的数字化身 —— 这也是现在大部分网上 deepfake 做不到的。

训练数据方面,Synthesia 从 2020 年开始就聘请职业演员来创造高质量的人像数据,并创造了 225 个数字人角色供给用户选择。

打开网易新闻 查看更多图片

为了训练出这代新的模型,Synthesia 去年请了大概 1000 名职业演员来提供数据。

之前,Synthesia 和演员的合作模式是该演员数字人角色每次被调用,前者都会向对应演员支付版权费用。现在,双方的合作改成了「限时一笔买卖」,单次支付费用来使用其肖像三年,三年后双方再商讨是否续约。

MIT Review 记者 Melissa Heikkilä 在 Synthesia 体验录制创造 AI 数字人

如果续约,Synthesia 会和演员重新签约,并录制新的数据,删除旧的;如果不续约,数据会直接被删除。

Synthesia 声称自己并不会出售这些数据,但表示会在一些学术研究项目上有部分展示。

对于更大的合作企业客户而言,Synthesia 也支持企业派人来订造专门的数字人角色。

大客户有独占服务,也得走更复杂的签约流程:和销售团队沟通,签好法规上的协议,进行安全审计 —— 以 Synthesia 的销售团队的话来说,类似于「银行业的流程」。

在生成内容上,Synthesia 也在构建一个越来越成熟的审核机制。

普通用户生成的内容只能是基于事实,而企业用户则可以生成包含有「意见」的内容。一切可疑或真假难辨的内容,都会直接被转到人工审核,而政治新闻类内容则一律不支持。

MIT Review 记者在测试文本时用到了政治新闻相关内容,结果被拒绝了

当然,生成后也都要走审核。其内部审核人员从最开始的 3 人已经增加到 30 人,占了整个团队人数 10%。此外,公司也专门聘请了一位工程师搭建基于 AI 的审核系统。

创始人 Riparbelli 开玩笑说,如果能放开这些审核机制那就是非常强有力的「增长策略」:

我们觉得,将这些技术推向社会最好的方式还是一开始「过度严格」点。

所幸在于,对于企业而言,这种限制带来的麻烦也不会太多。

现在,大部分企业用户都是用 Synthesia 的数字人来做内部培训视频,或者是市场营销介绍视频,「敏感信息」没那么刚需。

这些企业在寻找的,是在为未来和年轻员工和消费者沟通的方式。鉴于现在年轻人都习惯了从视频获取信息,所以到未来,「无聊」的入职说明、培训文档、年终汇报都可以采用数字人视频演绎的形式:

我们现在所做的更像是 PPT,而不是好莱坞的活。

打开网易新闻 查看更多图片