杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

机器之心报道

编辑：杨文

AI圈这遍地开花的大好局面，让吃瓜群众们甚是惊喜。

这几天，大洋彼岸杀疯了！

Luma 的热乎劲儿还没过去，昨晚 Runway 就甩出一个王炸 ——Gen-3 Alpha。（查看详情请移步：Runway 版 Sora 发布：高保真、超强一致性，Gen-3 Alpha 震撼到网友了）

更没想到的是，一觉醒来，Google DeepMind 也有了新消息，悄咪咪地发布了视频生成语音（V2A）技术的进展。

虽然这一功能还未向公众开放，不过从官方放出的视频 Demo 来看，效果那是相当丝滑。同时，Google DeepMind 强调，所有示例均由 V2A 技术和他们最先进的生成视频模型 Veo 联手打造。

音频提示: 紧张刺激的恐怖片配乐，脚步声在混凝土上回响。（Cinematic, thriller, horror film, music, tension, ambience, footsteps on concrete）

视频链接：https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650922381&idx=2&sn=c9a8b5f76f64d29900501ada9f0cde5f&chksm=84e419f3b39390e54a074c569dd1fd1f2ae7ae281132fa5bcf22bcb4161d18a14168d50cc26d&token=1562101861&lang=zh_CN#rd

黑灯瞎火的废弃仓库中，一个黑衣人犹如鬼魅般缓行，再配上诡异的音乐和脚步声，恐怖气氛拉满。

音频提示: 狼在月光下的长嚎。（Wolf howling at the moon）

视频 Demo 一出，评论区清一水的追问：啥时候能用？

还有网友寄希望于开源社区当一回赛博菩萨，复制谷歌的这一技术。

其实，就在 Google DeepMind 官宣没多久，AI 音频领域的「扛把子」ElevenLabs 横插一脚，开源了一个上传视频自动配音的项目，可以为视频生成合适的音效。

链接：

https://elevenlabs.io/docs/api-reference/how-to-use-text-to-sound-effects

如今 AI 圈子的竞争已呈白热化，大小厂的你追我赶将会创造更加公平的竞争环境，而一旦这些技术成熟，AI 视频领域将会有无限可能。

AI 视频告别无声电影

众所周知，视频生成模型正以惊人的速度发展。不过，无论是年初惊艳世人的 Sora，还是近期的可灵、Luma、Gen-3 Alpha，生成的全是「无声电影」，无一例外。

而 Google DeepMind 的视频生成音频 (V2A) 技术，使得同步的视听生成成为可能。它可以结合视频像素和自然语言文本提示，为屏幕上的动作生成丰富的配音。

从技术应用上来说，V2A 技术能够与 Veo 等视频生成模型结合，创造出具有戏剧性配乐、逼真音效或与视频角色以及风格相匹配的对话镜头。

它还能为档案材料、无声电影等传统影像生成音轨，拓宽创作的可能。

音频提示: 可爱的幼年恐龙在丛林中啁啾，伴随着蛋壳的破裂声。（Cute baby dinosaur chirps, jungle ambience, egg cracking）

音频提示: 汽车打滑声、引擎轰鸣声，伴随着天使般的电子音乐。（cars skidding, car engine throttling, angelic electronic music）

音频提示: 日落时分，草原上响起悠扬的口琴声。（a slow mellow harmonica plays as the sun goes down on the prairie）

V2A 技术能够为任何视频输入生成无限数量的音轨。用户可以选择定义「正向提示」来引导生成期望的声音，或者「负向提示」来避免不期望的声音。

这种灵活性让用户对音频输出有了更多的控制，可以快速尝试不同的音频输出，并选择最佳匹配。

音频提示：一艘宇宙飞船在浩瀚的太空中疾驰，星星在它周围划过，高速飞行，充满科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）

音频提示：天籁般的大提琴氛围（Ethereal cello atmosphere）

音频提示：一艘宇宙飞船在广袤的太空中高速穿梭，星星在它周围飞速掠过，具有科幻感。（A spaceship hurtles through the vastness of space, stars streaking past it, high speed, Sci-fi）

背后的工作原理

研究团队尝试了自回归和扩散方法，以发现最可扩展的 AI 架构。扩散方法在音频生成上给出了最真实和引人入胜的结果，用于同步视频和音频信息。

V2A 系统首先将视频输入编码成压缩表示，然后扩散模型从随机噪声中迭代细化音频。这个过程由视觉输入和给定的自然语言提示指导，生成与提示紧密对齐的同步、逼真音频。最终，音频输出被解码成音频波形，并与视频数据结合。

为了生成更高质量的音频并引导模型生成特定声音，研究团队在训练过程中添加了更多信息，包括 AI 生成的注释，详细描述声音和对话文本。

通过在视频、音频和额外注释上的训练，该技术学会将特定的音频事件与各种视觉场景关联起来，同时响应注释或文本中提供的信息。

谷歌方面强调，他们的技术与现有的视频到音频解决方案都不同，因为它可以理解原始像素，并且添加文本提示是可选的。此外，该系统不需要手动对生成的声音与视频进行对齐，极大地简化了创作流程。

不过，谷歌的这一技术也并非完美，他们仍在努力解决一些 bug。例如，视频输入的质量直接影响音频输出的质量，视频中的伪影或失真可能导致音频质量下降。

同时，他们也在优化唇形同步功能。

V2A 技术尝试从输入文本中生成语音，并将其与角色的口型动作进行同步，但若视频模型未针对文本内容进行相应的调整，就可能导致口型与语音不同步。他们正改进这一技术，以提升唇形同步的自然度。

音频提示：音乐，文本转录「这只火鸡看起来好极了，我好饿。」（Music, Transcript: “this turkey looks amazing, I’m so hungry”）

或许是由于深度伪造技术带来诸多社会问题，Google DeepMind 求生欲满满，一个劲承诺将负责任开发和部署 AI 技术，在向公众开放之前，V2A 技术将经过严格的安全评估和测试。

此外，他们还整合了 SynthID 工具包到 V2A 研究中，为所有 AI 生成的内容添加水印，以防止技术的滥用。

https://deepmind.google/discover/blog/generating-audio-for-video/

https://x.com/GoogleDeepMind/status/180273364399285076

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

纯太阳能电车何时能实现，马斯克怎么看？

被AI量产的短视频营销号气疯了，于是，我也做了一个

AI时代，谁还没用AI智能硬件提升工作效率？

大疆前高管带6人创业，做出了类目Top1的割草机器人

国产机器人也会空翻了！打破限制，世界首款！

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

巨头雄霸天下，微软、谷歌、Meta、亚马逊能一直无敌吗？

美国绝密武器被谷歌曝光，外形似星战飞船，究竟有多大还不知道！

这台新机一发布，全世界垃圾佬都得疯

周深我恨你是块木头！奥运音响师亲自坐镇的顶级音效不宣传一波吗

Meta 将真实照片标记为“AI 生成”，引发多名摄影师不满

动作有可能是多余的，但音效没有

开放耳机市场迎来大爆发，它比TWS到底好在哪？

杀疯了！谷歌卷视频到语音，逼真音效让AI视频告别无声！

全世界机器人共用一个大脑，谷歌DeepMind已经完成了第一步

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。 通过视频直接提问，看看

字节打造大模型TTS：不仅能高保真合成，而且支持调整编辑

纯太阳能电车何时能实现，马斯克怎么看？

被AI量产的短视频营销号气疯了，于是，我也做了一个

AI时代，谁还没用AI智能硬件提升工作效率？

大疆前高管带6人创业，做出了类目Top1的割草机器人

国产机器人也会空翻了！打破限制，世界首款！

Deepfake假CFO骗走公司1.8个亿，员工：视频会议每个人都很真实啊

这个机器人的手真的太灵活了！ 收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。 这是星动纪

3分钟带你看遍IPF大会十年黑科技，迈向AI+新时代

论文 Figure 不堪入目，句子啰嗦读不通……这几个在线科研工具可以免费用了

巨头雄霸天下，微软、谷歌、Meta、亚马逊能一直无敌吗？

美国绝密武器被谷歌曝光，外形似星战飞船，究竟有多大还不知道！

这台新机一发布，全世界垃圾佬都得疯

周深我恨你是块木头！奥运音响师亲自坐镇的顶级音效不宣传一波吗

Meta 将真实照片标记为“AI 生成”，引发多名摄影师不满

动作有可能是多余的，但音效没有

开放耳机市场迎来大爆发，它比TWS到底好在哪？

Google 搜索诞生 25 年来最大更新之一，用 AI 把搜索重做一遍。通过视频直接提问，看看

这个机器人的手真的太灵活了！收纳、撸猫、修剪绿植样样都行，原速演示流畅程度堪比人类。这是星动纪