OpenAI Sora 正式发布仅仅 8 天后,最强挑战者就已经出现了。

当地时间 12 月 16 日,谷歌 DeepMind 突然宣布推出第二代视频生成模型 Veo 2,支持生成最高 4K 分辨率和两分钟时长的视频,正面挑战 OpenAI Sora。

打开网易新闻 查看更多图片
(来源:谷歌 DeepMind)

有意思的是,同一天的 OpenAI“十二连发”活动宣布了 ChatGPT Search(网页搜索)功能正式对所有用户开放,不再需要付费。

这意味着,在谷歌对 OpenAI 的 AI 生成业务发起挑战的同时,OpenAI 也在对谷歌的搜索业务发起进攻。

两家都瞄准了各自最核心的业务,这足以说明在 AI 技术发展的下一波浪潮中,企业之间的竞争日趋激烈。

在 DeepMind 放出的演示视频中,我们可以看到令人垂涎欲滴的美食:

它也可以生成写实的养蜂场景:

还有梦幻的虚构场景:

以及堪比电影大片的镜头:

DeepMind 对媒体表示,作为其新一代视频生成模型,Veo 2 在技术规格上展现出了优势。它能够生成分辨率高达 4K(4096×2160 像素)的视频,时长可达 2 分钟以上。

这一指标从根本上突破了目前市面上主流视频生成模型的限制,比如 OpenAI 的 Sora 仅能生成 1080P 分辨率、20 秒时长的视频。

不过,出于稳定性考虑,DeepMind 将 Veo 2 的输出内容暂时限制在 720P 分辨率和 8 秒时长。

目前 DeepMind 在实验平台 VideoFX 上开放了 Veo 2 模型的使用权,但普通用户需要先加入候补名单,等待批准。

打开网易新闻 查看更多图片
图 | VideoFX 页面开放了候补名单(来源:DeepMind)

从测试成绩上看,Veo 2 击败了参与测试的其他四个视频生成模型,包括:OpenAI Sora Turbo、 Meta Movie Gen、可灵和 MiniMax。

测试数据集是 Meta 发布的基准数据集 MovieGenBench。人类评分者观看了 1003 个提示和相应的视频,最后给出评价。Veo 2 在整体偏好和准确遵循提示的能力方面表现最佳。

打开网易新闻 查看更多图片
图 | Veo 2 与其他竞品的测试成绩对比(来源:DeepMind)

DeepMind 公开表示,从技术层面来看,Veo 2 最显著的进步体现在三个核心方面。

首先是物理引擎的优化,新模型对现实世界物理规律的理解更为深入。

它不仅能准确模拟基础的物体运动,还能处理复杂的流体动力学效果,比如咖啡倾倒时的流动,以及光线在不同介质中的反射和折射等现象。这种对物理规律的准确把握,大大提升了生成视频的真实感。

其次是摄影技术的集成,带来了更丰富的相机控制选项。谷歌对媒体表示:“Veo 2 不只是一个简单的视频生成工具,它更像一个精通摄影技巧的虚拟导演。”

用户可以在提示词中使用专业的摄影术语,比如指定“18mm 广角镜头”“低角度跟踪镜头”或“浅景深特写”等,模型都能准确理解并实现相应的视觉效果。这种对专业摄影语言的理解,为创作者提供了更精确的创作控制手段。

第三是人物表现力的提升。在处理人物动作和面部表情方面,Veo 2 展现出了更细腻的表现力。这得益于模型在训练过程中,对人体动作规律和面部微表情的深入学习。

不过,DeepMind 副总裁伊莱·柯林斯(Eli Collins)坦言,该模型在长时间保持人物动作连贯性和复杂动作生成方面还有待改进。

与此同时,用 Veo 2 创建逼真、动态或复杂的视频、保持连贯性,并在复杂场景或复杂运动的场景中保持完全一致性,也仍然是一项挑战。

除了大惊喜 Veo 2,谷歌还改进了 Imagen 3 图像生成模型,并且推出了一款更富趣味性的图像生成工具 Whisk。

根据官方信息,新版 Imagen 3 迎来了一系列突破性的改进。

打开网易新闻 查看更多图片
图 | 新版 Imagen 3 生成的图片(来源:谷歌)

最显著的是其在艺术风格适应性上的提升,从写实主义到印象派,从抽象艺术到动漫风格,它都能准确捕捉并重现不同流派的艺术特征。

同时在图像品质方面,新 Imagen 3 在亮度表现、构图准确性以及细节丰富度上都有明显提升。

为了进一步扩展 AI 生成技术的应用场景,谷歌还推出了一款名为 Whisk 的图生图工具。

这款工具结合了 Imagen 3 的图像生成能力和 Gemini 的视觉理解系统,允许用户通过输入参考图像来定义创作意图。

Gemini 会自动分析图像并生成详细的描述,然后将这些描述信息输入 Imagen 3,实现图像元素的重组和创新。这种技术组合为创作者提供了更直观的创作方式。

最后,在技术实现过程中,安全性和版权问题始终是不可回避的话题。

谷歌公开表示,为了防止 AI 生成内容被滥用,他们在 Veo 2 的每个输出视频中都嵌入了不可见的 SynthID 水印技术。

这种水印能够帮助识别内容的 AI 生成属性,但同时又不会影响视频的视觉效果。在训练数据的使用上,谷歌采用了高质量的视频-描述配对数据集,并主张这种使用属于合理使用范畴。

在应用场景方面,Veo 2 和 Imagen 3 的潜力正在逐步显现。

例如,YouTube 创作者们已经开始将其用于短视频背景的制作,企业用户则在 Vertex AI 平台上将其整合到创意工作流程中。

未来,谷歌计划继续完善和优化这些技术,并将其扩展到更多产品中。

可以预见的是,随着技术的进一步成熟,AI 视频和图像生成技术将在更多领域发挥重要作用,为创意产业带来更多可能性。

参考资料:

https://deepmind.google/technologies/veo/veo-2/

https://blog.google/technology/google-labs/video-image-generation-update-december-2024/

https://venturebeat.com/ai/google-debuts-new-ai-video-generator-veo-2-claiming-better-audience-scores-than-sora/

https://techcrunch.com/2024/12/16/google-deepmind-unveils-a-new-video-model-to-rival-sora/

排版:刘雅坤