OpenAI 最新发布了其旗舰大模型 GPT-4o,该模型不仅免费可用,还具备听、看、说的综合能力,提供丝滑流畅且无延迟的交互体验,仿佛与人进行视频通话一般。

打开网易新闻 查看更多图片

GPT-4o 的特点

  • 全能输入输出:GPT-4o 能够接受文本、音频和图像的任意组合作为输入,并生成相应的文本、音频和图像输出。
  • 快速响应:该模型响应音频输入的时间仅为232毫秒至320毫秒,与人类对话反应速度一致。
  • 免费开放:GPT-4o 将对所有用户免费开放,包括 ChatGPT Plus 会员版所有的功能,如视觉、联网、记忆、执行代码等。

在直播中,CTO Murati 展示了 GPT-4o 的实时互动能力,包括随时打断对话并用丰富语气进行回复。

研究员 William Fedus 透露,GPT-4o 是之前在大模型竞技场中进行 A/B 测试的模型之一,性能高于 GPT-4-Turbo。

API 提供

GPT-4o 也将提供 API,价格为五折,速度提升一倍,单位时间内的调用次数是原来的五倍。

网友们已经在设想 GPT-4o 的应用场景,比如帮助盲人或弱视人士更好地理解世界。

演示亮点

OpenAI 总裁 Brockman 在直播中演示了 GPT-4o 的实时翻译能力,以及两个 ChatGPT 之间的对话和歌唱。

技术细节

GPT-4o 是一个端到端训练的新模型,所有输入和输出都由同一个神经网络处理,这比之前的语音模式有显著改进。

未来展望

尽管 OpenAI 没有发布详细的技术报告,但 GPT-4o 的成功演示已经引起了广泛关注和讨论。

OpenAI 的 GPT-4o 模型的发布,不仅展示了公司在 AI 领域的最新进展,也为公众提供了一个功能强大且易于使用的 AI 工具。随着技术的不断进步,我们可以期待 GPT-4o 在未来将带来更加丰富和创新的应用场景。