本文作者:葛佳明

来源:硬AI

自从GPT-4发布以来,期间关于GPT-4.5或GPT-5的传闻从未停止,今年对于GPT-5的期待更是达到了白热化阶段。

4月25日,媒体报道称,OpenAI联合创始人兼CEO 山姆·奥特曼现身斯坦福大学,并在英伟达(NVIDIA)礼堂举行了一场公开演讲,可容纳342人的礼堂爆满,还有超过千人挤在外面排队,并在随后举行了一场闭门会议。

打开网易新闻 查看更多图片

在演讲中,奥特曼表示,他不知道AGI何时到来GPT-5性能将远超GPT-4,GPT-6会比GPT-5更加厉害。这些都将成为人类历史上最令人瞩目的事件,但其实目前还远未触及智能极限。

奥特曼认为,现在很多组织、个人开发者都能轻松复现GPT-4的能力,甚至在个别单元测试中超过它。但OpenAI的核心能力是技术变革,可以真正定义AI能力的下一个范式转变,就像苹果的iPhone对移动领域带来的颠覆性影响:

复制技术相对容易,谷歌可以轻易地复制出类似Gemini的产品。然而,真正的挑战在于创新,如何构建全新的人工智能范式。

在谈到如何实现AGI时,奥特曼认为开源不是最佳途径。开源意味着放弃对技术的专有控制,对于OpenAI来说,他们投入大量的人力和算力资源开发的产品,需要有商业回报。

奥特曼表示,为了实现AGI,无论每年花费5亿、50亿还是500亿美元,只要能为全人类、AI领域做出一些贡献都不在乎。但这需要良性的资金来源,光靠别人捐献、融资是不行的。

奥特曼,从现在的技术创新和功能迭代来看,人类远远没有达到AI的极限,尽管新技术最初可能会令人震惊,但社会很快就会适应:

一年前,OpenAI发布GPT-4模型时,全世界陷入疯狂,认为将彻底改变很多行业的工作模式。如今我们回头再看GPT-4,经常会讥讽地说,它看起来好蠢啊,GPT-5到底何时发布?

奥特曼认为,人工智能初创公司潜力巨大,现在是创办初创人工智能公司的最佳时机,但许多创业者和研究者正致力于弥补当前AI系统的缺陷,但随着GPT-5、GPT-6等后续版本的出现,这些基于既有局限性开展的工作很可能失去意义。

奥特曼指出,OpenAI坚信Sora将开创一种前所未有的娱乐形式:每一次体验都将独一无二,它能根据用户的喜好与实时互动,动态生成介于电影与游戏之间的全新内容:

OpenAI正在努力实现即使不依赖全新的数据集,模型的推理能力也能持续提升,这意味着模型能更有效地学习并适应现有知识OpenAI打造的是以人为本的工具,而非模拟生命的新物种
展望未来,一项高薪职业将是为AI模型的输出提供专业且精准的反馈,以进一步优化其性能和效果。

根据斯坦福学生Andrew Gao介绍,随后他有机会参加了奥特曼20人左右的闭门会议。他提到了一些大事,但我不能分享。

打开网易新闻 查看更多图片

另一位参加闭门会议的人也没有透露具体内容,但称总之对GPT-5很兴奋。

对于新一代模型GPT5,市场期待什么

Deep Trading创始人Peleg等人在社交媒体X上透露,GPT-5早已准备就绪,目前正处于选定用户的红队测试阶段,全面评估模型的安全性和可靠性。红队测试旨在邀请外部专家尝试以恶意用户的思路“攻击”并试图找出模型的潜在缺陷和风险点,是大型语言模型发布前的关键一环。

根据过往测试的经验,市场推测,一般此阶段为期3-4个月,预计GPT-5最快今年夏天面世。回顾GPT模型前四代的表现,每一次更新都在性能上实现了全面的提升。

而GPT-5作为最新一代的大语言模型,市场认为其有望在多模态理解、长文本输入、zero-shot学习等方面树立新的里程碑。

有分析认为,GPT-5的升级并不会出现如同GPT-2到GPT-3的基础能力飞跃,将会是一次多方位的全面升级,而其中多模态能力是GPT-5迭代的最重要部分。GPT-5将补齐图像模态的多模态功能,实现图文互生的能力。

此外,在今年年初Sora模型掀起视频多模态处理热潮后,GPT-5可能也会在视频模态上取得一定进展,将来GPT-5在视频理解和生成上的尝试,都将为未来数字世界和物理世界的深度融合铺平道路。

除了多模态能力外,文本输入长度也是今年一季度各家模型厂商竞争的另一个关键焦点,较长的文本输入长度是实现复杂长文本处理和长逻辑推理的基础,也是构建能处理复杂任务的AI Agent的必要条件。

目前,Gemini 1.5 Pro是1M,Claude 3是200K,GPT-4是128K,不知道GPT-5会突破怎样的惊人纪录。