不用1750亿！OpenAI CEO放话：GPT-4参数量不增反减

新智元报道

来源：AIM

编辑：好困

【新智元导读】不要100万亿！也不要10万亿！更不要1750亿！GPT-4参数量竟然比GPT-3还少！

GPT-4官宣？

‍

近日，OpenAI的首席执行官Sam Altman出席了「the AC10 online meetup」的线上QA，并透露了关于GPT-4的最新消息。

去年，OpenAI在一篇题为「语言模型是小样本学习者」的论文中介绍了当时最大的神经网络GPT-3。

作为最先进的语言模型，GPT-3包括1750亿个参数，而其前身GPT-2的参数为15亿，并且击败了之前保持「有史以来最大」记录的图灵NLG模型（170亿）。

由于OpenAI几乎是每间隔一年就发布一个GPT模型：2018年发布了GPT-1，2019年发布了GPT-2，2020年发布了GPT-3。

到了2021年，网络上对于测GPT-4的猜测就如雨后春笋一般层出不穷。

也有文章表示GPT-4的参数量将与大脑的突触一样多，达到100万亿个。

甚至连OpenAI的「自己人」也觉得这怎么也得有个100亿吧。

然而，谁也没有想到，GPT-4的参数竟然比GPT-3还少！

GPT-4的期待

Altman在采访中表示： 「与流行的看法相反，GPT-4不会比GPT-3大，但会使用更多的计算资源。」

实现这一点，GPT-4将使用与之前GPT模型不同的方法，包括数据算法和微调，这其中的重点显然是在较小的模型中获得最大的收益。

通常认为，一个模型的参数越多，它能实现的任务就越复杂。

不过，有越来越多的研究指出，一个模型的有效性可能不一定像人们认为的那样与它的大小相关。

例如，最近一项来自谷歌的的研究表明，比GPT-3小得多的模型：微调语言网（FLAN），在一些具有挑战性的基准上比前者提供了更好的结果。

https://arxiv.org/pdf/2109.01652.pdf

这篇标题为「微调语言模型是零样本学习者」的论文，似乎是直指OpenAI的那篇GPT-3论文，火药味十足。

言归正传，从Altman的发言中可以看出，OpenAI也一直在摸索如何通过训练较小的模型来完成一些任务，并达到更好的效果。

Altman还表示，GPT-4将更加关注代码的生成，也就是更接近OpenAI通过API在私人测试中发布的Codex模型。

它能理解十几种语言，还能用自然语言解释简单的命令，并代表用户执行这些命令，允许为现有的应用程序建立自然语言界面。

只要对Codex发号施令，它就会将英语翻译成代码。

比如：「 add this image of a rocketship」

随后，这张火箭照片就被添加进来了：

Codex不仅能够收到指令后自行编程，还能够开发个小游戏。

此外，Codex还能接收语音指令。

「啪，每行开头的空格消失了！」

除了GPT-4之外，Altman还表示，之后的GPT-5或许能够通过图灵测试。

不过，这可能并不值得付出努力去做。

DALL.E将开源

DALL.E要开源了！

DALL.E与GPT-3一样，也是一个Transformer语言模型。

作为GPT-3的120亿参数衍生版本，它将文本和图像作为单一的数据流接收，其中包含多达1280个词元，并使用最大似然法进行训练。

自然语言输入是一个完全开放的沙盒，如果能按照模型的喜好使用文字，你几乎可以创造任何东西。

DALL-E文本到图像的端到端生成

由于OpenAI一直没有开源DALL.E，因此之前的创作都是基于图像标注模型CLIP。

在概念上，这种从文本描述生成图像的想法与DALL.E模型惊人地相似，但实际上却完全不同。

DALL.E是直接从语言中产生高质量的图像而进行的端到端训练，而CLIP则是使用语言来引导现有的无条件图像生成模型。

而这些基于CLIP的方法要相对拙略一些，所以输出的结果并不像DALL.E那样具有很高质量和精确度。

正是这种怪异使这些基于CLIP的作品如此独特，让人在熟悉的事物上看到完全不同的结果。

「牛油果形状的扶手椅」：上图由DALL.E生成，下图由CLIP生成的

AGI：算法、数据和计算机

对于AGI，UCLA的计算机科学教授、人工智能先驱Stuart Russell表示深度学习是不足以实现的。

「关注原始计算能力完全没有抓住重点。我们不知道如何让一台机器真正智能化，即使它有宇宙那么大。」

相比之下，OpenAI相信，在大型数据集上输入大型神经网络并在巨大的计算机上进行训练是实现AGI的最佳途径。

OpenAI的首席技术官Greg Brockman表示：「谁拥有最强大的计算机，谁就能获得最大的好处。」

此外，OpenAI相信缩放假说：给定一个可扩展的算法，如GPT系列背后的基本架构Transformer，就可能有一条通向AGI的直接路径，包括基于该算法训练越来越大的模型。

但大型模型只是AGI难题的一个部分，训练它们需要大型数据集和大量的计算能力。

当机器学习界开始揭示无监督学习的潜力时，数据不再是一个瓶颈。

再加上生成性语言模型，以及少量的任务转移，也就解决了「大型数据集」问题。

OpenAI只需要巨大的计算资源来训练和部署他们的模型就可以了。

这或许就是在2019年决定与微软合作的原因，这样就通过授权微软在商业上使用OpenAI的模型，以换取使用其云计算基础设施和所需的强大GPU。

参考资料：

https://analyticsindiamag.com/gpt-4-sam-altman-confirms-the-rumours/

https://towardsdatascience.com/gpt-4-will-have-100-trillion-parameters-500x-the-size-of-gpt-3-582b98d82253

不用1750亿！OpenAI CEO放话：GPT-4参数量不增反减

官方回应社保缴满15年就坐等退休

工信部征求意见：电动自行车拟禁用车载充电器、完善永久性标识

许钟豪重伤任骏飞后！孙铭徽讽刺发声：“人不行了快点急救”

曼城4-0双杀布莱顿！76分升至英超第二，福登双响，德布劳内破门

大V断定：只要中国拿下芯片中低端产业，就可以把欧美日都饿死！

很多地方把“为人民服务”变成“为大局服务”，这两者有啥区别？

“阻拦春耕副书记”纪云浩大学学历来自政法系统定向培养？相关部门回应：2016年前确有专项招录

4元拿下5600亩地承包权，开鲁“张氏兄弟”身份曝光，果然不一般

哈马斯高官：若落实"两国方案" 愿放下武器解散武装

杭州名校学区房价格已回到5-7年前成交势头生猛

“穷鬼套餐”席卷餐饮业？连米其林都下场分一杯羹了

记者实测苹果手机输入"发现石油"会自动定位:安卓也是

上海这些业主操碎心：小区交房不到半年，开出50多家民宿！只因地理位置极佳？

新华社快讯：以色列公共广播公司25日报道，以总理内塔尼亚胡批准在拉法开展地面行动的计划

美国指责中国新能源产能过剩？周鸿祎：不指责服装却指责战略新兴行业

广东省卫生健康委原党组书记、主任段宇飞接受审查调查

杭州西湖有人组团往水里放生甲鱼等外来物种？景区管委会：属实，他们避开了监控

美远程导弹系统秘密运抵乌克兰可覆盖克里米亚全境

村民称村支书往麦田排放污水，村支书：我也想火一把

亚洲杯大冷门！印尼13-12淘汰韩国，首次参赛便进4强，黄喜洪染红

不用1750亿！OpenAI CEO放话：GPT-4参数量不增反减

官方回应社保缴满15年就坐等退休

工信部征求意见：电动自行车拟禁用车载充电器、完善永久性标识

许钟豪重伤任骏飞后！孙铭徽讽刺发声：“人不行了 快点急救”

曼城4-0双杀布莱顿！76分升至英超第二，福登双响，德布劳内破门

大V断定：只要中国拿下芯片中低端产业，就可以把欧美日都饿死！

很多地方把“为人民服务”变成“为大局服务”，这两者有啥区别？

“阻拦春耕副书记”纪云浩大学学历来自政法系统定向培养？相关部门回应：2016年前确有专项招录

4元拿下5600亩地承包权，开鲁“张氏兄弟”身份曝光，果然不一般

哈马斯高官：若落实"两国方案" 愿放下武器解散武装

杭州名校学区房价格已回到5-7年前 成交势头生猛

“穷鬼套餐”席卷餐饮业？连米其林都下场分一杯羹了

记者实测苹果手机输入"发现石油"会自动定位:安卓也是

上海这些业主操碎心：小区交房不到半年，开出50多家民宿！只因地理位置极佳？

新华社快讯：以色列公共广播公司25日报道，以总理内塔尼亚胡批准在拉法开展地面行动的计划

美国指责中国新能源产能过剩？周鸿祎：不指责服装却指责战略新兴行业

广东省卫生健康委原党组书记、主任段宇飞接受审查调查

杭州西湖有人组团往水里放生甲鱼等外来物种？景区管委会：属实，他们避开了监控

美远程导弹系统秘密运抵乌克兰 可覆盖克里米亚全境

村民称村支书往麦田排放污水，村支书：我也想火一把

亚洲杯大冷门！印尼13-12淘汰韩国，首次参赛便进4强，黄喜洪染红

许钟豪重伤任骏飞后！孙铭徽讽刺发声：“人不行了快点急救”

杭州名校学区房价格已回到5-7年前成交势头生猛

美远程导弹系统秘密运抵乌克兰可覆盖克里米亚全境