狂奔两周年，激辩AI大模型“撞墙”

作者｜沐风

来源｜创头条

OpenAI奥特曼前天发了条神神秘秘的推文，“there is no wall”。

最近以来，AI 大模型训练陷入瓶颈的讨论沸沸扬扬，甚至引起了行业性恐慌。

作为行业灯塔，这被认为是奥特曼针对此议题的回应，大模型训练“没有边界”。

此前，美国老牌IT媒体《 The Information》报道称，OpenAI 下一代旗舰模型“Orion”（猎户座）未能达到公司预期的性能。相较于 OpenAI 现有模型，Orion 被视为“没有重大飞跃”。而 GPT-4 则显著优于 GPT-3.5。

该报道称，GPT 进化速度放缓的部分原因是，用于预训练的文本和数据供应减少。

根据 OpenAI 员工和研究人员的说法，公司现在难以获得高质量的培训数据，现有大模型开发已经耗尽了网站、书籍和其他用于预训练的公开文本。

为了解决这些问题，OpenAI 甚至成立了一个基础团队，以研究如何在新训练数据不断减少的情况下，继续改进其模型的新策略。

据Bloomberg 报道，不光OpenAI，Google 的Gemini 软件版本也未达到内部期望，Anthropic 则干脆推迟了备受期待的 Claude 模型 3.5 Opus 发布时间表。

“关键在于数据的质量和多样性，而非数量，” 前微软副首席技术官 Lila Tretikov 对此表示，“我们可以合成生成大量数据，但在没有人工指导的情况下，难以获取独特且高质量的数据集，尤其是在涉及语言的情况下。”

OpenAI前首席科学家Ilya也认同这一判断。

他在接受路透社采访时表示，通过扩展预训练——即在训练 AI 模型时使用大量未标注数据来理解语言模式和结构的阶段——取得的效果已经触及瓶颈。

要知道，Ilya 可是在预训练阶段通过大数据与大算力来实现AI进化的最早倡导者。

更有行业研究预计，如果大型语言模型（LLM）保持现在的发展势头，预计在2028年左右，已有的数据储量将被全部利用完。

届时，基于大数据的大模型的发展将可能放缓甚至陷入停滞。

《Nature》杂志的一篇专业研究文章对此详细论述称，当AI 大模型被训练在由先前版本的AI生成的数据上时，很快就会导致模型产生无意义的内容。这种现象被称为“模型崩溃”。这是与人类衍生训练数据耗尽之外，阻碍大型语言模型（LLMs）改进的另一个重要原因。

Anthropic创始人Dario Amodei 则是反对论者，他公开表示，预训练的扩展法则（Scaling Laws）来自经验而非客观规律，它“仍然会继续存在”。

他还说，公司在今年将花费 1 亿美元训练一个前沿模型，未来数年内这一数额将攀升至 1000 亿美元。

无独有偶。

前两天百度世界大会上，李彦宏也在演讲中表示，“基础模型两年一个大的版本迭代，是比较合适的节奏”。

甚至上个月还有报道指出，国内 AI“ 六小虎”中，至少有两家要放弃大模型预训练。

这与之前国内大模型间争相发布新版本的状态相比，确实有了反差。

如何实现新的跃升？

比如离开OpenAI，创办SSI后，Ilya 在开始研究“传统扩展”的替代方法。

“2010年代是扩展定律的时代，现在我们又回到了奇迹和发现的时代。每个人都在寻找下一个东西。”在他看来，“现在，在正确的方向扩展，比什么都重要。”但他并没有对外透露具体方向。

2022年11月30日，OpenAI发布ChatGPT，开启这一波AI大浪潮。

至今刚好两年时间。

可见的事实是，整个行业已从开始的炸裂、兴奋，进入冷静、平稳期，甚至不乏迷茫。

而除了数据问题，面临的其他问题实际上更加复杂。

比如算力问题、能源问题、商业模式问题、社会伦理问题、社会治理，还有地缘竞争问题等，每一个都让这头一往无前的技术巨兽，从不同角度开始停下来反思，以确定下一步更好的往哪里去。

最近一个值得关注关注的插曲是，Epoch AI联合60多位顶尖数学家提出了数学基准FrontierMath，给头部AI来了次统考。

结果是，Gemini 1.5 Pro、Claude 3.5 Sonnet，及GPT-4o与o1-preview 准确率都都不到2%。面对未被学习过的题库，它们都没能证明其高级推理能力。

当然，乐观派还是一如既往坚定。

最近一次接受YC总裁兼CEO Garry Tan访问时，奥特曼表示，AGI将在2025年左右降临，ASI 将在几千天内到来。

他还强调称，计算的成本将持续降低，而随着模型性能的不断提升，AI的价值也将持续攀升，“高质量AI的成本最后都可以降至趋近零”。

图片来源｜网络

狂奔两周年，激辩AI大模型“撞墙”

大模型不会推理，为什么也能有思路？有人把原理搞明白了

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

依靠群体的力量：这家公司走出了一条不同于OpenAI的AGI路线

MIT开发新方法，无需从头训练机器人即可执行复杂任务

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

40亿美元大手笔！亚马逊向OpenAI劲敌Anthropic追加投资

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

新晋AI编程神器干翻Cursor！首创实时感知无限用，估值12.5亿华人初创震惊AI界

大疆前高管带6人创业，做出了类目Top1的割草机器人

AI眼镜是智能硬件的新方向，还是伪概念？

谷歌Gemini突发试验版模型，重回竞技榜第一！GPT-4o只领先了1天

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

婆婆学会网购后，低价买了一堆模型，网友：家里同款爸妈

大神Karpathy：我给大模型「SQL注入」攻击，简直不要太轻松

马保国现身宿州奥斯卡酒吧，五连鞭轻松走起！嗨翻全场

高质量大爷来相亲，大妈一听对方三套房，直言自己不敢高攀

普京刚修改核策略，西方就突破红线！乌军凭什么这么干？

5年千亿估值，清华系大模型的崛起之路