来源:硬AI
作者:蒋紫涵
AI研究员已经快将世界上的知识“榨干”了,下一步,AI该如何发展?
昨日,前OpenAI联合创始人、SSI创始人Ilya Sutskever在NeurIPS 2024大会上发表演讲时表示,预训练时代即将结束,数据作为AI的化石燃料是有限的,目前用于AI预训练的数据已经达到了峰值。
的确,过去十年中,AI的爆炸性进步在很大程度上依赖于神经网络规模的扩大以及使用更多的数据进行训练,这使得大语言模型(LLMs),如ChatGPT能够更好地模拟对话并发展出推理等功能。但一些专家指出,目前AI训练正在接近扩展的极限,一是因为计算能耗急剧增加,二是因为大语言模型开发者几乎已经用尽了能够训练模型的传统数据集。
Epoch AI的马德里研究员Pablo Villalobos预测,到2028年左右,用于训练AI模型的数据集的规模将与公共在线文本总量相当,换句话说,AI训练数据很可能在四年后耗尽。
为了解决这一问题,目前AI公司有的在收集非公开数据,有的转向使用专注于健康护理、环境等的专业数据集,还有的在尝试合成数据。这些方法都在一定程度上缓解了数据不足的困境,但都存在一些缺陷,并不能彻底解决问题。
或许,AI的下一步不再是学习现有知识,而是自我反思与智能进化,就像卡内基梅隆大学的研究生Andy Zou说的这样:“现在它已经拥有了一个基础知识库,可能超过了任何一个人所能掌握的,这意味着它只需要静下心来思考。”
耗尽的数据,膨胀的需求
过去十年中,大语言模型的开发展现出了对数据的强烈需求。
Villalobos估计,自2020年以来,用于训练大语言模型的数据增长了100倍,可能已经占据了互联网中很大一部分的内容,并且,AI训练数据集的规模每年翻倍。然而另一边,互联网可用内容的增长速度却出奇的缓慢,估计每年增长不到10%。
基于这些趋势,Villalobos的研究显示,到2028年,AI训练数据很可能耗尽。
与此同时,内容提供商加入了越来越多的软件代码或完善其使用条款,禁止AI公司抓取其数据用于训练。
麻省理工学院的AI研究员Shayne Longpre领导着一个专门审计AI数据集的草根组织,并撰写了数据来源追溯倡议。Longpre的研究显示,数据提供商对特定爬虫的封锁数量急剧增加,2023年到2024年间,三大清洗数据集中最常用的高质量网络内容,封锁比例从不足3%增加到了20%-33%。
并且,几起侵权诉讼也在进行中——2023年12月,《纽约时报》起诉OpenAI和微软侵犯其版权;今年4月,Alden Global Capital旗下的八家报纸也联合提起了类似诉讼。如果美国法院判定内容提供商应当获得赔偿,那么AI开发者和研究人员将更难获取所需的数据。
AI公司的应对手段
面对内容提供商越来越严格的管控,AI开发者也在着手寻找解决办法。
OpenAI、Anthropic等知名AI公司公开承认了这个问题,表示他们有计划通过手段绕过这一管控,比如生成新的数据、寻找非常规的数据来源等。OpenAI的一位发言人对《自然》杂志表示:
“我们使用多个来源,包括公开可用的数据、AI训练师提供的数据、与非公开数据合作、生成合成数据等。”
分析师指出,如果目标是寻找更多数据,目前,主流方法有二:
一是收集非公开数据,如WhatsApp消息或YouTube视频的文字记录。例如,Meta曾表示他们使用虚拟现实耳机Meta Quest收集的音频和图像数据来训练AI。
Villalobos估计,这些数据大多质量较低或重复,且总量较小,不过即便如此,也足以延缓一年半左右时间的数据不足困境。
二是专注于快速增长的专业数据集,如天文学或基因组数据。
斯坦福大学的著名AI研究员Fei-Fei Li非常支持这种策略,她在5月的彭博技术峰会上表示,担忧数据即将耗尽的观点过于狭窄,因为在健康护理、环境、教育等领域有着丰富的未被开发的数据。
但Villalobos表示,目前尚不清楚这些数据集是否适合训练大语言模型,“很多数据类型之间似乎存在一定程度的迁移学习,但我对这种方法并不抱太大希望。”
不过,分析师也提醒道,尽管有各种方法应对数据紧张,但数据不足是实打实的问题,因此,这可能会迫使公司在构建生成AI模型时进行变革,使得AI的应用领域从大型、通用的大语言模型转向更小、更专业的细分模型。
还可以合成数据?
除了以上两种方式,Meta首席AI科学家Yann LeCun提出,如果无法找到数据,也可以尝试生成更多数据。
例如,一些AI公司付钱让人们生成内容用于AI训练,另一些公司则直接使用AI生成的合成数据来训练。
分析认为,这一数据来源潜力巨大——OpenAI今年早些时候表示,他们每天生成1000亿个单词,相当于每年生成超过36万亿个单词,与当前的AI训练数据集规模相当,并且这一产出正在快速增长。
总的来说,专家们一致认为合成数据在有明确、可识别规则的领域表现良好,如国际象棋、数学、计算机编码等。目前,AI工具AlphaGeometry已经通过1亿个合成示例进行训练并成功解决了几何问题。
此外,合成数据在真实数据有限或有问题的领域也已经被广泛应用,例如医疗领域,因为合成数据避免了隐私问题。
但合成数据也不是完美的——合成数据的问题在于,递归循环可能加剧错误、放大误解,并在整体上降低AI模型的学习质量。
2023年,一项研究提出了“模型自噬障碍(Model Autophagy Disorder)”这一术语,用于描述AI模型在这种情况下可能“崩溃”的现象。例如,一个部分使用合成数据训练的面部生成AI模型开始绘制带有奇怪哈希标记的面孔。