打开网易新闻 查看更多图片

AI训练AI,越训越傻。

我们都知道,AI容易出现“幻觉”,其中一个很大的原因是因为训练 AI 模型的数据本身就是虚假信息,最终让AI编造出自认为是真实的信息。

为了解决AI幻觉的问题,AI公司们会去挖掘更多材料用于训练,从而不断优化自身的性能。

但从2024年开始,一些互联网数据源开始有意限制AI公司去使用,例如《纽约时报》这样的新闻机构以及Youtube这样的视频网站,他们都因为版权问题与OpenAI等厂商进行过互掐,最终的结果要么是直接花钱买数据,要么是放弃这部分数据。

这其实反映了一个很现实的问题:用于训练 AI 模型的真实数据已经所剩无几

在周三晚间与 Stagwell 董事会主席马克・佩恩的直播对话中,马斯克表示:“我们现在基本上已经消耗掉了所有人类知识的积累…… 用于人工智能训练的数据。这个现象基本上是去年发生的。”

打开网易新闻 查看更多图片

不仅是马斯克,不少人工智能专家都一致认为数据资源已经耗尽。

去年12月的温哥华NeurIPS大会上,OpenAI联合创始人兼前首席科学家伊利亚•苏茨克维尔(Ilya Sutskever)直言:“AI预训练时代无疑将终结。”

他在这场演讲里将数据比作化石燃料,而燃料终将耗尽。“算力在增长,但数据却没有增长,AI已经达到了数据峰值,不会再有更多数据了,我们必须处理好现有的数据。”

同时他表示,AI 模型的开发方式会发生改变,下一代AI模型将是真正的AI Agent,且具备推理能力 。

合成数据的前景

推理计算取代训练计算,这也是博通在年底在美股火了一把的原因之一。

AI只使用另一个 AI 生成的数据进行训练,这在过去听起来并不靠谱的做法,现在似乎成了未来的重要解决方法之一。而随着真实的新数据越来越难以获得,这种想法也越来越受重视,AI公司们也逐渐开始用合成数据用来训练他们的主力 AI 模型。

“AI 会进行自我评估,并通过这一自我学习的过程不断优化自己。”马斯克认为。

从务实的角度出发,人类的标注速度有限,并且很有可能一开始就存在标注错误的问题。另外,有效的数据都是非常昂贵的,一些手握优质数据源的网站或论坛通过向谷歌、OpenAI等公司授权数据,从而赚取高达数亿美元。

相比之下,合成数据的一个显著优势是降低成本,人工智能初创公司 Writer 表示,其 Palmyra X 004 模型几乎完全依赖合成数据进行开发,开发成本仅为 70 万美元,而一个规模相似的 OpenAI 模型的开发成本大约为 460 万美元。

合成数据的另一个作用就是帮助旧模型“升级”成 推理模型,未来的AI能以更接近思考的方式来一步步解决问题,这种能力已经非常接近AI Agent。

例如近期OpenAI近日发布的o1模型,本质上就是推理模型, 在给出回答之前,o1会思考,通过产生一个很长的内部思维链(CoT),逐步推理,模仿人类思考复杂问题的过程。

AI训AI,越训越傻?

合成数据看起来又便宜准确性越高,但如果一开始输入的数据本身就存在问题,那么AI公司甚至无法通过后期更新数据源来进行补救。

来自牛津、剑桥等学校机构的研究人员将这种现象描述成大模型的崩溃,其研究成果还登上了Nature的封面。

其实原理很好理解,模型崩溃是一个退化过程,模型生成的内容会污染下一代的训练数据集。而在被污染的数据上训练之后,新一代模型就容易误解现实。以此循环往复,一代更比一代差。

打开网易新闻 查看更多图片

因此推理模型更适合逻辑、代码、数学这些理工科类的能力,在文字生成方面很容易受到模型崩溃的影响。反过来,文字生成等能力未来依然需要依赖“传统模型”。 因此从短时间来看,合成数据还是很难取代真实数据,AI大模型又将迎来一次数据荒。

本文作者:jh,观点仅代表个人,题图源:网络

记得星标微信公众号:镁客网(im2maker),更多干货在等你