周鸿祎作为360的创始人,现在也是靠着短视频和直播焕发了职业生涯的第二春。

打开网易新闻 查看更多图片

在他的视频中经常提到的一个话题就是时下最有可能引领第三次工业革命的人工智能。在最近一期中,周鸿炜谈到中国现在有个别国没有的优势,如果利用得好将有大用。

openai面临的严峻挑战

除了能源问题的制约之外,openai现在也面临了一个摆在面前的问题,那就是训练的数据不够用了。

打开网易新闻 查看更多图片

为了训练chatgpt4.0,openai把他们在英文互联网上的所有知识都耗尽了,包括论坛和维基百科,还有论文和书籍。据估算,人类社会至今所产生的数据只有1亿本书的容量。

openai于是扩展了新的方向,开始采用视频数据进行训练。由于现在gpt4还不够智能,不能完全理解视频数据,即使要实现也要达到sora的水平,而sora的成本实在高无法承担。

打开网易新闻 查看更多图片

sora

所以openai就将视频的音频转为文本格式,再喂给ai这些文本数据。这给我们的启示就是我们可以利用抖音的大量短视频内容和优酷爱奇艺腾讯的剧集内容来训练我们自己的大模型。

我们的优势在哪里

openai现在与微软合作,准备斥资1000亿美元搭建了一个超大的超算中心,就一定会面临数据不够的问题。

打开网易新闻 查看更多图片

我们的优势在于拥有很多有高价值知识的网站和论坛,比如百度贴吧和知乎,我们完全可以利用这些优质资源训练更有逻辑能力的大模型。

最近我看到一篇很有意思的论文,如果用百度贴吧中的“弱智吧”来训练语言模型,那么它就会被训练得非常智能,那是因为“弱智吧”充斥着各种谐音梗、双关语和脑筋急转弯。

打开网易新闻 查看更多图片

经过这些更能体现语言逻辑性的内容的训练之后,语言大模型也就更能理解人类语言的运行逻辑,从而形成更强的逻辑推理能力,输出更符合人类特性的内容。

没被挖掘的数据金矿

还有一些数据金矿亟待ai公司去挖掘,如果利用得当我们离通用人工智能的未来也就不远了。

打开网易新闻 查看更多图片

存在于互联网上的很多数据背后看似没有规律,实则经过严谨的方法提炼之后,就可以发现背后隐藏的数据,可供大模型训练。

在很多企业内部由于存在保密协议,大量数据无法在互联网被公开找到。并且这些数据包含着很多关于行业与企业最核心的知识,对AI发展大有裨益。

但是只有企业自己拥有这些数据的使用权,而openai这种公司目前永远没机会获取,想花钱都买不到。

这也就意味着如果由公司内部去开展ai业务或者与成熟的ai公司精诚合作,那么这样开发出来的ai会更有竞争力。