打开网易新闻 查看更多图片

新智元报道

编辑:乔杨 Frey

【新智元导读】AI的能力终于癫成了和这个世界匹配的样子——来自UCB等机构的研究者们用GPT-4o,开发出了一个「AI预言家」。

LLM的神奇职能,又多了一个。

用更形象的话说,就是中国的「算命签」、欧洲的「水晶球」,可以用「超人」的能力预测未来。

去年12月,Nature就刊登了一篇研究,可以用LLM预测一个人生活中即将发生的事件,就像预测句子中的next token一样。

打开网易新闻 查看更多图片

实验结果表明,这个模型甚至能预测一个人未来4年内死亡的可能性,准确率高达78.8%。

最近,AI安全中心总监Dan Hendrycks联合加州大学伯克利分校的研究人员,开发了一个更强大的系统FiveThirtyNine,预测更宏观的社会事件,比如「Trump能否赢得2024年大选」。

打开网易新闻 查看更多图片

这个AI预测机器人基于GPT-4o构建,用户输入想查询的事件,FiveThirtyNine就能预测出发生的概率,就像天气预报中给出的下雨概率一样。

那么预测的准确度和可信度如何?

知名作家、民意调查师Nate Silver最近在一档节目上表示,AI不会很快取代人类预测分析师的能力。想看到超人的预测能力,起码要等15年。

打开网易新闻 查看更多图片

Nate Silver最新预测:Trump有64%的获胜几率

但这个项目的作者表示不服,他们表示,539的表现好过经验丰富的人类预报员单打独斗,大致和一群预报员合作的表现相当,甚至更好。

因此,分析预测市场很快就能通过AI实现自动化!

从项目Demo中也能发现,539能够预测的事件范围也很广泛,比如美国大选是政坛事件,其他领域包括生物安全、AI技术、环境健康、网络安全等也都能预测。

打开网易新闻 查看更多图片

原文地址:https://www.safe.ai/blog/forecasting

Demo地址:https://forecast.safe.ai/

除了放出博客文章和Demo,研发团队还计划出一篇详细的技术报告,虽然还没完稿,但坑位已经占上了,感兴趣的朋友可以期待下。

打开网易新闻 查看更多图片

原文地址: https://drive.google.com/file/d/1Tc_xY1NM-US4mZ4OpzxrpTudyo1W4KsE/view

为什么给这个机器人取名叫FiveThirtyNine?

原作者特地发推解释,原来是想致敬著名的民意预测员Nate Silver,但又要表示AI的能力比他强,因此本来计划取名为Nate Gold。

但没得到本人同意,只好借用他twitter名的后缀538,再+1表示「迭代」一版,就得到了539。

FiveThirtyNine工作原理

这里,简单总结下FiveThirtyNine的工作原理。

举个例子,如果向FiveThirtyNine询问「Trump会赢得2024年美国总统大选吗?」。

接收了这一Prompt的FiveThirtyNine,就如同一个AI预言家一样,会借助搜索引擎检索相关的新闻和文章,整合信息并做出预测。

打开网易新闻 查看更多图片

基于GPT-4o的FiveThirtyNine的预测示例

Prompt的内容也是很重要的,可能是为了复现方便,作者给出了实验中使用的prompt模板。

打开网易新闻 查看更多图片

在充足的先验知识的基础上,FiveThirtyNine首先会依据事实总结归纳。

对一件事的Yes/No两方面,539会分别给出支持或反对的理由,再依据重要性分配相应的权重,可解释性拉满了。

打开网易新闻 查看更多图片

比如,预测Trump当选的论据包括:票仓强劲、支持率经常被低估、刚获得的法律豁免权、他主张的经济复苏措施等等。

打开网易新闻 查看更多图片

反面的论据也有5个,同样现实且有力,包括Harris民意调查领先、筹款优势和关键人群的支持,以及Trump本人的极化倾向和法律挑战。

总结这些论据后,FiveThirtyNine还会「酌情处理」消极新闻、抓马事件和耸人听闻的偏见,整合多重因素,给出一个初步的概率。

打开网易新闻 查看更多图片

最后,它还需要对这个概率值进行理性分析,结合推理进一步优化,并给出校准后的概率——在本例中为52%。

打开网易新闻 查看更多图片

AI预言家优于市场预测为了测试AI预言家的表现,作者们借助Metaculus平台的问题对其进行了评估。

为了比较的公正性,AI预言家与人工预言家使用相同的信息。

值得注意的是,GPT-4o的数据仅囊括2023年10月之前的,因此研究者将新闻和文章都限定在该日期前,要求539和人类分别计算Metaculus中177个事件发生的概率。

针对这177个事件,Metaculus自身模型的预测准确率为87.0%,而FiveThirtyNine将其提升至87.7%±1.4。

相对于市场预测,AI预言家具有多种其无法比拟的优势。如,它能在几秒内快速生成预测,速度比当前市场预测高了几个数量级。

不仅速度更快,还不需要额外的奖励机制去优化预测,在精度相当的情况下,显然AI预言家更具性价比。

局限性

虽然作者放话表示,AI预言家已经优于人类预测员,但这个机器人依旧存在不少工程和性能上的局限性。

比如,539依旧会对无效查询做出回应,因为作者还没给它加上拒绝功能。

实时更新知识库这方面,也有显著的缺陷,毕竟它还没能接上推特的API。

5G冲浪的网友可以马上知道推特上的热门事件,但如果涉及到预训练所用的知识库盲区,539就一无所知。

比如,刚刚完成预训练的539还不知道Joe Biden已经退选,如果不重新过一遍知识库,依旧会傻傻地预测Biden当选的概率。

打开网易新闻 查看更多图片

尤其是对于那些迫在眉睫、即将见分晓的事件,这种迟钝的反应是完全比不上人类的。

更重要的是,当前的「AI预言家」没有经过微调,还未达到最优精度,仅仅是依据工程化的Prompt检索并撰写总结报告。

打开网易新闻 查看更多图片

可通过单击forecast.safe.ai中的齿轮图标找到它的prompt

此外,「自动化偏见」(automation bias)也是一个重要的问题,推特评论区也有网友问到。

打开网易新闻 查看更多图片

「自动化偏见」是社会心理学领域的发现,即人类倾向于过度依赖自动化系统的建议,而忽略而忽略非自动化方式产生的矛盾信息,即使这些信息是正确的。

作者表示,这个问题或许可以通过优化界面来改进或避免。

尽管机器人在广度、速度和准确性方面通常表现优异,但在某些特定方面,它依旧比不上人类。

比如在非常依赖专业知识的金融领域,539对市场的预测能力还没有被验证。

它的预测还可能忽视尾部风险,造成「自证预言」。如果改进这一缺陷,AI预言家的预测精度可能会得到极大的提升。

研究者称,最初将其称为超人,并不是指它在各个方面都无懈可击,只是想表达AI预言家的预测能力并不比人类逊色。

就像何恺明大神也会宣称PReLU网络在ImageNet上有「超人性能」一样,虽然也会犯人类不可能犯的错误,但不耽误AI在某些方面匹配甚至超越人类表现。

打开网易新闻 查看更多图片

「AI预言家」能干什么

如果说,以维基百科为代表的认知技术,推动了人类参与知情讨论、维持现实共识,以及构建共同的世界观,那么未来AI的用途,可能会走得更远。

作为中立的智能第三方,「AI预言家」或许可以改进决策和公共话语,有助于缓和极端、立场两极分化的事件。

完善聊天机器人功能

将AI预测功能集成到AI聊天机器人或个人AI助手中,可以辅助决策、规避风险。

例如,可以为政策制定者们提供值得信赖、公正的概率评估,还可以帮助量化专家规避风险。

打开网易新闻 查看更多图片

补充新闻报道

AI预言家还可用来补充新闻报道,比如帮助预测加州AI安全法案SB 1047成功签署的可能性。

打开网易新闻 查看更多图片

美国著名天文学家Carl Sagan曾说过,「如果单纯积累力量而不增长智慧,人类必定会走向自我毁灭的道路」。

不可否认,未来AI技术将不断变强,而其所具备的预测能力也有望为我们提供预警式和启发式的建议。

网友评论

「AI预言家」这个项目可以说是看点十足,很能吸引眼球,但推特上的网友大多持负面评论。

有人认为这只是给GPT-4o套了个壳、做了点提示工程,本质上是一个「新闻阅读器」的应用。

打开网易新闻 查看更多图片

还有人指责作者「路走歪了」,除了炒作,这类项目完全看不到价值或实际功用。

打开网易新闻 查看更多图片

此外,也有技术方面的质疑。

因为作者提到,在评估时允许机器人接入互联网,在有日期截断的前提下,防止它得知事件结果。

但「日期截断」这个功能完全不可靠,反例一抓一大把,因此评估结果也是靠不住的。

打开网易新闻 查看更多图片

其中的技术含量究竟有多少?所谓「超越人类表现」的评估结果到底能告诉我们什么?

看来只有等技术报告发布后才能得知了。

参考资料:

https://www.safe.ai/blog/forecasting

https://x.com/DanHendrycks/status/1833152719756116154