Trump当选概率有多大？UC伯克利CAIS联手打造「AI预言家」，吊打人类分析师

新智元报道

编辑：乔杨 Frey

【新智元导读】AI的能力终于癫成了和这个世界匹配的样子——来自UCB等机构的研究者们用GPT-4o，开发出了一个「AI预言家」。

LLM的神奇职能，又多了一个。

用更形象的话说，就是中国的「算命签」、欧洲的「水晶球」，可以用「超人」的能力预测未来。

去年12月，Nature就刊登了一篇研究，可以用LLM预测一个人生活中即将发生的事件，就像预测句子中的next token一样。

实验结果表明，这个模型甚至能预测一个人未来4年内死亡的可能性，准确率高达78.8%。

最近，AI安全中心总监Dan Hendrycks联合加州大学伯克利分校的研究人员，开发了一个更强大的系统FiveThirtyNine，预测更宏观的社会事件，比如「Trump能否赢得2024年大选」。

这个AI预测机器人基于GPT-4o构建，用户输入想查询的事件，FiveThirtyNine就能预测出发生的概率，就像天气预报中给出的下雨概率一样。

那么预测的准确度和可信度如何？

知名作家、民意调查师Nate Silver最近在一档节目上表示，AI不会很快取代人类预测分析师的能力。想看到超人的预测能力，起码要等15年。

Nate Silver最新预测：Trump有64%的获胜几率

但这个项目的作者表示不服，他们表示，539的表现好过经验丰富的人类预报员单打独斗，大致和一群预报员合作的表现相当，甚至更好。

因此，分析预测市场很快就能通过AI实现自动化！

从项目Demo中也能发现，539能够预测的事件范围也很广泛，比如美国大选是政坛事件，其他领域包括生物安全、AI技术、环境健康、网络安全等也都能预测。

原文地址：https://www.safe.ai/blog/forecasting

Demo地址：https://forecast.safe.ai/

除了放出博客文章和Demo，研发团队还计划出一篇详细的技术报告，虽然还没完稿，但坑位已经占上了，感兴趣的朋友可以期待下。

原文地址： https://drive.google.com/file/d/1Tc_xY1NM-US4mZ4OpzxrpTudyo1W4KsE/view

为什么给这个机器人取名叫FiveThirtyNine？

原作者特地发推解释，原来是想致敬著名的民意预测员Nate Silver，但又要表示AI的能力比他强，因此本来计划取名为Nate Gold。

但没得到本人同意，只好借用他twitter名的后缀538，再+1表示「迭代」一版，就得到了539。

FiveThirtyNine工作原理

这里，简单总结下FiveThirtyNine的工作原理。

举个例子，如果向FiveThirtyNine询问「Trump会赢得2024年美国总统大选吗？」。

接收了这一Prompt的FiveThirtyNine，就如同一个AI预言家一样，会借助搜索引擎检索相关的新闻和文章，整合信息并做出预测。

基于GPT-4o的FiveThirtyNine的预测示例

Prompt的内容也是很重要的，可能是为了复现方便，作者给出了实验中使用的prompt模板。

在充足的先验知识的基础上，FiveThirtyNine首先会依据事实总结归纳。

对一件事的Yes/No两方面，539会分别给出支持或反对的理由，再依据重要性分配相应的权重，可解释性拉满了。

比如，预测Trump当选的论据包括：票仓强劲、支持率经常被低估、刚获得的法律豁免权、他主张的经济复苏措施等等。

反面的论据也有5个，同样现实且有力，包括Harris民意调查领先、筹款优势和关键人群的支持，以及Trump本人的极化倾向和法律挑战。

总结这些论据后，FiveThirtyNine还会「酌情处理」消极新闻、抓马事件和耸人听闻的偏见，整合多重因素，给出一个初步的概率。

最后，它还需要对这个概率值进行理性分析，结合推理进一步优化，并给出校准后的概率——在本例中为52%。

AI预言家优于市场预测为了测试AI预言家的表现，作者们借助Metaculus平台的问题对其进行了评估。

为了比较的公正性，AI预言家与人工预言家使用相同的信息。

值得注意的是，GPT-4o的数据仅囊括2023年10月之前的，因此研究者将新闻和文章都限定在该日期前，要求539和人类分别计算Metaculus中177个事件发生的概率。

针对这177个事件，Metaculus自身模型的预测准确率为87.0%，而FiveThirtyNine将其提升至87.7%±1.4。

相对于市场预测，AI预言家具有多种其无法比拟的优势。如，它能在几秒内快速生成预测，速度比当前市场预测高了几个数量级。

不仅速度更快，还不需要额外的奖励机制去优化预测，在精度相当的情况下，显然AI预言家更具性价比。

局限性

虽然作者放话表示，AI预言家已经优于人类预测员，但这个机器人依旧存在不少工程和性能上的局限性。

比如，539依旧会对无效查询做出回应，因为作者还没给它加上拒绝功能。

实时更新知识库这方面，也有显著的缺陷，毕竟它还没能接上推特的API。

5G冲浪的网友可以马上知道推特上的热门事件，但如果涉及到预训练所用的知识库盲区，539就一无所知。

比如，刚刚完成预训练的539还不知道Joe Biden已经退选，如果不重新过一遍知识库，依旧会傻傻地预测Biden当选的概率。

尤其是对于那些迫在眉睫、即将见分晓的事件，这种迟钝的反应是完全比不上人类的。

更重要的是，当前的「AI预言家」没有经过微调，还未达到最优精度，仅仅是依据工程化的Prompt检索并撰写总结报告。

可通过单击forecast.safe.ai中的齿轮图标找到它的prompt

此外，「自动化偏见」（automation bias）也是一个重要的问题，推特评论区也有网友问到。

「自动化偏见」是社会心理学领域的发现，即人类倾向于过度依赖自动化系统的建议，而忽略而忽略非自动化方式产生的矛盾信息，即使这些信息是正确的。

作者表示，这个问题或许可以通过优化界面来改进或避免。

尽管机器人在广度、速度和准确性方面通常表现优异，但在某些特定方面，它依旧比不上人类。

比如在非常依赖专业知识的金融领域，539对市场的预测能力还没有被验证。

它的预测还可能忽视尾部风险，造成「自证预言」。如果改进这一缺陷，AI预言家的预测精度可能会得到极大的提升。

研究者称，最初将其称为超人，并不是指它在各个方面都无懈可击，只是想表达AI预言家的预测能力并不比人类逊色。

就像何恺明大神也会宣称PReLU网络在ImageNet上有「超人性能」一样，虽然也会犯人类不可能犯的错误，但不耽误AI在某些方面匹配甚至超越人类表现。

「AI预言家」能干什么

如果说，以维基百科为代表的认知技术，推动了人类参与知情讨论、维持现实共识，以及构建共同的世界观，那么未来AI的用途，可能会走得更远。

作为中立的智能第三方，「AI预言家」或许可以改进决策和公共话语，有助于缓和极端、立场两极分化的事件。

完善聊天机器人功能

将AI预测功能集成到AI聊天机器人或个人AI助手中，可以辅助决策、规避风险。

例如，可以为政策制定者们提供值得信赖、公正的概率评估，还可以帮助量化专家规避风险。

补充新闻报道

AI预言家还可用来补充新闻报道，比如帮助预测加州AI安全法案SB 1047成功签署的可能性。

美国著名天文学家Carl Sagan曾说过，「如果单纯积累力量而不增长智慧，人类必定会走向自我毁灭的道路」。

不可否认，未来AI技术将不断变强，而其所具备的预测能力也有望为我们提供预警式和启发式的建议。

网友评论

「AI预言家」这个项目可以说是看点十足，很能吸引眼球，但推特上的网友大多持负面评论。

有人认为这只是给GPT-4o套了个壳、做了点提示工程，本质上是一个「新闻阅读器」的应用。

还有人指责作者「路走歪了」，除了炒作，这类项目完全看不到价值或实际功用。

此外，也有技术方面的质疑。

因为作者提到，在评估时允许机器人接入互联网，在有日期截断的前提下，防止它得知事件结果。

但「日期截断」这个功能完全不可靠，反例一抓一大把，因此评估结果也是靠不住的。

其中的技术含量究竟有多少？所谓「超越人类表现」的评估结果到底能告诉我们什么？

看来只有等技术报告发布后才能得知了。

参考资料：

https://www.safe.ai/blog/forecasting

https://x.com/DanHendrycks/status/1833152719756116154

Trump当选概率有多大？UC伯克利CAIS联手打造「AI预言家」，吊打人类分析师

机器人策略学习的Game Changer？伯克利提出Body Transformer

AI三重劫

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

国内开店卷不动，换上AI出海试试

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

顶级AI投资人发起中国大模型群聊：十大趋势、具身智能、AI超级应用

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

OpenAI o1式思维链，开源模型也可以有，成功案例来了

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

00后CEO杨丰瑜：回国创业，五个月造出首款「可量产」人形机器人

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

具身智能让AI直接作用于物理世界，前所未有地颠覆了生产力

大疆前高管带6人创业，做出了类目Top1的割草机器人

o1方法性能无上限！马腾宇等证明：推理token够多，就能解决问题

Trump当选概率有多大？UC伯克利CAIS联手打造「AI预言家」，吊打人类分析师

机器人策略学习的Game Changer？伯克利提出Body Transformer

AI三重劫

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

国内开店卷不动，换上AI出海试试

最有打工天赋的机器人出现了！一镜到底的连续大负载搬运，动态超稳，来自国产的逐际动力

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

机器人独立造车真的可行吗？网友脑洞大开试验，结果来了！

顶级AI投资人发起中国大模型群聊：十大趋势、具身智能、AI超级应用

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽 因过于逼真被怀疑是真人套壳——人形机器人初

OpenAI o1式思维链，开源模型也可以有，成功案例来了

全世界跑得最快的人形机器人，还能跳科目三 都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

00后CEO杨丰瑜：回国创业，五个月造出首款「可量产」人形机器人

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗 在世界顶级黑客大会DEF CON上，两名

不会写代码全交给AI，它能写出完整的APP吗？这是我们的测试结果

练习时长两年半，机器人转笔大师诞生！ 不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到

具身智能让AI直接作用于物理世界，前所未有地颠覆了生产力

大疆前高管带6人创业，做出了类目Top1的割草机器人

o1方法性能无上限！马腾宇等证明：推理token够多，就能解决问题

机器人身穿衣服做家务被质疑！来自OpenAI押注的独角兽因过于逼真被怀疑是真人套壳——人形机器人初

全世界跑得最快的人形机器人，还能跳科目三都知道波士顿动力的机器人会空翻，那你知道中国品牌宇树科技有

扫地机器人成偷窥神器！远程开摄像头麦克风，生活隐私一览无遗在世界顶级黑客大会DEF CON上，两名

练习时长两年半，机器人转笔大师诞生！不同粗细、不同重量的笔，甚至是针筒都转得非常丝滑，它是怎么做到