科研党狂喜！AI预测神经学研究结论超人类专家水平

奇月发自凹非寺量子位 | 公众号 QbitAI

LLM可以比科学家更准确地预测神经学的研究结果！

最近，来自伦敦大学学院、剑桥大学、牛津大学等机构的团队发布了一个神经学专用基准BrainBench，登上了Nature子刊《自然人类行为（Nature human behavior）》。

结果显示，经过该基准训练的LLM在预测神经科学结果的准确度方面高达81.4%，远超人类专家的63%。

在神经学常见的5个子领域：行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中，LLM的表现也都全方位超过了人类专家。

更重要的是，这些模型被证实对于数据没有明显的记忆。

也就是说，它们已经掌握了一般科研的普遍模式，可以做更多的前瞻性（Forward-looking）预测、预测未知的事物。

这立马引发科研圈的围观。

多位教授和博士后博士后也表示，以后就可以让LLM帮忙判断更多研究的可行性了，nice！

LLM预测能力全面超越人类专家

让我们先来看看论文的几个重要结论：

总体结果：LLMs在BrainBench上的平均准确率为81.4%，而人类专家的平均准确率63.4%。LLMs的表现显著优于人类专家

子领域表现：在神经科学的几个重要的子领域：行为/认知、细胞/分子、系统/回路、神经疾病的神经生物学以及发育/塑性和修复中，LLMs在每个子领域的表现均优于人类专家，特别是在行为认知和系统/回路领域。

模型对比：较小的模型如Llama2-7B和Mistral-7B与较大的模型表现相当，而聊天或指令优化模型的表现不如其基础模型。

人类专家的表现：大多数人类专家是博士学生、博士后研究员或教职员工。当限制人类响应为自我报告专业知识的最高20%时，准确率上升到66.2%，但仍低于LLMS。

置信度校准：LLMs和人类专家的置信度都校准良好，高置信度的预测更有可能是正确的。

记忆评估：没有迹象表明LLMs记忆了BrainBench项目。使用zlib压缩率和困惑度比率的分析表明，LLMs学习的是广泛的科学模式，而不是记忆训练数据。

全新神经学基准

本论文的一个重要贡献，就是提出了一个前瞻性的基准测试BrainBench，可以专门用于评估LLM在预测神经科学结果方面的能力。

那么，具体是怎么做到的呢？

数据收集

首先，团队利用PubMed获取了2002年至2022年间332807篇神经科学研究相关的摘要，从PubMed Central Open Access Subset（PMC OAS）中提取了123085篇全文文章，总计13亿个tokens。

评估LLM和人类专家

其次，在上面收集的数据的基础上，团队为BrainBench创建了测试用例，主要通过修改论文摘要来实现。

具体来说，每个测试用例包括两个版本的摘要：一个是原始版本，另一个是经过修改的版本。修改后的摘要会显著改变研究结果，但保持整体连贯性。

测试者的任务是选择哪个版本包含实际的研究结果。

团队使用Eleuther Al Language Model EvaluationHaress框架，让LLM在两个版本的摘要之间进行选择，通过困惑度（perplexity）来衡量其偏好。困惑度越低，表示模型越喜欢该摘要。

对人类专家行为的评估也是在相同测试用例上进行选择，他们还需要提供自信度和专业知识评分。最终参与实验的神经科学专家有171名。

实验使用的LLM是经过预训练的Mistral-7B-v0.1模型。通过LoRA技术进行微调后，准确度还能再增加3%。

评估LLM是否纯记忆

为了衡量LLM是否掌握了思维逻辑，团队还使用zlib压缩率和困惑度比率来评估LLMs是否记忆了训练数据。公式如下：

其中，ZLIB（X）表示文本X的zlib压缩率，PPL（X）表示文本X的困惑度。

部分研究者认为只能当作辅助

这篇论文向我们展示了神经科学研究的一个新方向，或许未来在前期探索的时候，神经学专家都可以借助LLM的力量进行初步的科研想法筛选，剔除一些在方法、背景信息等方面存在明显问题的计划等。

但同时也有很多研究者对LLM的这个用法表示了质疑。

有人认为实验才是科研最重要的部分，任何预测都没什么必要：

还有研究者认为科研的重点可能在于精确的解释。

此外，也有网友指出实验中的测试方法只考虑到了简单的AB假设检验，真实研究中还有很多涉及到平均值/方差的情况。

整体来看，这个研究对于神经学科研工作的发展还是非常有启发意义的，未来也有可能扩展到更多的学术研究领域。

研究人员们怎么看呢？

参考链接：
[1]https://www.nature.com/articles/s41562-024-02046-9#author-information
[2]https://github.com/braingpt-lovelab/BrainBench

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nature子刊

奇月发自凹非寺量子位 | 公众号 QbitAI

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

如何实现认知神经科学概念与理论的统一？

最牛跑路导师，凌晨 2 点说跑就跑，学生：悬着的心终于死了

海南陵水摊主称遭同行投放不明液体，海鲜死亡

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

科学家研发数字孪生脑平台，实现对人脑结构和功能的模拟

库尔斯克被指成俄乌激战焦点乌军：俄军踩着尸体推进

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

梅州唯一！梅州这所中学的这位美女老师厉害了

实验告诉我脸垮一定要练背背薄了手臂紧了穿衣更好看了

吴柳芳透露为何做主播：当过老师被拖欠工资，当教练编制还被人抢

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

知识分子的良心！何祚庥自评：一对又笨又傻的老人在尽历史责任

爆笑相声：“科学家的底子说了相声” 曲阜王声

只是做了个小实验竟然引出十来万嫌疑人

在阿里，痛苦的人开始信教

导师梦想成为诺奖得主，学生竟劝他：醒醒吧，你连一篇 Nature 都没发

科研党狂喜！AI预测神经学研究结论超人类专家水平 | Nature子刊

奇月 发自 凹非寺量子位 | 公众号 QbitAI

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

惊天反转！LeCun竟与奥特曼达成共识：承认AGI 5到10年降临，但LLM注定死路一条

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

如何实现认知神经科学概念与理论的统一？

最牛跑路导师，凌晨 2 点说跑就跑，学生：悬着的心终于死了

海南陵水摊主称遭同行投放不明液体，海鲜死亡

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

科学家研发数字孪生脑平台，实现对人脑结构和功能的模拟

库尔斯克被指成俄乌激战焦点 乌军：俄军踩着尸体推进

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

梅州唯一！梅州这所中学的这位美女老师厉害了

实验告诉我脸垮一定要练背背薄了手臂紧了穿衣更好看了

吴柳芳透露为何做主播：当过老师被拖欠工资，当教练编制还被人抢

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

知识分子的良心！何祚庥自评：一对又笨又傻的老人在尽历史责任

爆笑相声：“科学家的底子说了相声” 曲阜 王声

只是做了个小实验竟然引出十来万嫌疑人

在阿里，痛苦的人开始信教

导师梦想成为诺奖得主，学生竟劝他：醒醒吧，你连一篇 Nature 都没发

奇月发自凹非寺量子位 | 公众号 QbitAI

库尔斯克被指成俄乌激战焦点乌军：俄军踩着尸体推进

爆笑相声：“科学家的底子说了相声” 曲阜王声