艾伦研究所与华盛顿大学推出OpenScholar，用小参数超越GPT-4o

近几十年来，全球科学研究的进展促使论文数量迅猛增长，每年有数百万篇研究成果被发表，这一方面为科研人员提供了丰富的参考资源，推动了知识的积累和共享，但另一方面，也带来了难以应对的信息过载问题。科研人员面对如此庞大的文献量，往往难以快速找到高质量、相关性强的研究，从而影响了科研效率和创新。

图丨各大出版商每年发表的文章总数的变化（来源：OpenAlex）

直到人工智能凭借其能力给这一问题带来解决方案。从最初的尝鲜与不信任，再到现在逐渐融入科研日常，越来越多的研究人员开始使用 ChatGPT、Perplexity 等 AI 工具来进行文献检索和信息综合。

然而，这些通用模型在处理科学问题时往往存在生成幻觉、成本高昂以及参数规模过大的缺陷，限制了它们在科学领域的适用性。

为此，由艾伦人工智能研究所 (Ai2) 和华盛顿大学合作，开发了一个针对科研的开源模型 OpenScholar。

图丨 OpenScholar（来源：Ai2）

作为一种“检索增强型语言模型”（Retrieval-Augmented Language Model），它将尖端检索系统与经过微调的语言模型相结合，旨在应对科学查询时能够检索出相关文献并生成带有真实引用的综合性回答，其核心架构由以下部分构成。

就其数据存储而言，主要包含来自 Semantic Scholar 的 4500 万篇开放获取的论文和约 2.5 亿个相应的段落嵌入。这些数据来自 peS2o 的更新版本其中包含截至 2024 年 10 月的论文，是目前科学领域最大的开源数据库之一。

每篇文献都被分割为独立的段落，并通过嵌入技术进行向量化处理，使模型可以根据查询高效地检索到最相关的内容。相比于通常只依靠训练数据的语言模型，OpenScholar 能够较大程度地克服许多传统模型存在的“幻觉”（即生成不存在或错误引用）的不足，提升内容的可信度和引用的准确性。

在检索时，模型会利用经过专门训练的检索器（OpenScholar-Retriever）从中找到与查询最相关的文献段落。检索器的初始候选段落由双编码器（bi-encoder）进行预筛选，然后通过交叉编码器（cross-encoder）进行重排，以确保检索结果的准确性和相关性。

双编码器主要用于对文献段落和查询进行编码，并通过计算余弦相似度来进行初步筛选，生成候选段落集合。接下来，交叉编码器会对每个候选段落与查询进行联合编码，以捕捉更深层次的语义关联，从而生成更精确的重排分数。这种组合使用双编码器和交叉编码器的方式，既保证了初步检索的速度，又确保了最终返回段落的质量。

图丨 OpenScholar 流程概述（来源：Ai2）

接下来，经过筛选的文献段落会被传递给 OpenScholar 的生成模块——一个经过专门训练的 Llama 3.1 8B 参数语言模型。该模型结合上下文段落与输入的科研问题，生成初步的回答。在生成回答后，OpenScholar 引入了一种自我反馈机制。

这种自我反馈迭代过程被称为检索增强的自我反馈推理，它包含三个主要步骤：（1）初步回答生成及反馈生成，（2）基于反馈的检索与迭代改进，以及（3）引用验证。

首先，初步回答生成及反馈生成的步骤中，模型不仅生成对问题的回答，还会生成一系列自然语言的反馈，这些反馈包含对初步回答中可能存在的问题的描述，例如需要补充哪些细节、改进哪些组织结构等。

其次，在基于反馈的检索与迭代改进阶段，模型使用生成的反馈来检索更多相关文献，进一步完善回答内容。最后，在引用验证阶段，模型会对回答中的每个引用进行核查，以确保每个科学论断都有足够的文献支持。

为了评估 OpenScholar 的性能，研究团队开发了首个跨学科的大规模文献检索基准—ScholarQABench，涵盖了计算机科学、物理学、神经科学和生物医学等领域，共包括 2967 个专家编写的问题和 208 个长篇回答。

与现有系统相比，OpenScholar 表现出显著优势。在测试中，OpenScholar-8B 的回答准确度超过了 GPT-4o 模型 5%，比基于 GPT-4o 构建的 PaperQA2 高出 7%。

（来源：Ai2）

在回答开放式研究问题时，团队发现 GPT-4o 在 78%–90% 的情况下会生成虚假的引用，OpenScholar 却达到了与人类专家相当的引用准确度。

值得一提的是，OpenScholar 的数据存储、检索器和重新排序模型以及自反馈生成管道还可以应用于其他现成的语言模型。将其应用在 GPT-4o 时，模型的准确度提高了 12%。

另外，专家评审中，在对比模型生成的回答与人类专家编写的回答时，51% 的情况下，专家更倾向于 OpenScholar-8B 的回答，而 OpenScholar 结合 GPT-4o 的版本更是达到了 70% 的偏好率，远超 GPT-4o 的 32%。

不过，在剩余的 30% 的情况中，模型也存在未能引用基础论文或选择代表性较低的研究等不足。

另外，由于该模型的数据主要来自于开放获取论文，这在一定程度上限制了它在一些高风险领域（如制药业）的应用，因为这些领域的大部分研究是付费获取的。且其生成成果在很大程度上依赖于检索数据的质量。如果检索步骤失败，整个流程可能会产生次优的结果。

所以，这类人工智能工具的存在，依旧是为了增强而非取代人类的专业知识。它的目标是通过处理耗时的文献综合任务来帮助研究人员，使他们能够专注于解释和推进知识。

目前，OpenScholar 的代码、模型、数据存储、评估工具等已全部开源（项目地址：https://github.com/AkariAsai/OpenScholar）。

参考资料：

1. https://openscholar.allen.ai/paper

2. https://allenai.org/blog/openscholar

3.https://venturebeat.com/ai/openscholar-the-open-source-a-i-thats-outperforming-gpt-4o-in-scientific-research/

运营/排版：何晨龙

艾伦研究所与华盛顿大学推出OpenScholar，用小参数超越GPT-4o

从科研小白，到如今每年都能发一篇高质量文章，我做对了 3 件事

换个角度发表一篇顶刊，好像这样也行

IF：10+，版面费高达 6 万，科研人却要挤破头发表，硕博生：让我看看它到底有啥魔力

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增一席

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

谁挑起了数据库跑分大战？

53年，文件的“特殊要求”惹怒彭老总，怒斥道：有皇帝要选妃？

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

投文章被拒没事哒，多拒几次自然就「疯」啦

丁俊晖最艰难的一局，两颗球连鞭三杆斯诺克，做球堪比计算机！

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

机器人策略学习的Game Changer？伯克利提出Body Transformer

无数据不智能，数据闭环重塑高阶智驾未来

很多学生没想到，参考文献有问题也会被拒稿

军事爱好者用不锈钢制作航母模型，网友：这也太硬核了

姐姐疼爱弟弟送其大房子，弟弟告上法庭

获学校资助的家庭困难学生晒国内外旅游照片？浙江大学相关部门回应

艾伦研究所与华盛顿大学推出OpenScholar，用小参数超越GPT-4o

从科研小白，到如今每年都能发一篇高质量文章，我做对了 3 件事

换个角度发表一篇顶刊，好像这样也行

IF：10+，版面费高达 6 万，科研人却要挤破头发表，硕博生：让我看看它到底有啥魔力

室温超导学术不端、多次Nature撤稿，这位印度裔学者被大学解雇

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增 一席

一篇论文没发，师兄竟获得诺贝奖，他当场致谢了让自己延毕的导师

研究生偷卖实验室「废品」月入过万，导师：这钱拿来补贴经费就闭环了

惨了，因质粒用错，博士被撤稿，痛失学位，导师：我不允许各位重蹈覆辙

谁挑起了数据库跑分大战？

53年，文件的“特殊要求”惹怒彭老总，怒斥道：有皇帝要选妃？

「全球最严榜单」，阶跃拿下中国TOP 1！杀入世界前五，超过GPT-4o紧跟o1-mini

投文章被拒没事哒，多拒几次自然就「疯」啦

丁俊晖最艰难的一局，两颗球连鞭三杆斯诺克，做球堪比计算机！

大模型玩你画我猜：Claude6局3胜，GPT-4o表现迷惑

机器人策略学习的Game Changer？伯克利提出Body Transformer

无数据不智能，数据闭环重塑高阶智驾未来

很多学生没想到，参考文献有问题也会被拒稿

军事爱好者用不锈钢制作航母模型，网友：这也太硬核了

姐姐疼爱弟弟送其大房子，弟弟告上法庭

获学校资助的家庭困难学生晒国内外旅游照片？浙江大学相关部门回应

为了能当领导，我爸给我报的每个志愿都是「人力资源管理」｜梁彦增一席