谷歌DeepMind报告称AI for Science黄金时代已来（36 页报告全文）

2024年11月，Google DeepMind发布报告《A new golden age of discovery： Seizing the AI for Science Opportunity》。

这份报告揭示出：全球实验室 AI 使用正在指数级增长，AI for Science真正的黄金时代即将来临。

其中还提到了五个能够利用 AI 来促进科研的机遇，包括知识、数据、实验、模型、解决方案。

DeepMind成立于2010年，以突破性成果闻名，包括在围棋领域击败顶级棋手的AlphaGo、预测蛋白质结构的AlphaFold，以及在气候预测和基因研究等领域的创新应用。

它以多学科合作为核心，注重技术的安全性和社会责任，目标是让AI成为解决全球性挑战的关键力量，为人类创造更美好的未来。

以下为《报告》原文：

引言

在全球各地的实验室中，一场静悄悄的革命正在酝酿之中，科学家使用人工智能（AI）的情况正呈指数级增长。现在，三分之一的博士后研究人员使用大型语言模型来帮助进行文献回顾、编码和编辑工作。在10月份，我们的AlphaFold 2系统的创造者Demis Hassabis和John Jumper因使用AI预测蛋白质结构而与科学家David Baker一同成为了诺贝尔化学奖得主，后者的工作是设计新蛋白质。随着AI帮助设计的药物和材料正在开发中，社会很快将更直接地感受到这些好处。

在这篇文章中，我们将探讨AI如何转变从基因组学到计算机科学再到天气预报的科学学科。一些科学家正在训练他们自己的AI模型，而另一些则在微调现有的AI模型，或者使用这些模型的预测来加速他们的研究。科学家们将AI作为一种科学工具来帮助解决重要问题，例如设计更紧密地结合疾病靶点的蛋白质，但同时他们也在逐渐改变科学本身的实践方式。

科学家拥抱AI的背后有一个日益增长的迫切性。近几十年来，科学家们继续取得重大进展，从Covid-19疫苗到可再生能源。但实现这些突破所需的研究人员数量越来越多，并且将这些突破转化为下游应用。因此，尽管过去半个世纪以来科学劳动力显著增长，仅在美国就增长了七倍以上，我们预期随之而来的社会进步却放缓了。例如，世界许多地区都经历了生产率增长的持续放缓，这削弱了公共服务的质量。朝着2030年可持续发展目标的进展，这些目标涵盖了健康、环境等方面最大的挑战，正在停滞。

特别是，今天的科学家在寻求突破时越来越多地遇到与规模和复杂性相关的挑战，从他们需要掌握的日益增长的文献基础，到他们想要运行的日益复杂的实验。现代深度学习方法特别适合这些规模和复杂性的挑战，并且可以压缩未来科学进步所需的时间。例如，在结构生物学中，单次X射线晶体学实验确定蛋白质结构可能需要数年的工作，并且根据蛋白质的不同，成本大约为10万美元。AlphaFold蛋白质结构数据库现在免费提供即时访问2亿个预测的蛋白质结构。

AI对科学的潜在好处并不是有保证的。已经有一部分科学家使用基于LLM（大型语言模型）的工具来协助日常任务，例如编码和编辑，但使用以AI为中心的研究方法的科学家比例要低得多，尽管这个比例正在迅速上升。在急于使用AI的过程中，一些早期的科学用例的影响值得怀疑。政策制定者可以帮助加速AI的使用，并将其引导向更高影响的领域。美国能源部、欧盟委员会、英国皇家学会和美国国家科学院等机构最近都认识到了AI for Science的机会。但迄今为止，还没有哪个国家制定了全面的战略来实现它。

我们希望我们的文章能够为这样的战略提供信息。它的目标是那些制定和影响科学政策以及资金决策的人。我们首先确定了5个越来越需要使用AI的机遇领域，并检查了在这些领域取得突破所需的主要要素。然后，我们探讨了使用AI在科学中最常见的风险，例如对科学创造力和可靠性的风险，并认为AI最终可以在每个领域都是净有益的。我们以四个公共政策理念结束，帮助迎接一个新的AI赋能科学的黄金时代。

在整个文章中，我们借鉴了来自我们自己的AI for Science项目以及外部专家的二十多位专家的见解。文章自然反映了我们作为一个私营部门实验室的观点，但我们相信我们提出的论点对整个科学界都是相关的。我们希望读者通过分享他们对最重要的AI for Science机会、要素、风险和政策理念的看法来做出回应。

Part A: 机遇

科学家的目标是理解、预测和影响自然和社会世界的运作，以激发和满足好奇心，并解决社会面临的重大问题。技术和方法，如显微镜、X射线衍射和统计学，既是科学的产物，也是推动科学进步的工具。在过去的一个世纪中，科学家越来越依赖这些工具来进行实验和推进理论。计算工具和大规模数据分析变得尤为重要，使得从发现希格斯玻色子到绘制人类基因组图谱成为可能。从某种角度看，科学家越来越多地使用人工智能是这一长期趋势的逻辑延伸。但它也可能标志着更为深刻的变化——科学能力极限的不连续跃升。

与其列出所有可能使用AI的领域，我们强调了五个我们认为有使用AI的迫切需要的机会。这些机会跨越学科，并解决科学家在科学过程中的不同点越来越多地面临的与规模和复杂性相关的具体瓶颈，从生成有力的新假设到与世界分享他们的工作。

1. 知识

改变科学家笑话和传播知识的方式

为了做出新发现，科学家需要掌握不断增长且日益专业化的现有知识体系。这种“知识负担”有助于解释为什么做出变革性发现的科学家越来越年长、跨学科，并且位于精英大学，以及为什么个人或小团队撰写的论文比例正在下降，尽管小团队通常更有可能推进颠覆性的科学思想。在分享他们的研究成果方面，已经有了一些受欢迎的创新，如预印本服务器和代码库，但大多数科学家仍然以密集、充满行话、仅限英文的论文形式分享他们的发现。这可能会阻碍而不是激发对科学家工作的兴趣，包括来自政策制定者、企业和公众的兴趣。

科学家已经开始使用LLM（大型语言模型）和基于LLM的早期科学助手来帮助解决这些挑战，例如通过综合文献中最相关的见解。在一个早期的演示中，我们的科学团队使用我们的Gemini LLM在一天之内从20万篇论文中最相关的子集中找到、提取和填充特定数据。随着对更多科学数据的微调、长上下文窗口和引用使用的进展，这些能力将稳步提高。正如我们下面将要展开的，这些机会并非没有风险。但它们提供了一个窗口，可以从根本上重新思考某些科学任务，例如在一个科学家可以使用LLM帮助批评它、为不同受众定制其含义或将其转换为“交互式论文”或音频指南的世界中，“阅读”或“编写”科学论文意味着什么。

2. 数据

生成、提取和注释大模型科学数据集

尽管流行的说法是数据泛滥的时代，但大多数自然和社会世界的科学数据都存在长期的缺乏，从土壤、深海和大气到非正规经济。AI可以在不同的方式上提供帮助。它可以使现有的数据收集更准确，例如通过减少测序DNA、检测样本中的细胞类型或捕获动物声音时可能发生的噪声和错误。科学家还可以利用LLM在图像、视频和音频上日益增长的能力，提取埋藏在科学出版物、档案和不太明显的资源（如指导视频）中的非结构化科学数据，并将其转换为结构化数据集。

AI还可以帮助用科学家需要的支持信息注释科学数据，以便使用它。例如，至少有三分之一的微生物蛋白质没有可靠地注释其被认为执行的功能。在2022年，我们的研究人员使用AI预测蛋白质的功能，导致UniProt、Pfam和InterPro数据库中出现了新条目。

一旦验证，AI模型也可以作为新的合成科学数据的来源。例如，我们的AlphaProteo蛋白质设计模型训练于超过1亿个由AlphaFold 2生成的AI蛋白质结构，以及来自蛋白质数据银行的实验结构。这些AI机会可以补充并增加其他非常需要的努力来生成科学数据，如数字化档案，或资助新的数据捕获技术和方法，如正在进行的单细胞基因组学努力，以创建个体细胞的强大数据集，细节前所未有。

3. 实验

模拟、加速个通知复杂实验

许多科学实验昂贵、复杂且缓慢。有些实验根本没有发生，因为研究人员无法获得他们所需的设施、参与者或输入。聚变就是一个例子。它承诺了一种几乎无限的、无排放的能源，并且可能使得能源密集型的创新规模化，如海水淡化。要实现聚变，科学家需要创造和控制等离子体——物质的第四种基本状态。然而，所需的设施极其复杂，难以建造。ITER的原型托卡马克反应堆于2013年开始建设，但等离子体实验最早要到2030年代中期才开始，尽管其他人希望在更短的时间内建造更小的反应堆。

AI可以帮助模拟聚变实验，并使随后的实验时间使用更加高效。一种方法是在物理系统的模拟上运行强化学习代理。在2019年至2021年之间，我们的研究人员与洛桑联邦理工学院合作，展示了如何使用RL控制模拟的托卡马克反应堆中等离子体的形状。这些方法可以扩展到其他实验设施，如粒子加速器、望远镜阵列或引力波探测器。

使用AI模拟实验在不同学科中看起来会非常不同，但一个共同点是模拟通常会通知和指导物理实验，而不是替代它们。例如，普通人的DNA中有超过9000个错义变异，或单字母替换。这些遗传变异大多数是良性的，但有些可能会破坏蛋白质执行的功能，导致罕见遗传疾病如囊性纤维化以及常见疾病如癌症。对这些变异影响的物理实验通常限于单一蛋白质。我们的AlphaMissense模型将7100万个潜在的人类错义变异中的89%分类为可能无害或有害，使科学家能够将他们的物理实验集中在最可能导致疾病的变异上。

4. 模型

建模复杂系统及其组件如何相互作用

在1960年的一篇论文中，诺贝尔奖获得者物理学家尤金·维格纳对数学方程在模拟重要自然现象（如行星运动）方面的“不合理的有效性”感到惊讶。然而，在过去的半个世纪中，依赖于一组方程或其他确定性假设的模型在捕捉生物学、经济学、天气等领域的系统的全部复杂性方面一直存在困难。这反映了这些系统的组成部分数量庞大，以及它们的动态性和潜在的突发性、随机性或混沌行为。在模拟这些系统方面的挑战阻碍了科学家预测或控制它们将如何行为的能力，包括在冲击或干预期间，如气温上升、新药物或税收政策的引入。

AI可以通过吸收更多关于它们的数据，并在这些数据中学习更强大的模式和规律，更准确地模拟这些复杂系统。例如，现代天气预报是科学和工程的胜利。对于政府和工业来说，它通知了从可再生能源规划到准备飓风和洪水的一切。对于公众来说，天气是谷歌搜索上最受欢迎的非品牌查询。传统的数值预测方法基于精心定义的物理方程，提供了非常有用但不完美的大气复杂动态的近似。它们在运行时也是计算成本高昂的。在2023年，我们发布了一个深度学习系统，可以预测多达10天的气候条件，这在准确性和预测速度上超越了传统模型。正如我们下面将要展开的，使用AI预测天气变量也可以帮助减轻和应对气候变化。例如，当飞行员飞越潮湿地区时，可能会导致凝结尾迹，这有助于航空对全球变暖的影响。谷歌科学家最近使用AI预测何时何地可能出现潮湿地区，以帮助飞行员避免飞越它们。

在许多情况下，AI将丰富传统的方法来模拟复杂系统，而不是取代它们。例如，基于代理的建模模拟了个体行为者之间的相互作用，如公司和消费者，以了解这些相互作用可能如何影响一个更大的更复杂的系统，如经济。传统的方法要求科学家事先指定这些计算代理应该如何行为。我们的研究团队最近概述了科学家如何使用LLM创建更灵活的生成代理，它们可以通信和采取行动，如搜索信息或进行购买，同时也推理和记住这些行动。科学家还可以使用强化学习来研究这些代理如何在更动态的模拟中学习和适应他们的行为，例如在引入新的能源价格或大流行应对政策时。

5. 解决方案

识别具有大搜索空间问题的新解决方案

许多重要的科学问题伴随着实际上难以理解的潜在解决方案数量。例如，生物学家和化学家的目标是确定分子的结构、特性和功能，如蛋白质。这样的工作的一个目标是帮助设计这些分子的新版本，作为抗体药物、塑料降解酶或新材料。然而，要设计一个小分子药物，科学家面临着超过10^60个潜在选项。要设计一个具有400个标准氨基酸的蛋白质，他们面临着2^400个选项。这些大搜索空间不仅限于分子，而是许多科学问题的常见现象，如寻找数学问题的最好证明，计算机科学任务的最有效算法，或计算机芯片的最佳架构。

传统上，科学家依赖于直觉、试错、迭代或蛮力计算的某种组合来找到最好的分子、证明或算法。然而，这些方法难以利用潜在解决方案的巨大空间，留下更好的未被发现。AI可以开辟这些搜索空间的新部分，同时也更快地锁定最有可能可行和有用的解决方案——这是一个微妙的平衡行为。例如，在7月，我们的AlphaProof和AlphaGeometry 2系统正确解决了国际数学奥林匹克竞赛中的六个问题中的四个，这是一个精英高中竞赛。这些系统利用我们的Gemini LLM架构为给定的数学问题生成大量新的想法和潜在解决方案，并结合在数学逻辑基础上的系统，可以迭代地朝着最有可能正确的候选解决方案工作。

AI科学家或AI赋能的科学家？

AI在科学中的日益增长的使用，以及早期AI科学助手的出现，引发了关于AI的能力将如何快速发展以及对人类科学家意味着什么的疑问。当前基于LLM的AI科学助手对相对较窄范围的任务做出了相对较小的贡献，例如支持文献综述。在不久的将来，它们有可能在这些任务上变得更好，并且能够承担更有意义的任务，如帮助生成有力的假设或帮助预测实验结果。然而，当前的系统仍然难以处理人类科学家依赖于这些任务的更深层次的创造力和推理。正在努力提高这些AI能力，例如通过将LLM与逻辑推理引擎结合，如我们的AlphaProof和AlphaGeometry 2示例，但需要进一步的突破。加速或自动化实验的能力对于那些需要在湿实验室中进行复杂操作、与人类参与者互动或漫长过程（如监测疾病进展）的实验来说将更加困难。尽管如此，这些领域的工作正在进行中，例如新型实验室机器人和自动化实验室。

即使AI系统的能力得到提高，最大的边际收益也将来自于将它们部署在发挥其相对优势的用例中——例如，从大型数据集中快速提取信息的能力——以及帮助解决真正的科学进步瓶颈，如上述五个机会，而不是自动化人类科学家已经做得很好的任务。随着AI使科学变得更便宜、更强大，对科学和科学家的需求也将增长。

例如，最近的突破已经导致在蛋白质设计、材料科学和天气预报等领域出现了许多新的初创公司。与其他部门不同，尽管过去有相反的说法，但对未来科学的需求似乎是实际上无限的。新的进展总是打开了科学知识地图中新的、不可预测的区域，AI也将如此。正如赫伯特·西蒙所设想的，AI系统也将成为科学研究的对象，科学家将发挥领导作用，评估和解释他们的科学能力，以及开发新型的人类-AI科学系统。

Part B: 要素

我们对AI for Science努力成功的要素感兴趣——这些要素既涉及单个研究工作层面，也涉及科学生态系统层面，政策制定者在后者中有更大的影响力来塑造它们。我们采访的专家们经常引用几个要素，我们将它们组织成一个玩具模型，我们称之为AI for Science生产函数。这个生产函数并不意味着是全面的、规定的或一个整洁的线性过程。这些要素对许多人来说是直观的，但我们的采访揭示了它们在实践中的样子的一些教训，我们在下面分享。

1. 问题选择

追求雄心勃勃的、AI塑造的问题

科学进步取决于能够识别一个重要的问题以及提出关于如何解决它的正确问题。在他们对科学突破起源的探索中，Venkatesh Narayanamurti和Jeffrey Y. Tsao记录了问题和答案之间相互和递归关系的重要性，包括提出雄心勃勃的新问题的重要性。

我们的科学团队首先考虑一个潜在的研究问题是否足够重要，以证明投入大量时间和资源的合理性。我们的首席执行官Demis Hassabis有一个心理模型来指导这个评估：将所有科学视为知识树。我们特别感兴趣的是根——基本的“根节点问题”，如蛋白质结构预测或量子化学，如果解决了，可以解锁全新的研究和应用分支。

为了评估AI是否合适和附加，我们寻找具有某些特征的问题，如巨大的组合搜索空间、大量的数据和明确的客观函数来衡量性能。通常，一个问题原则上适合AI，但输入尚未到位，需要稍后存储。AlphaFold的一个最初灵感是Demis多年前作为学生时与一个对蛋白质折叠问题着迷的朋友的对话。最近的许多突破也以重要的科学问题和刚刚成熟的AI方法的结合为特色。例如，我们的聚变工作得益于一种名为最大后验策略优化的新强化学习算法，该算法刚刚发布。与我们的合作伙伴EPFL刚刚开发的新的快速准确模拟器一起，使团队能够克服数据匮乏的挑战。

除了选择正确的问题，还重要的是以正确的难度级别明确它。我们的采访对象强调，一个强大的AI问题陈述通常是适合中间结果的问题。如果你选择的问题太难，你将无法产生足够的信号来取得进展。正确做到这一点依赖于直觉和实验。

2. 评估

投资于能够提供稳健性能信号并得到社区认可的评估方法

科学家使用评估方法，如基准测试、指标和竞赛，来评估AI模型的科学能力。做得好，这些评估提供了跟踪进展的方式，鼓励方法上的创新，并激发研究人员对科学问题的兴趣。通常，需要各种评估方法。例如，我们的天气预报团队首先使用基于几个关键变量的初始“进度指标”，如表面温度，他们用来“爬山”或逐渐改进他们的模型性能。当模型达到一定的性能水平时，他们进行了更全面的评估，使用了超过1300个指标，这些指标受到了欧洲中期天气预报中心的评估记分卡的启发。在以前的工作中，团队了解到AI模型有时可以以不希望的方式在这些指标上取得好成绩。例如，“模糊”预测——例如预测在一个大的地理区域内的降雨——比“尖锐”预测——例如预测风暴在一个与实际位置略有不同的地点——受到的惩罚要小，即所谓的“双重惩罚”问题。为了提供进一步的验证，团队评估了他们的模型在下游任务中的有用性，如其预测气旋轨迹的能力，以及表征可能导致洪水的“大气河流”——集中的水分带——的强度。

最有影响力的AI for Science评估方法通常是社区驱动或认可的。黄金标准是蛋白质结构预测的关键评估竞赛。自1994年由John Moult教授和Krzysztof Fidelis教授建立以来，每两年举行一次的CASP竞赛挑战研究小组将他们的蛋白质结构预测模型的准确性与真正的、未发布的实验蛋白质结构进行对比。它还成为了一个独特的全球社区和研究进展的催化剂，尽管很难迅速复制。对社区认可的需求也提供了一个理由，即为什么基准测试应该被发布，以便研究人员可以使用、批评和改进它们。然而，这也带来了基准测试将“泄露”到AI模型的训练数据中，减少其跟踪进展的有用性的风险。没有完美的解决方案来解决这种权衡，但至少需要定期发布新的公共基准测试。科学家、AI实验室和政策制定者还应该探索新的方法来评估AI模型的科学能力，例如建立新的第三方评估组织、竞赛，并使科学家能够更开放地探索AI模型的能力。

3. 计算

跟踪计算使用的发展，并投资于专业技能

多次政府审查认识到计算对AI、科学和更广泛经济进展的日益增长的重要性。正如我们下面将进一步讨论的，对计算的能源消耗和温室气体排放的关注也在增长。AI实验室和政策制定者应该采取一个脚踏实地的长期观点，考虑计算需求如何在不同的AI模型和用例中变化，潜在的乘数效应和效率增益，以及这与不使用AI的科学进展的替代方法相比如何。

例如，一些最先进的AI模型，如蛋白质设计，相对较小。像LLM这样的大型模型训练起来计算密集，但通常需要较少的计算来微调，或者运行推理，这可以为科学研究开辟更有效的途径。一旦训练了LLM，也更容易使其更有效，例如通过更好的数据管理，或者通过将大型模型“蒸馏”成小型模型。计算需求也应该与其他科学进展模型进行评估。例如，AI天气预报模型训练起来计算密集，但仍然可能比传统技术更计算效率高。这些细微差别强调了AI实验室和政策制定者需要实证跟踪计算使用，了解其发展趋势，并预测这些趋势对未来需求意味着什么。除了确保获得正确类型的芯片外，计算策略还应该优先考虑管理访问和确保可靠性所需的关键基础设施和工程技能。这在学术界和公共研究机构中通常资源不足。

4. 数据

混合自上而下和自下而上的努力来收集、管理、存储和访问数据

与计算类似，数据可以被视为AI for Science努力的关键基础设施，需要随着时间的推移进行开发、维护和更新。讨论通常集中在确定政策制定者和从业者应该创建的新数据集上。自上而下的努力有其作用。在2012年，奥巴马政府启动了材料项目，以绘制已知和预测的材料，如在电池、太阳能板和计算机芯片中发现的无机晶体硅。我们最近的GNoME努力使用这些数据预测了220万个新的无机晶体，包括380,000个模拟表明在低温下稳定的晶体，使它们成为新材料的候选者。

然而，通常很难事先预测哪些科学数据集将最重要，许多AI for Science突破依赖于更有机地出现的数据，这要感谢有进取心的个人或小团队的努力。例如，丹尼尔·麦克阿瑟，当时是Broad Institute的研究员，领导了gnomAD遗传变异数据集的开发，我们的AlphaMissense工作随后借鉴了这些数据。类似地，数学证明助手和编程语言Lean最初是由程序员莱昂纳多·德·莫拉开发的。它不是一个数据集，但现在许多AI实验室使用它来帮助训练他们的AI数学模型，包括我们的AlphaProof系统。

像gnomAD或Lean这样的努力突出了自上而下的数据工作需要与更好的激励措施相结合，以激励数据管道各个阶段的个人。例如，一些来自战略性湿实验室实验的数据目前被丢弃，但如果有稳定的资金，可以收集和存储。数据管理也可以更好地激励。我们的AlphaFold模型是在蛋白质数据银行的数据上训练的，这些数据的质量特别高，因为期刊要求将蛋白质结构作为发表的先决条件，PDB的专业数据管理者为此数据开发了标准。在基因组学中，许多研究人员也有义务在序列读取存档中存放原始测序数据，但不一致的标准意味着各个数据集通常仍然需要重新处理和组合。一些其他高质量的数据集根本没有使用，因为许可条件限制，如在生物多样性中，或者因为数据集没有发布，如几十年来由公共资金资助的聚变实验的数据。这些情况可能有逻辑原因，如缺乏时间、资金、放置数据的地方，或研究人员需要临时禁运期来开发数据。但在总体上，这些数据访问问题构成了使用AI推进科学进展的关键瓶颈。

5. 组织设计

在自下而上的创造力和自上而下的协调之间找到正确的平衡

一个简单的启发式方法是，学术界和工业界在科学研究方向上处于两个极端。学术界往往更自下而上，工业实验室往往更自上而下。实际上，在最成功的实验室之间，尤其是贝尔实验室和施乐帕克研究中心这样的黄金时代，它们以蓝天研究而闻名，并在DeepMind的创立中激发了灵感，一直有很多空间。最近，一波新的科学研究机构出现了，它们试图从这些异常例子中学习。这些组织在目标、资金模式、学科重点和工作组织上有所不同。但总的来说，它们希望提供更多的高风险、高回报的研究，更少的官僚主义，以及更好的科学家激励。

许多组织有一个强烈的焦点，即应用AI，如英国高级研究与发明机构、Arc研究所，以及越来越多的专注于解决科学中特定问题的专注研究组织，这些问题对于学术界来说太大，对于工业来说不够有利可图，如负责扩展对AI数学研究至关重要的Lean证明助手的组织。

在它们的核心，这些新机构希望找到自上而下的协调和自下而上的科学家赋权之间的更好融合。对于一些组织来说，这意味着专注于一个特定的问题，并预先指定里程碑。对于其他人来说，这意味着向主要研究者提供更多的不受限制的资金。正确地平衡这一点对于吸引和留住研究领导者至关重要，他们也必须接受它才能成功——Demis Hassabis将其视为成功协调大规模尖端研究的最重要因素。在单个研究工作内正确平衡这一点也很重要。在Google DeepMind的情况下，努力通常在更多的非结构化“探索”阶段和更快的“开发”阶段之间转换，团队在“探索”阶段寻找新的想法，在“开发”阶段专注于工程和扩展性能。知道何时在这些模式之间切换以及如何相应地调整项目团队，是一门艺术。

6. 跨学科

将科学视为团队合作，资助被忽视的角色，并促进可争议性的文化

许多最困难的科学问题需要在领域之间的进步。然而，当从业者聚集在一起时，例如在Covid-19期间，他们通常难以从多学科团队——他们各自保留自己的学科角度——转变为真正的跨学科，他们集体开发共享的想法和方法。这一挑战反映了科学知识的日益专业化，以及通常主要根据他们的核心专业知识评估从业者的激励措施，如资金。

AI for Science努力通常默认是多学科的，但要成功，他们需要成为真正的跨学科。一个起点是选择一个需要每种专业知识的问题，然后提供足够的时间和重点来培养围绕它的团队动态。例如，我们的伊萨卡项目使用AI恢复和归因损坏的古希腊铭文，这可能帮助从业者研究过去文明的思想、语言和历史。要成功，项目共同领导Yannis Assael不得不发展对碑文学的了解——古代铭文文本的研究。项目的碑文学家，反过来，不得不了解AI模型的工作方式，鉴于直觉对他们的工作的重要性。培养这些团队动态需要正确的激励措施。授权一个小型、紧密的团队专注于解决问题，而不是论文的作者身份，是AlphaFold 2突破的关键。这种类型的专注可以更容易地在工业实验室中实现，但再次强调了长期公共研究资金的重要性，这些资金与出版压力较少相关。

为了实现真正的跨学科，组织还需要为个人创建角色和职业道路，他们可以帮助融合学科。在Google DeepMind，我们的研究工程师鼓励研究和工程之间的正反馈循环，而我们的项目经理帮助培养研究工作内的团队动态，并在它们之间创建联系。我们还优先雇佣喜欢发现和连接领域之间联系的个人，以及那些有动力在新领域迅速提高技能的人。为了鼓励思想的交叉传播，我们还鼓励科学家和工程师定期更换项目。最终的目标是创建一个鼓励好奇心、谦逊以及经济历史学家Joel Mokyr所称的“可争议性”的文化——不同背景的从业者都感到有权力以公开讲座和讨论线索的形式提出和建设性地批评彼此的工作。

7. 采用

仔细考虑最佳访问选项，并聚焦AI模型的不确定性

许多AI for Science模型，如AlphaFold或我们的天气预报工作，就它们执行的任务数量而言是专业的。但从它们被许多科学家使用的角度来看，它们也是通用的，用于从理解疾病到改进捕鱼计划等一切事物。这种影响远非保证。疾病的细菌理论花了很长时间才传播开来，而科学突破可能带来的下游产品，如新抗生素，通常缺乏正确的市场激励。

在决定如何发布我们的模型时，我们试图平衡对科学家广泛采用和验证的渴望与商业目标和其他考虑，如潜在的安全风险。我们还创建了一个专门的Impact Accelerator，以推动突破的采用，并鼓励可能不会发生的社会有益应用，包括通过与Drugs for Neglected Diseases Initiative和Global Antibiotic Research & Development Partnership等组织的合作伙伴关系，这些组织有类似的任务。

为了鼓励可能从新模型或数据集中受益的科学家使用它，开发人员需要使科学家尽可能容易地使用和集成到他们的工作流程中。考虑到这一点，对于AlphaFold 2，我们开源了代码，还与EMBL-EBI合作开发了一个数据库，科学家，包括那些计算技能和基础设施较少的科学家，可以搜索和下载现成的 2亿个蛋白质结构。 AlphaFold 3扩展了模型的能力，导致了潜在预测数量的组合爆炸。这创造了一个新的界面AlphaFold Server的需求，它允许科学家按需创建结构。科学界还开发了自己的AlphaFold工具，如ColabFold，展示了存在的多样化需求，以及培养科学界计算技能的价值，以解决这些需求。

科学家还需要信任一个AI模型，以便使用它。我们在下面将更详细地讨论可靠性问题，但一个有用的起点是主动表明科学家应该如何使用一个模型，以及它的不确定性。以AlphaFold为例，在与科学家的对话之后，团队开发了不确定性指标，这些指标传达了模型对于给定蛋白质结构预测的“信心”程度，并通过直观的可视化支持。我们还与EMBL-EBI合作开发了一个培训模块，提供如何最佳使用AlphaFold的指导，包括如何解释这些信心指标，以及其他科学家如何使用它的实际例子。同样，我们的Med-Gemini系统最近在回答健康相关问题上实现了最先进的性能。它采用了一种由不确定性引导的方法，通过生成多个“推理链”来回答一个问题。然后，它使用这些初始答案之间的相对差异来计算答案的不确定性。当不确定性很高时，它会调用网络搜索来整合最新、最准确的信息。

8. 合作伙伴关系

旨在早期对齐和明确的值交换

AI for Science努力需要多样性的专业知识，这创造了强烈的合作伙伴需求——无论是正式的还是非正式的——在公共和私人组织之间。这些合作伙伴关系在项目生命周期中都是需要的，从创建数据集到分享研究。特别是，AI实验室通常需要科学家帮助评估AI模型的输出。例如，最近的研究强调了拥有丰富领域专业知识的高级材料科学家在评估AI模型预测的新材料是否可行方面的重要性。同样，我们的蛋白质设计团队与弗朗西斯·克里克研究所的研究小组合作，进行湿实验室实验，测试我们的AI设计的蛋白质是否结合到目标上，以及这是否具有期望的功能，如阻止SARS-CoV-2感染细胞。我们的FunSearch方法能够为Cap Set问题开发新的构造，这曾经是著名数学家Terence Tao最喜欢的开放问题。这得益于与威斯康星大学麦迪逊分校的数学教授和Cap Set专家Jordan Ellenberg的合作。鉴于行业实验室在推进AI能力方面的中心作用，以及对丰富领域专业知识的需求，这些公私合作伙伴关系可能对推进AI for Science前沿越来越重要，可能需要更大的投资，如为大学和公共研究机构中的合作伙伴团队提供更多资金。

发展合作伙伴关系是困难的。在开始讨论时，重要的是要早期对齐总体目标，并解决可能棘手的问题，如各方应对输出拥有什么权利，是否应该有出版物，模型或数据集是否应该开源，以及应该适用什么类型的许可。意见分歧是自然的，通常反映了公共和私人组织的激励措施，这些激励措施因研究的成熟度或其商业潜力等因素而大不相同。最成功的合作伙伴关系涉及明确的值交换，利用每个组织的优势。例如，来自190多个国家的200多万用户已经使用了AlphaFold蛋白质结构数据库。这需要密切合作，将我们的AI模型与EMBL-EBI的生物策展专业知识和科学网络配对。

9. 安全与责任

使用评估来探索权衡，并激发新类型的评估方法

科学家经常对AI模型可能对科学以及更广泛社会带来的潜在好处和风险持不同意见，有时意见非常强烈。进行伦理和安全评估可以帮助框架讨论，并使科学家能够决定是否以及如何开发给定的AI模型。起点是确定最重要的影响领域，并在正确的抽象层次上指定这些领域。有越来越复杂的框架来识别和分类不同的AI风险，如促进错误和虚假信息。但这些框架很少在同一领域考虑AI的潜在好处，如改善对高质量信息综合的访问，或者可能发生的权衡，例如，如果你限制对AI模型的访问或限制其能力。评估还应该澄清它们的时间范围，任何影响的相对确定性，以及AI的相对重要性或额外性，以实现它。例如，担心AI和气候变化的人通常关注立即需要的电力来训练大型AI模型，而AI支持者通常关注不那么直接、不那么清晰但可能大得多的下游好处，即未来的AI应用对气候的好处。在进行评估时，AI从业者还应该避免过分关注模型的能力，这些能力他们会更接近，更好地理解第三方实际上会使用它或受到它影响的程度，这通常需要外部专家的投入才能做得好。

从业者还需要新的方法来更好地评估在科学中使用AI的潜在风险和好处。目前，许多AI安全评估依赖于指定模型不应输出的内容类型，并量化模型遵循此政策的程度。这些评估对于某些使用AI在科学中造成的风险是有用的，例如生成不准确的内容。但对于其他风险，如生物安全，我们可以可靠地事先指定某些类型的科学知识为危险的想法已经受到挑战，因为科学知识的双重用途性质，但也因为这些努力往往关注历史上造成的伤害，如过去疫情的病毒，而不是新的风险。更好的方法可能是评估AI模型的危险能力，或AI模型在多大程度上提升了人类的危险性能力。在许多情况下，这些能力也将是双重用途的，如帮助设计或执行实验协议的能力。这些AI能力在多大程度上指向风险或机会，将取决于对潜在威胁行为者的评估以及对模型的访问治理。除了安全外，评估使用AI在科学中的其他风险，如对科学创造力或可靠性的风险（我们在下面讨论），将需要全新的评估方法。鉴于研究和执行这些评估的难度，最好在社区层面上追求它们，而不是每个实验室追求孤立的努力。

Part C: 风险

政策文件、政府文件和科学家调查经常提到人工智能在科学中日益增长的使用所带来的某些风险。其中三个风险——对科学创造力、可靠性和理解的风险——主要与科学实践的方式有关。另外两个风险——对公平和环境的风险——主要与科学如何代表和影响更广泛的社会有关。使用人工智能通常被独家呈现为对这些领域的风险，而这些领域，如科学可靠性或环境，通常被描绘成稳定、有些理想化的术语，这可能忽视了它们面临的更广泛的挑战。我们认为，在科学中使用人工智能最终将惠及这五个领域，因为有机会减轻人工智能所带来的风险，并使用人工智能帮助解决这些领域的更广泛挑战，在某些情况下是深刻的。对于不公平而言，实现有益的结果可能更难，因为不公平被嵌入到人工智能和科学的多个层面，从劳动力的构成到支撑研究的数据，而对于科学创造力而言，这是高度主观的，所以个人可能会合理地对某个结果是否积极有不同的看法。这些细微差别增加了科学家、政策制定者和其他人阐明他们对如何使用人工智能在科学中将影响这5个领域期望的价值。

1. 创造力

人工智能会导致较少的新颖、违反直觉的突破吗？

科学创造力描述了创造新事物的能力。在实践中，科学家将一个新想法、方法或产出视为创造性的程度通常取决于更主观的因素，如其感知的简单性、违反直觉性或美感。今天，科学创造力受到科学劳动力的相对同质性的影响，这缩小了想法的多样性。对研究人员“发表或消亡”的压力也激励了“跟随人群”的出版物，而不是通常支撑创造性突破的深入工作或跨学科的概念桥梁。这可能解释了为什么导致一个领域转向新方向的颠覆性科学想法的比例似乎在下降，超出了科学扩展可能预期的正常范围。

一些科学家担心，使用人工智能可能会加剧这些趋势，破坏人类科学家更直观、非正统和偶然的方法，如伽利略假设地球自转的假设。这可能以不同的方式发生。一个担忧是，AI模型被训练为在其训练数据中最小化异常值，而科学家通常会通过关注一个令人困惑的数据点来放大异常值。其他人担心，AI系统被训练来执行特定任务，因此依赖它们将放弃更偶然的突破，例如研究人员意外地找到他们没有研究的问题的解决方案。在社区层面上，一些人担心，如果科学家大规模拥抱AI，它可能导致输出的逐渐同质化，例如如果LLM对不同科学家的查询产生类似的建议。或者，如果科学家过度关注最适合AI的学科和问题。维持对探索性研究和非AI研究的支持可能有助于减轻其中一些风险。科学家也可以调整他们使用AI的方式，以便它增强而不是削弱他们自己的创造力，例如通过微调LLM来提出更个性化的研究想法，或帮助科学家更好地引出自己的想法，类似于我们早期开发AI导师的努力，这些导师可以帮助学生更好地反思问题，而不仅仅是输出问题的答案。AI也可以使新的科学创造力类型成为可能，这些类型可能不会以其他方式发生。一种类型的AI创造力是插值，其中AI系统在其训练数据中识别新颖的想法，特别是当人类在这方面的能力有限时，如努力使用AI检测大型强子对撞机实验的大规模数据集中的异常。第二种类型是外推，AI模型概括出更新颖的解决方案超出了它们的训练数据，如我们的AlphaGo系统提出的第37个动作，震惊了人类围棋专家，或我们的AlphaProof和AlphaGeometry 2系统产生的新颖数学证明和非明显构造。第三种类型是发明，AI系统提出了一个完全新的理论或科学体系，与其训练数据完全无关，类似于最初发展广义相对论或创造复数。AI系统目前没有表现出这种创造力，但新的方法可能会解锁这一点，例如优化不同目标的多代理系统，如新颖性和违反直觉性，或训练AI模型以生成新的科学问题，以激发新的解决方案。

2. 可靠性

人工智能会使科学变得不那么自我修正吗？

可靠性描述了科学家依赖彼此的发现，并相信它们不是由于偶然或错误。今天，一系列相互关联的挑战削弱了科学的可靠性，包括p-hacking和出版偏见，这可能导致研究人员报告阴性结果不足；科学家执行日常科学任务时缺乏标准化；错误，例如科学家使用统计方法时的错误；科学欺诈；以及同行评审过程的挑战，包括缺乏合格的同行评审员。

一些科学家担心，人工智能会加剧这些挑战，因为一些AI研究也具有不良实践，例如从业者挑选他们用来评估模型性能的评估。AI模型，特别是LLM，也容易“幻觉”输出，包括科学引用，这些输出是错误的或误导性的。其他人担心LLM可能导致类似“论文工厂”生产的低质量论文泛滥。社区正在努力解决这些问题，包括为研究人员提供良好实践清单以遵守，以及不同类型的AI事实性研究，例如训练AI模型将其输出与可信来源的基础，或帮助验证其他AI模型的输出。

科学家也可能使用AI来提高更广泛研究基础的可靠性。例如，如果AI可以帮助自动化数据注释或实验设计的方面，这可能为这些领域提供急需的标准化。随着AI模型变得更擅长将其输出与引用基础联系起来，它们也可以帮助科学家和政策制定者更系统地审查证据基础，例如在气候变化方面，政府间气候变化专门委员会等团体已经在努力跟上出版物的无情上升。从业者还可以使用AI帮助检测错误或欺诈性图像，或误导性的科学声明，如科学杂志最近试用的AI图像分析工具的试验。更投机地，鉴于一些科学家已经使用LLM来帮助批评他们自己的论文，并帮助验证AI模型的输出，例如在定理证明中，AI可能潜在地帮助同行评审的某些方面。然而，对于保密性、AI系统检测真正新颖工作的能力，以及考虑到同行评审在批准资助等过程中的重要作用，科学家的接受度也有合理的担忧。

3. 理解

人工智能会导致有用的预测以牺牲更深层次的科学理解为代价吗？

在最近的一项自然调查中，科学家提到依赖于模式匹配以牺牲更深层次理解为代价，是从使用AI在科学中获得的最大风险。理解并非总是发现新的科学现象或开发有用应用的必要条件，例如超导性或药物。但大多数科学家将理解视为他们的主要目标，作为人类知识的最深层次。关于AI破坏科学理解的担忧包括认为现代深度学习方法是无理论的，并且不包含或为它们预测的现象提供理论。科学家还担心AI模型是不解释的，在这个意义上，它们不是基于明确的一组方程和参数。还有一个担忧是，任何对AI模型输出的解释对科学家来说都不会是可访问的或有用的。总而言之，AI模型可能提供有关蛋白质结构或天气的有用预测，但它们能够帮助科学家理解蛋白质为什么以某种方式折叠，或者大气动力学如何导致天气变化吗？

关于用“低级……计算”取代“真正的、理论科学”的担忧并不是新的，曾经针对过蒙特卡洛方法等过去技术。将工程和科学结合起来的领域，如合成生物学，也面临着优先考虑有用应用而不是更深层次科学理解的指责。这些方法和技术导致了科学理解的增长，我们相信AI也会如此，即使其中一些增长难以提前预测。首先，大多数AI模型并非无理论，而是以不同的方式构建在先前的知识上，如在它们的数据集和评估中的构造。一些AI模型也有可解释的输出。例如，我们的FunSearch方法输出计算机代码，也描述了它如何到达解决方案。

研究人员还在研究可解释性技术，这些技术可以揭示AI系统如何工作，例如努力识别模型学习的概念。这些可解释性技术的许多都有重要的局限性，但它们已经使科学家能够从AI模型中提取新的科学假设。例如，转录因子是蛋白质，它们绑定到DNA序列上激活或抑制附近基因的表达。一项AI研究努力能够预测DNA序列中每个碱基对不同转录因子的结合的相对贡献，并使用生物学家熟悉的概念来解释这一结果。一个更大的机会可能是基于AI系统学习的方式学习全新的概念。例如，我们的研究人员最近展示了我们的AlphaZero系统学习了关于下棋的“超人”知识，包括非传统的动作和策略，并使用另一个AI系统提取这些概念并教给人类象棋专家。

即使没有可解释性技术，AI也会通过开辟新的研究方向来提高科学理解，这些方向否则将是禁止的。例如，通过解锁生成大量合成蛋白质结构的能力，AlphaFold使科学家能够跨蛋白质结构而不是仅仅跨蛋白质序列进行搜索。一个团队利用这种方法发现了一个古老的Cas13蛋白质家族成员，它为编辑RNA提供了希望，包括帮助诊断和治疗疾病。这一发现还挑战了之前关于Cas13如何进化的假设。相反，努力修改AlphaFold模型架构以包含更多先验知识，导致性能更差。这突出了准确性和可解释性之间可能发生的权衡，但也展示了AI系统如何推进科学理解，不是尽管它们的不透明性，而是因为它们的不透明性，因为这种不透明性可能源于它们在高维空间中操作的能力，这可能对人类来说是不可解释的，但对科学突破是必要的。

4. 公平

人工智能会使科学对边缘群体的代表性和有用性减少吗？

不公平在科学劳动力中明显可见，在他们研究的问题中，在他们开发的数据和模型中，以及在结果的好处和伤害中。这些不公平是相关的，并且可以随着时间的推移而复合。例如，少数实验室和个人在高收入城市占了科学产出的不成比例的份额。确定与疾病相关的遗传变异的研究严重依赖于欧洲血统群体的数据，而忽视了热带疾病，这些疾病在贫穷国家中的比例过高。在农业方面，作物创新集中在高收入国家最常见的害虫上，然后不恰当地用于不同害虫的低收入国家，损害了产量。尽管有积极的趋势，女性仅占科学家的33%，在临床试验中长期代表性不足，特别是有色女性。

观察家担心，AI在科学中的日益增长的使用可能加剧这些不公平。AI和计算机科学劳动力在性别、种族和领先实验室的位置方面比许多其他科学学科更不具代表性，因此AI的日益增长的使用可能会损害科学中的更广泛代表性。作为一种数据驱动的技术，AI也冒着继承和加剧科学数据集中的偏见的风险。

然而，也有机会使用AI减少科学中的不公平，尽管这不是系统性变化的替代品。如果AI模型通过低成本服务器或数据库提供，它们可以更容易、更便宜地让科学家，包括来自边缘群体的科学家，研究传统上被忽视的问题，类似于释放更多卫星数据导致来自边缘社区的更多研究。通过吸收更多的数据，AI模型也可能能够学习科学家研究的复杂系统的更普遍模式，使这些模型更健壮，更不容易受到偏见的影响。例如，由于它们的非代表性数据，确定与疾病相关的遗传变异的研究可能会挑选出混杂的，而不是因果的变异。相反，一些早期尝试在更大的蛋白质结构和遗传变异数据集上训练AI模型，包括跨物种的数据，表现更好，在预测个体疾病风险方面差异较小，跨人群群体。最终，改善公平将需要长期的努力，如基因组学中的H3Africa倡议和AI的深度学习Indaba倡议，旨在在最缺乏的地方建立科学基础设施、社区和教育。

5. 环境

人工智能会伤害还是帮助实现净零努力？

鉴于他们对自然世界的理解愿望，许多科学家长期以来一直活跃在保护环境的努力中，从提供关于气候变化的早期证据到开发光伏电池。近年来，越来越多的科学家对AI对环境的潜在影响表示担忧，并开发了方法来尝试量化这些影响。大多数关注集中在训练和使用LLM对温室气体排放的潜在影响上，以及与此相关的担忧，如冷却数据中心所需的水资源。思考这些影响的一种方式是生命周期方法，它涵盖了直接和间接影响。直接影响包括建造和为AI模型训练和运行的数据中心和设备供电的排放。没有全面的估计所有直接排放来自AI。

然而，2021年的一项估计表明，云和超大规模数据中心，许多大型AI模型在这里训练和部署，占全球排放量的0.1-0.2%。

随着LLM的规模继续增长，观察家警告说，这些数字可能会增加，可能显著增加。然而，包括科学家在内的许多LLM用户将能够微调它们，或者以相对较低的计算成本使用它们的预测，而不是从头开始训练它们。还在进行努力使LLM更有效，数字技术的历史表明，可能获得相当大的增益，尤其是由于提供更快、更便宜的AI模型的商业压力。在某些情况下，AI模型的排放将低于其他方法。例如，我们的内部分析表明，实验确定少量（<10）蛋白质的结构使用的能源与AlphaFold 2的完整训练运行大致相同。这些结果需要仔细解释，因为AI模拟依赖于，并通知物理实验，而不是替代它们。但它们也展示了AI如何使更多的科学活动以更低的平均能源成本成为可能。

至关重要的是，AI对排放的直接影响，无论是积极的还是消极的，可能与AI启用的应用程序对排放的间接影响相比都是次要的。在科学中使用AI开辟了三个主要机会来减少排放。首先， AI、数学和计算机科学之间的进展可能显著提高互联网的效率，从设计更有效的芯片到寻找例行任务的更有效算法。随着越来越多的经济体在线移动，这应该有助于抵消这些部门的排放。AI可以加速可再生能源的开发和使用，例如通过设计新材料，如电池或太阳能电池板，通过优化电网的运行以及它如何整合可再生能源，以及通过更变革性但不确定的机会，如聚变。最后，世界已经变得更暖和，AI可以帮助更好地准备极端天气事件。例如，我们的天气预报模型最近正确预测，七天前，致命的飓风Beryl将在德克萨斯州登陆。非AI模型最初预测在墨西哥登陆，然后在它发生前三天纠正他们的预测到德克萨斯州。

Part D: 政策响应

鉴于科学进展对几乎每一个主要的经济、环境和安全目标都至关重要，因此科学，以及AI加速它的潜力，应该是任何政府的首要任务。一个新的AI for Science政策议程应该是什么样子？政策制定者可以开始实施许多已经存在的良好科学和创新政策理念，在AI启用的科学时代，这些理念甚至更有意义。例如，AI将提高科学研究资金的回报，因此它为投资更多提供强有力的理由，并尝试新的想法，以加快和实验如何分配这些资金。在计算方面，政府可以实施英国独立审查中提出的想法，授权一个专门机构不断评估和建议政府可能的投资。为了支持AI for Science初创公司，政策制定者可以改善他们的衍生政策，并支持管理良好的初创公司孵化器和奖学金。

但也需要雄心勃勃的新政策来利用AI for Science的机会。我们下面分享四个想法。它们旨在广泛适用，尽管确切的细节需要根据国家的具体背景进行调整，考虑到国家优先事项、独特优势和制度环境。

1. 为AI在科学中定义“希尔伯特问题”

科学进展取决于选择正确的问题。在1900年，德国数学家大卫·希尔伯特发表了23个未解决的问题，这些问题被证明对20世纪数学的方向产生了巨大影响。作为即将到来的国际事件的一部分，如巴黎的AI行动峰会，政策制定者、AI实验室和科学资助者可以发起一个公众呼吁，让科学家和技术专家识别最重要的AI塑造的科学问题，由一个新的全球基金支持，以推动这些问题的进展。提交应该指定为什么问题很重要，为什么它适合现代AI系统，为什么它可能被忽视，存在的数据瓶颈，以及如何评估近期技术进展。

最佳理念可以形成新的科学竞赛的基础，科学家们竞争使用AI解决这些问题，支持新的数据集、评估方法和竞争基准。这些可以建立在最近出现的评估AI模型科学能力的竞赛的热潮之上，并包括一个新的AI for Science奥林匹克，吸引来自世界各地的杰出年轻人才进入该领域。除了其直接影响，AI for Science“希尔伯特问题”倡议可以为国际科学合作和资助提供一个受欢迎的焦点，并激励新一代的跨学科科学家识别和追求AI塑造的问题。

2. 使世界对科学家可读

大多数科学数据未被收集、部分、未管理或无法访问，使其无法用于训练AI模型。没有单一的政策回应远远不是统一的挑战。政策制定者和资助者需要将少数自上而下的举措与扩大有希望的基层努力的支持相结合。应该建立一个新的AI for Science Data Observatory国际网络，以帮助解决这些目标。这些天文台可以长期支持，并任务是运行快速的AI for Science“数据库存”，其中专家团队绘制优先学科和应用领域的数据状态。库存可以识别现有的数据集，如序列读取存档，其质量可以进一步提高，以及未开发或未充分利用的数据集，如目前对科学家或领先的生物多样性数据不可用的数十年的实验聚变数据，这些数据受到限制性许可条件的制约。库存还可以包括新的“数据愿望清单”。例如，我们的内部分析表明，不到7%的关键环境研究领域的论文使用AI。我们最近资助了Climate Change AI，以识别如果可用或改进，可以消除更多AI使用瓶颈的数据集。为确保这一分析导致行动，政策制定者应指定和授权组织负责解决数据库存的结果。

天文台还可以规划创建新的数据库，包括确保充分考虑其长期存储、维护和激励措施。这可能包括新数据库，以安全存储当前丢弃的战略湿实验室实验的结果，辅以使这些实验结果的沉积成为公共研究资金的要求。或数字化更多的公共档案，遵循英国政府和自然历史博物馆最近合作数字化其自然历史收藏的例子，其中包含超过1.37亿件物品，从蝴蝶到豆科植物，跨越46亿年的历史。政策制定者还可以授权科学家使用LLM创建和改进自己的数据集，确保公共资助的研究默认情况下是开放的，尽可能，建立在英国、美国和日本最近的示例之上，包括通过预印本服务器发布研究的授权。政策制定者可以寻求与行业和慈善事业共同资助最雄心勃勃的数据集举措。

3. 教授AI作为下一个科学仪器

在过去的半个世纪中，随着科学技术的数量增长，大多数科学家与它们的距离也在增长。许多技术是科学的产物，但越来越少的科学家接受过如何有效地开发和使用它们的培训。迫切的近期需求是资助和激励更短的、更战术性的AI培训计划和奖学金，针对现有的科学家和研究领导者。政策制定者可以通过设定一个明确的目标来激励这些努力，即每个研究生科学学生都应该能够接受有关在科学中使用AI的入门课程，包括他们领域最重要的工具，就像今天通常教授基础统计学一样。所需的培训类型和深度将取决于个人的学科和个人资料，可能从基本的入门课程，了解如何可靠地使用LLM进行日常研究任务，到更高级的课程，了解如何在科学数据上微调AI模型，以及如何解决更复杂的挑战，如评估他们用来测试模型性能的数据是否故意或无意地“泄露”到用于训练它的数据中。

这些计划可以建立在既定的例子之上，如剑桥大学的Accelerate计划，为博士和博士后研究人员提供结构化的AI培训，或The Carpentries提供的短期课程，涵盖进行研究所需的编程、数据和计算技能。

政策制定者还需要迅速采取行动，确保下一代科学家拥有他们需要的技能。这意味着将AI培训和技能发展纳入所有级别的科学教育主流。中学科学学生将需要早期接触AI的影响，而大学生将需要获得新的跨学科AI科学学位的机会，如我们与非洲数学科学研究所合作开发的泛非AI for Science硕士课程。还可以提供专门的奖学金。例如，英国的BIG奖学金计划为高中学生提供了杰出的机会，重点是那些在国际科学奥林匹克竞赛中表现出色的来自代表性不足群体的学生，他们希望继续在领先的科学中心学习，但缺乏资金。

4. 建立证据并尝试新的科学组织方式

科学家对AI的使用呈指数级增长，但政策制定者几乎没有证据表明谁做得最好，他们如何做，以及阻碍他人的障碍。这种证据差距是确定最佳AI for Science政策理念并有效针对它们的障碍。历史上，这些问题的答案通常来自经济学或创新研究领域，但结果可能需要数年才能到来。我们使用引文数据分析、访谈和社区参与来了解科学家如何使用我们的AI模型。政府也在投资这些元科学能力，以改善他们资助、共享和评估科学研究的方式。在此基础上，科学家可以被赋予一个任务，快速评估基础政策问题，包括：最有影响力的AI for Science研究发生在哪里，哪些类型的组织、人才、数据集和评估使其成为可能？科学家在多大程度上使用和微调LLM与更专业的AI模型，以及他们如何访问这些模型？ AI实际上在多大程度上有益于或损害了科学创造力、可靠性、环境或其他领域？ AI如何影响科学家对他们的工作的看法，以及哪些技能、知识差距或其他障碍阻止了他们更广泛地使用AI？

除了为坚实的政策回应提供信息外，这个证据基础还将为政策制定者提供他们需要的先见之明，以预测AI如何转变科学和社会，类似于他们通过不断增长的AI安全研究所网络为AI安全风险发展的先见之明。证据还将突出重新构想科学在AI时代所需的激励和机构的机会。特别是，科学家和政策制定者只探索了一小部分可能的科学研究组织和执行方法。 AI的兴起提供了一个受欢迎的强制功能，以尝试新的机构类型，从那些有更多自由追求高风险、高回报研究的机构，到旨在解决特定瓶颈的专注研究组织。以及新的跨学科AI科学研究所在优先领域，如气候或粮食安全，以及我们尚未想象的完全新型机构。那些更快尝试的人将从新的发现黄金时代中获益最多。

图片来源｜网络

谷歌DeepMind报告称AI for Science黄金时代已来（36 页报告全文）

坏AI，到底能有多坏？

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

程序员的AI救赎时刻接入这个数据库业务提问自动解决

人形机器人组队进厂打工！5只Figure 02在宝马工厂

雷军砸千万年薪，挖来95后“天才少女”

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

我用两年聊天记录，复刻出一个AI版的自己

AI如何改变社交娱乐新姿势？阿里云专家解读来了

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

所有APP都会被AI重塑，背后的变革关键是什么？

波士顿动力新机器人后空翻视频炸圈！扮作圣诞老人，动作干净丝滑

沈向洋，发了一个可以识别万物的大模型

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

国产机器狗驮成年小伙遛弯视频爆火，新通勤工具有了

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

谷歌DeepMind报告称AI for Science黄金时代已来（36 页报告全文）

坏AI，到底能有多坏？

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

程序员的AI救赎时刻 接入这个数据库 业务提问自动解决

人形机器人组队进厂打工！5只Figure 02在宝马工厂

雷军砸千万年薪，挖来95后“天才少女”

让ChatGPT不敢开口的名字！神秘bug引马斯克围观

MIT、OpenAI等震撼力作：AI首次自主发现人工生命！人类窥见上帝造物

我用两年聊天记录，复刻出一个AI版的自己

AI如何改变社交娱乐新姿势？阿里云专家解读来了

肌肉骨骼居然和人类一样。外网爆火的克隆机器人，灵活性超高，胸腔里还复刻了人类的心脏瓣膜，宛如《西部世

搭载ChatGPT的《星际穿越》机器人爆火，马斯克：想要！ ChatGPT复刻版《星际穿越》机器人T

「LLM」这个名字不好，Karpathy认为不准确、马斯克怒批太愚蠢

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

全球最远1.4米！国产宇树创人形机器人跳远纪录，外网惊叹碾压特斯拉

所有APP都会被AI重塑，背后的变革关键是什么？

波士顿动力新机器人后空翻视频炸圈！扮作圣诞老人，动作干净丝滑

沈向洋，发了一个可以识别万物的大模型

网友一个定积分的WIFI密码，测出了AI数学之王。Grok超强数学思维碾压ChatGPT，引马斯克点

国产机器狗驮成年小伙遛弯视频爆火，新通勤工具有了

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

程序员的AI救赎时刻接入这个数据库业务提问自动解决