打开网易新闻 查看更多图片
打开网易新闻 查看更多图片

大力真的能出奇迹!大模型正在给生命科学带来越来越多的惊喜。

近日,Enveda Biosciences官宣了一款名为PRISM的生命化学大模型,该模型在12亿个小分子质谱上进行了训练,token总数高达850亿,是迄今为止最大的小分子质谱训练集

公司认为,PRISM在预测生物样本的化学成分方面代表了“最先进水平”。

更为重要的是,这项成果还一定程度揭示出Scaling law(规模定律)在这个领域的显现,研究人员称,PRISM的性能随着训练集规模的扩大而不断提高,而不是趋于平稳。

Enveda Biosciences于2019年创立,利用大规模代谢组学和人工智能来显著加速天然分子的发现过程,目前公司总融资金额已经达到了1.75亿美元

Enveda表示,十亿级别的分子质谱仅仅是个开始,未来公司的实验数据的规模和多样性将进一步扩大,这将有助于解码自然界的化学反应,从而推动新药开发。

打开网易新闻 查看更多图片
像了解语言一样了解分子

自然界中多达99.9%的小分子不为人们所了解,这是因为大多数天然分子都存在于复杂的混合物中,它们代表着地球上最大的未开发新药资源。

质谱(mass spectra)可以加快分子识别速度,因为它可以在混合物中一次性获取许多新分子的信息,但问题的关键在于质谱信息很难被解释。

打开网易新闻 查看更多图片

大多数为解释质谱信息而开发的计算工具是在已知分子的带注释参考光谱进行训练的(译者注:即有监督学习),而这个数据集只代表了所有生命化学反应中的一小部分。

近年来,以GPT为代表的大规模预训练基础模型的出现,成为人工智能最具影响力的进步之一。而如此重要的突破背后,离不开一种称为自监督学习的技术,这项技术使得模型能够在未标记数据集上进行训练,大大拓宽了数据来源。

那么,能否将这一技术运用到分子质谱领域呢?毕竟相较于NIST或MoNA等存储库中大约几百万个带注释质谱数据,未注释数据存储库(如MetaboLights)的规模则往往以亿为单位,后者提供了更广泛样本用于训练模型。

遵循这一思路,Enveda开发了一种名为PRISM的基础模型,该模型在大量未注释光谱数据库上采取自监督学习策略,能够显著提高分子身份(molecular identity)的下游预测效果。

据披露,PRISM的架构起源于谷歌开发的BERT(基于Transformer的双向编码器)模型,经过Enveda的修改调整后以适用于串联质谱。

正如BERT中的掩码语言模型(MLM)通过“遮掩”句子的一个或多个部分并要求模型根据其他部分的上下文预测缺失的部分,PRISM也采用类似的方法,只不过PRISM遮掩的不是单词,而是质量值(masses)。

打开网易新闻 查看更多图片

具体来说,对于每个示例质谱(由分子分解产生的质量和强度组成,在MS2上表示为“峰”),研究人员随机掩蔽20%峰的质量,该模型的任务是根据剩余峰的上下文预测缺失峰的质量,并以此来学习规律。

为了训练 PRISM,Enveda收集了迄今为止最大的小分子质谱训练集,包括12亿张高质量小分子光谱,其中约一半来自三个主要公共数据存储库(GNPS、MetaboLights、Metabolomics Workbench),而另外一半来自Enveda的内部代谢组学平台。

据悉,与PRISM思路类似的GleaMS和LSM1-MS2模型也在不久前发布,但它们的质谱训练数量分别为4千万和1亿,相较而言,PRISM的数据集多出一个数量级。

接着,研究人员测试了PRISM对分子化学性质的预测能力,结果显示,使用相同数据下,有PRISM进行预训练的机器学习模型的预测效果有了明显改善,实际值和预测值之间的R方相对增加7%-16%

打开网易新闻 查看更多图片

不仅如此,团队还测试了PRISM在光谱参考库中查找最接近的匹配项来改进预测未知光谱结构的任务,与没有使用 PRISM 预训练的机器学习模型相比,相对改进率为23%

Enveda表示,公司利用这一模型进行筛选并不断重复这一过程,以寻找具有成药性的分子,这意味着更快的药物发现。

打开网易新闻 查看更多图片
前Recursion产品经理创立

2019年,Viswa Colluru离开Recursion后,创立了Enveda。

作为全球最早上市的AI制药公司之一,Recursion专注于利用机器学习和高通量细胞成像和测量来改变新药的表型筛选过程,以生物数据生成和计算见长

老东家对AI和数据的重视无疑给Viswa Colluru留下深刻印象,于是他将目光锁定在天然分子,在他看来,大自然的化学物质经过数十亿年的进化累积,留给了人类一座巨大且丰富的宝库。

打开网易新闻 查看更多图片

图:Viswa Colluru

从这一初衷出发,他所创立的Enveda专注于天然产物及其衍生的化学空间,利用大规模代谢组学和人工智能来显著加速天然分子的发现过程。

Enveda在这方面的努力已经卓有成效,公司先后推出了第一个用于药物优先排序的内部知识图算法以及旨在预测天然细胞代谢物结构的模型。

PRISM的推出,意味着公司在构建高通量筛选流程迈出重要一步,这将有助于快速测试天然分子的药物特性,推动潜在药物的开发。

在不断优化完善技术平台的同时,公司也在推进其多条管线的研究工作,公司针对ALK5、NLRP3、TGR5等多个靶点开发药物,适应症包括疼痛、瘙痒、炎症等领域,公司计划在2023年年底前提交前三项IND申请。

打开网易新闻 查看更多图片

不过目前看来,Enveda的药物开发似乎并没有预想中那么顺利,官网信息显示,目前公司可能仅有一条管线可能已提交IND申请,另两条相较此前尚无进展。

打开网易新闻 查看更多图片
写在最后

生命科学,正在成为大模型的重要应用领域,而支撑这一浪潮的动力之一,则是不少精英对scaling law(规模定律)的信仰。

Scaling law最初由OpenAI发现,当下已成为人工智能产业最知名的规律,被微软CEO称为AI革命的真正动力。

简单来说,Scaling law指的是只要数据量够大、计算量够大,模型性能就可以极大提升,达成意想不到的成就。

这一充满暴力美学的规律已被大语言模型所证明,但是否适用于生物领域,以及生物大模型需要多大规模才能达成这一突破,仍然没有定论。

而Enveda的探索为我们初步解答了前一个问题,研究人员表示,PRISM的性能随着训练集规模的扩大而不断提高,其史无前例的参数数量,让我们得以一窥Scaling law在生命科学中的广阔潜力。

谁会为这一消息激动不已?我想非黄仁勋莫属,当Scaling law在生物领域发挥越来越大的作用,随之而来的庞大生物数据和算力需求又将会为英伟达提供可观的收入增长。

反过来讲,如果生物大模型真的能够“大力出奇迹”的话,如果我们真的可以像理解一个单词那样理解一个细胞的话,我们将迎来生命科学发展的新纪元。

—The End—

打开网易新闻 查看更多图片