打开网易新闻 查看更多图片

1972年诺贝尔奖得主克里斯蒂安·安芬森(Christian Anfinsen)在诺奖颁奖典礼上提出猜想:一个蛋白的氨基酸序列应该能完全决定这个蛋白的结构;而蛋白作为生命的基本构件,其结构与生命的各种功能息息相关。因此,半个世纪以来,科学家努力尝试着利用氨基酸序列预测蛋白结构。然而,迄今为止的大多数尝试皆为徒劳。

现在,一个来自DeepMind的人工智能算法,终于一举解决了这个问题。

AlphaFold预测的新冠病毒ORF8蛋白结构;该结构已获实验证实。

CASP14

喜讯在昨晚传来:困扰了生物学家半个世纪的蛋白折叠问题(protein folding problem),被一个人工智能算法解决了。这个算法名为“AlphaFold”,由DeepMind公司开发。DeepMind发布于6年前的围棋算法AlphaGo,至今已无人能敌。

DeepMind这次的新突破,其重要程度或许更甚于AlphaGo的诞生。在宣布AlphaFold解决了蛋白折叠问题后,《自然》《科学》等著名杂志相继发文,在祝贺DeepMind之余,也强调了这是人工智能的又一次重大胜利。DeepMind母公司Alphabet和其姐妹公司Google的CEO桑达·皮采(Sundar Pichai)在推特上表示,这项新突破能让我们更好地理解生命的基本构件之一,并“帮助研究人员攻克新难题,不论是抗击疾病,还是保护环境”。

打开网易新闻 查看更多图片

- 桑达·皮采的祝贺推特 -

生物学的一个50年难题,正在人工智能的帮助下迅速拉上帷幕。

蛋白难题

人类已知的所有生命都由蛋白构成,这些有机分子构成了我们与世界交互的基本元件。以视觉为例:我们眼中的感光细胞(photoreceptor)都拥有感光蛋白(opsin),感测光子,并将光信号转化为大脑能理解的电化学信号。与任何蛋白一样,人类视杆细胞中的感光蛋白视紫红质(rhodopsin)是由氨基酸(amino acid)组成的;视紫红质由348个氨基酸连接而成,在三维空间内的形状与下图大致相符:

牛视紫红质(与人类视紫红质结构相近)的三维结构

Roland Deschain

然而,尽管视紫红质的氨基酸序列在上世纪80年代就已测出,其结构却直到2000年才被首次揭开。将近20年的时间跨度,凸显了半个世纪以来一直困扰着生物学家的计算难题:已知一个蛋白的氨基酸序列,要怎样才能求出其三维结构

这可不是一个小问题:蛋白的功能取决于其三维结构,而在自然环境中,蛋白通常能自发地在数秒内折叠成具有功能性的特定三维形状。对于现代生物学来说,测出一个蛋白的氨基酸序列相对简单(可用蛋白质谱法),但确定蛋白的三维结构则非常难(需要用到X射线晶体学和冷冻电镜)。如何从氨基酸序列跨到蛋白的三维结构,难倒了一代代的生物学家。若能解决蛋白折叠问题,科学家就不必浪费大量时间和资金确定蛋白的结构,而是可以将精力放在更重要的问题上,甚至还能针对性地设计具有独特功能的蛋白

于是,从上世纪60年代开始,生物学家对这个难题展开了强劲攻势。八九十年代见证了蛋白折叠问题“答案”的泉涌,科学家们一度以为很快就能从氨基酸序列预测蛋白的三维结构了;然而,当大家将众多论文中提出的预测方法应用到自己感兴趣的蛋白上时,却发现我们离解答蛋白折叠问题还差得太远。

1994年,在生物学界的悲观氛围中,马里兰大学学院市分校的计算生物学家约翰·莫尔特(John Moult)等人创立了两年一度的CASP(Critical Assessment of protein Structure Prediction,即蛋白结构预测关键评估)比赛。在CASP上,不同队伍需要利用已知的氨基酸序列预测蛋白的三维结构。这些结构都已被实验证实,但未被公开。最后,评审会将各个队伍的预测结果与实验结果作比较,从而给出一个GDT分数。GDT意为“全局距离测试”(Global Distance Test),可理解为“有多大比例氨基酸的预测位置,与实验测定的实际位置相差无几”,因此分数越高,代表着预测越准

GDT测试的满分为100。一个预测方法必须要取得90分以上的成绩,才能算作“解决了蛋白折叠问题”。

截至2016年,12届CASP的历史最高分约为40

AI相助

AlphaFold的第一次亮相在2018年。在第13届CASP上,AlphaFold获得了将近60分的GDT分数,比第二名高出了15%。在今年的CASP上,AlphaFold更是一举获得了将近90分的成绩

在中等难度的蛋白结构预测中,AlphaFold连续两年夺冠,今年更是取得了将近90分的GDT成绩

DeepMind

AlphaFold的工作原理分为两步。第一步是多序列校准(multiple sequence alignment),与一同参赛的其它算法没有区别,意在将已知的氨基酸序列与数据库内的序列对比,找出那些“喜欢待在一起”的氨基酸,再通过进一步分析模拟出每个氨基酸之间的距离,从而得出初步预测。但知道氨基酸之间的距离还不够——毕竟不是每一种三维结构都符合物理规则。于是在第二步中,AlphaFold会基于氨基酸序列,创造出一个符合物理规则的随机三维结构,然后用深度学习中常用的梯度下降法(gradient descent)改进第一步中得出的预测。

至此,AlphaFold已经能超越前12届CASP中冠军所用的预测方法了。但在今年的CASP上,第二代的AlphaFold还用上了基于注意力机制的神经网络(attention-based neural network)架构。简单来说,在考虑蛋白三维结构时,这种旨在模仿大脑的神经网络架构不仅会考虑到氨基酸序列中的每个氨基酸,还能预估一个氨基酸的位置受哪些氨基酸的影响、影响程度有多大,等等。就如同大脑在决策时会将注意力集中在重要信息上一样,升级版AlphaFold在预测结构时也会将“注意力”集中在重要的氨基酸上

与其他深度学习算法一样,AlphaFold也需要利用大量数据进行训练。今年参加CASP的AlphaFold,训练数据集囊括了大约17万个已知的蛋白三维结构,加上包括Uniprot在内的大型蛋白序列库中的蛋白氨基酸序列。利用128个TPUv3核心,AlphaFold在训练了几周后就达到了参赛水平。

有了先进的神经网络架构、算法和数据的支持,AlphaFold能在几天内预测出一个蛋白的三维结构,甚至还能计算预测结构中每个部分的可靠性(即AlphaFold对这部分预测结构的“信心”)。在CASP的盲审中,当评委们看到一个队伍的算法拥有极高的预测准确率时,他们“就已经猜到这是AlphaFold了,”评审之一,安德烈·鲁帕斯(Andrei Lupas)说。比赛结果显示,AlphaFold将近三分之二的预测都与实验结果相近

打开网易新闻 查看更多图片

AlphaFold对两个蛋白(左:RNA聚合酶的一个域;右:黏附素尖端)的结构预测(蓝色)和实验测定结构(绿色)的对比

DeepMind

撼动学界

AlphaFold的参赛结果,让哥伦比亚大学的计算生物学家穆罕默德·库雷希(Mohammed AlQuraishi)感觉会有很多人因此离开蛋白结构预测领域。他说:“这是最高级别的突破,绝对是我人生中最重要的科学成果之一。”AlphaFold的出现,意味着今后要对蛋白结构进行高效、简便且精准的预测,仅需初步的试验数据即可。拥有这些蛋白结构的助力,疾病、演化等领域的研究将得到强大的推动。

以疾病研究为例,利用给定氨基酸序列预测蛋白结构至关重要。例如,镰刀性贫血症(sickle-cell anaemia)是由单个氨基酸的变动(从谷氨酸到缬氨酸)引起的。这个变动足以使血细胞从正常运作的球状,变成具有严重缺陷的镰刀状。类似的遗传疾病比比皆是。有了AlphaFold的帮助,我们就能快速利用发生变动的氨基酸序列,预测疾病中异常蛋白的结构,从而有针对性地进行下一步研究

除此之外,AlphaFold也标志着DeepMind公司的转型。在今年年初,《自然》刊发了一篇DeepMind的科研文章,利用从人工智能领域中获得的洞见,改变了许多神经科学家对大脑中重要的神经调质多巴胺(dopamine)的看法。AlphaFold的此次成功,更坚定了DeepMind利用人工智能助力生物领域研究的角色。

DeepMind公司的CEO德米斯·哈萨比斯(Demis Hassabis)表示:“在实际影响力上,我真的觉得这是(DeepMind)至今最重要的成就。”这个50年难题的解决,意味着生物学家终于从预测蛋白结构的苦劳中被解放出来,能够着手应对更新、更需要创造力的任务。

作者:阿莫東森 | 封面:Gaetan Namouric

排版:光影