DeepMind 旗下深度学习模型 AlphaFold2 再掀波澜!

上周,DeepMind 团队刚刚在 Nature 发文,详细公开 AlphaFold2 预测蛋白质三维结构的方法论,并将代码开源。短短不到一周时间内,DeepMind 再发文公布基于此方法预测出的蛋白质三维结构数据库。

美东时间 7 月 22 日,DeepMind 宣布,其与欧洲分子生物学实验室(EMBL)共同利用 AlphaFold2 基于氨基酸序列预测了 350,000 个蛋白质的三维结构,几乎涵盖了人类基因组表达的约 20,000 个蛋白质(对 98.5% 人类蛋白质做出预测),以及其他 20 多种生物的蛋白质结构。

其中,AlphaFold2 能对人类蛋白质组中 58% 的氨基酸结构位置给出可信预测,对 35.7% 的结构位置预测给出很高的置信度。在该水平之上,AlphaFold2 不仅可以确定蛋白质的骨架,还可以确定其侧链的方向。

相关预测结果已发表在 Nature 上,同时 DeepMind 也将通过一个公共数据库向公众免费提供所有 AlphaFold2 的蛋白质预测结果。

DeepMind 表示,这是迄今为止最完整、最准确的人类蛋白质组三维结构数据库,是人类以往积累的高精度蛋白质结构数据的两倍多。

打开网易新闻 查看更多图片

(来源:Nature)

外媒报道称,这些预测结果有望成为揭示人体分子机制并将其应用于医学创新的一种强大工具,这预示着人工智能生物学新时代的到来。

这是自人类基因组图谱发布以来最重要的数据库之一。”EMBL 副总干事和 EMBL-EBI 主任 Ewan Birney 说。

“之前比较准确解析出三维结构的蛋白质约有 20%,现在可以准确预测出约 58% 蛋白质结构,这丰富了蛋白质三维数据库,能够为后期应用提供更多有用信息。” 复旦大学生命科学学院教授丁澦说。

结构预测新标准?

几十年来,确定蛋白质结构的唯一方法是在实验室中的各种成像技术,包括

X 射线晶体学、冷冻电镜、微晶电子衍射等。

不过,这些技术解析的时间比较长,精确度有限,因此基于氨基酸序列预测结构也被视为一种极具吸引力的方式。

此前,AlphaFold2 在蛋白质结构预测大赛中(CASP14)的预测分值中位数为 92.4 GDT,达到了与实验室水平不相上下。日前,DeepMind 对开源版本的 AlphaFold2 进行了简化和升级,速度比之前版本的速度快了 16 倍。据官方介绍,依据蛋白质的大小,可以在几分钟到几小时内预测出结构。

(来源:theverge 官网)

“我认为这会真正改变科学家处理生物学问题的方式。研究人员不需要再耗费大量时间和精力在解析蛋白质结构上,而是可以专注于功能研究。”DeepMind 旗下 AlphaFold 首席研究员 John Jumper 对外媒说。

随着该模型的升级和数据库的不断更新,AlphaFold 数据库是否会改变结构预测的常用方式,甚至成为结构解析的 “金标准”?

斯德哥尔摩大学的生物信息学家 Arne Elofsson 认为,DeepMind 能做的事情令人难以抗拒。不过,AlphaFold2 数据库并不会代替结构生物学家的实验毕竟对于很多应用来说,我们需要验证计算模型解析出来的结构。

马里兰大学的计算生物学家 John Moult 称,使用 AlphaFold2 计算模型的预测准确性还有待考量。

“了解结构的目的是阐明结构 - 功能关系,计算软件一定程度上会削弱传统的结构解析工具,但不会完全替代,其实更多的是为其他传统手段提供更多帮助。在算出大致蛋白质结构基础上,再通过其他实验技术手段,能更精确了解蛋白质的作用机理和调控机制。” 丁澦告诉生辉。

AI 制药领域重大利好

John Jumper 表示,当预测了 1 亿个蛋白质结构(几乎覆盖了所有蛋白质类型)时,就真正开始谈论变革性用途。

海量蛋白质三维数据库的一个潜在应用方向可能是在药物发现领域。DeepMind 认为,这些预测数据可能会吸引到正在改进深度学习模型的 AI 制药公司、扩大靶蛋白目录生物技术初创、工程化改造定制酶的公司。

DeepMind 首席执行官 Demis Hassabis 在一次电话会议上称:“我们希望药物发现和制药公司使用该数据库”。

AI 药物发现领域领跑者 Atomwise 首席执行官 Abraham Heifets 称,这开启了基于结构药物设计的一个超级激动人心的时代。

该公司利用蛋白质结构库计算蛋白质结构,然后寻找可以选择性与疾病相关蛋白质结合的药物分子。对蛋白质的形状有更好的认知是如何设计可以阻断疾病进程药物分子的关键。

Abraham Heifets 透露,DeepMind 增加了新的蛋白质结构,扩充了蛋白质结构数据库,为药物开发科学家和基础科研人员提供了更丰富的数据库。我们将会快速查阅该数据库,查看是否可以在该数据库中找到与疾病相关的蛋白质。

打开网易新闻 查看更多图片

(来源:www.ebi.ac.uk)

人类基因有 20,000 个,但其中只有 4% 的药物获得了 FDA 的批准,因此可以寻找的蛋白质靶点的范围也会扩大。

“基于该数据库,对一些结构比较明确的蛋白质,科学家们可以高精度开发新型结合小分子,并阐明分子作用机理,大幅提升研发效率。” 丁澦说。

据了解,DeepMind 已与被忽视疾病药物研发倡议组织(DNDi)建立了合作伙伴关系,共同开发针对热带寄生虫疾病恰加斯病(Chagas disease)和利什曼病(leishmaniasis)的疗法。

参考资料:

https://www.theverge.com/2021/7/22/22586578/deepmind-alphafold-ai-protein-folding-human-proteome-released-for-free

-End-