AlphaFold2 开源,或将给细胞生物学领域带来一场革命。

上周,谷歌母公司 Alphabet 旗下的实验室 DeepMind,宣布公开 AlphaFold2 的源代码。这款基于人工智能的算法,可以预测蛋白质的形状。

打开网易新闻 查看更多图片

(来源:资料图)

AlphaFold 2 和竞品相继开源,全新数据应用时代已经到来

受 AlphaFold 算法的启发,华盛顿大学蛋白质设计研究所主任大卫・贝克(David Baker)的团队研发出 RoseTTAFold 算法。其声称,该算法获得了与 AlphaFold 2 相似的结果,同时计算成本更低。不过,一位业内专家告诉 DeepTech,RoseTTAFold 性能稍差但是 “也能用”。

近日,DeepMind 在 Nature 发表的新论文阐述了 AlphaFold2 的细节,并在 GitHub 公开了源代码,目前已有 4600 左右颗 star。

图 | AlphaFold 算法已开源(来源:GitHub)

与此同时,大卫・贝克团队也在 Science 发表了相关论文,并开源了 RoseTTAFold 的源代码,后者影响力虽然稍逊一筹,但也已经有 890 颗左右 star。

打开网易新闻 查看更多图片

图 | RoseTTAFold 算法也已开源(来源:GitHub)

DeepMind 历来以工作保密而闻名,2020 年该公司承诺将发表含有相关细节的论文。大卫・贝克对这种保密表示失望,他曾说:“学术界有相当多的悲观情绪。如果有人已经解决了你正在处理的问题,但没有透露他们是如何解决的,那么你该如何继续解决这个问题呢?”

这些担忧在 DeepMind 决定开源 AlphaFold2 已得到解决。不过,虽然源代码可以免费获得,但如果没有相关技术专长,就很难使用 AlphaFold2。

对此,新南威尔士大学计算机科学与工程学院副教授姚丽娜告诉 DeepTech,这反而能促进不同学科的合作,比如计算机 & 机器学习领域、与生医领域的学术合作和产业合作。在很多应用场景中,AI 和机器学习正起着基础支撑作用,在传统图像和文本处理领域,深度学习也已获得革命性进展。因此,也需要一个契机去变革其他领域。

(来源:DeepMind)

在 AlphaFold2 的业务拓展方面,DeepMind 表示它致力于 “大规模” 地提供服务,并与合作伙伴联合探索新领域,例如多种蛋白质如何形成复合物、以及如何与 DNA、RNA 和小分子相互作用。

今年早些时候,该公司宣布与总部位于日内瓦的 “被忽视疾病药物计划”(Drugs for Neglected Diseases initiative)建立合作关系,后者是一个非营利性制药组织,其希望使用 AlphaFold2 来研究 “难以捉摸” 的疾病。

关于此次开源的影响,姚丽娜告诉 DeepTech:“DeepMind 本次开源会给整个生态带来深远影响。对行业开发者来说,AlphaFold2 提供了强大的蛋白质预测和分析工具。对生物领域的学者来说,其好处在于降低了从业门槛。确定蛋白质结构往往要依赖很先进的设备,比如鼎鼎大名的冷冻电镜等。但不是每个大学或机构都有这样的财力或物力。”

图 | 姚丽娜(来源:受访者)

对于冷冻电镜的昂贵,刚使用该设备完成一项研究的浙大光电学院副教授郭欣深有感触,她告诉 DeepTech:“据我了解,一般冷冻电镜要好几百万美元,折合人民币要三四千万元,配置高的会更贵。相比于传统电镜,冷冻电镜增加了低温、冷冻防污染等系统,在图像采集处理等技术方面也有更高要求,所以价格要贵不少。因为价格高、依赖于进口,并且目前最多是在生命科学中应用,所以必须得有充分理由,才能立项购买。不过国内这几年已经有不少科研院所都已购买、或有计划购买。”

打开网易新闻 查看更多图片

图 | 郭欣(来源:受访者个人首页)

故此姚丽娜认为,在这种情况下 AlphaFold2 就可以大显身手,通过计算机的精确模拟,不仅能提供相对可靠的预测结果,同时预测速度还非常快。从而让更多科研团体或个人,去从事此前可能无条件做的蛋白质相关研究。

谈及对于老百姓的影响,姚丽娜表示,作为这个生态圈最上层的消费者,是最大的受益者。因为,此次开源会极大促进新药研发,从而提高人类抗击疾病的能力,或能给病患提供更有效的治疗手段,比如更精确有效的抗癌药物、抗三高的药物、改善帕金森的针对性药物等、新型疫苗的研制等。

开源数据科学公司 Zilliz 合伙人、研发总监郭人通告诉 DeepTech,AlphaFold2 的巨大成功预示着我们正在进入一个全新的数据应用时代,这个时代的特点是:以非结构化数据作为数据基础、以 AI 作为计算手段。

图 | 郭人通(来源:受访者)

在 AlphaFold2 的案例背后,我们可以看到非结构化数据应用的基本模式:其一,对非结构化数据中的关键信息进行编码,通过已有的海量数据构建解空间;其二,基于语义匹配,将初始问题转化为对解空间的搜索;三,对搜索结果的拼合等后处理。这一基本模式可帮助人类有效解决内容推荐、智能问答、软件病毒分析等关键问题,于 AlphaFold2 则是蛋白质结构预测。

但也有专家有不同观点,一位业内专家表示开源肯定是好事,这能促进整个研究领域的发展。现在很多机器学习算法的论文,其门槛不在算法,很多时候数据才是门槛。如果真的要保护算法,那需要申请专利。但是,AlphaFold2 的数据本来就是公开的数据,正因为数据是公开的,只要对照论文算法就不难实现,那还不如自己开源代码,因为即使不开源,也很快会有第三方实现,更不要说华盛顿大学也做了一个同类开源算法 RoseTTaFold,所以 DeepMind 直接通过 AlphaFold2 算法很难获得商业化机会。

诞生于五年前,攻克半个世纪悬而未解的难题

尽管 AlphaFold2 火于近两年,但冰冻三尺非一日之寒。事实上,2016 年 DeepMind 就已在用 AI 去解决蛋白质折叠问题。2018 年,AlphaFold 1.0 发布。

该算法的灵感来自于生物学、物理学和机器学习领域。蛋白质由许多氨基酸折叠构成,且具有明显的三维结构,而 AlphaFold 有能力解析三维结构中的氨基酸残基序列。

2020 年 12 月,AlphaFold2 发布并掀起轩然大波。该算法的首席研究员约翰・江珀(John Jumper)告诉媒体,此前版本的算法往往得好几天才能解析蛋白质结构,为此他们开发出 AlphaFold2,它比 AlphaFold1.0 的速度快 16 倍。在计算大小不同的蛋白质时,AlphaFold2 只需几分钟到几小时。

(来源:资料图)

种种成绩表明,如果该算法得到进一步完善,它将攻克蛋白质折叠领域此前难以解决的问题,甚至包括流行病学的相关难题。此前,SARS-CoV-2 中的 ORF3a 蛋白组成一直是一个谜。2020 年,该算法成功预测了含 ORF3a 在内的几种蛋白质结构。

CASP (The Critical Assessment of protein Structure Prediction),是自 1994 年以来每两年进行一次的全球范围内的蛋白质结构预测竞赛。在该竞赛上,AlphaFold2 还预测了冠状病毒蛋白 ORF8 的结构。不久之后,这一预测被科学家证实。在公开可用的通用蛋白质数据库中,有 1.8 亿个蛋白质序列和计数。因此除了帮助应对疫情,DeepMind 预计该算法还能用于探索数亿种蛋白质。

大卫・贝克团队研发的 RoseTTaFold 还不能完全和 AlphaFold 2 匹敌,可能的原因之一是 DeepMind 的具有较多工程专业知识、以及卓越的计算能力,而大卫・贝克实验室里没有任何深度学习工程师。但不管如何,这两种算法的开源,或许都会让你我成为受益者。

原北京协和医学院教授王晨光告诉 DeepTech,三十多年前读大学时,他就听老师提到过蛋白质从确定的一级结构和二级结构到三级结构的不可预测性。半个多世纪以来,学界一直在探索如何解决该问题。20 世纪 90 年代,人们就意识到如果数据足够多、算力足够强,用机器预测蛋白质结构就会成为现实。

以人和机器下象棋为例,随着算力的提升,就连国际象棋冠军也下不过机器。后来人们认为,机器在围棋上应该无法超越人类,因为围棋有 219×19 各种变化。但没想到仅十几年时间,谷歌 AlphaGo 就已经打败世界围棋冠军李世石。

而 AlphaFold 系列算法同样代表着人类对此方向的追求,其包括在算法上训练如何破解蛋白质结构和验证晶体结构等。机器掌握住规律之后,就能不知疲倦地工作。这项成果之所以比较轰动,是因为生医领域内公认的长期性难题终于迎来重量级突破。而此次开源,也意味着 DeepMind 希望在药物发现等领域,为科学界提供更加触手可及的研究机会。