蛋白质功能预测

蛋白质是存在于所有生物中的必需物质。它们在我们身体的结构和功能中发挥着核心作用,并且它们还出现在我们每天遇到的许多产品中,从药物到洗衣粉等家居用品。每个蛋白质都是一串氨基酸构建块,就像一张图像可能包含多个对象,如狗和猫,一个蛋白质也可能有多个组成部分,称为蛋白质结构域。了解蛋白质的氨基酸序列(例如其结构域)与其结构或功能之间的关系是具有深远科学意义的长期挑战。

打开网易新闻 查看更多图片

具有已知结构的蛋白质示例,来自大肠杆菌的TrpCF,用于预测功能的区域突出显示(绿色)。

许多人都熟悉从氨基酸序列计算预测蛋白质结构的最新进展,如 DeepMind 的AlphaFold 所示。同样,科学界在使用计算工具直接从序列推断蛋白质功能方面有着悠久的历史。例如,广泛使用的蛋白质家族数据库Pfam,包含许多描述蛋白质结构域功能的高度详细的计算注释,例如珠蛋白和胰蛋白酶家族。虽然现有的方法已经成功地预测了数亿种蛋白质的功能,但还有更多的功能没有被研究到——例如,至少有三分之一微生物蛋白质的注释不可靠。随着公共数据库中蛋白质序列的数量和多样性继续快速增加,准确预测不同序列蛋白质的功能的挑战变得越来越紧迫。

在Nature Biotechnology上发表的 “ Using Deep Learning to Annotate the Protein Universe ”中,Google描述了一种机器学习技术 (ML) 来可靠地预测蛋白质功能的论文。这种称为 ProtENN 的方法使Google能够在 Pfam 蛋白质功能注释集中添加大约 680 万个条目注释,大约相当于过去十年的进展总和,Google将其作为Pfam-N发布. 为了鼓励在这个方向上进一步研究,Google正在发布 ProtENN 模型和论文文章

Pfam 数据库是大量蛋白质家族及其序列的集合。我们的 ML 模型 ProtENN 帮助注释了数据库中的 680 万个蛋白质区域。

----2----

蛋白质功能预测作为分类问题

在计算机视觉中,通常首先训练用于图像分类任务的模型,如CIFAR-100,然后将其扩展到更专业的任务,如对象检测和定位。同样,Google开发了一个蛋白质分类模型,作为迈向未来整个蛋白质序列分类模型的第一步。Google将问题定义为一个多类分类任务,在给定蛋白质结构域的氨基酸序列的情况下,Google从 17,929 个类别(所有类别包含在 Pfam 数据库中)预测单个标签。

将序列与功能联系起来

虽然目前有许多模型可用于蛋白质结构域分类,但当前最先进方法的一个缺点是它们基于线性序列的比对并且不考虑蛋白质序列不同部分的氨基酸之间的相互作用。但是蛋白质不仅仅停留在一行氨基酸中,它们自身折叠起来,这样不相邻的氨基酸就会相互产生强烈的影响。

将新的查询序列与一个或多个具有已知功能的序列进行比对是当前最先进方法的关键步骤。如果新序列与任何具有已知功能的序列高度不同,这种对具有已知功能的序列的依赖使得预测新序列的功能变得具有挑战性。此外,基于比对的方法是计算密集型的,并且将它们应用于大型数据集,例如包含超过 10 亿个蛋白质序列的宏基因组数据库MGnify,成本可能过高。

为了应对这些挑战,Google建议使用卷积神经网络(CNN),它应该非常适合模拟非局部成对氨基酸的相互作用,并且可以在 GPU 等现代 ML 硬件上运行。Google训练一维 CNN 来预测蛋白质序列的分类,Google称之为 ProtCNN,以及一组独立训练的 ProtCNN 模型,称之为 ProtENN。

----3----

蛋白质模型的训练

与其他他领域的知名分类问题类似,蛋白质功能预测的挑战不在于为任务开发全新的模型,而更多在于创建公平的训练和测试集以确保模型能够对看不见的数据进行准确的预测。由于蛋白质是从共同的祖先进化而来的,因此不同的蛋白质通常共享其氨基酸序列的很大一部分。如果没有适当的注意,测试集可能会被与训练数据高度相似的样本所支配,这可能会导致模型通过简单地“记忆”训练数据而不是从学习中进行更广泛的概括。

Google创建了一个测试集,要求 ProtENN 能够很好地泛化远离其训练集的数据。

为了防止这种情况发生,必须使用多个单独的设置来评估模型的性能。对于每次评估,Google将模型精度分层为每个保留测试序列与训练集中最近序列之间的相似性函数。

第一个评估

包括一个聚类分裂训练和测试集。在这里,蛋白质序列样本按序列相似性进行聚类,并将整个聚类放入训练集或测试集。因此,每个测试示例与每个训练示例至少有 75% 的差异。在此任务上的出色表现表明模型可以泛化以对分布外数据做出准确的预测。

第二次评估

使用随机拆分的训练和测试集,根据对样本分类难度的估计对样本进行分层。

Google评估了最广泛使用的基线模型和评估设置的性能,特别是以下基线模型:

(1) BLAST,一种使用序列比对来测量距离和推断函数的最近邻方法,

(2)轮廓隐藏马尔可夫模型(TPHMM 和 pmmer)。

对于其中的每一个,都包括基于上述序列相似性的模型性能分层。Google将这些基线与 ProtCNN 和 CNN 集合 ProtENN 进行了比较。

打开网易新闻 查看更多图片

衡量每个模型的泛化能力,从最难的(左)到最简单的(右)

经过测试验证,这些方法和分类任务是成功的,Google检查了这些网络以了解嵌入是否普遍有用。并构建了一个工具,使用户能够探索模型预测、嵌入和输入序列之间的关系。此外,模型选择的网络架构,即扩张的 CNN,允许采用先前发现的可解释性方法,如类激活映射(CAM) 和(SIS) 来识别神经网络预测的子序列。

结论

从AlphaFold和CAFA到在会议上专门针对该主题的大量研讨会和研究报告,Google对过去几年将 ML 应用于蛋白质结构和功能所取得的进展感到兴奋。当然Google希望在这项工作的基础上再接再厉,继续与该领域的科学家合作,再加上 ML 的进步,将有助于人类进一步揭示蛋白质的世界