打开网易新闻 查看更多图片

责编 | 兮

准确的判断人类基因序列变异的致病性可以使人类基因组序列在精准医学领域中的潜力得到充分的发挥。尽管全基因组关联研究(GWAS)探测与疾病相关的罕见错义变异的能力有限,罕见错义变化在人类基因组中的地位举足轻重:超过 99% 的观察到的人类错义变异是罕见的(全球次要等位基因频率或 MAF 低于 0.5%),其中90% 极为罕见(MAF < 10-6)。识别具有破坏性的罕见错义变异是解读个人基因组的一个重要和艰巨的挑战。

现如今通过高通量的深度突变扫描实验评估所有可能的错义变异对单个目标蛋白质功能的影响已经成为可能。但是,在大约4,000 种和人类疾病相关的蛋白质中现仅有不到 1% 有相关的实验结果,而且实验往往是在模式生物细胞中进行的。我们可能还需要很长的时间才能获取完整的高质量的人体细胞深度突变扫描实验数据。相比之下,利用计算预测模型推断变异致病性已经可以应用于所有的人类基因。然而,至今所有的计算预测模型性能都尚未能达到临床应用的标准。

2021年9月21日,加拿大多伦多大学Frederick Roth 团队,吴颖洲(Yingzhou Wu) 作为第一作者,在The American Journal of Human Genetics期刊上 发表了题为Improved pathogenicity prediction for rare human missense variants 的文章,旨在提升针对罕见人类基因错义变异致病性的预测模型的性能。在所有同类模型 (比如:Polyphen2, SIFT, REVEL等等)的预测查准率都调整到90%的情况下,文章中新研发的VARITY_R(针对MAF<0.5%的变异) 和 VARITY_ER (针对 MAF<10-6的变异)监督式机器学习模型,比同类模型检测到至少10%以上的致病变体。

VARITY_R 和VARITY_ER模型的性能提升主要来源于VARITY 机器学习构架(https://github.com/joewuca/varity) 的开发。在监督式学习模型中,当面临大量的训练数据但只有一小部分是高质量数据的情况下,VARITY构架可以通过给不同的训练数据分配与数据质量相关的最优权重来平衡训练数据质量和数量,从而提升模型的性能。VARITY 构架首先将所有的训练数据划分成核心数据(高质量)和附加数据(质量不确定),然后根据需要将核心/附加数据进一步划分成多个核心/附加数据子集,以便可以对每一个数据子集进行独立的调整来对模型做出贡献。对于每一个数据子集,VARITY构架首先通过“移动窗口分析”的方法确立一个或多个“数据质量相关因素”变量,然后针对每个变量设定一个Logistic函数并将该变量作为输入值, Logistic函数中的参数将作为“权重”超参数和其他算法相关的超参数一起进行以优化模型在核心数据集上的性能为目标的超参数调优。Logistic函数的输出值将为当前数据子集中的每一条数据分配权重,而最终的模型将在所有已分配权重的训练数据集上建立。

在构建预测人类罕见基因错义变异的VARITY_R模型过程中,研究人员采用了VARITY构架,通过不同的数据库收集到大量的致病性已知的人类错义变体数据集作为训练数据 ,但除了从ClinVar 数据库(有严格的审核流程)采集的数据质量是可以保证的,对提供致病性注释的其他资源 (比如HumsaVAR,HGMD,gnomAD, MaveDB等等)的准确性不太确定。另外,训练数据的质量也会被模型目标数据“代表性”所影响。比如这里旨在建立专门针对人类罕见基因错义变异的模型,这样人类常见基因错义变异也许并不能“代表”人类罕见基因错义变异,其数据质量也就是对于提高模型性能的作用也就不确定了。因此,研究人员仅仅将ClinVar数据库中采集到的人类罕见基因错义变异作为核心数据,而将其他数据库采集到的数据以及ClinVAR数据库中的人类常见基因错义变异作为附加数据。研究人员进一步将核心/附加数据根据数据采集的来源,数据注释(是否致病),以及变异是否罕见划分成若干核心/附加数据子集。每一个子集都确定了数据质量相关因素,比如gnomAD数据库中采集的训练数据子集研究人员使用了“携带同基因合子的人数”作为数据质量相关因素,而从ClinVAR数据库中采集的训练数据子集使用了“验查星数”作为数据质量相关因素。通过超参数调优研究人员确定了和每一个数据质量相关因素相对应的Logistic函数的参数,并为每一个训练数据子集中的数据赋予了最优的权重,继而建立的VARITY_R模型。研究人员同时建立了类似的专门针对人类极其罕见的错义变异的VARITY_ER模型,和VARITY_R的唯一不同就是VARITY_ER仅仅将从ClinVar数据库中采集到极其罕见的人类错义变异数据作为核心数据。

打开网易新闻 查看更多图片

VARITY_R和VARITY_ER模型使用的数据特征包含了进化、蛋白结构以及蛋白质交互作用相关的一系列特征,使用的机器学习算法是梯度提升决策树并采用贝叶斯优化的超参数调优方法。在和20种以上的同类模型在和神经发育疾病相关的新生突变数据集,深度突变扫描实验数据集,以及ClinVar核心数据集(使用嵌套交叉验证)上做的性能对比中,VARITY_R或者是VARITY_ER取得了具有统计显著性的优势。在所有同类模型的预测查准率都调整到90%的情况下,VARITY_R和 VARITY_ER模型比同类模型检测到至少10%以上的致病变体。

研究人员使用VARITY_R和VARITY_ER模型对将近18,000种人类蛋白质可能出现的所有基因错义变异的致病性做了预测,并对每一个变异的预测结果做了夏普利值分析,提供了每一个变异的预测结果中每个特征的贡献。所以的预测结果可以通过varity.varianteffect.org查询并下载。

原文链接:

https://doi.org/10.1016/j.ajhg.2021.08.012

注:本文来自BioArt微信公众号,更多生物领域前沿信息等你来发现!

转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经允许禁止转载,作者拥有所有法定权利,违者必究。