打开网易新闻 查看更多图片

撰文 | 王聪

在癌症中,癌细胞会失去控制,它们快速增殖并转移到身体的其他组织,破坏器官,最终让人失去生命。这种不受控制的生长通常是由癌基因中的DNA突变累积所致,例如控制细胞发育的这些基因中的突变。但是有些癌症中只有很少的突变基因,这意味着在这些情况下,还有其他原因导致癌症的出现。

2021年4月12日,德国马克斯·普朗克分子遗传学研究所Annalisa Marsico团队在Nature子刊Nature Machine Intelligence期刊发表了题为:Integration of multiomics data with graph convolutional networks to identify new cancer genes and their associated molecular mechanisms 的研究论文。

一种新的算法可以预测哪些基因会导致癌症,即使它们的DNA序列没有改变也是如此。

研究团队结合了多种数据,并使用人工智能(AI)对其进行了分析,成功鉴定出165个新型癌基因。 为个性化医学中靶向癌症治疗和开发生物标记物开辟了新的前景。

研究团队开发了一种基于人工智能(AI)的名为“EMOGI”的新算法,成功识别了165个先前未知的癌基因这些基因并不一定要发生突变才致癌,有些是通过表达失调致癌。所有这些新发现的癌基因都与已知的著名癌基因有紧密相互作用。而且细胞实验证实它们对肿瘤细胞的生存至关重要。

研究团队开发了一款基于图卷积网络(GCN)的机器学习算法——EMOGI(Explainable Multiomics Graph Integration)。该算法集成了从患者样本中生成的数以万计的数据集,这些数据集包括突变的DNA序列数据、DNA甲基化、单个基因活性以及细胞通路中蛋白质相互作用信息。在这些数据中,深度学习算法可检测导致癌症发展的模式和分子原理。

与传统的癌症治疗方法(例如化疗、放疗)不同,个性化治疗方法可根据癌症类型精确调整治疗方法和药物,目的是为每位患者选择最佳疗法,即副作用最少的最有效疗法。此外,还能根据患者的分子特征在早期阶段识别出癌症。只有知道了导致疾病的原因,才能够有效地消灭或纠正它们。这也是为什么我们要尽可能多的确定诱发癌症的机制。

到目前为止,大多数癌症研究都集中在基因序列突变上,实际上,近几年来的研究表明,表观遗传或基因表达失调也可能导致癌症

这也是为什么研究团队将基因突变序列数据和DNA甲基化、基因表达活性、蛋白相互作用等信息整合到一起的原因,首先,研究团队证实突变或基因组片段的倍增确实是癌症的主要驱动力。然后,研究团队进一步找出与癌症驱动基因不直接相关的候选基因。

蛋白质和基因的相互作用可以映射成一个数学网络,也就是一个图形。可以将其想像成一个铁路网络。每个站点对应一个蛋白质或基因,它们之间的每个相互作用就像是火车路线。

研究团队借助人工智能算法,分析了16种不同癌症类型的成千上万种不同的相互作用网络图。

打开网易新闻 查看更多图片

通过这一算法,研究团队找到了那些在癌症中并没有发生突变的基因,但是它们能够调控能量供应,因此与癌症发展密切相关。这些基因受到甲基化等方式的影响而表达失调,从而影响癌症发展。

这些基因是有潜力的癌症治疗靶标,但是由于它们隐藏很深,只有借助生物信息学和最新的人工智能算法,才能发现它们。

研究团队还发现,数据中隐藏了许多有趣的细节。我们看到的模式取决于特定的癌症和组织,研究团队认为这是肿瘤由不同器官中的不同分子机制触发的证据。

最后,研究团队强调,EMOGI算法不仅能够用于癌症研究。从理论上讲,它可以用来整合各种生物数据集并从中找到模式,因此可用于其他基因发挥重要作用的复杂疾病,例如糖尿病等代谢性疾病

论文链接:

https://www.nature.com/articles/s42256-021-00325-y