责编 | Qi

随着精准医疗和基因测序的发展,癌症分类越来越细化。根据病人临床或者分子特征定义的新的亚型越来越多。比如乳腺癌可粗分为ER+, HER2+和TNBC,而TNBC又可以再分为六种亚型。往往抗药的病人因具有不同的分子特征而被分开出来针对研究。药物研发也慢慢开始针对各种亚型。加上各种罕见癌症,新的癌症类型数越来越多。而分配到各特定病人群体的研究资源很有限。大规模的药物筛选在小的实验室很难实现。

过去几十年的基因测序能对各种癌症基因表达精确定义,同时也能对目前临床药物对基因调控有了清晰地了解。通过匹配疾病和药物的分子图谱,我们能快速找到合理的药物进行进一步实验验证。因为很多药物已经运用于临床,可以很容易实现药物再利用(drug repurposing)。来自美国密西根州立大学陈斌团队开发一种匹配算法,该算法能量化每个药物对特定疾病分子图谱的校正潜力(命名为RGES)。RGES的核心概念是如果药物对疾病高表达基因有下调作用而对低表达基因有上调作用,意味着该药物可能对此疾病有效。陈实验室和其他实验室运用此算法发现了很多候选药物。比如他们发现抗痢疾药可能能用来治疗肝癌 (PMID:28284560)。他们的研究表明用该算法来筛选药物能达到50%的成功率。然而,通过公用数据寻找正确的疾病分子图谱和合理利用此算法进行药物预测对大多数研究人员来说并不简单。

近日,陈斌团队在Nature protocols杂志上发表了一篇题为OCTAD: an open workspace for virtually screening therapeutics targeting precise cancer patient groups using gene expression features的文章,公布其最新开发的系统:OCTAD(http://octad.org/)。

打开网易新闻 查看更多图片

在文章里,作者详细叙述了药物预测的每一步骤, 从早期怎么选择合理的病人样本和匹配的样本到后期怎么选择靶点,评估预测效果和选择合理的实验模型。比如他们发现大部分的病人肿瘤样本没有直接可以用的正常组织样本来对比生成分子图谱。于是他们利用深度学习autoencoder来帮忙从GTEx,一大型正常组织数据库,来选择合理的正常样本。他们也发现好多细胞株虽然跟肿瘤组织来自同一细胞类 (cell of origin) ,但它们的基因表达完全不样。最明显的就是MDA-MB-231用来研究乳腺癌转移的细胞株跟转移的病人样本分子特点完全不一样(PMID:31092827)。OCTAD也加入了相应一模块来帮助选择细胞株。

目前,OCTAD收集了19127组织样本的基因表达数据涵盖了50多种癌症,每个样本包括了性别、年龄、癌症阶段 (stage)、基因突变 (mutation)、基因拷贝数 (Copy number variation),常见亚型等信息。同时OCTAD收集了12442药物的基因图谱。OCTAD的网络平台可以帮助无编程背景的人选择组织样本计算基因表达图谱和实验药物预测,OCTAD的R软件包能实现更多样式的大规模预测。

在文章最后,作者以肝癌为例一步步演示怎么通过网络版本和R软件包实现药物预测。同时他们也用MYC amplification 的肺癌和PIK3CA 变异的乳腺癌来说明OCTAD对癌症特定亚型的药物预测。OCTAD目前只支持现有药物的预测。

陈实验室在开发深度转移学习算法来实现对新化合物的筛选,并欢迎优秀博后和研究生加盟。

https://www.nature.com/articles/s41596-020-00430-z

制版人:嘉