联合用药疗法对于多种复杂疾病尤其是恶性肿瘤的治疗至关重要。面对海量的药物组合搜索空间,仅通过高通量实验筛选技术成本过高且难以覆盖所有组合。在药物多维度大数据的推动下,基于人工智能的新一代联合用药预测技术正在加速发展,但在类别不均衡、特征高维等方面仍然存在巨大挑战。
近日,军事医学研究院伯晓晨/何松课题组与厦门大学刘昆宏课题组合作,在Cell Reports Methods杂志发表了研究论文A hybrid deep forest-based method for predicting synergistic drug combinations,针对联合用药数据集中类别不均衡、特征高维、数据规模小的固有问题,提出了基于深度森林框架的预测算法ForSyn,以预测不同肿瘤细胞系的联合用药效果。一系列计算与生物实验有效验证了ForSyn的预测精度,可解释性相关分析揭示了联合用药协同作用的潜在机制。
现有的联合用药预测研究大多利用基于深度神经网络的方法,能够获得较高的整体预测性能。然而,联合用药数据集存在固有的类别不均衡问题,负样本(非协同药物组合)的数量通常是正样本(协同组合)数量的十倍以上。现有大多算法的整体预测性能由多数类的分类结果主导,偏向于将更多的多数类(负样本)预测正确,而忽略了对少数类(正样本)样本的学习。此外,已有研究仅利用结构与理化性质表征药物,忽略了药物与肿瘤细胞系之间的生物联系。一旦应用包含更多信息的生物属性数据,样本的特征维度将增加,样本数量将减少。基于深度神经网络的算法通常依赖大规模的训练数据集,在中小型规模数据集上难以保持预测精度。
为了解决上述问题,本研究提出了一个包含药物物理、化学、生物信息的跨领域特征数据集。而后,设计基于深度森林的ForSyn算法实现二分类任务,在深度森林框架中引入基于AP聚类的分层下采样随机森林、基于数据复杂度降维的极限树森林单元,很好地缓解了类别不均衡、特征维度高、样本数量少给分类过程带来的不利影响(图1)。通过与12种领域SOTA方法对比,ForSyn在八个数据集、四种指标上排名第一,展示出了优异的分类性能,显著提高了对于少数类样本(协同药物组合)的预测精度。细胞增殖实验结果验证了ForSyn预测出的四种新型抗肿瘤联合用药疗法的潜力。
图1 研究流程
此外,ForSyn具有可解释性,可以计算输入的每一维特征数据对于预测过程的贡献。通过特征重要性评估,提取出了在协同作用预测中具有关键作用的特征,从三个方面进行了系统分析,包括与预测过程的关联、特征类型的贡献、关键特征的生物分析(图2)。分析发现药物的转录组数据对于预测具有突出贡献,药物可以通过调节关键基因的转录表达推动联合用药的协同或拮抗效果。
图2 ForSyn的可解释性分析结果
综上,本研究提出了基于深度森林框架的预测算法,缓解了生物医学数据集中类别不均衡、特征维度高、样本数量少的固有问题,不仅预测出了有潜力的联合用药疗法,而且为药物发现领域的其他研究提供了潜在的技术途径。此外,通过可解释性分析发现了在预测过程中具有关键作用的基因,为联合用药作用机制的实验研究提供了理论线索。
作者简介
天津大学博士生武连莲、福建医科大学助理研究员高捷、军事医学研究院博士后张艺馨为该论文的共同第一作者,军事医学研究院伯晓晨研究员、何松副研究员、厦门大学刘昆宏教授为该论文的共同通讯作者。
伯晓晨研究员/何松副研究员课题组一直致力于利用生物医学大数据与人工智能的多种计算模型研究癌症等复杂疾病的致病机理和药物治疗方案,在Nature、Nature Microbiology、Molecular Cell、Nucleic Acids Research、Genome Biology、Briefings in Bioinformatics等杂志发表多篇论文。
刘昆宏教授课题组一直致力于研究机器学习、深度学习的理论与应用研究,在IEEE Transactions on Multimedia,Briefings in Bioinformatics等期刊以及IJCAI、BIBM等顶会发表多篇论文。
两课题组长期招收硕士、博士研究生及博士后,欢迎感兴趣的同学加入或来函咨询。
简历投递(有意者请将个人简历等材料发至):
https://jinshuju.net/f/ZqXwZt或扫描二维码投递简历
图片
Lianlian Wu, Jie Gao, Yixin Zhang, Binsheng Sui, Yuqi Wen, Qingqiang Wu, Kunhong Liu, Song He, and Xiaochen Bo, A hybrid deep forest-based method for predicting synergistic drug combinations, Cell Reports Methods, 2023, https://doi.org/10.1016/j.crmeth.2023.100411.
制版人:十一