复杂性状的表型变异与多种分子过程中的遗传和表观遗传变异密切相关。高通量测序技术的发展使得研究人员能够获取涵盖基因组、转录组、蛋白组和表观组在内的大量多组学数据。然而,如何有效整合这些多模态数据并将其转化为有意义的生物学见解一直是复杂性状研究中的一大挑战。

近日,西北农林科技大学植物生物信息学与系统生物学研究团队在Plant Communications上发表了题为“Dual-Extraction Modeling: A multimodal deep learning architecture for phenotypic prediction and functional gene mining of complex traits”的研究论文。该研究开发了一种创新的深度学习模型Dual-Extraction Modeling(DEM)。DEM模型能够从多种异质的组学数据集中提取代表性特征,进而预测与复杂性状相关的表型,并识别影响这些性状的功能基因,有望在性状改良和疾病预测中发挥重要作用(图1)。

打开网易新闻 查看更多图片
图1. DEM模型架构

DEM模型架构采用了双重提取的策略,分别在高维和低维特征空间中进行建模。通过多头自注意力网络,DEM能够从个体组学特征矩阵和联合矩阵中提取全局注意力特征向量,进而优化模型权重并输出最终预测结果。这种方法不仅提升了性状表型预测的准确性,还通过事后解释策略提高了模型对性状相关功能基因的识别能力。在随后一系列全面的基准测试实验中,DEM模型在植物的数量性状和质量性状预测方面均展现出了优越的准确性、鲁棒性、泛化能力和灵活性。此外,DEM模型在人类疾病预测中同样表现优异。特别值得一提的是,DEM在预测影响多性状的多效性基因方面表现出了显著的可解释能力。在此基础上,研究团队开发了一款便于使用的软件,使得研究人员能够轻松运用DEM的各项功能进行多组学数据的分析与解读(图2)。该项研究成果不仅为复杂性状的研究提供了一个强有力的工具,还通过高效的特征提取、表型预测和事后解释方法,推动了对性状机制和疾病机理的理解。DEM的高性能和易用性将有望加速智能育种和精准医疗研究的进程。

打开网易新闻 查看更多图片

图2. DEM软件功能

马闯教授领衔的植物生物信息学与系统生物学研究团队长期聚焦组学大数据挖掘、智能育种等农业生产实际问题,致力于研发生物大数据处理新方法、新算法和新软件,开展以大数据为支撑的智能育种理论与应用研究。团队的三名硕士研究生任彦霖吴宸华周何为该论文共同第一作者,团队的胡晓娜老师和苗震龑教授为该论文通讯作者。该研究工作得到了国家自然科学基金面上项目和青年项目的资助,以及西北农林科技大学高性能计算平台的算力支持。

论文链接:

https://doi.org/10.1016/j.xplc.2024.101002