microRNA(miRNA)是一类重要的转录后调控因子,其在各种组织中表达,并参与不同生理和病理过程。一些miRNA在疾病中的功能已得到充分表征,但人们对miRNA基因转录调控和失调机制的了解仍然相对有限。miRNA独特的生物发生过程为其转录调控分析带来了挑战,因此整理经实验验证、能代表转录因子(TF)和miRNA之间真正功能性相互作用的调控信息十分重要。
2010年,北京大学崔庆华研究团队及合作者基于已发表的人工筛选TF-miRNA调控关系构建了TransmiR数据库,并于2018年进行了显著更新推出TransmiR v2.0。TransmiR v2.0包含3,730个TF-miRNA调控关系,涉及约623个TF、约785个miRNA、19个物种和1,349篇出版物;并提供了5个物种中基于ChIP-seq数据的1,785,998个TF-miRNA调控关系。
近日,崔庆华团队在Nucleic Acids Research发表了题为“TransmiR v3.0: an updated transcription factor-microRNA regulation database”的文章,发布了TransmiR v3.0数据库,包含更全面的miRNA转录调控信息。该数据库包含从2,285篇论文中筛选出的5,095个TF-miRNA调控信息,以及从ChIP-seq数据中筛选的超600万个TF-miRNA调控信息。目前,TransmiR v3.0涵盖了29个物种中的3,260个TF、4,253个miRNA和514,433个TF-miRNA调控对;并纳入了流行数据库中大量的TF结合位点基序以预测TF-miRNA调控。除数据量大幅增长外,TransmiR v3.0还改善了TF和miRNA的注释,在线数据库的功能也得到增强。综上,TransmiR v3.0为研究miRNA生物合成调控提供了有用的资源。
文章发表在Nucleic acids research
TransmiR v3.0数据库概述
TransmiR v3.0包含来自2,285篇出版物的5,095个TF-miRNA调控,其中包括29种生物的946个TF、1,072个miRNA和4,393个非冗余TF-miRNA调控对。与先前版本和其他专注于TF调控miRNA转录的数据库相比,TransmiR v3.0中TF和物种类型的覆盖范围有所提高。
图1. TransmiR第3版和第2版以及其他类似数据库中的miRNA转录调控文献数据。
具有实验证据的TF-miRNA调控数据在不同物种中的分布如图2A所示。与其他物种相比,人类和小鼠的TF-miRNA调控研究最为广泛,约占所有条目的90%,分别为3,616条和948条。在这些调控中,人类和小鼠之间共发现了145个同源TF、158个同源miRNA、209个保守TF-miRNA调控对。
随着测序数据的激增,研究团队使用ChIP-seq数据为5个物种确定了超636万个预测的TF-miRNA调控,其中包括4,884,015条低置信度调控和1,477,813条高置信度调控。在整合了文献来源和基于ChIP-seq数据的TF-miRNA调控后,TransmiR v3.0包含的TF-miRNA调控记录几乎是TransmiR v2.0的四倍,高置信度TF-miRNA调控记录增加了十倍以上。在目前的TransmiR数据库中,总共有3,260个TF、4,253个miRNA和514、433个非冗余TF-miRNA调控对。
此外,研究团队还通过可靠的TFBS基序信息推断TF的miRNA靶点来预测TF-miRNA调控,共确定了284,527个TF-miRNA调控和42,530个相互作用对。最后,TransmiR v3.0还增加了关于TF-miRNA调控的新注释,如TF家族、TF结合位点基序,以及几种物种正常和癌症组织中TF和miRNA的表达谱。
图2. TransmiR v3.0数据库统计量
改进的内容和新功能
01
收集TF-miRNA调控相关文献
研究团队使用关键词“转录因子和(miRNA或microRNA或mir)”,在PubMed上搜索了2018-2024年的相关出版物,共检索到19,780篇论文;排除撤回的出版物和综述论文后,从中提取具有实验证据的TF-miRNA调控因子。对于每个TF-miRNA调控条目,收集相应的miRNA、TF、调控类型、组织、实验证据、物种和PubMed ID。最后,基于miRBase v22.1将miRNA映射到相应的pre-miRNA中;若映射失败,则保留原始名称。使用从NCBI Entrez获得的官方基因符号对TF名称进行标准化。
02
预测的TF-miRNA调控数据
基于已发表的大量ChIP-seq数据可对TF结合位点进行全基因组分析。为深入探究调控miRNA转录的TF,研究团队从ChIP Atlas 3.0平台中获取了5个物种的TF结合峰值区域,包括人、小家鼠、褐鼠、黑腹果蝇和秀丽隐杆线虫;并确定了5个物种的miRNA启动子区域;使用BEDTool提取TF结合区和miRNA启动子之间的交叉点,从而获得了预测的TF-miRNA调控对。最后,根据miRNA启动子的置信度将预测的TF-miRNA调控分为两个级别;1级别对应更广泛的预测启动子区域,而2级别是依据CAGE数据推断出的启动子。
03
TF-miRNA调控预测
丰富的位置频率矩阵(PFM)资源可表征体内或体外实验中获得的TF结合位点(TFBS),有助于识别潜在的TF靶基因并预测TF-miRNA的调控。研究团队从JASPAR 2024和HOCOMOCO v12的核心库中下载了上述5个物种的PFM;然后扫描了所有PFM的miRNA启动子序列,以确定控制miRNA转录的TF。为减少假阳性,设置了特定阈值来过滤TF-miRNA调控对。
04
TF和miRNA注释
研究团队还通过引入TF家族、TFBS基序和几个物种的表达谱改善了TF和miRNA的注释。具体而言,TF名称标准化后,使用NCBI Entrez gene ID、Ensembl gene ID、DisGeNet的基因相关疾病和人类蛋白质图谱数据库的基因相关癌症预后信息对其进行注释;并整合AnimalTFDB v4和PlantTFDB v4的TF家族注释,还包括来自JASPAR 2024和HOCOMOCO v12的TF结合位点基序。对于每个miRNA,从HMDD v4中检索其miRBase ID、基因组位置和疾病关联;还整合了从BGee和TCGA收集的几个物种的正常组织和癌症组织中TF和miRNA的基因表达数据。
05
TF-miRNA调控网络的构建
通过提取TF-疾病和miRNA-疾病关联中 共同的疾病,研究团队构建了712种疾病特异性TF-miRNA调控网络,其中约47%的疾病至少有20个TF-miRNA调控对。 同时,研究团队根据转录组数据鉴定了人类性别偏向性基因和miRNA,构建了性别特异性TF-miRNA调控网络。 在TransmiR v3.0中,分别有121个和65个雌性偏向性TF和miRNA,以及107个和126个雄性偏向性TF和miRNA。
TransmiR v3.0数据库的使用
TransmiR v3.0数据库可在http://www.cuilab.cn/transmir免费访问。首先,用户可在“search”页面上输入TF或miRNA名称进行搜索获取TF-miRNA调控,也可用分号作分隔输入多个TF或miRNA进行批量搜索;搜索结果表中列出了有关调控的基本信息,包括TF符号、miRNA名称、TSS位置、TF结合区和调控类型等,可单击“detail”链接访问访问每个条目的详细信息。如图3A–C所示,详细页面由四个模块组成:TF详细信息、miRNA详细信息、带有调控区序列的调控详细信息,以及显示正常和癌症组织中TF和miRNA表达的RNA表达谱。
除基本的查询功能外,TransmiR v3.0还提供了网络可视化和富集分析等一系列有用功能。用户能够在网络模块按照TF或miRNA浏览调控网络,并在特定疾病背景下或性别差异情况下探索TF-miRNA调控网络。TransmiR v3.0的疾病数量扩展到712种,为研究疾病机制提供了更丰富的资源。此外,性别特异性调控网络有助于探索男性和女性之间的差异途径。
图3. TransmiR v3.0新功能的Web界面可视化。
综上所述,相较之前版本,TransmiR v3.0提供了更丰富的TF-miRNA调控和更详细的注释。TransmiR v3.0引入了TF和miRNA的新注释,提高了TF调控细节的分辨率;TransmiR v3.0网站功能的提升也提高了数据的可访问性。TransmiR v3.0为研究miRNA及其调控网络提供了更全面、更丰富的资源。
论文原文:
Maodi Liang, Chenhao Zhang, Yang Yang,et al. TransmiR v3.0: an updated transcription factor-microRNA regulation database. Nucleic Acids Research, gkae1081.
https://academic.oup.com/nar/advance-article/doi/10.1093/nar/gkae1081/7893316
快点亮"在看”吧