20多年前,科学家首次对人类基因组进行测序。该研究最大的惊喜之一是人类基因组包含的基因数量并没有想象中的多,仅不到科学家预测的三分之一,似乎不到3万个基因及其编码的蛋白质就足以构建和运作人体。近期研究显示人类基因数量甚至可能更低,只有大约2万个基因。
但是,一项针对“黑暗蛋白质组”的新研究分析表明,科学家们错过了数千个以前被忽视的基因组片段中的非传统基因,这些基因产生的蛋白质比平均蛋白质要小。新发现的基因及其产物可能会颠覆人类生物学的各个方面,并加速医学发现,例如一个新发现的基因产生了一种微型蛋白质,这种蛋白质似乎是儿童癌症的关键。该研究由来自美国、英国、德国、瑞士、中国、新加坡等国家的研究人员合作完成,文章近期发表在预印本bioRxiv上。
Salk生物研究所的化学生物学家Alan Saghatelian表示:“除非我们知道黑暗蛋白质组中的蛋白质是什么以及它们是如何起作用的,否则我们治疗疾病的能力将受到限制。”
该研究的领导者之一、密歇根大学医学院儿科神经肿瘤学家John Prensner表示,之所以开始研究黑暗的蛋白质组,是因为其在已知基因中寻找癌症相关基因的许多研究都是空手而归。“我对基因组的其余部分所能提供的东西产生了兴趣。”
研究团队扩展了基因的标准定义。基因通常被认为是由一个长长的蛋白质编码DNA序列组成,称为开放阅读框(ORF),包括开始和停止阅读的信号。一个细胞将ORF序列转录成信使RNA,信使RNA被传送到核糖体,核糖体将氨基酸序列组装成蛋白质。一个典型的ORF之前也有一个DNA片段,它吸引了基因被读取所需的蛋白质。如果一个ORF编码了一个含有100个或更多氨基酸的蛋白质,那么它就被认为是一个基因。
但是,针对酵母、蛇和人类等各种生物学研究近期发现了大量所谓的非规范ORF(ncORF)。ncORF缺乏开头片段,比平均水平短。但是它们经常被转录成RNA,一种被称为核糖体分析或核糖序列分析的方法表明,许多转录的RNA附着在核糖体上,它们可能被翻译成短氨基酸链——甚至是含有少于12个氨基酸的蛋白质。ncORF的翻译已经在人类细胞类型和疾病状态中被观察到,对蛋白质组学、基因组学和临床科学具有重要意义,但对ncORF翻译对人类蛋白质组的贡献的了解仍然缺乏。
研究团队尝试利用参考注释的蛋白质组学证据,以鉴定翻译成人类蛋白质的ncORF,为此扩大了PeptideAtlas平台的范围。利用295个蛋白酶消化质谱(MS)蛋白质组学数据集(包括35亿个MS/MS谱)和118个HLA免疫肽富集数据集(包括2.4亿个MS/MS谱),研究创建了人类非HLA肽图谱2023-06和人类HLA肽图谱2023-11(图1b)。利用包含全面的THISP (Human Integrated search Proteome)4级数据库和7,264个由Ribo-seq检测并由GENCODE支持的ncORF来构建了数据库。
图1.参与注释工作的中心概述和肽图谱框架。
分析显示,在7,264个ncORF中,至少有25%产生了翻译基因产物,在泛蛋白质组分析中产生了超过3,000个肽,包含来自95,520个实验的38亿个MS/MS谱。利用这些数据,研究团队开发了一个ncORF的注释框架,并通过GENCODE和PeptideAtlas创建了公共工具,为在生物医学中推进发现ncORF衍生蛋白提供一个平台。在搜索了来自人类细胞系、组织和液体的普通蛋白酶消化以及免疫肽组学数据集的38亿个MS/MS谱后,研究团队手动验证了1,715个ncORF的证据,证明它们具有蛋白质组学翻译的令人信服的证据,值得进一步探索。
图2.由非HLA或HLA数据检测到的两个ncorf的例子。
斯坦福大学遗传学家Ami Bhatt认为,新发现的微小蛋白质能够帮助提供人类基因组编码部分的更完整图谱,其研究团队已经在探索微生物的黑暗蛋白质组。
事实上,在早期研究中,许多科学家认为这些微小蛋白质不重要,认为它们是很快降解的“噪音”。3年前,Prensner及合作者证明癌细胞含有大约550种微小蛋白质。2年前,公主Máxima儿科肿瘤学中心的系统生物学家Sebastiaan van Heesch在心脏组织中发现了类似数量的微小蛋白质。基于一系列研究发现,Prensner和van Heesch开始与GENCODE基因注释专家Jonathan Mudge合作,从来自世界各地的20个机构招募了几十名研究人员来共同评估人类存在的ncORF。
此次发表的研究成果也为科学家提供了新的生物医学研究目标。研究团队已经开始对早期暗蛋白质组研究中发现的ncORF及其微小蛋白质进行后续研究。通过使用基因编辑器CRISPR在ncORF中引入突变,可以检测其蛋白质在癌细胞中的重要性。例如,研究发现ncORF蛋白虽然很小,但对髓母细胞瘤的存活至关重要。
研究团队认为:“我们可能为病人找到了一种全新的药物靶点。这种微小蛋白质并没有出现在人类基因组的原始分析中,但“它在成神经管细胞瘤中起着关键作用。”
Prensner还为ProFound Therapeutics公司提供咨询服务,该公司与制药巨头辉瑞正合作开发基于微蛋白靶点的肥胖治疗方法。文章作者、加州大学欧文分校的蛋白质生物化学家Thomas Martinez团队正在寻找与胰腺癌和代谢性疾病有关的微小蛋白质。Martinez表示:“我最兴奋的是将微蛋白转化为治疗手段,希望它既是生物标志物,也是药物靶点。一旦跨越了这个障碍,我认为人们对该领域的兴趣将会大大增加。”
参考资料:
1.High-quality peptide evidence for annotating non-canonical open reading frames as human proteins
https://www.biorxiv.org/content/10.1101/2024.09.09.612016v1
2.https://www.science.org/content/article/dark-proteome-survey-reveals-thousands-new-human-genes
快点亮"在看”吧