撰文丨王聪

编辑丨王多鱼

排版丨水成文

人类基因组有着 30 亿碱基对,然而,其中仅有大约19500个蛋白质编码基因,这些蛋白质编码基因是生物医学研究的基础,包括绝大多数药物研发项目。因此,蛋白质编码基因的大幅增加会对整个人类生命科学领域产生连锁反应。

近年来,人类基因组是否拥有远超 19500 个蛋白质编码基因,引发了激烈争论。有研究认为,人类基因组中可能还编码了数千种“暗蛋白”,它们像暗物质一样,虽然作用未知,但可能在细胞中发挥着重要作用。

2026 年 5 月 6 日,Máxima 公主儿科肿瘤中心、密歇根大学安娜堡分校、系统生物学研究所的研究人员合作,在国际顶尖学术期刊Nature上发表了题为:Expanding the human proteome with microproteins and peptideins 的研究论文。

该研究基于对 95520 项蛋白质组学实验的大规模分析,发现在 7264 个非经典开放阅读框(ncORF)中约有 25%(1785 个)产生了可检测的肽段。研究团队建立了将 ncORF 编码的微蛋白注释为人类蛋白质的框架,并提出了“肽质”(peptidein)这一新概念,用于描述这些功能潜力尚不明确的微蛋白。该研究还进一步表征了长链非编码 RNAOLMALINC编码的一个肽质,其在多种人类细胞中表现出“广泛必需性”。

这项研究表明,人类基因组中的蛋白质编码基因数量可能被严重低估了,它们编码的数以千计的“肽质”(peptidein)可能在细胞功能或疾病中发挥作用,有望为生物医学研究和药物发现开辟新前景。

打开网易新闻 查看更多图片

被忽视的“暗物质”:非经典开放阅读框

长期以来,科学家们一直以约1.95 万个经典蛋白质编码基因为核心,开展生物医学研究。然而,人类基因组中还存在着大量“非经典开放阅读框”(ncORF),它们代表了人类基因组中一片未被充分探索的“暗物质”区域,它们的存在和翻译改变了我们对基因组编码能力的认知。虽然鉴定其功能产物充满挑战,但这一领域正迅速成为生命科学前沿,有望为理解基本生物学过程和开发革命性疗法(尤其是在癌症遗传病领域)开辟全新道路。

最近,由 GENCODE、PeptideAtlas 等多个国际权威组织组成的 TransCODE 联盟,完成了一项规模空前的分析。他们整合了超过 9.5 万次蛋白质组学实验数据,对 7264 个 ncORF 进行了系统性筛查。

结果发现,其中约 25%(1785个)的 ncORF 确实产生了可以被质谱技术检测到的肽段。这意味着,我们的细胞里可能存在着一个此前未被充分认识的“微蛋白”(microprotein)世界。

肽质:介于蛋白质与非蛋白质之间

面对这些新发现的微蛋白,科学家们遇到了一个分类难题:它们有些证据确凿,有些则信息有限,难以直接归入经典的蛋白质家族。

为此,研究团队提出了一个创新的分类概念——“peptidein”(生物世界将该术语翻译为肽质),其由多肽(peptide)和蛋白质(protein)两个词合并而来,可以将其理解为一种“待定”的蛋白质:它们的确由基因组编码并由相应的 RNA 翻译而来,由氨基酸构成,但尚不清楚是否具有任何功能,因此,不不足以断定它们是一个功能完备的经典蛋白质。

这个概念为那些处于灰色地带的微蛋白提供了一个分类“身份”,鼓励科学界对它们进行持续研究和功能验证。

进化痕迹:揭示微蛋白的“重要性”

如何判断一个 ncORF 编码的微蛋白是否重要?研究团队开发了一个名为“ORF 相对分支长度”(ORBL) 的分析工具。

传统方法主要看氨基酸序列在进化中是否保守。但很多微蛋白序列变化很大,用老方法容易“漏检”。ORBL 工具则更聪明:它不只看氨基酸,而是看 ORF 的“框架”本身——比如起始密码子、终止密码子以及阅读框的开放性——在物种进化中是否被保留下来。

分析发现,许多能检测到肽段的 ncORF,在 ORF 框架层面都显示出显著的进化约束痕迹。这说明,自然选择可能一直在默默维护着这些微蛋白的翻译能力,暗示它们具有潜在的生物学功能。

免疫系统的“新抗原”宝库

那么,这些微蛋白都藏在哪?有什么作用?在这项研究中,研究团队的一个关键发现是,它们大量出现在免疫肽组中——即被细胞呈递到表面、供免疫系统识别的肽段。

在针对 HLA-I 类分子的免疫肽组数据中,研究团队发现了 3116 条来源于 ncORF 的肽段。更令人惊讶的是,这些微蛋白来源的肽段与经典蛋白来源的肽段一样,能够有效地被免疫系统识别和呈递。

这为癌症免疫治疗等领域打开了新思路:这些来源于基因组“暗物质”的微蛋白,很可能成为全新的、肿瘤特异性的治疗靶点。

从“候选”到“正式成员”:建立科学的晋升通道

为了让后续研究有章可循,研究团队建立了一套清晰的证据分级和注释流程:

Tier 1A:证据确凿,已满足国际人类蛋白质组组织(HUPO)的蛋白质验证标准,可直接晋升为新的蛋白质编码基因,该研究已鉴定出 15 个这样的强力候选基因。

Tier 1B & 2B:拥有高质量的免疫肽组学证据,证实其蛋白质合成。

Tier 2A:目前只有一条可靠的质谱肽段证据,但可能因为蛋白太小而难以产生更多肽段。

打开网易新闻 查看更多图片

许多被归类为“肽质”的微蛋白,未来随着证据的积累,完全有可能“晋升”为正式的蛋白质编码基因。

一个来自“垃圾 RNA”的必需微蛋白

研究团队进一步深入探究了一个来自长链非编码 RNAOLMALINC的肽质。

通过功能基因组学分析,他们发现这个微蛋白表现出“广泛必需性”——即在多种人类细胞系中,敲除它都会影响细胞的存活和生长。这表明它参与到了细胞的核心功能中,绝不是什么“垃圾产物”。

重新绘制人类蛋白质蓝图

这项研究不仅仅是一份发现清单,它更提供了一套完整的“工具包”和“路线图”:

1、公开数据库:所有数据已整合进 GENCODE 和 PeptideAtlas 数据库,向全球科学家开放。

2、标准框架:建立了 ncORF 和微蛋白的注释标准与分析流程。

3、新概念体系:引入了“肽质”(peptidein)这一分类,为后续研究奠定了概念基础。

总的来说,这项发表于Nature的研究标志着我们对人类基因组和蛋白质组的认识迈出了重要一步。那些隐藏在基因组非编码区域的“微蛋白”和“肽质”,不再是神秘的暗物质,而是等待被探索的功能新大陆。它们很可能在基础生物学、疾病机制和药物开发中扮演着尚未被知晓的关键角色。

论文链接

https://www.nature.com/articles/s41586-026-10459-x