人类已经等了30万年,或许终于有机会能看到自己的“完整说明书”。

基因,就像人身体里的“代码”,规定了每种细胞做什么样的工作,一旦这些“代码”被破译,人类的秘密将一览无余。所以,人类对基因的探索从未停下脚步。

近日,一个国际科学团队 "端粒到端粒(T2T)" 联盟宣布,他们已经对整个人类基因组全部30.55亿个碱基对进行了测序,包括 20 年前第一个人类基因组测序时缺失或错误的 8% 基因组。人类已经等了30万年,或许终于有机会能看到自己的“完整说明书”。

改变医学的未来

很长时间以来,人类基因组的测序一直是一项具有重要目标的宏大工程。人类基因组计划(Human Genome Project, HGP)被誉为生命科学的 " 登月计划 "。

为什么?因为随着人类对自身遗传密码了解程度的提高,可以制造出更好、更定制化的药物,例如那种曾推动首批有效的新冠病毒疫苗诞生的基因类医学技术。

2001年,国际人类基因组测序联盟和赛莱拉生物技术公司分别于2001年2月15日和2001年2月16日在《自然》和《科学》杂志发表人类基因组草图,被认为是一大里程碑。

打开网易新闻 查看更多图片

▲ 2021年2月,《科学》(2月5日)和《自然》(2月11日)杂志出版人类基因组计划专刊,以纪念人类基因组草图发表20周年。

但那时候的“草图”充满漏洞,美国生物信息学家亚当·菲利皮将其比作一幅风景画拼图,其中还缺少蓝色天空的图块。

现在,缺少的部分正在慢慢补全。

6月3日,西班牙《国家报》网站发表题为《一个国际联盟完成迄今最全面人类基因组测序》的报道称,国际科学团队 "端粒到端粒(T2T)" 联盟宣布,他们已经对整个人类基因组全部30.55亿个碱基对进行了测序,包括 20 年前第一个人类基因组测序时缺失或错误的 8% 基因组。

这些序列中包含着各种“说明”,例如,大脑中的神经元知道如何传递想法。

人类拥有数万个基因,它们被储存于细胞中心的脱氧核糖核酸(DNA)分子中。基因信息以四种碱基(C、G、T和A)的形式存在,每两个碱基形成碱基对。当前的大规模测序技术(用于医院研究具有遗传性的疾病)不能一次读取很长的人类基因组,但可以识别几百个字母的片段,然后通过参考基因组进行排列。

然而当排列高度重复的DNA片段(如ATATATATATAT)时,问题就出现了,这就像风景拼图中的蓝天图块一样难以排序。为了绕过这个障碍,研究人员使用了来自英国牛津纳米孔公司的测序仪,这些设备通过一个小孔能够一次读取数十万个字母。

“端粒到端粒”联盟由美国加利福尼亚大学圣克鲁斯分校的卡伦·米加和美国国家人类基因组研究所的亚当·菲利皮领导。该联盟成员认为,这开启了基因组学研究的“一个新时代”,在这个时代中,没有任何基因组区域是遥不可及的。该研究作者于5月27日发表了他们的测序结果草图。有了他们的新数据,人类基因组的基因数量将达到19969个,其中百余个是由“端粒到端粒”联盟发现的。

打开网易新闻 查看更多图片

▲ 图 | karen miga(来源:karen miga 个人官网)

报道称,来自西班牙巴塞罗那基因组中心的荷兰专家勒妮·比克曼对这项新研究表示赞赏。

“这些缺失的部分是寻找可能导致疾病(如癌症)的DNA错误的新前沿,”这位研究人员说,“此前,我们对这些区域一无所知,但这项研究提供了研究它们所需的信息和工具。”

比克曼指出,“端粒到端粒”联盟仅从一名女性的细胞中获取了DNA,因此该测序还无法区分人与人之间的差异,而且也缺乏仅存在于男性体内的Y染色体的信息。这位荷兰科学家说:“该研究的作者使用的技术是在不久的将来获得这些信息的大有前途的工具。”

现在,世界各地通力合作的科学家们表示,他们终于补上了这来之不易的8%。

报道称,如果他们的研究结果经得起同行审查,而且事实证明他们确实完成了对人类基因组全部的测序和汇编——包括其中所有的空缺,那么这可能改变医学的未来。

解码人类基因的几十年

人类基因组探索有一个雄心勃勃的开端。

1953年,克里克和沃森发现DNA的双螺旋结构;1977年,沃特·吉尔伯特和弗雷德里克·桑格发明了DNA测序的方法。随后,一些简单生物的DNA序列被测序成功。

▲ 基因组学研究里程碑事件

此时,已经有科学家建议,开始对人类基因组进行测序,但面对人类基因组30亿碱基对的庞大规模,研究经费不足成为研究人员面前最现实的问题。

1986年3月,美国能源部(DOE)在新墨西哥州的圣塔菲召开会议,讨论人类基因组测序计划。诺贝尔生理或医学奖获得者罗纳托·杜尔贝科在《科学》杂志发表文章指出,对人类基因组的测序将成为肿瘤研究的关键转折点

同年6月,加州理工学院莱诺·伊·胡德(1987年的拉斯克医学奖获得者)和劳埃德·史密斯改进了程序繁琐的Sanger测序法,发明了世界上第一台DNA自动测序仪。

1990年4月美国国立卫生研究院(NIH)和能源部共同发布人类基因组5年计划,该计划包括人类及模式生物基因组的测序和图谱绘制、数据收集和分析支持(算法改进、软件设计开发等)、技术研发和转让等。

同年8月,NIH开始对四种模式生物进行基因组大规模测序,包括山羊支原体(Mycoplasma capricolum)、大肠杆菌(Escherichia coli)、秀丽隐杆线虫(Caenorhabditis elegans)和酿酒酵母(Saccharomyces cerevisiae)。

两个月后,NIH和能源部,正式宣布10月1日为“人类基因组计划”官方正式起始时间。随后,先后由美国、英国、法国、德国、日本和我国科学家共同参与、被誉为生命科学“登月计划”的“人类基因组计划”正式踏上征程。

期间,生物学家、“科学狂人”克雷格·文特尔因为与“人类基因组计划”团队在基因组测序数据分享政策方面存在分歧,一气之下离开了NIH,并于1998年5月成立赛莱拉(Celera)生物技术公司,宣称将在3年内完成人类基因组测序工作。

于是NIH不得不提高效率,加快进度,以免被文特尔抢先。这种“竞争”也推动了“人类基因组计划”更加快捷地进行。

打开网易新闻 查看更多图片

最终的结果就是国际人类基因组测序联盟和赛莱拉生物技术公司分别于2001年2月15日和2001年2月16日在《自然》和《科学》杂志发表人类基因组草图。

▲ 克林顿宣布人类基因草图完成

3年后,“人类基因组计划”结束了其绘制人类基因组整体图谱的使命,解释称:

“‘完成的序列’是一个技术性术语,意为该序列极为精确(碱基对字母的错误率低于万分之一)和具有高度连续性(仅余的空缺对应的是那些用现有技术无法可靠完成测序的区域)。”

在这里,“现有技术”成为关键字眼。当时,人类基因组计划使用了一种被称为细菌人工染色体的方法,但此方法不适用于存在大量重复模式、剩余的8%基因组,因此留下了空白。

但空白并不代表“人类基因组计划”被搁置,反而对当今科学研究产生了深远的影响。

首先,“人类基因组计划”形成了庞大的数据库,得到“注释”的基因数量迅猛增加。自2001年开始,每年关于蛋白编码基因的学术论文数量在10000到20000篇。

其次,“人类基因组计划”进一步确定了基因组中非编码序列的生物重要性。这些序列的改变不会影响蛋白的序列,但会干扰蛋白表达的网络,进而影响生物学功能。在2001年之前,明确某种药物全部蛋白靶点的概率不到50%。“人类基因组计划”完成后,美国每年通过的药物几乎都有清楚的作用靶点说明。

最重要的是, “人类基因组计划”也是遗传学、生物化学、分子生物学和信息科学深度合作的一次成功案例,深化了多学科合作的“大科学”融合。

20年前,我们对基因的了解还很有限,以至于当人类基因组草图公布的时候,引起了全球的瞩目。20年后,人类已不再满足发现基因,而是修饰基因、编辑基因、甚至创造一个此前从未出现过的基因。

与此同时,随着计算机算法的不断更新迭代、测序成本的逐渐降低,一些个人基因组学正在走进人们的日常生活。比如人们可以通过基因检测筛选遗传病,提前预防癌症。

这份研究报告发表在经过同行评审的出版物上,还有一段时间,但毋庸置疑的是,对人类细胞(几乎)完整基因组的测序绝对是一个非常惊人的里程碑,它将是全面了解人类遗传多样性的关键一步。

▐ 素材来源:参考消息、中科院物理所