人类参考基因组(GRCh38)是人类有史以来取得的最准确、最完整的脊椎动物基因组。不过在这个基因组中,存在许多不准确或者未被读取的地方,它们称作缺口。即使经过二十多年的改进,仍有数百个未解决的缺口。

打开网易新闻 查看更多图片

X染色体

之所以出现这么多的缺口,是因为以前的基因测序技术一次只能读取DNA的一个小片段,然后再将这些片段拼凑起来。问题在于人类基因组中有许多重复的片段,当读取到许多重复小片段的时候,很难精确还原真正的基因组,毕竟谁也说不清楚到底是基因组是如何重复的。

现在,科学家们使用了新的方法,首次完成了人类染色体从一端到另一端的完整序列(“端粒到端粒”),没有缺口,并且准确性达到空前水平。

科学家通过纳米孔测序技术,结合其他改进和验证的互补技术,实现了对葡萄胎CHM13全基因组进行的高覆盖、超长读取。首次尝试重点是人类X染色体,科学家重建了长度为310万碱基对的着丝粒卫星DNA阵列,填补了现有文献中的29个缺口,其中包括人类伪常染色体区域和癌睾丸扩增基因家族的新序列。

新的序列将被整合到未来的人类参考基因组中。尝试是成功的,完成整个人类基因组已经触手可及。

用于实现超长读取的新测序技术,是由加州大学圣克鲁斯分校开发的纳米孔测序技术。新技术可以一次读取数十万个碱基对,这个长度跨越了基因组中的整个重复区域。

纳米孔测序技术示意图

这项工作使用了纳米孔测序技术,通过检测DNA的单个分子通过膜中的小孔(也就是纳米孔)时电流的变化来对DNA进行测序。

打开网易新闻 查看更多图片

纳米孔测序仪

尽管如此,序列中还是有多个缺口,尤其是在着丝点,这个区域有特别多的重复片段,是公认的困难区域。团队不得不手动解决序列中的几个缺口。

X染色体的着丝粒是一个包含高度重复序列的区域,总长度大约310万个碱基对。科学家识别重复序列中的变异并将其作为标记,利用标记将它们连接在一起,从而完成了整个着丝粒序列。

X染色体

下一步是使用来自多种测序技术的数据进行验证,以确保序列中每个碱基的准确性。这些辅助技术包括PacBio和Illumina的测序技术,以及BioNano Genomics的光学图谱。通过比较在不同平台上获得的数据,可以完善序列,达到更高的准确性。

利用这些技术,科学家团队完成了一个全基因组序列,其连续性、完整性和准确性超过了所有先前的人类基因组装配,甚至在某些指标上超过了目前的人类参考基因组。

这项研究填补了人类基因组序列中剩余的缺口,同时科学家发现这些缺口实际上是人类变异最丰富的区域之一,这些信息对于理解人类生物学和疾病很重要。

纳米孔测序除提供超长读取外,还可以检测已被甲基化修饰的碱基。甲基化是一种表观遗传变化,并不会改变基因序列,但会对DNA结构和基因表达产生重要影响。