打开网易新闻 查看更多图片

科学家终于有能力以前所未有的精确度研究人类任何组织的基因变化了。

近日,来自英国桑格研究院的Iñigo Martincorena及其团队在《自然》期刊发表重要研究成果,他们提出了一项新的单细胞测序技术NanoSeq,大幅提升了测序的精确度,达到前所未有的“每测十亿个碱基对,发生的错误小于5个”。

要知道,这个错误率甚至远低于体细胞变异频率。这将使得在任意组织或细胞中较为准确的检测体细胞变异成为可能[1]。

更重要的是,这项研究不仅是发明了一项新的测序技术,研究人员还基于这项技术发现细胞分裂过程中由DNA复制产生的错误可能不是产生突变的主要原因。这一发现挑战了细胞分裂是驱动基因突变的主要机制的观点

未来这项新技术还有望让研究致癌物对健康细胞的影响变得更容易

论文首页截图

人和人在生物学上的差异主要是由个体间DNA序列的差异导致(还有一些可能是表观遗传引起的),DNA序列的变化称为变异。一般来讲,变异有两种类型——生殖细胞变异和体细胞变异。它们的区别在于生殖细胞变异可以遗传给下一代,而体细胞变异不会遗传。

体细胞变异是造成细胞癌变的主要原因,而且还可能与衰老和其他的疾病(例如神经退行性疾病)有关[2]。

随着我们逐渐老去,我们体内的细胞就会慢慢积累体细胞变异,但大部分仅存在于少数组织的少量细胞甚至是单个细胞中,这意味着对体细胞变异的检测比较困难。

目前DNA测序是变异检测的主流方式,体细胞变异一般是利用单细胞测序进行检测,但现行技术要么错误率太高了,要么就是只能检测有丝分裂较为活跃的非终末分化细胞,而成年人体内大多数细胞都是终末分化细胞[3]。

打开网易新闻 查看更多图片

大部分癌症都始发于特定组织的一小部分体细胞变异,但是现行DNA测序技术仍然不够准确,无法精准的识别出与少量细胞癌变有关的体细胞变异。

近年来,为了提高在单细胞(单分子)水平的测序精准度,科学家们提出采用双重测序(duplex sequencing)对DNA的两条链分别测序。这种测序的错误主要来源于PCR扩增和测序过程中引入的单链配对错误

不过,由于DNA双链是互补的,双重测序在测了两条互补的DNA单链之后,通过比对两条链的测序结果,排除那些只出现在一条链上的变异,就可以规避掉测序错误。因此理论上双重测序的错误率为1个/10亿碱基对

双重测序原理

Margaret L Hoang等人在2016年提出了采用双重测序的BotSeqS[4]。然而,本研究发现在实际操作中,由于回帖和测序文库准备过程中产生的错误(大部分是末端修复和缺口延伸造成),使得BotSeqS的错误率达到了200个/10亿碱基对

为了规避文库准备过程中由末端修复和缺口延伸引入的错误配对,NanoSeq使用限制性内切酶(而不是超声)打断DNA双链,这样产生的平末端无需末端修复。而对于双链中产生的缺口,NanoSeq会在缺口末端引入一个双脱氧核苷酸来终止缺口延伸。

NanoSeq的原理

本研究还开发了一套生物信息学分析流程,用于降低测序读段回帖错误。最终,NanoSeq的错误率降低到了5个/10亿碱基对以下

接下来研究人员利用NanoSeq对多种不同的组织和细胞进行体细胞变异的检测。

已有的研究认为干细胞是不倾向于带有大量体细胞变异的,但干细胞在分化增殖过程中可能会产生变异,因此终末分化细胞会带有更多的体细胞变异。

但研究人员在分别对造血干细胞和粒细胞,以及结肠干细胞和结肠上皮细胞测序后发现,干细胞的变异数量竟然和终末分化细胞在统计学上并没有显著差异。而且终末分化细胞中的大部分突变是在干细胞阶段积累的,只有少量突变发生在增殖和分化过程中。

这表明细胞分裂过程中由DNA复制产生的错误可能不是产生突变的主要原因

打开网易新闻 查看更多图片

造血干细胞和粒细胞突变数量的比较(b)以及结肠干细胞和结肠上皮细胞突变数量的比较(d)

成年人体内大部分的细胞都是不会再分裂的,有一部分甚至是不可再生的,例如心肌细胞和神经元。这类细胞由于不会分裂,以往研究并没有获得其体细胞变异频谱

那么这类没有进行DNA复制的细胞是否会有体细胞变异,这些突变又是如何产生的呢?

研究人员对来自健康人和AD患者的前皮层神经元测序后发现,其体细胞变异数量随年龄增长(点突变增长17.1个/每年,13.7-20.5;插入缺失突变增长2.5个/每年,1.7-3.3)。

而且通过对比发现,神经元和粒细胞以及后面检测的来自膀胱和结肠的平滑肌细胞的突变频谱是类似的。这表明在这类不分裂的细胞中同样有某种机制促使突变形成,并且不同种类的体细胞之间的变异频率没有太大区别。

健康人和AD患者神经元的突变情况比较

对于神经元产生体细胞变异的原因,研究人员推测是因为甲基化导致胞嘧啶脱氨基化突变成胸腺嘧啶,这个突变通过后续的DNA修复得以固定下来。

很有意思的是,研究人员还发现神经元中大于1个碱基对的插入缺失突变高度富集于高表达的基因中,这种现象之前被发现存在于癌症基因组中[5]。或许能解释为何年龄与神经退行性疾病有关。

总的来讲,这项基于双重测序的技术在单细胞(单分子)水平上达到了前所未有的精度——低于5个/10亿碱基对,使得我们可以在任何组织细胞中研究体细胞变异。

利用NanoSeq我们初步了解到:一直以来被认为是体细胞变异主要来源的DNA复制和细胞分裂,并没有显著增加分裂后细胞中的变异数量。体细胞变异是随着时间逐渐积累的,再一次印证了其与衰老和癌症的相关性。

在未来,由于其高精准性和非侵入性,NanoSeq或许可以用于研究体外诱导突变的风险,例如癌变风险。如果可以实现,相关领域的研究可能会迈向新的阶段。

参考文献:

[1] Abascal F, Harvey LMR, Mitchell E, et al. Somatic mutation landscapes at single-molecule resolution. Nature. 2021;10.1038/s41586-021-03477-4. doi:10.1038/s41586-021-03477-4

[2] Kennedy SR, Loeb LA, Herr AJ. Somatic mutations in aging, cancer and neurodegeneration. Mech Ageing Dev. 2012;133(4):118-126. doi:10.1016/j.mad.2011.10.009

[3] Petljak M, Alexandrov LB, Brammeld JS, et al. Characterizing Mutational Signatures in Human Cancer Cell Lines Reveals Episodic APOBEC Mutagenesis. Cell. 2019;176(6):1282-1294.e20. doi:10.1016/j.cell.2019.02.012

[4] Hoang ML, Kinde I, Tomasetti C, et al. Genome-wide quantification of rare somatic mutations in normal human tissues using massively parallel sequencing. Proc Natl Acad Sci U S A. 2016;113(35):9846-9851. doi:10.1073/pnas.1607794113

[5] Rheinbay E, Nielsen MM, Abascal F, et al. Analyses of non-coding somatic drivers in 2,658 cancer whole genomes. Nature. 2020;578(7793):102-111. doi:10.1038/s41586-020-1965-x

责任编辑丨BioTalker