阿尔茨海默症(AD)和帕金森病(PD)是两种最常见的神经退行性疾病。尽管全基因组关联研究(GWAS)已确定了多个潜在的基因风险位点【1-2】。然而大多数风险位点都位于非编码区,因此尚不清楚这些基因是否与疾病功能相关,亦或者是与其他基因有关联。

单核苷酸多态性(简称SNPs)主要是指在基因组水平上由单个核苷酸的变异(碱基的转换或颠换、插入或缺失)所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种。大多数的功能性非编码SNPs可以通过干扰转录因子的结合和调控元件的功能来改变基因的表达,从而来发挥其作用【3-4】。值得注意的是,这些调控元件具有高度的细胞类型特异性,这提示SNPs也有细胞类型特异性。因此需要在正确的组织和区域背景下对每一种脑细胞类型中活跃的调节元件进行分类和功能揭示,进而帮助阐明常见神经退行性疾病分子发病机制中的基因风险位点功能的重要性。

在于2020年10月26日以Single-cell epigenomic analyses implicate candidate causal variants at inherited risk loci for Alzheimer’s and Parkinson’s diseases为题发表于Nature Genetics的文章中,美国斯坦福大学医学院的Thomas J. Montine教授和Howard Y. Chang教授合作团队旨在通过单细胞染色质图谱来鉴定细胞类型特异性调控元件,并应用机械学习来帮助预测ADPD的功能性SNPs。研究者确定了ADPD中几个非编码GWAS位点的靶基因和细胞类型;这些数据和技术也为其他神经系统疾病中的应用提供了指导,使我们能够更全面地了解遗传性非编码变异在疾病中的作用。

打开网易新闻 查看更多图片

染色质的可及性(chromatin accessibility)通常理解为开放染色质(open chromatin),指致密的核小体结构被破坏后,启动子、增强子、绝缘子、沉默子等顺式调控元件和反式作用因子可以接近的区域,与真核生物的转录调控密切相关。早在2013年,斯坦福大学医学院的的William J. Greenleaf教授和Howard Y. Chang教授实验室合作开发了一种可以用于研究染色质可及性的方法,称为Assay for Transposase-Accessible Chromatin with high throughput sequencing,即转座酶可接近性染色质测序技术,或转座酶可及性染色质测序技术,亦或染色质开放性测序技术,简称ATAC-seq其原理是通过转座酶Tn5容易结合在开放染色质的特性,然后对Tn5酶捕获到的DNA序列进行测序【5-7】与其他技术(例如研究相似染色质特征的FAIRE-Seq或DNase-Seq)相比,ATAC-Seq的主要优势在于该测定所需的细胞数量更少,并且其两步法操作相对简单。

那么,鉴于ATAC-Seq的强大优势,本文中,首先,作者应用ATAC-Seq绘制了39名认知正常个体的新皮层、海马体、黑质、纹状体等脑解剖区样本的大染色质图谱,进而来研究非编码基因组在神经退行性疾病中的作用(图1)。这些大ATAC-seq数据,即峰值(peaks)表明了染色质可及性的区域差异。

图1 本文所研究的大脑区域(左)和脑区样本的ATAC-Seq峰值(右)

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

打开网易新闻 查看更多图片

图2 样本的scATAC–seq数据

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

不同脑区的不同细胞的染色质可及性如何呢?于是作者对样本的7万多个单细胞进行了染色质可及性分析,即单细胞ATAC-Seq(简称scATAC-Seq),并锁定了24个细胞类群(cluster),主要包括兴奋性神经元、抑制性神经元、小胶质细胞、少突胶质细胞、星形胶质细胞和少突细胞祖细胞(OPCs) (图2-3) 。重要的是,scATAC-Seq分析表明了特异性的远端/内含子峰的富集,启动子峰的缺失,这与远端调控元件在细胞类型特异性基因调控中的作用是一致的(图3)另外,结果也提示了 scATAC-Seq 的实用性,特别是考虑到,当从含有多种不同细胞类型的大块组织中鉴定出特定细胞类型的峰值时, scATAC-Seq 具有明显的优越性。

图3 染色质可及性热图(左)和调节元件基序分析(右)

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

为了进一步研究是哪些转录因子可能负责建立和维持这些细胞类型特异性的调控程序。作者则对每种细胞类型的峰值进行了基序富集分析,即结构域分析。结果显示了多个已知的细胞类型识别驱动因素,如少突细胞中SOX9和SOX10的基序,OPCs中的ASCL1的基序;以及转录因子SPI1和JUN/FOS分别在小胶质细胞和神经元中的富集(图3)。这些数据进一步表明了ATAC-seq细胞类型特异性,特别是鉴定了胶质细胞(如星形胶质细胞和OPCs)的脑区域的异质性。

图4 30个“神经元类群”

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

考虑到神经元类型和功能的多样性,研究者想进一步细化了scATAC-seq数据。批次校正分析显示了30个“神经元类群”,每个类群则表示了一种独特的神经元细胞类型或细胞状态,并确定了神经元细胞类特异性的峰值、基因、以及转录因子活性(图5)。趣的是,数据分析确定了在一种PD中丢失的关键细胞类型,即黑质多巴胺能神经元类群,确切来讲是酪氨酸羟化酶阳性多巴胺能神经元群(图5 )

打开网易新闻 查看更多图片

图5 神经元特异性GWAS SNPs的连锁不平衡分析

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

以上数据充分表明了scATAC-seq数据的细胞类型特异性,那么接下来,在染色质可及性的特定细胞类型区域是否富集了与神经退行性疾病相关的SNPs?细胞特异性连锁不平衡分析显示,AD的小胶质细胞峰值集中,每个SNP的遗传概率都有显著的增加,而PD的任何细胞类型中,无SNP遗传概率的显著富集,这可能是因为PD的细胞比AD更加复杂(图5)。换句话说,在任何的AD或PD神经元类群的峰值区域中均未发现SNPs的显著富集。【补充:连锁不平衡(linkage disequilibrium,简称LD)是指分属两个或两个以上基因座位的等位基因同时出现在一条染色体上的几率,高于随机出现的频率。HLA不同基因座位的各等位基因在人群中以一定的频率出现。简单地说,只要两个基因不是完全独立地遗传,就会表现出某种程度的连锁。这种情况就叫连锁不平衡。连锁不平衡可以是同一条染色体上的不同区域,也可以是不同染色体上的。】

因此,鉴于上述结果,作者想进一步研究每个GWAS位点的靶基因。为此,作者使用HiChIP标记乙酰化组蛋白H3赖氨酸27(即H3K27ac),来标记活性的增强子和启动子,从而来绘制以增强子为中心的染色质三维构象。数据分析确定了各脑区的共833975个染色质三维交互;67.4%的交互有ATAC-seq峰值出现在两个信号锚定序列,29.2%有ATAC-seq峰值出现在一个信号锚定序列,剩余的3.4%则无ATAC-seq峰值的重叠。这些数据表明:scATAC-seq可以精准定位GWAS多态性的细胞靶点,从而让GWAS SNPs与下游靶基因相关联起来。【补充:信号锚定序列指穿膜蛋白中的一种独特的信号序列,其作用是将这些蛋白质锚定在脂双层膜上。连锁不平衡是指分属两个或两个以上基因座位的等位基因同时出现在一条染色体上的几率,高于随机出现的频率】

图6 应用多层次的多组方法(左)和机械学习(右)来研究功能性的非编码GWAS多态性

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

图7 应用多层次的多组方法和机械学习来研究AD和PD中的功能性非编码GWAS多态性

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

为了进一步解释GWAS多态性的功能效应,首先作者构建了一个AD和PD疾病相关的SNPs库,共9707个SNPs,其中3245个SNPs分布在与AD相关的44个基因座上,6496个则分布在与PD相关的86个基因座上,其中34个SNPs出现在两种疾病的同一个基因座上。然后作者开发了一种多层次的多组方法来预测功能性的非编码GWAS多态性:先将这些SNPs与ATAC-Seq的染色质可及性峰值进行重叠分析(Tier3),再鉴定出可能影响调控相互作用的SNPs(Tier2),最后鉴定出可能直接影响转录因子结合的SNPs(Tier1)(图6-7) ;并应用了支持向量机等位基因不平衡分析,最终确定了可能参与AD和PD的基因和分子过程,以及那些参与非编码调控的GWAS位点。这些也说明多层次的多组方法能够预测功能性的非编码SNPs。【补充:支持向量机(Support Vector Machine,SVM)是一类按监督学习(supervised learning)方式对数据进行二元分类的广义线性分类器(generalized linear classifier),其决策边界是对学习样本求解的最大边距超平面(maximum-margin hyperplane)。SVM使用铰链损失函数(hinge loss)计算经验风险并在求解系统中加入了正则化项以优化结构风险,是一个具有稀疏性和稳健性的分类器。SVM可以通过核方法(kernel method)进行非线性分类,是常见的核学习方法之一 。】

图8 AD和PD中PICALM(左)、SLC24A(右)的功能性非编码SNPs分析

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

紧接着,作者重点关注了SNPs仍然未知的疾病相关基因、以及以前研究中的与疾病病原学无关的基因。尽管GWAS表明PICALM、SLC24A、BIN1、KCNIP3基因与AD有关,然尚不清楚是哪些多态性驱导致了这种关系。首先以PICALM为例,作者发现,存在一种潜在的功能性变异,该变异扰乱了FOS/AP1因子结合位点,且这个位点位于PICALM上游的一段突胶质细胞特异性的调控元件序列;且该突变有明显的等位基因不平衡,即连锁不平衡,与PICALM和EED均显示三维交互(EED属于参与维持抑制转录状态的多梳族家族成员之一)(图8)。这一结果则表明了PICALM基因的新功能、及其在少突胶质细胞中的特殊作用。类似的,作者发现,SLC24A4基因座也有一个小的连锁不平衡区域,包含46个SNPs,且SNPs都位于SLC24A4的内含子内。其中有一个SNPs比较特殊,具有小胶质细胞特异性,它会干扰SPI1基序,并与RIN3基因的启动子进行“信息沟通”;这与RIN3在胞吞通路中的作用是一致的,而胞吞通路对AD中小胶质细胞的正常功能至关重要(图8)。此外,作者也发现,KCNIP3中有94个SNPs。其中一个变异可以破坏少突细胞特异性SOX6的基序,该基序参与髓鞘的发生和功能;另外有一个变异位于KCNIP3内含子中,有神经元特异性,并与该基因的启动子有明显的相互作用。总之,这些数据提示了SNPs具有AD中少突胶质细胞和神经元的特异性功能,以及功能性非编码SNPs的复杂性(图9)

打开网易新闻 查看更多图片

图9 AD和PD中ITIH1(左)、KCNIP3(右)的功能性非编码SNPs分析

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168

MAPT基因编码tau蛋白,在AD中,tau的异常磷酸化会形成神经原纤维缠结。尽管MAPT与PD风险有很强的相关性,然而基因位点如何在PD中发挥作用仍不清楚。作者发现,MAPT有一段很大的连锁不平衡区域,且其有两个不同的单倍型,即H1和H2,二者都有超过2000个的SNPs,且在MAPT中的有近1800000个核苷酸的倒置(图10) 。 【单倍型,又称单倍体型或单元型,指个体组织中,完全遗传自父母双方中一个亲本的一组等位基因,即位于染色体上某一区域的一组相关联的SNP等位位点。】

图10 MAPT基因座、核苷酸倒置、H1和H2单倍体

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

同时,作者绘制了MAPT位点的染色质可及性单倍体特异性图谱和三维染色质交互图谱,并从杂合子的H1/H2中剥离出纯合子的H1/H1和H2/H2,从而来探究两个单倍体的功能异同。作者发现,MAPT启动子的上游有一段H1特异性的调控元件序列,以及MAPT的下游包含KANSL1基因的启动子序列;MAPT上游的H1特异性调控元件与MAPT内含子的第二个调控元件以及与MAPT启动子的相互作用增强( 图10-11)此外,作者也发现,MAPT上游的区域边界与KANSL1启动子周围区域之间的H2特异性三维相互作用(图 10-11)

图11 MAPT基因座的HiChIP(上)、大ATAC-Seq(中),以及 MAPT的皮层基因表达分析

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

最后,作者探究了这些表观遗传变化如何影响单倍型特异性的基因表达。发现,在MAPT基因表达方面,两个单倍体有明显的差异,这种基因差异可能提示了MAPT单倍型所介导的病理性作用。这些数据分析阐明了H1和H2单倍型之间的MAPT碱基倒置区域的基因组序列是如何不同的;或换言之,通过改变MAPT基因序列的方向,这种碱基倒置可能会改变基因的表达(图10-11)作者的确也发现,在位于MAPT上游有一段神经元特异性的调控元件基序,且在单倍体H1中,该元件基序会增强与MAPT启动子的相互作用。

图12 对MAPT基因座的HiChIP(上)、scATAC-Seq(中)、核苷酸倒置(下)的数据分析

(图片引自:Corces, M.R., et al.. Nat Genet 2020;52:1158–1168)

文章结论

研究表明了 AD 和 PD 中遗传性非编码变异(即SNPs)作用的高分辨率表观遗传学表征,拓展了我们对 AD 和 PD 遗传变异的理解,并为神经退行性疾病和其他复杂遗传疾病的非编码变异的表观基因组研究提供了参考。

多层次多组学捕获技术可以帮助我们通过染色质可及性峰值重叠来探究来影响基因表达的多态性,并可以通过三维染色质相互作用来反应基因靶标的多态性,从而来研究这些变异的功能,而且采用机器学习的方法可以帮助预测或理解多态性如何扰乱转录因子结合。

鉴于上述方法的优势,相比较以往的研究,本文中,作者探究了AD和PD中更多的基因表型、以及非编码变异的功能。综合分析也表明MAPT基因位点在AD和PD中的表观遗传学特性,从而加深看我们对AD和PD的非编码变异的理解。

更广泛地说,这项工作提供了一种系统的方法来理解疾病中的遗传变异,也为新治疗靶点提供了研究思路和技术。

https://doi.org/10.1038/s41588-020-00721-x

参考文献(上下滑动查看)

【1】Kunkle, B. W. et al. Genetic meta-analysis of diagnosed Alzheimer’s disease identifies new risk loci and implicates Aβ, tau, immunity and lipid processing. Nat. Genet. 51, 414–430 (2019).

【2】Nalls, M. A. et al. Identification of novel risk loci, causal insights, and heritable risk for Parkinson’s disease: a meta-analysis of genome-wide association studies. Lancet Neurol. 18, 1091–1102 (2019).

【3】Gallagher, M. D. & Chen-Plotkin, A. S. The post-GWAS era: from association to function. Am. J. Hum. Genet. 102, 717–730 (2018).

【4】Nott, A. et al. Brain cell type-specific enhancer–promoter interactome maps and disease-risk association. Science 366, 1134–1139 (2019).

【5】Jason D Buenrostro, et al., Transposition of native chromatin for fast and sensitive epigenomic profiling of open chromatin, DNA. Nat Methods. 10 1213–1218 (2013).

【6】Trevino, A. E. et al. Chromatin accessibility dynamics in a model of human forebrain development. Science 367, eaay1645 (2020).

【7】Corces, M. R. et al. An improved ATAC-seq protocol reduces background and enables interrogation of frozen tissues. Nat. Methods 14, 959–962 (2017).

2019年热文TOP10