单细胞ATAC-seq技术(scATAC-seq)被广泛应用于研究基因表达的调控,包括发掘潜在启动子和增强子(promoters and enhancers),比较转录因子(Transcription factor enrichment)富集等。然而,单细胞ATAC-seq数据的分析流程存在诸多不一致。不一致的数据处理会导致下游结果的不一致,而且用不同分析方式产生的数据没有办法放在一起分析。

近日,来自美国宾夕法尼亚大学的Junhyong Kim实验室(第一作者为苗振)在Nature Methods上发表了研究论文Uniform quantification of single-nucleus ATAC-seq data with Paired-Insertion Counting (PIC) and a model-based insertion rate estimator提出了统一量化scATAC-seq数据的新方法—PIC,以及一个可以精确估计染色质可及性的统计方法。

打开网易新闻 查看更多图片
图片

目前的scATAC-seq数据处理方法中,一个重要的分歧是对于染色质开放区域(open chromatin regions)的定量。scATAC-seq的原始数据是DNA片段(fragments),这些片段来自于两个临近的Tn5转座(如图1a)。

图片

图1a,Tn5 转座位置和测序结果的关系示意图。

为了将这些DNA片段转化为特征矩阵的形式方便下游分析,一部分方法,比如Seurat/Signac和snapATAC会计算每个区域的片段数量(fragment counts),但另一部分方法,比如ArchR和10X Genomics Cell Ranger会计算每个区域的转座数量(Tn5 insertion counts)。这两种方法的结果很不一致。

在特征计数之后,大多数方法将计数转换为“开放”或“关闭”的二进制状态,而其他方法保留定量计数信息。这又出现了新的不一致。所以,这篇文章想要解决这些不一致的问题。

为了理解这些不一致,我们需要了解ATAC-seq中片段(fragment)形成的过程。在标准的ATAC-seq实验中,需要两端分别有Tn5转座,同时转座产生两个不同的扩增引物(primer)才能形成一个扩增片段,因此,一个片段通常对应两个转座事件。这也是为什么在基于转座的计数中,偶数居多。只有当片段跨越一个peak的边界时,才会有奇数出现。而基于片段数量的计数中,数字越大,频率越低。另一方面,基于片段数量的计数方式也存在问题,因为当片段两端都超出peak的区域时,我们没有足够的证据说明这个peak区域是开放的。

文章的第一个任务是确定在scATAC-seq数据中,是否含有定量的信息,以及这些信息有没有生物学意义。通过分析多个生物学数据,文章的两个重要发现包括,1. 某个细胞中特定peak里片段的数量和细胞所属的细胞类型有关。当某个细胞类型中,一个启动子或增强子很活跃时,会有更高的概率在一个细胞里观察到更多的片段。2. 在基因的转录起始位点(TSS),片段数量和基因表达的程度呈高度正相关。以上观察在基于转座的计数方式上并不成立。因此,我们得出:scATAC-seq数据中的确存在定量信息,这些信息对于推断细胞的状态有重要帮助;同时,基于转座数量的计数方式并不能精确得提供定量信息。

该文章提出了一种对单细胞ATAC-seq数据进行定量计数的新方法,PIC (paired insertion count),作为一种一致性的计数方法,R包的链接在(https://github.com/Zhen-Miao/PICsnATAC)。

此外,文章还提出了一种统计方法用于定量地根据实际数据来估计某一DNA片段的转座效率,以及比较不同细胞类型中转座效率的差别。

总之,这项工作首次确定了,即使scATAC-seq数据非常稀疏(矩阵中>95%的元素都是0),我们仍然能够从数据中得到定量的生物学信息。另外该工作还开发了一个R包,用于一致性地对scATAC-seq数据进行定量和比较。

https://www.nature.com/articles/s41592-023-02103-7

制版人:十一