描述 DNA 元件的百科全书:ENCODE

Encyclopedia of DNA Elements

源起

21 世纪初,在多国科学家的协同努力下,「人类基因组草图」成功完成绘制。 按图索骥,人类基因组中编码蛋白质的基因仅占不到 2%,超过 98% 的基因功能未知,这些基因一度被冠以「垃圾 DNA」的称谓

「垃圾 DNA」准确地说应为没有明确功能的基因,依据「存在即合理」的逻辑,很难证实进化中没有发挥作用,故无法否定它们的存在。于是,这些基因成为人类进化史中的一个个谜团

2003 年由美国人类基因组研究所(NHGRI)和欧洲生物信息研究所(EMBL) 牵头,开展了 ENCODE 计划的研究,尝试解析这些 「垃圾 DNA」的结构和功能。主要目标是为科学界和医学界提供关于人类基因组重要功能元件的高质量和全方位的注解,从而全面理解人类基因组的功能

后基因组计划的重要三步 ENCODE phase I-III

2007 ENCODE phase I

打开网易新闻 查看更多图片

https://www.nature.com/articles/nature05874

在 2007 年发布的 ENCODE 计划第一阶段成果,在预先指定的1% 的人类基因组范围基于微阵列的技术被用来检测与转录因子相关的区域,特定的组蛋白修饰和开放的染色质。ENCODE 计划第一阶段所使用研究方法证实准确和可靠后,推广至人类全基因组研究

2012 ENCODE phase II

https://www.nature.com/collections/aghcdefffg

ENCODE 计划第二阶段从 2007 年 9 月启动,在 147 种不同细胞类型中开展实验,产生了1640 个功能元件数据集。ENCODE 计划第二阶段成果表明80.4%的人类基因组具有生物学活性,涉及人类基因组中基因、转录因子和转录调控、DNA 甲基化、组蛋白修饰和染色质状态功能元件。

站在 ENCODE 计划第二阶段结束节点上,科学家们依然发出了感慨「 But no one knows how much more information the human genome holds, or when to stop looking for it」。

2020 ENCODE phase III

打开网易新闻 查看更多图片

图片来源:Nature

2020 年 7 月 29 日ENCODE 计划发布第三阶段成果,公布了超过120 万人类与小鼠体内调控基因的候选功能性元件,大幅扩展了 RNA 转录、RNA 结合蛋白、染色质结构和修饰、DNA 甲基化、转录因子的数据库和相关工具。

https://www.nature.com/articles/s41586-020-2493-4

ENCODE 计划第三阶段扩展了对细胞和组织库中RNA 转录,染色质结构和修饰,DNA 甲基化,染色质环化以及转录因子和 RNA 结合蛋白的分析。ENCODE 第三阶段产生了5992个新的实验数据图谱

ENCODE 计划第三阶段产生的史诗级数据为科学界提供了史诗级资源

Perspectives on ENCODE

历史和未来

https://www.nature.com/articles/s41586-020-2449-8

在 ENCODE 计划的早期阶段(2009 年) ,分析主要集中在人类细胞系中进行。多年来,技术的飞速发展给 ENCODE 计划增加了多源细胞和组织类型的可能性。至 ENCODE第三阶段结束时已经进行了9,000 多次涵盖包括肿瘤、自身免疫性疾病、心血管疾病等1000 + 种疾病的大规模高通量实验,ENCODE 计划产生的实验数据和文章也呈爆炸式增长。

打开网易新闻 查看更多图片

图片来源:Nature

Transcriptomes and Gene Regulation

转录组和基因调控 —— 多角度对基因组调控的认识

基因表达受时间空间、细胞类型和组织方式精确调控,ENCODE 项目已生成的数据集,帮助我们理解人类和小鼠细胞和组织中基因表达如何调控。

https://www.nature.com/articles/s41586-020-2528-x

转录因子(TF)约占人类基因组 8%,是以序列特异性方式结合 DNA 并且调节转录的蛋白质,负责指导人类基因组表达,故其与多种疾病表型相关。科学家对理解 TF 如何控制基因表达有着浓厚兴趣,精准定位 TF 在基因组上的特异性结合位点,以及转录因子结合后如何参与转录调节,成为临床疾病表型中全局视角的共同主题和必由之路。

https://www.nature.com/articles/s41586-020-2536-x

人类和哺乳动物胚胎发育进程中,不同的基因表达逐渐建立了组织和器官的同一性和复杂性。ENCODE 计划第三阶段发布了小鼠胚胎全组织、单细胞分辨率水平不同组织和器官从胚胎发育第 10.5 天到出生的动态细胞分化、体轴和细胞增殖基因构成的全局发育转录组图谱

https://www.nature.com/articles/s41586-020-2119-x

时空表观基因组动态图谱为生物组织或器官发育的基因调控提供了丰富的数据资源,甲基化和去甲基化动态图谱为研究与人类发育障碍疾病有关的调控元件打开了新世界的大门。

打开网易新闻 查看更多图片

https://www.nature.com/articles/s41467-020-17157-w

伪基因是基因组重构的理想标记。随着ENCODE计划第三阶段的进行,测序数据逐渐丰富和可用性规范性的提高,小鼠已成为后基因组时代研究伪基因的理想动物

ENCODE 计划第三阶段发布的成果中包含了小鼠伪基因全基因组注释图谱(mouse.pseudogene.org) ,为科学家提供了深入了解哺乳动物模型生物进化和基因变异的平台。

3D Organization of the Genome

基因组的三维结构

DNA 序列是线性的,但其在细胞中作为核小体的一部分被组蛋白包裹,染色质组织成更高级的结构。基因组三维结构对基因活性和复制和修复等其他 DNA 过程有极其重要的意义。

https://www.nature.com/articles/s41586-020-2093-3

ENCODE 计划第三阶段发布了哺乳动物发育动态染色质景观图谱,描绘了从孕期 10.5 天到出生的 8 个发育阶段的转录组、甲基化组和染色质状态在内的多组学信息。展示了在发育基因调控过程中染色质状态和可及性之间的关系,为探讨发育和发育疾病的基因组及其调控提供了重要参考。

https://www.nature.com/articles/s41586-020-2023-4

基因组中染色质相关蛋白结合位点的识别对理解基因调控行为和调控网络至关重要。作为 ENCODE 计划第三阶段的一部分,本次公布的图谱包含了人 HepG2 细胞系 208 个染色质相关蛋白结合位点,为基因组调控网络提供了更完整的信息。

https://www.nature.com/articles/s41586-020-2151-x

较远距离基因调控元件之间的物理相互作用在基因调控中起着关键作用。这种调控机制具有细胞和生物组织特异性。ENCODE 计划第三阶段发布了人类基因组黏连蛋白介导的染色质环景观图谱

RNA Binding and Regulation

RNA 结合与调控

https://www.nature.com/articles/s41586-020-2077-3

与 RNA 结合的蛋白质被称为 RNA 结合蛋白 (RNA-binding proteins, RBP) ,拥有强大的基因调节能力,通过影响 RNA 的加工、稳定性、定位和翻译来调节基因表达。ENCODE 第三阶段公布了两种人类细胞系的 RBPs 结合和功能图谱

Human Variation and Disease

与人类疾病

https://www.nature.com/articles/s41467-020-14743-w

与其他疾病不同,大多数癌症涉及全基因组改变和调控异常。癌细胞通常表现出关键调控因子的异常行为,广泛的表观遗传重塑,以及细胞状态之间的明显转变。

ENCODE 数据库包含数千个功能基因组数据图谱,涵盖数百种细胞类型,为基因组提供了全局和通用注释。ENCODE 第三阶段公布了针对癌症基因组优化的整合数据库,体现了 ENCODE 最精准应用场景和应用价值

https://www.nature.com/articles/s41586-020-2559-3

DNase I 超敏位点是调控 DNA 序列的遗传学标记,包括与疾病以及表型相关的遗传变异信息。作为 ENCODE 计划第三阶段图谱的重要组成,人类基因组 DNase I 超敏位点图谱容纳了人类基因组序列中约 360 万个 DNase I 超敏位点进行描述和数字索引,为调控 DNA 提供了通用的、可扩展的全局视角。

Using ENCODE

「挖掘」百科全书

除了公布基因组数据集,ENCODE 计划第三阶段发布了开发方法和工具,使科学家可进一步访问、分析和集成人类基因组数据集

Search Candidate cis-Regulatory Elements by ENCODE

予若观火 ——SCREEN

https://screen.encodeproject.org/

ENCODE 已绘制出的数百万个元件,收纳到 SCREEN 注册库,其中包含了 926535 个人类的和 339815 个小鼠的候选顺式调节元件,分别覆盖人和小鼠基因组的 7.9% 和 3.4%

予人玫瑰手有余香。登录 ENCODE 可以获得更多有关 ENCODE 项目的数据集、方法和相关信息

https://www.encodeproject.org/

https://www.nature.com/articles/s41586-020-2493-4

ENCODE 计划第三阶段所有数据均可通过 ENCODE 门户(https://www.encodeproject.org)获得,其中包含了ENCODE1 和 Roadmap Epigenomics 2 的数据。通过整合与基因调控相关的海量数据,ENCODE 计划发布了一个包含 926535 个人类和 339815 个小鼠候选顺式调控元件的注册表,覆盖了其各自基因组的 7.9%和 3.4%,并构建了前述基于 Web 的 SCREEN 服务器,不再展开。

https://www.nature.com/articles/s41592-020-0907-8

增强子是重要的非编码元件,属于远距离激活靶基因表达的基因调控元件。但是一直以来增强子很难进行定性实验。ENCODE 计划第三阶段开发了一种基于表观遗传特征与学习算法相结合的预测增强子工具(STARR-seq-based enhancer predictions) ,首次实现了对基因组中的增强子进行表征预测。

https://www.nature.com/articles/s41467-020-17453-5

ENCODE 计划第三阶段中包含了一个名为CrosscheckFingerprints(Crosscheck)的测序数据纠错工具。该工具支持识别和纠正 ENCODE 数据库中的 Chip-seq,RNA-seq 和 DNAs-seq 测序数据标注或注释错误。

题图来源:Nature

结语

ENCODE 是科学,也是艺术

21 世纪,全球逐渐开始兴起万人级别基因组计划,以基因组学为基础的精准医学飞速发展。2003 年 - 2020 年,ENCODE 用了 17 年走完了三个阶段。这三个阶段每一步都具有里程碑式意义,为后续人类遗传相关疾病的研究和药物研发提供了丰富的理论和数据基础。作为ENCODE 计划第四阶段的一部分,依托科学技术迭代,将会有更多不同细胞类型、器官和组织的描述和注释,为生命科学和医学研究开辟崭新道路

https://www.nature.com/collections/dggcchgghg/additional-research-papers

「好文」,点个好看再走吧!