本文来源:西湖大学
12月6日,《科学》(Science)杂志在线发表了西湖大学生命科学学院、西湖实验室俞晓春团队最新成果“完整的端粒到端粒小鼠参考基因组序列(The complete telomere-to-telomere sequence of a mouse genome)”,报道了该团队在解析小鼠参考基因组方面取得的重要突破。这意味着人类历史上第一次看清小鼠基因组DNA全貌。
论文链接:
https://www.science.org/doi/10.1126/science.adq8191
小鼠,是生命科学研究中最常见的实验动物和模式生物,这是因为许多生物实验不宜在人体内进行,因此,小鼠的基因组DNA信息直接关系到人类健康的探索。也正因如此,人类对小鼠基因组DNA的认知与西湖大学生命科学学院、西湖实验室俞晓春团队的研究密切相关。目前小鼠的基因“档案”中,最完整的是参考基因组GRCm39,同样也存在约7~8%未被解析的区域。未知的基因组DNA里或许隐藏着一些至今无法解释的遗传性疾病的谜底。
这些“空白”尤其存在于异染色质和核糖体DNA(rDNA)区域。这些区域富含重复的基因序列,即一些反复出现的,看似近乎一模一样、但实则有细微区别的片段。二代基因测序技术仅能测出其中的一段(且由二代技术完成的小鼠基因组图谱中还有错误),对完整的排序序列“束手无策”;而三代技术可以“完全看清”。由于人类基因组包含大约30亿个碱基对,能够读取更长片段的第三代基因测序技术的出现,为科学家破解完整的人类基因图谱的进程按下加速键。
2022年3月31日,《科学》发表文章报道了名为“端粒到端粒联盟”的国际科学团队,完成了第一个完整的、无间隙的人类基因组序列,填补了2003年“人类基因组计划”遗留下的8%尚未读取的基因区域。在大洋彼岸的中国浙江杭州的西湖大学,俞晓春实验室当时的博后、现在的助理研究员李麒麟及时关注到了这条新闻。时至2023年的春天,迟迟不见欧美的实验室发布“大新闻”,实验室最终决定自己动手拼完小鼠基因组“拼图”。“(全球)剩下的人一直在等,但我们不想等了。”俞晓春回忆说。
俞晓春团队综合了众多三代基因测序技术,让它们互相补足,开发了一把能够充分挖掘小鼠基因的“金铲子”。他们以最常用的小鼠C57BL/6的单倍体胚胎干细胞(mhaESC)为样本,进行了基因测序和组装,获得了长度为2.77 Gbp(表示十亿个碱基对)的完整的高质量小鼠参考基因组序列,其中包含215.23 Mbp(表示一百万个碱基对)先前未被鉴定的序列,填补了约7.7%的基因组空白。
mhaESC基因组与先前参考基因组的共线性比对结果
从科学意义上来说,俞晓春实验室的这项研究,通过综合“长读长”第三代测序技术成功完成了小鼠基因组的端粒到端粒组装,填补了现有参考基因组中的空白区域,揭示了新的基因和结构变异,“拼完”了小鼠基因组图谱的“拼图”。这些发现不仅提高了对小鼠基因组结构和功能的理解,也为基因组学研究提供了重要的技术参考和数据资源。俞晓春实验室剑指的始终并不是小鼠基因组真容本身,而是希望利用这把“基因组之铲”探索遗传性癌症、发育性疾病未解的致病机理。
西湖实验室助理研究员刘俊丽博士和李麒麟博士为本文的共同第一作者,西湖大学生命科学学院科研副院长、西湖实验室科研副主任俞晓春教授为通讯作者。本研究得到国家自然科学基金、浙江省自然科学基金、浙江省“尖兵”&“领雁”项目、杭州市领军型创新创业团队、西湖教育基金会和西湖实验室提供的经费支持,同时感谢西湖大学生物医学实验技术中心、实验动物中心及高性能计算中心等平台的支持。