长久以来,由于缺乏合适的参考物质,无法产生标准化的DNA测序数据集并对不同测序流程或不同算法的性能进行全面测试和评估,因而制约了肿瘤基因组学方法的落地实施和广泛使用。

2021年9月9日,美国食品药品监督管理局的Wenming Xiao和Huixiao Hong、洛马林达大学的Charles Wang及复旦大学的石乐明共同通讯在Nature Biotechnology 在线发表题为“Establishing community reference samples, data and call sets for benchmarking cancer mutation detection using whole-genome sequencing”的研究论文,该研究发布了国际组学数据质量控制联盟第四期(MAQC-IV,亦为“测序质量控制第二期SEQC2”)的最新研究成果。这些研究成果将为肿瘤的更早、更精准的诊断提供更高的参照标准。

该研究报道了从配对的肿瘤-正常基因组DNA(gDNA)样本中获得的参考调用集,这些样本来自一个乳腺癌细胞系(其高度异质性,具有非整倍体基因组,并富含体细胞改变)和一个匹配的淋巴细胞系。研究人员通过不同测序平台的全外显子组测序(WES)和覆盖率大于2,000倍的靶向测序,部分验证了这些调用集的体细胞突变和生殖系变异,并高置信度地跨越了82%的基因组区域。尽管gDNA参考样本不能代表临床样本的原生癌细胞,但在建立测序流水线时,它们不仅能最大限度地减少技术、检测和信息学的潜在偏差,还能为“纯肿瘤”或“匹配的肿瘤-正常”分析提供独特的基准资源。

另外,2021年9月9日,美国食品药品监督管理局的Wenming Xiao、洛马林达大学的Charles Wang及复旦大学的石乐明共同通讯在Nature Biotechnology 在线发表题为“Toward best practice in cancer mutation detection with whole-genome and whole-exome sequencing”的研究论文,该研究报告了对成对的肿瘤 - 正常细胞系中的体细胞突变的系统询问,以确定影响六个不同中心检测再现性和准确性的因素。使用全基因组测序 (WGS) 和全外显子组测序 (WES),该研究评估了具有不同输入量和肿瘤纯度以及多种文库构建协议的不同样本类型的可重复性,然后使用九个生物信息学管道进行处理。该研究发现读取覆盖率和调用者影响 WGS 和 WES 的可重复性,但 WES 性能受插入片段大小、基因组拷贝内容和全局不平衡评分(GIV;G > T/C > A)的影响。最后,同时考虑到文库制备方案、肿瘤内容、读取覆盖率和生物信息学过程,该研究推荐可操作的做法,以提高 NGS 癌症突变检测实验的可重复性和准确性。

打开网易新闻 查看更多图片

准确的体细胞突变检测对于癌症基因组学和精准癌症医学至关重要。尽管测序技术发展迅速,但使用新一代测序 (NGS) 准确检测体细胞突变仍然具有挑战性。很难从单个平台或管道获得一致的体细胞突变调用,从而阻碍了个性化治疗的发展。此外,由于缺乏经过充分验证和公开可用的参考样本和参考数据集,体细胞突变的质量控制往往不足。因此,具有高可信度体细胞突变检测的配对肿瘤-正常参考样本是可取的,也是迫切需要的。

尽管Genome in a Bottle (GIAB) 联盟已经建立了参考样本和调用集来对生殖细胞变异调用进行基准测试,但不存在用于对体细胞变异调用进行基准测试的此类资源。然而,由于变异等位基因频率 (VAF)、肿瘤间和肿瘤内异质性、普遍的拷贝数改变 (CNA) 和复杂的染色体重排,准确检测体细胞突变更具挑战性。

为了建立参考数据和调用集以对体细胞突变调用进行基准测试,该研究从来自同一供体的三阴性乳腺癌 (TNBC) 细胞系 (HCC1395) 和 B 淋巴细胞衍生的正常细胞系 (HCC1395BL) 中提取了 gDNA 样本。与源自 CLL 和 MB 肿瘤的具有低突变负荷和非常有限的结构变化的参考调用集不同,HCC1395 细胞系富含基因组改变(~40,000 个 SNV、~2,000 个小插入和缺失(indel)、~56% 的 CNA)和 >256 个复杂的基因组重排、非整倍体基因组,并且之前已经使用细胞遗传学分析和基于阵列的比较基因组杂交进行了表征。

该研究使用 WGS(以 1,500 倍覆盖率)跨越七个测序中心对配对的肿瘤-正常细胞系的全基因组进行测序。测序读数被对齐,体细胞突变被各种生物信息学管道调用。因此,该研究最大限度地减少了特定于测序平台和中心或生物信息学算法的偏差,并在 HCC1395 细胞系的整个基因组中创建了高可信度的突变调用,即“参考调用集”。通过靶向测序(2,000 倍覆盖率)、使用 HiSeq(2,500 倍覆盖率)和 Ion Torrent(34 倍覆盖率)的 WES 以及 PacBio Sequel 的长读长 WGS(40 倍覆盖率)验证这些突变检测的一个子集。

已建立的调用集至少有两个优势:(1)参考样本的全基因组测序覆盖度更深,共 1,500 倍,并通过正交测序平台验证;因此,高可信度的克隆和亚克隆体细胞突变被调用和验证;(2) 从 378 个数据集调用的体细胞突变(由三个比对器和六个体细胞突变调用者进行的 21 次测序重复)被两个最先进的基于机器学习的体细胞突变分类器(SomaticSeq和 NeuSomatic)整合以构建一个高置信度体细胞参考调用集,减轻了特定于测序平台、测序站点或生物信息学算法的调用错误。

“国际组学数据质量控制联盟(MicroArray Quality Control Consortium)”,简称MAQC,由时任美国食品药品监督管理局高级研究员石乐明教授于2005年发起成立,其全职进入复旦大学担任教授后,继续积极推动联盟的发展和全球生物医学界在组学数据质量控制上的大力合作。

该联盟旨在通过质量控制和标准化手段,确保基因芯片数据产生、分析和解读等诸多环节的可靠性,随后扩展到新一代测序质量控制(SEQC, SEquencing Quality Control)。

至今为止,该联盟就基因表达谱数据质量控制(MAQC-I)、生物标志物和预测模型挖掘的最佳实践(MAQC-II)、转录组测序数据质量控制(MAQC-III/SEQC1)以及基因组DNA测序数据质量控制(MAQC-IV/SEQC2)进行了长期而系统的探索,其研究成果由《自然·生物技术》杂志分别于2006年、2010年、2014年和2021年以4个专辑发表,促进了FDA基因组学指南和有关国际标准的制定。

在此基础上,国际大数据质量控制学会 (The International Massive Analysis and Quality Control Society)于2017年4月12日成立(www·maqcsociety·org;Shi L et al·, Nature Biotechnology 2017),并于2018年2月在复旦大学成功举办了全球学术年会。该学会旨在通过建立共享可靠的多组学(包括基因组学、转录组学、 蛋白质组学、代谢组学等)参考物质和与研究目标密切相关的质量评价指标,确保高通量组学技术的可重复性和可靠性,为精准医学保驾护航。16年来,我国多家高校、科研院所、企业和医院的数十名科研工作者积极参与了国际组学数据质量控制联盟的工作,在提升我国组学数据质量意识、引领国际标准研发、推动我国生物医学领域原创研究的过程中起到了重要的作用。

参考消息:

https://www.nature.com/articles/s41587-021-00993-6