打开网易新闻 查看更多图片

编辑丨王多鱼

排版丨水成文

当我们在谈论人工智能(AI)如何变革基因组学时,讨论的焦点往往集中在算法模型多么精妙、算力如何强大。但一场由Google Research团队举办的最新线上研讨会,却将聚光灯打向了一个更为基础、却常被忽视的要素——基因测序数据本身的质量

打开网易新闻 查看更多图片

这场名为:Scaling Genomics with Higher Throughput and AI-Driven Variant Calling 的技术研讨会,系统展示了 Google 开发的一系列高性能 AI 变异检测工具 DeepVariant、DeepConsensus、DeepSomatic 等的最新进展。引人注目的是,当这些顶尖AI工具遇上了来自华大智造/Complete Genomics的DNBSEQ平台的高质量数据,产生了“1+1>2”的卓越效果。

在进一步解读之前,我们先快速了解几个关键指标,方便理解后续数据:

  • Mean Identity(平均序列一致性):简单来说,就是测出来的 DNA 序列和真实基因组究竟有多像。这个数字越高,代表测序本身的原始错误越少,数据越“干净”。

  • Indel(插入缺失):指‌ 1-50 bp‌的小片段 DNA 的插入(Insertion)和缺失(Deletion),是基因变异的一种类型,也是测序中容易出错的地方。

  • Homopolymer(同源聚合物):像“AAAAAA”这样一长串相同碱基的区域,这里是所有测序技术的“噩梦区”,极易出错。

  • False Negative(假阴性):该检出的变异实际未检出,也就是漏检。

  • False Positive(假阳性):没有变异的位置检出变异,也就是错检。

明白了这些,让我们看看这场研讨会揭示了哪些关键洞察。

更优质的起点,更高的天花板

研讨会上首先比较了不同测序平台数据的Mean Identity(平均序列一致性)。结果显示,在采用先进的泛基因组图(Pangenome Graph)进行比对时,华大智造最新款超高通量测序仪 DNBSEQ-T7+ 的数据获得了 0.995999 的平均序列一致性,优于另一主流平台 Illumina NovaSeq 的 0.993489。

打开网易新闻 查看更多图片

平均序列一致性比较

如果把 AI 模型比作一位学生,那么测序数据就是它的教材。教材本身错误越少(数据越干净),学生(AI 模型)就越不容易被误导,从而能学到更准确的知识,最终在“考试”(变异检测)中取得更可信的成绩。DNBSEQ 平台提供了更优质的“教材”,通过更优质的起点,为后续 AI 分析奠定了更高的天花板。

专属训练模型,错误率显著降低

Google Research 团队还做了一次深入实验:他们不再使用通用模型,而是使用高质量的 DNBSEQ-T7+ 数据,为 DeepVariant 训练了一个 DNBSEQ 专属模型——DeepVariant DNBSEQ-specific。

这个模型的训练集采用了 GIAB(Genome in a Bottle)标准品(HG001、HG002、HG004、HG005-HG007),并特意将 HG003 样本和第 20 号染色体(chr20)的数据“扣下”,作为从未见过的“考试题”来验证模型效果。

结果令人印象深刻:在 HG003 样本上,DNBSEQ 专属模型产生的假阳性和假阴性错误位点总数(14183个),显著少于基于 NovaSeq 数据训练的模型(15481 个)。

打开网易新闻 查看更多图片

使用NIST v4.2.1版本变异真集评估(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)

为了进行更严苛的评估,团队还请出了最新的“终极考官”——HG002 样本的 T2T(端粒到端粒)完整基因组变异真集。这个真集包含超过 450 万个变异位点,远超旧版本,能更全面地检验性能。

在这个终极测试中,优势进一步拉大:DNBSEQ-T7+ DeepVariant 的总错误位点为 64116 个,显著优于 NovaSeq + DRAGEN v4.3 的 71854个,也优于 NovaSeq + DeepVariant 的 73213 个。

打开网易新闻 查看更多图片

使用NIST HG002 T2T版本变异真集评估 DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN vs. NovaSeq+DeepVariant

结论很直接:同样的顶尖 AI 工具 DeepVariant,使用来自不同平台的测序数据训练,产出的“模型成品”质量有显著差异。DNBSEQ 平台数据训练出的模型质量更高,变异结果中假阳性和假阴性位点数量更少。

攻坚“困难区域”,表现依然卓越

真正的挑战在于那些让所有技术都头疼的“困难区域”。研讨会分享的数据显示,在这些区域,基于 DNBSEQ 的优势更加明显:

  • 同源聚合物区:在所有同源聚合物区,DNBSEQ + DeepVariant 的 Indel 检测准确率比 NovaSeq + DRAGEN 提升了约 55%。这意味着在那些连续 A 或连续 T 的困难区域,DNBSEQ 能更准确地判断是否发生了碱基的插入或缺失。

打开网易新闻 查看更多图片

同源聚合物区Indel变异检测错误的比较(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)

  • 复杂结构变异区:在片段重复(Segmental Duplication)和复杂拷贝数变异(CNV)区,DNBSEQ + DeepVariant 的错误位点数量比 NovaSeq + DRAGEN 减少了约 30%。

打开网易新闻 查看更多图片

复杂结构变异区域检测错误的比较(DNBSEQ-T7plus+DeepVariant vs. NovaSeq+DRAGEN)

其原因在于,两者的测序化学原理(DNA 纳米球与联合探针锚定聚合 vs. 可逆末端终止)不同,使得 DNBSEQ 在这些特定区域的背景错误率天然更低,从而为 AI 模型提供了更清晰的“信号”、带来了更优的变异检测性能。

平台间一致性高,表现稳定

研讨会还评估了华大智造于 2025 年新发布的另一款平台DNBSEQ-T1+,相比主打高通量的 DNBSEQ-T7+,DNBSEQ-T1+ 主打灵活性。结果显示,无论是更高通量的 T7+,还是更灵活的 T1+,其数据训练出的模型在变异检测性能上均保持一致的高水平,且都优于对比方案。

打开网易新闻 查看更多图片

使用NIST HG002 T2T版本变异真集评估(DNBSEQ-T1plus+DeepVariant vs. NovaSeq+DRAGEN 4.5)

这意味着,DNBSEQ 平台在不同型号和通量下,都能提供稳定、可靠的高质量数据,满足从大规模种群项目到小型快速研究的不同需求,而无需担心数据质量波动影响分析结果。

重新定义性能边界,数据质量是基石

这场研讨会传达了一个明确而重要的信号——在泛基因组参考图谱人工智能这两大前沿技术的推动下,基因组变异检测的性能边界正在被不断刷新。然而,无论上层的算法如何演进,底层测序数据的质量,始终是决定最终分析高度的基石。

Google Research 此次系统性的评估表明,DNBSEQ 测序平台所提供的高准确性、低错误率的数据,能够显著提升以 DeepVariant 为代表的 AI 变异检测工具的性能,尤其是在最富挑战性的基因组区域。这为追求最高数据质量和分析精准度的基因组学研究者,提供了一个强有力的技术组合选择。

这些评估结果提示我们,AI 在基因组学领域的竞赛,不仅发生在算法和算力层面,更发生在数据产生的源头。当 AI 模型拥有了更清澈的“眼睛”,它才能为我们看清生命密码中更细微、更真实的奥秘。

值得一提的是,Google Research团队联合华大智造中国科学院大学的研究人员,在预印本平台bioRxiv发表了题为:PanVariants: Best Practice for Pangenome-based Variant Calling Pipeline and Framework 的研究论文。

打开网易新闻 查看更多图片

该研究建立了一个基于泛基因组的变异检测的稳健框架和最佳实践流程——PanVariants,实现了对新变异的灵敏发现以及单核苷酸变异(SNV)、插入缺失(indel)和结构变异(SV)的高精度检测,有力支持了未来基因组学从线性向泛基因组参考的转变。

打开网易新闻 查看更多图片

DNBSEQ+PanVariants 实现了对 NovaSeq+DRAGEN 的变异检测性能的超越

论文链接

https://doi.org/10.64898/2026.04.22.720142