2024年12月23日, 清华大学基础医学院程功教授团队与合作者在最新一期的《Signal Transduction and Targeted Therapy》(STTT)期刊上,发表了题为“A predictive language model for SARS-CoV-2 evolution” 的研究性论文。文章中介绍了一种创新的预测性语言模型以预测新冠病毒的进化和变异。这项研究不仅为COVID-19大流行应对提供了新的科学工具,也为未来可能出现的重要病毒变异提供了预警。

打开网易新闻 查看更多图片

自新冠病毒流行以来,尽管重症率降低,不断出现的变异株导致突破性感染在不断发生。病毒的快速突变给疫苗和药物干预带来重大障碍,也为潜在的下一次大流行提供了可能。与此同时,现有模型尚未能将病毒突变的规律性和随机性与最小数据和快速响应需求整合起来。为此,研究团队开发了一种简洁有效的语言模型,同时考虑病毒突变的规律性和随机性,以预测可能流行的病毒变体和突变。

该模型通过构建刺突蛋白S1序列的“语法框架”实现数据降维和语义表示,以把握模型的潜在规律性。同时,引入了“突变轮廓”的概念,即突变频率,以纳入随机性。结合湿实验验证,这一模型成功地识别并验证了多种具有显著增强病毒传染性和免疫逃逸能力的新冠变体。

打开网易新闻 查看更多图片

病毒预测语言模型的建立

研究人员通过不断更新三个不同时间点的序列数据(2022-2024),在XBB.1.16、EG.5、JN.1和BA.2.86等毒株的流行株或关键突变出现之前,便成功地将其预测。除此以外,研究结果还预测了可能导致未来流行病的未知变体。

该研究不仅为理解新冠的变异提供了新的视角,也为新冠病毒疫苗和治疗策略的开发提供了宝贵的信息。随着COVID-19的持续演变,这种模型的应用将有助于全球公共卫生界更好地准备和应对未来的挑战。

清华大学基础医学院程功教授、军事医学研究院魏从文研究员、清华大学环境学院博士后郭璇为本研究论文的通讯作者。清华大学基础医学院博士生麻恩浩与郭璇博士为共同第一作者。该研究获得科技部国家重点研发计划、国家自然科学基金、深圳市医学专项、深圳湾实验室科研项目基金、深圳市“三名工程”、西南联合研究生院科技项目、新基石科学基金和腾讯基金科学探索奖的支持。

论文链接:https://doi.org/10.1038/s41392-024-02066-x

本期编辑:Double