撰文丨王聪
编辑丨王多鱼
排版丨水成文
在药物研发实验室里,科学家们还在为解析蛋白质三维结构头疼;材料学家们正对着金属有机框架的复杂构型反复试错;化学家们则在海量反应路径中筛选最优解。
而现在,这些看似割裂的自然科学场景,可能被阿里通义实验室的一个大模型彻底打通——科学本身就有自己的“语法”,只要让 AI 学会这门科学语言,它就能像写文章一样,生成符合科学规律的蛋白质、小分子、新材料...。
该研究提出了全球首个基于统一“科学语法”的多领域生成式基础模型——LOGOS(Language Of Generative Objects in Science),它基于共享的“科学语法”,在单一的自回归框架内统一了自然科学中的异构任务,不需要依赖显式的 3D 坐标或几何神经网络,仅通过序列建模就能完成蛋白质设计、配体生成、逆合成预测、材料创造等跨领域任务,性能甚至超过多个领域专用模型,为“一个模型适用于所有”(one model fits all)在自然科学中的可行性提供了初步证据。
更重要的是,LOGOS为AI for Science(AI4S)指明了一条新路径——不必为科学任务单独搭建技术栈,而是可以和通用大语言模型共享架构、训练范式和推理基础设施,将科学基础模型与大语言模型深度对齐,从而使大语言模型真正成为 AI4S 的新入口。
为什么我们需要“科学语言”?
过去十年,AI 在自然科学领域的应用大多基于预训练语言模型 BERT 的预训练-微调范式:先在大规模无标注数据上学习掩码重建或对比学习,再适配下游任务。但这套方案存在天然短板:预训练目标和真实任务语义不对齐,编码器架构也缺乏原生的条件生成能力,往往需要额外加装生成模块。
后来学界尝试用自回归大语言模型破局,比如 ProGen2、Evo 系列等蛋白质生成模型,ProtGPT2 等核酸生成模型,但都局限于单一生物学领域,无法捕捉蛋白质、小分子、抗体等不同模态间的协同关系——而真实的生物过程,恰恰是这些多类分子复杂互作的结果。
还有研究试图用自然语言作为跨域接口,比如 NatureLM 把各类科学任务包装成“指令-响应”格式。但问题在于:生物化学数据的体量远小于自然语言,强行用自然语言做中介,模型容易偏向通用语言模式,反而忽略了科学对象本身的结构规律;而且氨基酸序列、SMILES 式等科学表示和自然语言的组成规则、语义机制差异极大,存在天然的模态鸿沟。
研究团队认为,既然蛋白质、小分子、材料、反应系统虽然符号表示不同,但都遵循特定的组成规则、结构约束和互作语义,那它们完全可以视为同一种“科学语言”的不同“方言”。
于是LOGOS的核心思路呼之欲出:给自然科学设计一套统一的“语法”,把所有科学对象和它们的互作都编码成共享词汇表下的 token 序列,用同一个自回归框架解决所有生成任务。
LOGOS概述:一种基于统一“科学语法”的多领域生成框架
LOGOS 是怎么说“科学语言”的?
这套“科学语法”的设计非常巧妙,核心是把空间互作关系“离散化、语法化、token 化”,塞进纯序列生成的框架里。
第一步:搭起七模态的知识版图
研究团队围绕“蛋白质-小分子”这两个核心科学实体,构建了覆盖 7 大模态的预训练语料库:
生物大分子层:蛋白质(来自UniRef90数据库)、抗体(来自OAS数据库);
化学实体与转化层:小分子(来自PubChemQC数据库)、化学反应(来自ORD和ECReact数据库)、材料(以金属有机框架MOF为代表,来自hypothetical MOF结构库);
跨域互作层:蛋白质配体结合位点(来自PDB数据库,用P2Rank预测)、蛋白质-配体复合物(来自Q-BioLiP数据库);
每种模态都有专属的边界 token,比如蛋白质用 >和< ProteinE>包裹,小分子用 >和< MoleculeE >包裹,既明确区分实体类型,又能在共享词汇表中无缝衔接。
第二步:把 3D 互作“翻译”成序列
最精彩的设计在于对空间关系的处理。以蛋白质结合口袋为例,传统方法必须输入 3D 原子坐标,而 LOGOS 给出了四种递进的序列表示:
1、氨基酸级口袋标注:在蛋白质线性序列中,用 >和< ProteinE>直接标记口袋残基的位置;
2、小分子扩展口袋序列:把口袋残基的侧链展开成对应的 SMILES 片段,直接在 token 层面架起蛋白质和化学空间的桥梁;
3、氨基酸-小分子转换序列:引入 >定向 token,把前两种形式拼接成转换任务,让模型学习“氨基酸标识符→分子结构”的映射;
4、结合位点识别序列:加入任务语义 token ,把“从蛋白质序列预测结合位点”变成生成任务:输入完整蛋白序列+ ,输出带口袋标注的序列。
这样一来,原本需要 3D 坐标描述的“哪些残基结合哪个配体”,就变成了一段符合语法的 token 序列。蛋白质-配体复合物的表示则更进一步:先按上述方式标记口袋残基并展开为 SMILES,再在蛋白序列末尾拼接配体的 SMILES,完整编码互作关系。
第三步:站在大语言模型肩膀上,但不被自然语言“绑架”
LOGOS 的基础架构直接复用 Qwen3-8B、Llama3.2-1B/3B 等成熟的大语言模型,继承 Transformer 的序列建模能力——实验证明,继承全部预训练权重的配置,在配体生成任务上的 Vina 评分(-7.43)远优于随机初始化(-6.91)或仅继承嵌入层(-6.78)的方案,说明自然语言预训练学到的长程依赖捕获、上下文推理能力,和科学序列的建模规律存在抽象共性。
但研究团队同时发现:如果在持续预训练阶段混入大量自然语言语料,模型在科学任务上的性能会持续下降。毕竟参数总量固定,分给自然语言理解的能力多了,留给科学模态建模的容量就少了。因此,LOGOS 选择完全聚焦科学原生表示,不把自然语言作为跨模态接口,把有限的参数容量用在刀刃上。
训练流程分为两步:先在七模态语料上做持续预训练,优化标准下一 token 预测目标;再用少量下游任务数据做监督微调(SFT),且采用多任务联合训练——实验证明,这种跨域联合微调比单任务独立训练在所有任务上都表现更好,因为不同领域的知识可以互相补充:逆合成预测的键断裂重组规律,能帮助配体生成的骨架构建;口袋识别任务学到的序列-结构-功能关系,能提升配体生成对口袋约束的理解。
效果有多惊艳?
研究团队在 6 个代表性科学任务上验证了 LOGOS 的性能,结果堪称“降维打击”——
1、口袋条件配体生成(药物设计核心任务)
在 PDBBind 数据集中,LOGOS-8B 的 Vina 对接得分达到 -7.76(越低结合亲和力越强),不仅超过了 DiffBP(-7.28)、TargetDiff(-7.38)等依赖 3D 坐标的领域专用模型,也远超用 8 张 7B 卡堆叠的 NatureLM(-6.91)。更惊人的是,仅 1B 参数的 LOGOS-1B 就拿到了 -7.64 的得分,参数量只有 NatureLM 的 1/56,参数效率优势明显。同时在药物相似性(QED)、合成可及性(SAS)等指标上也全面领先。
2、蛋白质配体结合位点识别
在 COACH420 和 HOLO4K 两个基准数据集上,LOGOS-8B 的表现仅次于 P2Rank(其预训练标注来源就是 P2Rank 的预测结果),超过了 Fpocket、DeepSite 等其他所有基线方法。关键是,所有对比方法都需要输入蛋白质 3D 结构,而 LOGOS 仅用一维氨基酸序列就能完成预测,把口袋识别的适用范围从“有解析结构的蛋白质”扩展到了所有已知序列的蛋白质——后者数量是前者的几个数量级。
3、逆合成预测
在 USPTO-50K 数据集上,LOGOS-8B 的 Top-1 准确率达到 74.8%,超过了 NatureLM(8x7B,71.9%)和 EditRetro(60.8%)等模型。Top-1 准确率直接关系到合成路线规划的实用性,说明 LOGOS 对化学转化的键断裂、重组模式有着更精准的概率建模。
4、无条件 MOF 材料生成
在 MOF 生成任务上,LOGOS-8B 的化学有效性(Valid,45.19%)、新颖性(VNU,39.02%)和新构件比例(NBB,17.78%)全部刷新 SOTA。尤其是 NBB 指标,比此前最好的 MOFFlow-2(10.10%)相对提升了 76%,意味着模型不仅能组合已知构件,还能生成训练中从未见过的全新化学结构单元,真正拓展了材料设计的探索空间。
5、泛化到未见过的任务格式
更有说服力的是对预训练未覆盖任务的泛化能力:
蛋白质编辑:在 AAV 和 GFP 两个基准数据集上,LOGOS 的优化后序列适应度(Fitness)大幅超过 GGS 等专用方法,且在难度更高的 Hard 设置下性能几乎不下降。
抗体 CDR 区设计:在 SAbDab 数据集上,LOGOS-8B 在 CDR1 和 CDR2 区的氨基酸恢复率(AAR)和结构一致性(scRMSD)均优于所有逆折叠基线方法;虽然 CDR3 区因高度多样性略逊于依赖 3D 结构的模型,但其生成的序列在抗体语言模型 AntiBERTy 的合理性评分(Plausibility)上表现最优,说明模型生成的是符合天然抗体分布的合理变体,而非单纯拟合参考序列。
LOGOS 的基准性能
这仅仅是开始
LOGOS 已经初步验证了“一个模型适配所有自然科学任务”的可行性,但研究团队也坦承,目前的版本还有不少拓展空间:比如尚未纳入基因组、转录组等核酸相关模态;预训练语料仅覆盖了公开数据的子集;完全基于序列的建模在部分对 3D 结构高度敏感的任务上仍有提升空间。
不过它的意义已经远超一个模型的成功:它证明了科学基础模型和通用大语言模型可以走深度对齐的路线,而不是各自搭建独立的技术栈。未来,随着数据规模的扩大、模型参数的提升,以及序列建模与显式几何信息的融合,这类通用科学大模型很可能成为 AI4S 的核心基础设施,让大语言模型真正成为科学家探索未知的新入口。
正如论文结尾所说——我们的目标是构建一个真正通用的科学基础模型,实现跨域、跨尺度、跨模态的统一理解、预测和设计。而 LOGOS,已经迈出了坚实的第一步。
论文链接:
https://arxiv.org/abs/2606.16905

