阿里推出统一科学语言基础模型——LOGOS，打造AI for Science新入口

撰文丨王聪

编辑丨王多鱼

排版丨水成文

在药物研发实验室里，科学家们还在为解析蛋白质三维结构头疼；材料学家们正对着金属有机框架的复杂构型反复试错；化学家们则在海量反应路径中筛选最优解。

而现在，这些看似割裂的自然科学场景，可能被阿里通义实验室的一个大模型彻底打通——科学本身就有自己的“语法”，只要让 AI 学会这门科学语言，它就能像写文章一样，生成符合科学规律的蛋白质、小分子、新材料...。

该研究提出了全球首个基于统一“科学语法”的多领域生成式基础模型——LOGOS（Language Of Generative Objects in Science），它基于共享的“科学语法”，在单一的自回归框架内统一了自然科学中的异构任务，不需要依赖显式的 3D 坐标或几何神经网络，仅通过序列建模就能完成蛋白质设计、配体生成、逆合成预测、材料创造等跨领域任务，性能甚至超过多个领域专用模型，为“一个模型适用于所有”（one model fits all）在自然科学中的可行性提供了初步证据。

更重要的是，LOGOS为AI for Science（AI4S）指明了一条新路径——不必为科学任务单独搭建技术栈，而是可以和通用大语言模型共享架构、训练范式和推理基础设施，将科学基础模型与大语言模型深度对齐，从而使大语言模型真正成为 AI4S 的新入口。

为什么我们需要“科学语言”？

过去十年，AI 在自然科学领域的应用大多基于预训练语言模型 BERT 的预训练-微调范式：先在大规模无标注数据上学习掩码重建或对比学习，再适配下游任务。但这套方案存在天然短板：预训练目标和真实任务语义不对齐，编码器架构也缺乏原生的条件生成能力，往往需要额外加装生成模块。

后来学界尝试用自回归大语言模型破局，比如 ProGen2、Evo 系列等蛋白质生成模型，ProtGPT2 等核酸生成模型，但都局限于单一生物学领域，无法捕捉蛋白质、小分子、抗体等不同模态间的协同关系——而真实的生物过程，恰恰是这些多类分子复杂互作的结果。

还有研究试图用自然语言作为跨域接口，比如 NatureLM 把各类科学任务包装成“指令-响应”格式。但问题在于：生物化学数据的体量远小于自然语言，强行用自然语言做中介，模型容易偏向通用语言模式，反而忽略了科学对象本身的结构规律；而且氨基酸序列、SMILES 式等科学表示和自然语言的组成规则、语义机制差异极大，存在天然的模态鸿沟。

研究团队认为，既然蛋白质、小分子、材料、反应系统虽然符号表示不同，但都遵循特定的组成规则、结构约束和互作语义，那它们完全可以视为同一种“科学语言”的不同“方言”。

于是LOGOS的核心思路呼之欲出：给自然科学设计一套统一的“语法”，把所有科学对象和它们的互作都编码成共享词汇表下的 token 序列，用同一个自回归框架解决所有生成任务。

LOGOS概述：一种基于统一“科学语法”的多领域生成框架

LOGOS 是怎么说“科学语言”的？

这套“科学语法”的设计非常巧妙，核心是把空间互作关系“离散化、语法化、token 化”，塞进纯序列生成的框架里。

第一步：搭起七模态的知识版图

研究团队围绕“蛋白质-小分子”这两个核心科学实体，构建了覆盖 7 大模态的预训练语料库：

生物大分子层：蛋白质（来自UniRef90数据库）、抗体（来自OAS数据库）；
化学实体与转化层：小分子（来自PubChemQC数据库）、化学反应（来自ORD和ECReact数据库）、材料（以金属有机框架MOF为代表，来自hypothetical MOF结构库）；
跨域互作层：蛋白质配体结合位点（来自PDB数据库，用P2Rank预测）、蛋白质-配体复合物（来自Q-BioLiP数据库）；

每种模态都有专属的边界 token，比如蛋白质用 >和< ProteinE>包裹，小分子用 >和< MoleculeE >包裹，既明确区分实体类型，又能在共享词汇表中无缝衔接。

第二步：把 3D 互作“翻译”成序列

最精彩的设计在于对空间关系的处理。以蛋白质结合口袋为例，传统方法必须输入 3D 原子坐标，而 LOGOS 给出了四种递进的序列表示：

1、氨基酸级口袋标注：在蛋白质线性序列中，用 >和< ProteinE>直接标记口袋残基的位置；

2、小分子扩展口袋序列：把口袋残基的侧链展开成对应的 SMILES 片段，直接在 token 层面架起蛋白质和化学空间的桥梁；

3、氨基酸-小分子转换序列：引入 >定向 token，把前两种形式拼接成转换任务，让模型学习“氨基酸标识符→分子结构”的映射；

4、结合位点识别序列：加入任务语义 token ，把“从蛋白质序列预测结合位点”变成生成任务：输入完整蛋白序列+ ，输出带口袋标注的序列。

这样一来，原本需要 3D 坐标描述的“哪些残基结合哪个配体”，就变成了一段符合语法的 token 序列。蛋白质-配体复合物的表示则更进一步：先按上述方式标记口袋残基并展开为 SMILES，再在蛋白序列末尾拼接配体的 SMILES，完整编码互作关系。

第三步：站在大语言模型肩膀上，但不被自然语言“绑架”

LOGOS 的基础架构直接复用 Qwen3-8B、Llama3.2-1B/3B 等成熟的大语言模型，继承 Transformer 的序列建模能力——实验证明，继承全部预训练权重的配置，在配体生成任务上的 Vina 评分（-7.43）远优于随机初始化（-6.91）或仅继承嵌入层（-6.78）的方案，说明自然语言预训练学到的长程依赖捕获、上下文推理能力，和科学序列的建模规律存在抽象共性。

但研究团队同时发现：如果在持续预训练阶段混入大量自然语言语料，模型在科学任务上的性能会持续下降。毕竟参数总量固定，分给自然语言理解的能力多了，留给科学模态建模的容量就少了。因此，LOGOS 选择完全聚焦科学原生表示，不把自然语言作为跨模态接口，把有限的参数容量用在刀刃上。

训练流程分为两步：先在七模态语料上做持续预训练，优化标准下一 token 预测目标；再用少量下游任务数据做监督微调（SFT），且采用多任务联合训练——实验证明，这种跨域联合微调比单任务独立训练在所有任务上都表现更好，因为不同领域的知识可以互相补充：逆合成预测的键断裂重组规律，能帮助配体生成的骨架构建；口袋识别任务学到的序列-结构-功能关系，能提升配体生成对口袋约束的理解。

效果有多惊艳？

研究团队在 6 个代表性科学任务上验证了 LOGOS 的性能，结果堪称“降维打击”——

1、口袋条件配体生成（药物设计核心任务）

在 PDBBind 数据集中，LOGOS-8B 的 Vina 对接得分达到 -7.76（越低结合亲和力越强），不仅超过了 DiffBP（-7.28）、TargetDiff（-7.38）等依赖 3D 坐标的领域专用模型，也远超用 8 张 7B 卡堆叠的 NatureLM（-6.91）。更惊人的是，仅 1B 参数的 LOGOS-1B 就拿到了 -7.64 的得分，参数量只有 NatureLM 的 1/56，参数效率优势明显。同时在药物相似性（QED）、合成可及性（SAS）等指标上也全面领先。

2、蛋白质配体结合位点识别

在 COACH420 和 HOLO4K 两个基准数据集上，LOGOS-8B 的表现仅次于 P2Rank（其预训练标注来源就是 P2Rank 的预测结果），超过了 Fpocket、DeepSite 等其他所有基线方法。关键是，所有对比方法都需要输入蛋白质 3D 结构，而 LOGOS 仅用一维氨基酸序列就能完成预测，把口袋识别的适用范围从“有解析结构的蛋白质”扩展到了所有已知序列的蛋白质——后者数量是前者的几个数量级。

3、逆合成预测

在 USPTO-50K 数据集上，LOGOS-8B 的 Top-1 准确率达到 74.8%，超过了 NatureLM（8x7B，71.9%）和 EditRetro（60.8%）等模型。Top-1 准确率直接关系到合成路线规划的实用性，说明 LOGOS 对化学转化的键断裂、重组模式有着更精准的概率建模。

4、无条件 MOF 材料生成

在 MOF 生成任务上，LOGOS-8B 的化学有效性（Valid，45.19%）、新颖性（VNU，39.02%）和新构件比例（NBB，17.78%）全部刷新 SOTA。尤其是 NBB 指标，比此前最好的 MOFFlow-2（10.10%）相对提升了 76%，意味着模型不仅能组合已知构件，还能生成训练中从未见过的全新化学结构单元，真正拓展了材料设计的探索空间。

5、泛化到未见过的任务格式

更有说服力的是对预训练未覆盖任务的泛化能力：

蛋白质编辑：在 AAV 和 GFP 两个基准数据集上，LOGOS 的优化后序列适应度（Fitness）大幅超过 GGS 等专用方法，且在难度更高的 Hard 设置下性能几乎不下降。
抗体 CDR 区设计：在 SAbDab 数据集上，LOGOS-8B 在 CDR1 和 CDR2 区的氨基酸恢复率（AAR）和结构一致性（scRMSD）均优于所有逆折叠基线方法；虽然 CDR3 区因高度多样性略逊于依赖 3D 结构的模型，但其生成的序列在抗体语言模型 AntiBERTy 的合理性评分（Plausibility）上表现最优，说明模型生成的是符合天然抗体分布的合理变体，而非单纯拟合参考序列。

LOGOS 的基准性能

这仅仅是开始

LOGOS 已经初步验证了“一个模型适配所有自然科学任务”的可行性，但研究团队也坦承，目前的版本还有不少拓展空间：比如尚未纳入基因组、转录组等核酸相关模态；预训练语料仅覆盖了公开数据的子集；完全基于序列的建模在部分对 3D 结构高度敏感的任务上仍有提升空间。

不过它的意义已经远超一个模型的成功：它证明了科学基础模型和通用大语言模型可以走深度对齐的路线，而不是各自搭建独立的技术栈。未来，随着数据规模的扩大、模型参数的提升，以及序列建模与显式几何信息的融合，这类通用科学大模型很可能成为 AI4S 的核心基础设施，让大语言模型真正成为科学家探索未知的新入口。

正如论文结尾所说——我们的目标是构建一个真正通用的科学基础模型，实现跨域、跨尺度、跨模态的统一理解、预测和设计。而 LOGOS，已经迈出了坚实的第一步。

论文链接：

https://arxiv.org/abs/2606.16905

阿里推出统一科学语言基础模型——LOGOS，打造AI for Science新入口

GLM-5.3你来定！智谱唐杰全球征集意见，评论区清一色：视觉

别急着教AI开车，先让它看懂世界

Nature Medicine：戳破“AI大模型超越人类医生”的神话，取得高分靠的是刷题背答案+瞎猜？

AI圈刚开始谈Loop Engineering,两位95后博士盯上了人类闭环数据

阿里达摩院开源具身大脑基础模型

退钱！Claude 4.8连夜大降智，GPT-5.6算力遭「腰斩」

万亿市场格局未定：「端侧原生」，一家中国AI公司给物理AI抛了个新解法

LiveWorld：视频世界模型新范式，让镜头之外的世界继续演化

你天天用的Claude和Codex，Meta内部不让随便用了

清华联手千问重塑归一化范式，让 Transformer 回归「深度」学习

港股新贵押注物理AI，乐动机器人打造万亿市场空间的核心基础设施

微信做Agent，AI创业者为什么反而不慌？

“AI领域最被滥用的术语”李飞飞终于把世界模型讲明白了

00后小哥复刻Claude最强神话模型OpenMythos

阿里开源：用冻结多模态大模型为文生图训练提供高质量Reward

科学变美要听医生建议!

米拉德为了躲清净在阿里家不回小屋

杭州见!学生党技术狂欢来袭,阿里硬核少年技术节5.0首次开放报名

米拉德在阿里家过上了悠闲自在的生活

穿越阿里，在A面与B面之间反复横跳