打开网易新闻 查看更多图片

2024年6月13日,AI蛋白质企业途深智合宣布将其研发的国内首个自然语言蛋白质大模型TourSynbio™开源,面向所有科研人员和开发者开放。

打开网易新闻 查看更多图片

该模型以对话的方式实现了对蛋白质文献的理解,包括蛋白质性质、功能预测和蛋白质设计等功能,在对比蛋白质评测数据集的测评指标上,超过GPT4,成为行业第一

受到大型语言模型(LLMs)在自然语言处理(NLP)领域取得的成功启发,TourSynbio通过新增两个关键数据集ProteinLMDataset和ProteinLMBench,进一步弥合了NLP和蛋白质理解之间的差距。

该模型基于普适性大语言模型InternLM2,其中ProteinLMDataset是一套大规模的蛋白质文本数据集,且适用于任何语言大模型,无需额外编码器就能理解蛋白质序列

而ProteinLMBench是第一个用于评估大型语言模型对蛋白质理解能力的评测数据集,以确保TourSynbio模型的全面性和客观性。

测试结果显示,TourSynbio™ 模型(紫色/红色)在给定蛋白质序列后,对蛋白质性质和功能预测的准确率相比于GPT-4等其他语言大模型有显著提升。

打开网易新闻 查看更多图片

TourSynbio™与其它大语言模型在蛋白质任务的预测准确率对比

本次开源的模型首发于4月8日,与华润双鹤药业,默克投资(中国),光玥生物科技,尚科生物医药和图灵量子5家企业达成了战略合作签约。

打开网易新闻 查看更多图片

据悉,该模型适用于酶,抗体,多肽,疫苗等,还能优化菌株、发酵和代谢过程,甚至实现多蛋白组合的协同作业。

打开网易新闻 查看更多图片

适用于生物制造、药物研发和可持续生物技术等多类生命科学企业及研发团队。

打开网易新闻 查看更多图片

交大教授创业 AI蛋白质新秀

途深智合成立于2023年,今年来已连续完成数百万元种子轮及天使轮融资,投资方包括诚美资本和无锡光子芯谷。

创始人王宇光为上海交通大学自然科学研究院副教授,担任上海人工智能实验室、张江高等研究院人工智能生物医药中心PI,前马克斯普朗克研究所研究科学家。

打开网易新闻 查看更多图片

王宇光教授

合成生物学布局方面,途深智合已完成了细胞色素蛋白 P450 、香兰素关键酶、麦角硫因关键酶等多领域产品改造与设计,并应用于食品、化妆品、生物医药等产品中。

此外,今年三月途深智合携Transformer网络IMS2Trans亮相了全球顶级AI盛会英伟达GTC 2024,是大会上仅有的两家中国Biotech之一。

—The End—

打开网易新闻 查看更多图片