打开网易新闻 查看更多图片

世界上第一个人工智能创建的开源基因编辑器OpenCRISPR-1的结构图来自:Profluent公司网站

出品 | 虎嗅医疗组

作者 | 陈广晶

编辑 | 王一鹏

头图 | 视觉中国

大模型又对科学界降维打击了?

2011年,法国科学家埃马纽埃尔·卡彭蒂耶(Emmanuelle Charpentier)和美国科学家詹妮弗·杜德纳(Jennifer Doudna)率先合成了CRISPR/Cas9(一种核酸酶蛋白与RNA的组合),并证明细菌确实可以用它来切割病毒的DNA,来反击入侵。

然而,杜德纳团队没有第一时间证明这一工具可以用于动物甚至人类,被华裔科学家张锋截了胡。

CRISPR/Cas9相关论文发布后,美国麻省理工-哈佛博德研究所的张锋团队第一个在动物身上开展实验。2013年,他们成功证实了CRISPR/Cas9,在RNA引导下,可以在人类和小鼠细胞内精确切割内源性基因组点位,并拿到了相应专利。

一堵密集的专利围墙很快建成——张锋及其所在机构于2022年拿到了CRISPR/Cas9用于所有真核生物,包括动植物、人类等的专利,也就是说,所有相关商业化应用都必须得到授权才行。因此,张锋仅靠专利授权就已获得不菲的收入,他借此创办了8家创业公司,也就是说,打从2016年以后,几乎每一年,他的名下都会新增一家生物技术公司。其中情况较好的,有潜力每年“躺”赚数亿美元。

这事本来应该止步于“专利战”的故事范畴,但在4月23日,一个意外的变量卷了进来:AI科技公司Profluent发布了全球首个AI大模型设计的基因编辑器OpenCRISPR-1,且将其开源,在合乎伦理的情况下,无论是科学研究还是商业用途都可以免费使用。更重要的是,大模型已经将自然界存在的可选做基因编辑器的Cas蛋白质空间扩展了4.8倍,OpenCRISPR-1只是用此类蛋白生成的基因编辑器的代表,具有高度功能性和特异性。

按照AI生成基因编辑器的发布公司Profluent公告,这次他们还同步推出了OpenCRISPRTM计划,希望通过鼓励更多人使用、测试OpenCRISPR-1系统来持续迭代、推进相关计划。

张锋和杜德纳专利战的背后,是一个百亿级别的市场。而Profluent 公司本次的发布是一封“战书”,不仅下给张锋团队和杜德纳团队,也下给所有正在艰难开发基因编辑器的科学家们。

打开网易新闻 查看更多视频
又一张百亿牌桌要翻?
您目前设备暂不支持播放

最强挑战者来了

“工欲善其事,必先利其器”,有些赛道如果不是出现了可用工具,根本也是不存在的,基因编辑就是其中之一。

基因编辑,简单来说,就是通过删除、插入或替换某一段基因序列,来促使基因组发生特定的变化。

比如:修改水稻的白叶枯病感病基因的启动子,提高水稻抗病性;比如人为敲掉小鼠的特定基因使其带有某种疾病,以初步验证药物安全有效性;再比如通过修改出错基因,治疗罕见病等。

可以说,在碳基生命领域,基因编辑也是非常轰动的技术成果,不仅成就了多位诺贝尔奖获得者,开创了数百亿美元的市场,更是给出了解码碳基生命的钥匙。

而这项技术能在最近十年里如此快速地落地并发展,简便的基因编辑器,也就是CRISPR/Cas系统的成功开发功不可没。

基因编辑器的发现也经历了较为曲折的过程。早在1987年,就已经有研究者发现了CRISPR,但是直到2009年以后,CRISPR可以对DNA进行精确切割的事实才逐渐清晰。

现在主流的基因编辑器CRISPR/Cas系统,是人工改造过的由单个Cas蛋白(CRISPR相关蛋白,是核酸酶)行使生物学功能的体系,主要包括Cas蛋白结构域和引导RNA——Cas蛋白相当于“剪刀”负责切割目标DNA,引导RNA是“导航”负责精准定位。

CRISPR/Cas9包括Cas9蛋白(核酸酶)和RNA。

来自:Nature

相比前两代基因编辑器(ZFNs和TALENs),CRISPR/Cas系统构建更加简单、经济、效率也更高,不仅在农业应用广泛,在疾病治疗等领域也快速推开。

不过,仍有业内人士认为,基因编辑领域快速发展也确实需要更多备用工具。实际应用中,主流CRISPR/Cas系统只能敲掉基因片段,而不能添加基因片段等短板,给了后来者空间。

Statista数据显示,截至2019年2月,仅美国就有5336项关于CRISPR的专利申请。

而在众多挑战者中,大模型可以说是来势最凶猛的。

根据Profluent团队发表在预印本网站上的论文,人工智能有可能绕过进化限制并生成具有最佳属性的编辑器。该团队已经生成了400万个蛋白序列,其中一半是模型直接生成的,另外一半是由天然蛋白质“改造”得来的。

这些蛋白质与自然界存在的蛋白不同——与任何天然蛋白相比都有数百个突变。尽管,其中只有27.6%通过了筛选,但还是有效扩充了Cas蛋白质家族的规模:总体扩增4.8倍,其中天然蛋白质较少的cas13家族,扩大了8.4倍。更重要的是,上述结果,仅在16个GPU上,耗时3天就获得了。

这个效率对于张锋团队,乃至全球所有参与挑战的科学家团队来说,都是碾压式的。但效率只是一方面,从效果来看,大模型还不具备显著优势;从监管层面来看,大模型入场堪称困难重重。

打开网易新闻 查看更多图片

虽然在专利竞赛中落败,卡彭蒂耶和杜德纳因为在基因编辑上的贡献拿到了2020年的诺贝尔化学奖。来自:视觉中国

搅局者当下影响甚微

《生物世界》主编王聪告诉虎嗅,首先大模型生成的基因编辑器效果很难比天然的更好,“也就是所谓低垂的果实已被采摘了”;其次,基因编辑器只是工具,后续监管的挑战仍然不小。无论是哪种情况,如果不能比现有产品更好且领先较多,都不太可能被监管部门批准。

事实上,张锋团队握着核心专利的CRISPR/Cas9,已经是公认最好的编辑器了。“CRISPR/Cas9的基因编辑效率已经接近100%。”美国国家科学院和工程院院士、哈佛医学院遗传学系教授乔治·丘奇在接受《中国新闻周刊》采访时曾这样指出。他曾是张锋的博士后导师。

而且在经过十几年发展的基础上,基因疗法已经从体外编辑后将修改后的基因片段输入体内治疗(普通基因疗法,是一种“替代”疗法),发展到了第二代的直接在体内编辑出错基因治疗疾病(基因编辑疗法)。

2023年年底,全球已经有基因编辑疗法获批——CRISPR 治疗公司/福泰制药的Casgevy,是用来治疗罕见病的药品。同时,全球有十多款同类产品在研。

这类产品的原理就是用病毒载体等递送系统将CRISPR/cas9“输送”到人体内,直接去编辑出错基因治疗疾病。

这对基因编辑器的安全性要求无疑更高,一定程度上也提高了基因编辑器入局的门槛。CRISPR/cas系统问世10年,其安全性才获得了监管部门的认可。新的编辑器又需要多少年?“即便是同一个编辑器,要用于不同疾病的治疗也需要重新做临床试验。”王聪说。

这意味着,即便是大模型可以一分钟生成上百万个基因编辑器,且其中确实有更好的,要想挑战现有的已经效率很高的基因编辑器还是有待时日。

不过,这次AI对基因编辑器下手仍然是值得关注的进展。作为大模型在生命科学领域的牛刀小试,这一事件背后的行业趋势不容忽视。“是个开始。”王聪向虎嗅指出,“大模型+生物技术”已经成为炙手可热的赛道。

客观来说,CRISPR/Cas系统有明显的优势,应用很广泛,但是也有需要改进的地方。

比如:只能做减法、不能做加法;目标基因序列前面如果没有“PAM”序列(可以理解为一个提示基因“剪刀”可以下手暗号),就不能剪切;因为CRISPR/Cas系统来自古菌或细菌,所以它们与哺乳动物的DNA修复系统配合性没那么好,在人类细胞内容易出现脱靶;等等。

而且大模型学习速度很快,加上全球科学家、商业公司的加盟,也确实有机会改变行业。

可以看到,当初张锋团队很早将CRISPR的专利对非商业用途完全公开,这也稳固了他们在科学研究领域的地位——根据《不可思议的科学史》一书,到杜德纳团队很久以后公布其专利时,全球科学界已经接受了张锋团队的体系。这也为他们后来坐稳市场“霸主”地位奠定了基础。

如今,OpenCRISPR-1的研发者,“以其人之道,还治其人之身”,而且开源更加彻底,不仅针对科研免费开放,针对商业用途也免费开放。对更多好的基因编辑器的加速发现和迭代大有裨益。

通过能快速迭代的大模型,来生成的蛋白质、编辑基因,这种将硅基生命和碳基生命紧密联系起来的可能性,让科学界、投资界、创业企业都为之振奋。

美国华盛顿大学生物化学系教授David Baker,是蛋白质结构领域泰斗、“上帝之手”,他在4月23日启动了新的创业公司Xaira Therapeutics,“种子轮”就拿到10亿美元的融资,Foresite capital、F-Prime(富达投资旗下)、红杉资本等都在投资者之列。这大概率是今年生物技术领域最高的一笔融资。

该公司正是要凭借David Baker团队推出的大模型来从头设计、生成抗体药。在新的团队中,也引入了基因测序巨头Illumina和生物技术初创公司Interline Therapeutics的团队和技术,覆盖了基因学和蛋白质组学。不仅要开发新疗法,还要解锁生物学的奥秘,为未来更多新药的发现提供指引。

从这个角度看,虽然当下大模型在蛋白质生成、基因编辑领域带来的价值有限,但AI全面进入医疗、制药行业的趋势,已然不可阻挡。