导语
本周二晚的将由香港浸会大学助理教授、集智科学家唐乾元(傅渥成)介绍结合物理学原理解决基于 AlphaFold 预测蛋白质动力学的相关研究。研究[1]利用 AlphaFold 蛋白质结构数据库建立一个统计框架,揭示了蛋白质结构复杂性与生物进化的关联。研究[2]开发了一种基于统计物理的方法来探索 AlphaFold 所学习到的能量景观。这些将统计物理方法与现代生命科学研究相结合的范式,不仅加深了我们对生命系统的理解,也开辟了研究复杂生物系统的新途径。
内容简介
John Jumper、Demis Hassabis 和 David Baker,表彰以 AlphaFold 为代表的 AI 技术在蛋白质结构预测与蛋白质计算设计中的革命性影响。人工智能,尤其是 AlphaFold 的最新进展,不仅带来了准确的结构预测工具,更为将统计物理方法应用于生命科学研究提供了独特机遇。
利用 AlphaFold 蛋白质结构数据库,我们建立了一个创新的统计框架,用于分析不同生物体中的蛋白质,从研究特定蛋白质家族转向探索蛋白质性质的更广泛趋势。我们的比较分析表明,在更复杂的生物体中,蛋白质表现出更大的回转半径、更高的螺旋结构比例、更慢的振动频率,同时具有更复杂的域组织和更高的结构灵活性。通过各种物理分析方法,我们揭示了蛋白质结构特征、动态行为和功能特化如何随着生物体复杂性的增加而演化。通过对 AlphaFold 数据库中的蛋白质进行统计分析,我们发现蛋白质结构复杂性与生物体复杂性呈现显著的正相关性,其功能多样性也随进化复杂度增加而提升。这就像是发现了蛋白质进化的“普适定律”——类似于物理学中的理想气体定律,虽然每个具体系统都有其特殊性,但都遵循某些基本规律。这些发现深化了我们对蛋白质进化的理解,同时展示了人工智能驱动的结构分析在揭示生物复杂性普遍原理方面的巨大潜力。[1]
除此以外,我们还将 AlphaFold2 的预测能力与蛋白质变构运动的能量景观分析相结合。该方法通过将物理能量景观信息整合到基于深度学习的方法中,预测蛋白质的变构运动。我们开发了一种基于统计物理的方法来探索 AlphaFold 所学习到的能量景观。通过系统地改变输入多序列比对中所包含的共进化信息,我们能够引导 AlphaFold 探索蛋白质构象空间的不同区域。这种方法利用局部能量阻挫来量化变构蛋白的能量景观特征,从而能够成功预测替代结构和变构转变的途径。这种方法不仅帮助我们理解 AlphaFold 的工作原理,也为蛋白质动力学研究提供了新的视角。[2]
这些将统计物理方法与现代生命科学研究相结合的范式,不仅加深了我们对生命系统的理解,也开辟了研究复杂生物系统的新途径。展望未来,这项研究将进一步扩展到更多物种的蛋白质组分析,同时整合更多实验验证方法。我们计划开发新的计算模型,深入探索特定功能域的演化模式,并研究蛋白质相互作用网络的进化规律。
内容大纲
研究背景:AI 与统计物理方法结合的新机遇
蛋白质进化的统计规律
建立基于 AlphaFold 数据库的统计分析框架
揭示结构复杂性与生物进化的关联
蛋白质进化的普适定律
能量景观与构象动力学
探索 AlphaFold 学习到的能量景观
通过序列调控预测构象变化
利用局部能量阻挫预测变构路径
展望
核心概念
蛋白质结构预测
AlphaFold
多序列比对 (Mutiple Sequence Alignment)
共进化(coevolution)
标度律(Scaling law)
能量景观(Energy landscape)
阻挫(Frustration)
参考文献
[1] Qian-Yuan Tang, Weitong Ren, Jun Wang, Kunihiko Kaneko, The Statistical Trends of Protein Evolution: A Lesson from AlphaFold Database. Molecular Biology and Evolution, 39(10), msac197 (2022). https://doi.org/10.1093/molbev/msac197
[2] Xingyue Guan, Qian-Yuan Tang, Weitong Ren, Mingchen Chen, Wei Wang, Peter G. Wolynes, Wenfei Li, Predicting protein conformational motions using energetic frustration analysis and AlphaFold2. Proceedings of the National Academy of Sciences. 121 (35) e2410662121 (2024).
主讲人
唐乾元,香港浸会大学助理教授,集智科学家,集智-凯风研读营学者。南京大学物理学博士,曾是是日本理化学研究所博士后。研究方向:数据驱动的复杂系统研究;生物医学领域的人工智能;蛋白质进化和动力学;生物系统的复杂性和临界性。
时间:2024年11月26日(本周二)晚19:00-21:00
报名参与读书会:
斑图链接:https://pattern.swarma.org/mobile/study_group_issue/809?from=wechat
扫码参与,加入群聊,获取系列读书会回看权限,加入生命复杂性社区,与社区的一线科研工作者沟通交流,共同推动这一前沿领域的发展。
报名成为主讲人
读书会成员均可以在读书会期间申请成为主讲人。主讲人作为读书会成员,均遵循内容共创共享机制,可以获得报名费退款,并共享本读书会产生的所有内容资源。
详情请见:
生命复杂性读书会:
生命复杂系统的构成原理
在生物学中心法则的起点,基因作为生命复杂系统的遗传信息载体,在生命周期内稳定存在;而位于中心法则末端的蛋白质,其组织构成和时空变化的复杂性呈指数式增长。随着分子生物学数十年来的突飞猛进,尤其是生命组学(基因组学、转录组学、蛋白质组学和代谢组学等的集合)等领域的日新月异,当代生命科学临近爆发的边缘。如此海量的数据如何帮助我们揭示宇宙中最复杂的物质系统——“人体”的构成原理和设计原理?阐释人类发育、衰老和重大疾病的发生机制?
集智俱乐部联合西湖大学理学院及交叉科学中心讲席教授汤雷翰,国家蛋白质科学中心(北京)副研究员常乘、李杨,香港浸会大学助理教授唐乾元,北京大学前沿交叉学科研究院研究员林一瀚,中国科学院分子细胞科学卓越创新中心博士后唐诗婕,共同发起「」读书会,从微观细胞尺度、介观组织器官尺度到宏观人体尺度,梳理生命科学领域中的重要问题及重要数据,由生物学家提问,希望促进统计物理、机器学习方法研究者和生命科学研究者之间的深度交流,建立跨学科合作关系,激发新的研究思路和合作项目。读书会从2024年8月6日开始,每周二晚19:00-21:00进行,持续时间预计10-12周。欢迎对这个生命科学、物理学、计算机科学、复杂系统科学深度交叉的前沿领域感兴趣的朋友加入!
详情请见: