点评 | 戴绍军 教授(上海师范大学)、郭天南 教授(西湖大学)

模式植物拟南芥革新了我们对植物生物学的理解,并影响了生命科学的许多其他领域【1】。对拟南芥的认识也加深了我们对作物重要农艺性状的理解【2】。拟南芥基因组测序工作早在20年前就完成,此后在基因组和表观基因组水平上科研人员对数百个自然变异进行了研究,并取得了一系列重要成果【3,4】。相比之下,作为生物过程的主要执行者,蛋白质组在拟南芥中的研究却远没有那么全面。

为此,德国慕尼黑工业大学BernhardKuster研究团队及其他多家合作单位的研究人员绘制了拟南芥的30种组织的转录组、蛋白质组和磷酸化蛋白质组的定量图谱。初步回答了有多少基因以蛋白质的形式存在(超过18000个),它们在哪里表达,大约数量(超过6个数量级的动态范围)和被磷酸化程度(超过43000个位点)。相关研究成果以Mass-spectrometry-based draft of the Arabidopsis proteome为题发表在Nature杂志上。

打开网易新闻 查看更多图片

该研究首先通过非标记鸟枪法定量蛋白质组学和RNA-seq分析了30种拟南芥组织样本。RNA-seq一共检测并定量到27655个蛋白编码基因;而质谱一共定量到18210个蛋白,平均覆盖了每个组织表达基因组的66 %,与UniProt(27%)中报道的蛋白质水平上有证据的基因百分比相比,这是一个显著的增加,且是早期组织蛋白质组分析中鉴定的蛋白质数量的两倍多。研究人员进一步系统分析了30种拟南芥组织的磷酸化蛋白质组,使用经典的IMAC技术用来富集磷酸化多肽,然后分馏为4个馏分,继而使用QE-HF进行110分钟梯度的非标记鸟枪法质谱分析,共计鉴定到43903个具有不同的可信度的磷酸化位点,使这项研究成为迄今为止发表的最全面的拟南芥磷酸蛋白质组之一。

拟南芥组织图与多组学(蛋白组、磷酸化蛋白组、转录组)数据集

参考文献

1. Krmer, U. Planting molecular functions in an ecological context with Arabidopsis haliana. eLife 4, (2015)

2. Peng, J. et al. ‘Green revolution’ genes encode mutant gibberellin response modulators.Nature 400, 256–261 (1999)

3. The Arabidopsis Genome Initiative. Analysis of the genome sequence of the flowering plant Arabidopsis thaliana. Nature 408, 796–815 (2000)

4. Kawakatsu, T. et al. Epigenomic diversity in a global collection of Arabidopsis thaliana accessions. Cell 166, 492–505 (2016).

专家点评

戴绍军教授(上海师范大学)

利用整合组学策略建立拟南芥蛋白质修饰与互作图谱取得重要进展

自上个世纪50年代“中心法则”提出以来,科学家们不断应用生物化学、分子生物学和遗传学策略对其进行了阐释和完善。在植物科学研究领域,科学家们以模式植物拟南芥和水稻,以及其它重要农作物、经济作物和林木为材料,应用正向遗传学和反向遗传学策略,从认识单个基因功能到解析基因表达调控通路,不断深入地开展研究,越来越清楚地认识了植物生长、发育、繁殖,以及逆境应答的分子调控机理。进入二十一世纪后,表观遗传学和结构生物学研究迅速发展,高通量测序技术、生物质谱技术和生物信息学不断完善,人们开始从系统生物学的水平,更加精准和全面地认识基因、蛋白质和代谢物的结构及其互作关系。在此过程中,定量蛋白质组学技术迅猛发展,生物质谱的灵敏度和扫描速度不断提高,刚刚在国际上推广使用的Thermo Fisher Exploris 480、Bruker timsTOF Pro和Sciex 6600+等型号的质谱仪,及其配套的性能不断优化的应用分析软件,使得由生物质谱获得的蛋白质(多肽)信息正在接近植物基因组数据的数量级。在全基因组范围内,开展高通量的蛋白质丰度、翻译后修饰和蛋白质互作的大数据分析,为获得植物信号与代谢通路的全息图谱提供了可能。

近日,德国慕尼黑工业大学Kuster研究团队在Nature发表了题为“Mass-spectrometry-based draft of the Arabidopsis proteome”的文章,全面解析了拟南芥30个组织的转录组、蛋白质组和蛋白质磷酸化修饰组的图谱。这是自2008年瑞士苏黎世大学Baginsky研究团队在Science发表“Genome-scale proteomics reveals Arabidopsis thaliana gene models and proteome dynamics”文章以来,对拟南芥全基因组水平上的基因表达、蛋白质丰度与翻译后修饰最为系统和全面的阐释。该研究采取非标记鸟枪法技术策略,利用亲水性强阴离子交换色谱(hydrophilic strong anion-exchange chromatography)结合Thermo-Fisher QE-HF质谱,建立了包括拟南芥18,210种蛋白质(占27,655蛋白质编码基因的66%)鉴定信息,以及4,3903个磷酸化修饰位点信息的数据库;同时,系统地揭示了蛋白质复合体的组织特异性和磷酸化调控的信号通路。蛋白质组学研究获得的高质量的质谱数据平均覆盖每种蛋白质44%的序列,这使得可以通过质谱鉴定到由可变剪接(splice variant)产生的蛋白质同工型(protein isoforms),其中80%的同工型多肽通过体外合成多肽得到了验证;同时,高序列覆盖度的质谱结果中鉴定到的51个短开放读码框(short open-reading frames, sORFs)也得到了合成多肽的验证。这些结果更新了拟南芥基因组与蛋白质数据信息。更重要的是,转录组与定量蛋白质组结果揭示了基因表达与蛋白质丰度在各器官间存在明显差异与动态变化,为进一步明确各器官间蛋白质功能特异性提供了重要信息。同时,转录本与蛋白质丰度的比较特征,揭示了两者在多数组织中呈现正相关性,也反映出不同组织中和不同基因间的基因转录稳定性、蛋白质翻译效率,以及蛋白质稳定性的差异。此外,新发现的旁系同源物共表达、蛋白质复合体,以及目前最详尽的蛋白质磷酸化位点也为认识组织器官功能特性,以及以激素和受体激酶介导的信号通路为代表的多个代谢过程提供了重要信息。

令人可喜的是,这项研究在模式植物拟南芥里建立起来的整合组学分析策略、蛋白质丰度与互作关系数据库,以及生物信息学工具,为研究其它植物的发育与逆境应答过程奠定了基础,非常值得在作物和林木相关科学问题的研究中借鉴。

专家点评

郭天南教授(西湖大学)

首先,这是目前拟南芥蛋白质组最全面的一项研究。最主要的数据是对30种拟南芥组织分别进行非标记鸟枪法鉴定和定量。作者将每个组织使用亲水性强阴离子交换色谱(hydrophilic strong anion-exchange chromatography)分为24个馏分,然后使用Thermo-Fisher QE-HF质谱进行110分钟分离梯度的数据依赖性质谱分析 (Data-dependent acquisition MS) ,数据使用MaxQuant分析,定量采用iBAQ法。从27655个蛋白编码基因产物中鉴定到18210蛋白,占基因组的66%,远高于目前UniProt手工校对的蛋白质数量和2008年的拟南芥的“Genome-wide Proteomics”Science论文 【1】 。蛋白鉴定数量的增加主要归功于质谱设备的升级和色谱技术的提高,当然也有软件分析改进的功劳。目前,在蛋白质组领域,非标记定量和QE-HF已经成为常规技术,在我国大部分蛋白质组实验室也有广泛应用。

在对被鉴定到的蛋白质进行序列和iBAQ定量分析、并与RNAseq数据进行比较后,作者进一步使用体积排阻色谱size-exclusion chromatography (SEC) 分析了蛋白质复合物。SEC技术与蛋白质组的联合使用鉴定蛋白质复合物也并非首创,至少早在2012年就有报道 【2】 ,近期Ruedi Aebersold实验室也报道了SEC技术结合SWATH技术对蛋白质复合物的系统发掘 【3】 . Ruedi在2019年访问西湖大学讲座时再次提出他认为今后5年蛋白质组学的一个重要方向是解析蛋白质之间的联系,比如蛋白质复合物。当然,这是题外之话,因为我们讨论的这篇论文并未对蛋白质复合物数据进行足够详细的分析。

Kuster团队更进一步,系统分析了30种拟南芥组织的磷酸化蛋白质组。经典的IMAC技术被用来富集磷酸化多肽,然后分馏为4个馏分,继而使用QE-HF进行110分钟梯度的非标记鸟枪法质谱分析,共计鉴定到43903个具有不同的可信度的磷酸化位点。这也是目前比较常规的蛋白质组技术。他们进一步对部分磷酸化位点的功能进行了分析,利用拟南芥遗传操作技术的成熟性,以几个漂亮的例子证明了磷酸化蛋白质组数据集的可用性。

这篇论文在技术层面上基本代表了目前蛋白质组技术的常规手段的有效利用。这些技术应该在世界上绝大部分蛋白质组实验室都可以实施,也可以应用于其他物种,展示了蛋白质组技术对生命科学的极大应用潜力。当然,在实际操作层面,质谱数据采集质量能够媲美Kuster 实验室的估计不多。非常遗憾的是,尤其是在我国,可能不少质谱并未发挥应有的效力。另外,即使采集到这样高质量的数据,如何解析数据,得到具有生物学意义的假说和结论,也是极需功力的。Kusteru团队最近的系列论文对蛋白质组领域的研究人员来说都是极好的参照。

该文局限性在于数据主要是蛋白质鉴定数据,对30种组织的蛋白和磷酸化位点的差异性表达分析不足。这也是因为他们使用的数据非依赖性质谱的内在局限,样本制备流程比较长。按照文中使用的方法,笔者估算,每个样品大约需要60个小时的质谱机时,仅仅完成30个组织的蛋白质组需要大约75天的质谱机时,这并没有考虑到质谱维护时间。这样的分析成本是极高的,并且没有生物和技术重复的报道。该文并没有对数据的质量控制作详细的描述。根据鉴定的蛋白质数量,读者可以料想数据质量较好,但是从科学严谨性上看,这不免也是本文的一些瑕疵。本文使用的方法对于蛋白质鉴定绰绰有余,能够达到极高的深度,但是如果要对大量样品的蛋白质进行准确的定量,这样的分析方法就难以为继。TMT/iTRAQ和数据非依赖性质谱 (DIA) 更适合蛋白质组的准确定量。

当然,值得一提的是,文章使用的QE-HF是2014年Thermo Fisher出品的质谱,运行稳定,用户多。但是同样的样品,如果使用更新的质谱预计可以获得更加高的蛋白鉴定数量。去年正式面世、已逐步进入中国市场的Thermo Fisher Exploris 480,Bruker timsTOF pro和Sciex 6600+值得业内人士关注。

参考文献

1. Baerenfaller, K. et al. Genome-scale proteomics reveals Arabidopsis thaliana gene models and proteome dynamics. Science 320, 938–941 (2008).

2. https://www.nature.com/articles/nmeth.2131

3. https://www.embopress.org/doi/10.15252/msb.20188438

论文链接:

https://doi.org/10.1038/s41586-020-2094-2