《Nature | 酵母蛋白质的社交网络全景图》

  • 来源专题:战略生物资源
  • 编译者: 李康音
  • 发布时间:2023-11-18
  • 本文内容转载自“西湖欧米”微信公众号。原文链接: https://mp.weixin.qq.com/s/cqjN7nqVWk47KgmIxS1Ahg

    2023年11月15日,德国马克斯普朗克生化研究所的 Matthias Mann 团队在 Nature 发表了题为The social and structural architecture of the yeast protein interactome的文章。

    文章通过整合深度学习结构预测技术,详细解析了酵母蛋白相互作用网络的社交结构,并揭示了多个未知蛋白质复合物的结构,为理解蛋白质相互作用及其在细胞生物学中的作用提供了新的见解。

    为了便于大家对感兴趣的相互作用进行探索,研究者还创建了一个Web门户(www.yeast-interactome.org),该门户提供了有关蛋白质-蛋白质关联的统计证据,并总结了所得到的簇。总的来说,研究者开发并应用了一种新颖且高度可扩展的相互作用组技术,能够以之前所需的测量时间和起始材料的一小部分来重复测量酵母网络。他们的研究几乎达到了饱和,并包含了在实验条件下预期的几乎所有复合物。




  • 原文来源:https://www.nature.com/articles/s41586-023-06739-5
相关报告
  • 《Cell重磅:西湖大学首次揭示新冠患者蛋白质分子病理全景图》

    • 来源专题:生物安全知识资源中心 | 领域情报网
    • 编译者:hujm
    • 发布时间:2021-01-14
    • 西湖大学生命科学学院郭天南课题组与华中科技大学同济医学院附属协和医院胡豫、夏家红、聂秀团队合作在Cell在线发表了题为“Multi-organ Proteomic Landscape of COVID-19 Autopsies”的最新研究论文,报道了2020年初因新冠肺炎去世的患者体内多器官组织样本中蛋白质分子病理全景图。相当于他们将医生在显微镜下看到的人体感染新冠后细胞组织的改变放大了数万倍,达到蛋白质分子层面,“看”清楚是哪些分子的改变导致人体器官的病变和衰竭。 这是在全球范围内第一次从蛋白质分子水平上,对新冠病毒感染人体后多个关键器官做出的响应进行了详细和系统的分析,为临床工作者和研究人员制定治疗方案、开发新的药物及治疗方法提供了线索和依据。 感染新冠病毒后 5336个蛋白质分子发生改变 大量临床诊疗和研究显示,新冠病人的肺部等器官产生了损伤。但此前大多数与新冠相关的基础研究,是在实验室里利用基于病毒感染的细胞系模型来推测病毒对人体各器官造成的影响,缺乏对新冠肺炎重症患者多器官损伤的病理学观察表型背后的分子水平研究,这样就很难深刻认识新冠致死的机理,并进一步针对患者进行精准的干预治疗。 西湖大学郭天南团队及其合作者收集了19例新冠去世患者的肺、脾、肝、心脏、肾脏、甲状腺和睾丸等七种器官的(图1)组织样本。通过镜下的病理学检查,可以发现这些病人的肺部出现弥漫性肺泡损伤,肺纤维化,中性粒细胞浸润及血栓形成等病理改变,脾脏白髓萎缩,肝脏发生脂肪化生和部分病例出现梗死,心脏发生心肌水肿及间质淋巴细胞浸润现象,肾脏发现急性肾小管损伤。 之后,分子层面的研究开始了。基于高压循环技术(PCT)及TMT标记结合鸟枪法蛋白质组技术的质谱数据采样以及组学数据分析,研究团队鉴定了11394个人源蛋白质分子,绘制出新冠危重症死亡患者的多器官蛋白分子全景图(图2)。与非新冠患者的对照组织样本比较,5336个蛋白质发生了改变(图3)。 其中,在人体七类器官组织中,脾脏红髓里未鉴定到明显改变的蛋白,而肝脏里改变的蛋白数量最多(N=1970),这意味着新冠肺炎致死患者中肝脏受到的损伤可能比较大。 对新冠病毒进入人体的“罪魁祸首”ACE2蛋白(病毒受体血管紧张素转化酶2,人体内调解血压的一个蛋白),研究团队发现它的数量在新冠病人各类器官中与非新冠病人并无显着差别。而另一个蛋白,即帮助病毒进入细胞相关的组织蛋白酶L(CTSL),在新冠病人肺部却明显增多(图4)。这提示ACE2的表达水平并没有在新冠致死患者中出现改变,仅仅是新冠病毒进入人体的一个通道,CTSL却可能是阻断病毒入侵的潜在治疗靶点。 除了肺部 肝肾也出现纤维化先兆 研究团队进一步对多种器官的生理功能、病理形态与蛋白质组学进行系统比较研究(图4),发现了多个肺部蛋白出现改变,包括与病毒增殖相关、参与肺纤维化病理过程及降解病毒限制因子的蛋白。蛋白组学同时显示,肺部和脾脏表现出以免疫检查点蛋白的上调及T细胞富集蛋白的下调为分子特征的适应性免疫反应抑制,且脾脏的T,B等淋巴细胞减少也印证了该分子特征。 从临床病理学来看,虽然只有肺部发生了实质性的纤维化病变,但蛋白组学结果(图3,4)显示,在肝脏、肾脏等器官也观察到组织纤维化的先兆,提示对已恢复健康的危重症新冠病人而言,需要对“多器官纤维化”这一可能出现的后遗症进行预防和采取提前干预。 研究团队中的临床合作者在2020年5月曾第一次报告新冠病毒感染死亡患者的睾丸存在生精小管损伤,Leydig细胞减少和轻度淋巴细胞炎症等病理改变。但这些都只停留在“宏观”层面,究竟是哪些分子的改变导致了这些损伤?郭天南实验室找到了新冠患者的睾丸组织中发生明显改变的10个蛋白,它们的功能与胆固醇合成抑制、精子活性降低和Leydig细胞特异标记物减少紧密相关(图5)。其中Leydig细胞与男性雄性激素合成及分泌紧密相关,提示男性新冠患者的生育能力可能受到影响。 当然,这些研究是基于新冠死亡患者的组织样本,在轻症及重症患者中是否会出现同样变化,以及这样的变化是否可逆,还需要进一步研究。
  • 《首次在实验室合成由 AI 预测的蛋白质,蛋白质语言模型 ProGen》

    • 来源专题:数智化图书情报
    • 编译者:黄雨馨
    • 发布时间:2023-06-17
    • 人工智能已经将蛋白质工程研究的时间缩短了数年。深度学习语言模型在各种生物技术应用中显示出前景,包括蛋白质设计和工程。 现在,来自 Salesforce Research、Tierra Biosciences 和加州大学的研究团队首次在实验室中合成了由 AI 模型预测的蛋白质,并发现它们与天然对应物一样有效。他们开发出一种名为 ProGen 的蛋白质工程深度学习语言模型。ProGen 接受了来自公开的已测序天然蛋白质数据库中的 2.8 亿个原始蛋白质序列的训练,从头开始生成人工蛋白质序列。最新方法有望用于研制新药。 科学家表示,这项新技术可能比获得诺贝尔奖的蛋白质设计技术定向进化更强大,它将通过加速可用于几乎任何事物的新蛋白质的开发,这些新蛋白质几乎可以用于从治疗到降解塑料的任何领域。从而为已有 50 年历史的蛋白质工程领域注入活力。 该研究以「Large language models generate functional protein sequences across diverse families」为题,于 2023 年 1 月 26 日发布在《Nature Biotechnology》上。 论文链接:https://www.nature.com/articles/s41587-022-01618-2蛋白质工程的传统方法是对天然蛋白质序列进行迭代诱变和选择,以鉴定具有所需功能和结构特性的蛋白质。相比之下,合理或从头设计蛋白质的方法旨在提高创造具有所需特性的新蛋白质的效率和精度。 基于结构的从头设计方法采用基于生物物理原理的模拟,而协同进化方法则从进化序列数据中建立统计模型,以指定具有所需功能或稳定性的新序列。结构和共同进化的方法都有一定的局限性。 最近,深度神经网络已显示出作为蛋白质科学和工程的生成和判别模型的前景。它们学习复杂表示的能力对于有效地利用指数级增长的多样化和相对未注释的蛋白质数据来源可能是至关重要的——公共数据库包含数百万个未对齐的原始蛋白质序列 ProGen:蛋白质语言模型 受到基于深度学习的自然语言模型的成功启发,该研究团队开发了 ProGen,这是一种蛋白质语言模型,在数百万个原始蛋白质序列上训练,可生成跨多个家族和功能的人造蛋白质。 图 1:使用条件语言建模的人工蛋白质生成。(来源:论文)ProGen 通过学习在给定原始序列中过去的氨基酸的情况下,预测下一个氨基酸的概率来迭代优化,没有明确的结构信息或成对协同进化假设。ProGen 以这种无监督的方式从一个大型、多样的蛋白质序列数据库中进行训练,学习了一种通用的、域独立的蛋白质表示,它包含局部和全局结构基序,类似于学习语义和语法规则的自然语言模型。训练后,ProGen 可以提示从头开始为任何蛋白质家族生成全长蛋白质序列,与天然蛋白质具有不同程度的相似性。 ProGen 是一个 12 亿参数的神经网络,使用包含 2.8 亿个蛋白质序列的公开数据集进行训练。ProGen 的一个关键组成部分是条件生成,即由属性标签控制的序列生成作为语言模型的输入提供。在自然语言的情况下,这些控制标签可能是风格、主题、日期和其他实体。对于蛋白质,控制标签是蛋白质家族、生物过程和分子功能等属性,可用于公共蛋白质数据库中的大部分序列。 为了创建模型,科学家们只需将 2.8 亿种不同蛋白质的氨基酸序列输入机器学习模型,让它「消化」信息几周。然后,他们通过使用来自五个溶菌酶家族的 56,000 个序列以及有关这些蛋白质的一些上下文信息来启动模型,从而对模型进行微调。 该模型迅速生成了一百万个序列,研究团队根据它们与天然蛋白质序列的相似程度以及 AI 蛋白质的潜在氨基酸「语法」和「语义」的自然程度,选择了 100 个进行测试。 图 2:生成的人工抗菌蛋白多种多样,在该实验系统中表达良好。(来源:论文)从头开始生成人工蛋白质序列 为了评估功能,通过无细胞蛋白合成和亲和层析来合成和纯化全长基因。在 100 种天然蛋白质的阳性对照集中,72% 的表达良好。ProGen 生成的蛋白质在所有序列同一性箱中与任何已知的天然蛋白质的表达同样好。此外,使用 bmDCA7(一种基于直接耦合分析的统计模型) 设计了人工蛋白质,bmDCA 无法适应五个溶菌酶家族中的三个,并且对其余两个蛋白质家族表现出 60% 的可检测表达(30/50 蛋白质)。这些结果表明,与一批天然蛋白质相比,ProGen 可以生成结构良好折叠的人工蛋白质,即使序列对齐大小和质量限制了替代方法的成功,也能正确表达。 在第一批由 Tierra Biosciences 进行体外筛选的 100 种蛋白质中,该团队制作了五种人工蛋白质以在细胞中进行测试,并将它们的活性与鸡蛋清中发现的一种酶(称为鸡蛋清溶菌酶,HEWL)进行比较。在人类的眼泪、唾液和牛奶中发现了类似的溶菌酶,它们可以抵御细菌和真菌。 图 3:人工蛋白质序列具有功能,同时与任何已知蛋白质的同一性低至 31%,表现出与高度进化的天然蛋白质相当的催化效率,并展示与已知天然折叠相似的结构。(来源:论文)结果表明,ProGen 生成的蛋白质序列不仅可以很好地表达,而且可以维持跨蛋白质家族的不同序列景观的酶功能。 其中两种人工酶能够以与 HEWL 相当的活性分解细菌的细胞壁,但它们的序列彼此只有约 18% 相同。这两个序列与任何已知蛋白质的同一性约为 90% 和 70%。 天然蛋白质中的一个突变就可以使其停止工作,但在另一轮筛选中,研究小组发现,即使只有 31.4% 的序列与任何已知的天然蛋白质相似,AI 生成的酶仍显示出活性。 为了解通用序列数据集和目标蛋白质家族序列对 ProGen 生成能力的相对影响,研究人员使用分支酸变位酶(CM) 和苹果酸脱氢酶(MDH)实验测量的测定数据进行了两项消融研究。 结果表明,训练策略的两个组成部分——对通用序列数据集的初始训练和对感兴趣的蛋白质家族的微调——对最终模型性能有显着贡献。使用包含许多蛋白质家族的通用序列数据集进行训练,使 ProGen 能够学习编码内在生物学特性的通用且可转移的序列表示。对感兴趣的蛋白质家族进行微调可以引导这种表示,以提高局部序列邻域的生成质量。 正在进入蛋白质设计的新时代 Salesforce Research 的研究主管 Nikhil Naik 表示,他们的目标是证明可以利用公开可用的蛋白质数据,将大型语言模型部署到蛋白质设计问题中。「既然我们已经证明 ProGen 有能力产生新的蛋白质,我们已经公开发布了这些模型,以便其他人可以在我们的研究基础上进行构建。」 「开箱即用地从头开始生成功能性蛋白质的能力,表明我们正在进入蛋白质设计的新时代,」该论文的第一作者,Profluent Bio 创始人、Salesforce Research 前研究科学家 Ali Madani 博士说,「这是蛋白质工程师可用的多功能新工具,我们期待看到治疗应用。」 本文中描述的方法的综合代码库可在:https://github.com/salesforce/progen 上公开获得。 参考内容: https://phys.org/news/2023-01-ai-technology-generates-proteins.html https://spectrum.ieee.org/ai-protein-design