麻省理工开发ProtGPS语言模型,揭示蛋白质序列中的定位代码

2 个月前 健康医疗 330

研究概述:Protein codes promote selective subcellular compartmentalization

这项研究由麻省理工学院(MIT)和怀特黑德生物医学研究所(Whitehead Institute for Biomedical Research)的团队主导,于2025年2月发表在《Science》期刊上。研究揭示了蛋白质序列中不仅包含决定其折叠的代码,还包含一种先前未被识别的代码,这种代码指导蛋白质在细胞中选择性地分布到特定的亚细胞区室。这一发现为理解蛋白质功能和疾病机制提供了新的视角。


研究背景

细胞内有大约100亿个蛋白质分子,它们需要被精确分配到不同的亚细胞区室(如核仁、线粒体等),以执行特定的功能。这些区室不仅包括传统的细胞器,还包括动态的无膜隔间(如凝聚物、聚集物等),这些隔间通过弱多价非共价相互作用将相关蛋白质聚集在一起。然而,蛋白质如何被精确分配到这些区室的机制尚不完全清楚。


研究方法与发现

  1. 蛋白质序列中的定位代码
    研究发现,具有相似功能的蛋白质共享特定的氨基酸序列代码,这些代码指导它们到达目标区室。这一发现表明,蛋白质序列不仅决定其结构,还包含一种“定位代码”。

  2. ProtGPS模型的开发
    研究团队开发了一种名为ProtGPS的蛋白质语言模型,能够高效预测人类蛋白质的亚细胞定位,即使这些蛋白质未包含在训练集中。ProtGPS的预测准确率在12种不同区室中达到了0.83-0.95的AUC-ROC值。

  3. 新型蛋白质序列的设计
    ProtGPS成功指导了新型蛋白质序列的生成,这些序列能够选择性地在核仁等特定区室中组装。这一成果展示了ProtGPS在蛋白质设计中的潜力。

  4. 致病突变与定位改变
    研究还发现,某些致病突变会改变蛋白质的定位代码,导致其亚细胞定位异常。ProtGPS成功识别了这些突变,并通过实验验证了其预测的准确性。


研究意义

  1. 对基础科学的贡献
    这项研究揭示了蛋白质序列中隐藏的定位代码,为理解蛋白质在细胞中的分布机制提供了新的理论基础。

  2. 对疾病研究的启示
    错误定位可能是某些疾病的潜在机制。ProtGPS为研究疾病相关突变提供了新工具,并可能帮助开发新的治疗方法。

  3. 对蛋白质设计的推动
    ProtGPS不仅能够预测蛋白质定位,还能设计具有特定功能的新型蛋白质序列。这一能力在药物设计和合成生物学中具有广泛的应用前景。


未来展望

研究团队希望ProtGPS能够像AlphaFold一样,成为研究蛋白质功能和疾病的重要工具。未来,ProtGPS可能会被用于设计更复杂的蛋白质系统,甚至帮助理解人类如何进化成复杂的生物体。


总结

这项研究通过开发ProtGPS模型,揭示了蛋白质序列中的定位代码,并展示了其在蛋白质设计、疾病研究和细胞生物学中的广泛应用潜力。这一成果不仅推动了基础科学的发展,也为未来的生物医学研究提供了新的工具和方向。

相关资讯