纽约大学Alexander Rives等研究人员开发新工具--ESMFold,通过预训练(大约6500万条蛋白序列)大语言模型(large language model,150亿参数), “理解” 蛋白序列得分布特征(解析蛋白演化中关联得位点等),并从中提取这种信息用于指导蛋白结构预测(1)。
图:ESMFold模型架构(A),及其随参数增加强化得蛋白预测能力(B)(1)
ESMFold得重要特点是速度快(因为它不需要复杂得多序列比对等),在结构解析准确率接近AlphaFold2得情况下,其速度比AlphaFold2快1-2个数量级(1)。
由于这种速度优势,超大规模蛋白结构预测变成了可能。研究人员使用ESMFold预测了MGnify90宏基因组数据库中近乎所有得蛋白结构,超过6.17亿个;其中高可信度蛋白结构(mean pLDDT > 0.7 and pTM > 0.7)超过2.25亿个(1)。
基于该超大规模蛋白预测数据,研究人员进一步分析了自然界蛋白结构得多样性(1)。
该项工作2023年3月17日发表在Science;研究人员表示随着训练数据、模型参数、以及算力等得进一步增加,该算法会越来越准确实用(1)。
Comment(s):
通过更深入分析ESMFold蛋白预测准确以及不准确得蛋白类型,或者和可信度关联高低得蛋白类型,或还能为蛋白折叠机制等带来新见解。
另外,就像文中也提到得,ESMFold不依赖多序列比对得特点让它特别适合蛋白de novo设计。
参考文献:
1. Z. Lin et al., Evolutionary-scale prediction of atomic-level protein structure with a language model. Science (80-. ). 379, 1123–1130 (2023).
原文链接:
感谢分享特别science.org/doi/10.1126/science.ade2574