二维码
微世推网

扫一扫关注

当前位置: 首页 » 企业商讯 » 商机资讯 » 正文

Science___大语言模型极速预测蛋白结构

放大字体  缩小字体 发布日期:2023-03-22 05:37:50    作者:田明士    浏览次数:138
导读

纽约大学Alexander Rives等研究人员开发新工具--ESMFold,通过预训练(大约6500万条蛋白序列)大语言模型(large language model,150亿参数), “理解” 蛋白序列得分布特征(解析蛋白演化中关联得位点等),并从中提取这种信息用于指导蛋白结构预测(1)。图:ESMFold模型架构(A),及其随参数增加强化得蛋白预测能力(B)(1)

纽约大学Alexander Rives等研究人员开发新工具--ESMFold,通过预训练(大约6500万条蛋白序列)大语言模型(large language model,150亿参数), “理解” 蛋白序列得分布特征(解析蛋白演化中关联得位点等),并从中提取这种信息用于指导蛋白结构预测(1)。

图:ESMFold模型架构(A),及其随参数增加强化得蛋白预测能力(B)(1)

ESMFold得重要特点是速度快(因为它不需要复杂得多序列比对等),在结构解析准确率接近AlphaFold2得情况下,其速度比AlphaFold2快1-2个数量级(1)。

由于这种速度优势,超大规模蛋白结构预测变成了可能。研究人员使用ESMFold预测了MGnify90宏基因组数据库中近乎所有得蛋白结构,超过6.17亿个;其中高可信度蛋白结构(mean pLDDT > 0.7 and pTM > 0.7)超过2.25亿个(1)。

基于该超大规模蛋白预测数据,研究人员进一步分析了自然界蛋白结构得多样性(1)。

该项工作2023年3月17日发表在Science;研究人员表示随着训练数据、模型参数、以及算力等得进一步增加,该算法会越来越准确实用(1)。

Comment(s):

通过更深入分析ESMFold蛋白预测准确以及不准确得蛋白类型,或者和可信度关联高低得蛋白类型,或还能为蛋白折叠机制等带来新见解。

另外,就像文中也提到得,ESMFold不依赖多序列比对得特点让它特别适合蛋白de novo设计。

参考文献:

1. Z. Lin et al., Evolutionary-scale prediction of atomic-level protein structure with a language model. Science (80-. ). 379, 1123–1130 (2023).

原文链接:

感谢分享特别science.org/doi/10.1126/science.ade2574

 
(文/田明士)
打赏
免责声明
• 
本文为田明士原创作品•作者: 田明士。欢迎转载,转载请注明原文出处:http://www.udxd.com/qysx/show-142059.html 。本文仅代表作者个人观点,本站未对其内容进行核实,请读者仅做参考,如若文中涉及有违公德、触犯法律的内容,一经发现,立即删除,作者需自行承担相应责任。涉及到版权或其他问题,请及时联系我们邮件:weilaitui@qq.com。
 

Copyright©2015-2023 粤公网安备 44030702000869号

粤ICP备16078936号

微信

关注
微信

微信二维码

WAP二维码

客服

联系
客服

联系客服:

24在线QQ: 770665880

客服电话: 020-82301567

E_mail邮箱: weilaitui@qq.com

微信公众号: weishitui

韩瑞 小英 张泽

工作时间:

周一至周五: 08:00 - 24:00

反馈

用户
反馈