首页>产业 > 生物医药 > > 正文

深度学习助力蛋白质序列从头设计

2022-07-25 10:40:42
来源:科技日报 作者:吴长锋 评论:0

  记者从中国科学技术大学了解到,该校生命科学与医学部教授刘海燕、副教授陈泉团队与信息科学技术学院教授李厚强团队合作,开发了一种基于深度学习,为给定主链结构从头设计氨基酸序列的算法ABACUS-R。经过实验验证,ABACUS-R的设计成功率和设计精度超过了原有统计能量模型ABACUS。研究成果北京时间7月21日发表于《自然-计算科学》。

  刘海燕、陈泉团队长期致力于发展数据驱动的蛋白质设计方法,先后建立并实验验证了对给定主链结构设计氨基酸序列的统计能量函数ABACUS模型,以及利用神经网络能量函数从头设计主链结构的SCUBA模型。然而,基于传统统计能量技术的ABACUS模型在成功率、计算效率等方面仍有不足。用深度学习进行氨基酸序列设计,能够在天然氨基酸残基类型恢复率等计算指标上超过能量函数方法。但截至目前已正式发表的工作中,对相关方法的实验验证结果远未达到能量函数方法的成功率。

  刘海燕介绍,利用ABACUS-R进行序列设计的方法由两部分组成。第一部分是一个多任务预训练的编码-解码器网络,用于对单个氨基酸的结构和化学环境进行隐空间编码,再解码为包括中心残基氨基酸类型在内的多种真实特征;第二部分是把该编码解码网络迭代应用于目标主链的每个氨基酸残基,直到获得最大程度自洽的全序列。

  在理论验证的基础上,团队尝试了实验表征用ABACUS-R对3个天然主链结构重新设计的57条序列,其中86%的序列(49条)可溶表达并能折叠为稳定单体。实验解析的5个高分辨晶体结构与目标结构高度一致。此外,与此前报道的从头设计蛋白相似,ABACUS-R从头设计的蛋白表现出超高热稳定性,去折叠温度大多可达100℃以上。

  相较于ABACUS模型,ABACUS-R序列设计更高的成功率和结构精度进一步增强了数据驱动蛋白质从头设计方法的实用性。ABACUS-R还提供了一种对蛋白质局部结构信息的预训练表示方式,可用于序列设计以外的其他任务。

  审稿人认为,该研究“最新颖的贡献在于对设计的充分实验表征,包括晶体结构,以及可溶表达的高成功率。”

(责任编辑:韩梦晨)

版权与免责声明:
①凡本站注明稿件来源为:中国高新技术产业导报、中国高新网、中高新传媒的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网授权使用作品的,被授权人应在授权范围内使用,并注明“来源:中国高新网、中高新传媒或者中国高新技术产业导报”。违反上述声明者 ,本网将追究其相关法律责任。
② 任何单位或个人认为本网站或本网站链接内容可能涉嫌侵犯其合法权益,应该及时向本网站书面反馈,并提供身份证明,权属证明及详细侵权情况证明,本网站在收到上述文件后,将会尽快移除被控侵权的内容或链接。
③如因作品内容、版权和其他问题需要与本网联系的,请在该事由发生之日起30日内进行。电话:010-68667266 电子邮件:dbrmt#chih.org (请将“#”换为“@”)
排行
  • 全部/
  • 本月

编辑推荐


扫描添加 中国高新技术产业导报

(数字报)

扫描添加 中国高新APP客户端
扫描添加 新浪微博
扫描添加 腾讯微信公众号