中国科学院计算技术研究大数据研究学院

员工活动 | 邮箱登录 | 加入收藏 | 中国科学院
 
科研成果 当前位置: 网站首页 » 科研成果 » 成果详情
2021 0518
Nature 子刊发表数研院最新成果:蛋白质结构预测算法ProFOLD,性能努力赶超AlphaFold2
信息来源:数研院  浏览量:324

        中科院计算技术研究所大数据研究院(简称“数研院”)李明院士办公室卜东波研究员近日于Nature Communications发表论文“CopulaNet: Learning residue co-evolution directly from multiple sequence alignment for protein structure prediction”,介绍一个新的神经网络架构CopulaNet,可从目标蛋白质的多序列联配直接估计出残基间距离,克服了传统统计方法的“信息丢失”缺陷;并以CopulaNet为核心开发了蛋白质结构“从头预测”算法和软件ProFOLD。在CASP13测试集上,ProFOLD达到了0.7的预测精度(以天然态结构和预测结构之间的TM-score为衡量标准),优于AlphaFold(约为0.5)。该突破是李明院士办公室在数研院成立后的第一个重要成果。



封面.jpg

论文截图


        论文思路:所谓蛋白质三级结构,可以简单地理解成构成蛋白质的所有原子的空间坐标。蛋白质的三级结构可以从其残基间的距离精确地重建;就好比知道教室里同学们两两之间的欧式距离,就能确定出每位同学的平面坐标(在考虑旋转、平移、镜像等变换下是唯一的),残基共进化已经成为估计残基间距离的主要原则。大多数现有的残基共进化分析方法采用间接策略,即从目标蛋白质的多重序列比对(MSA)中提取一些手工的特征,比如协方差矩阵,然后利用这些手工提取特征推断残基共进化。


e114f68a75106b79c20712f7e0730fc.jpg

用ProFOLD预测蛋白质三级结构示例。

蛋白质:CASP13 FM类结构域T0950。红色:ProFOLD预测结构;绿色:天然态结构。TM-score=0.73


        这种间接方法并不能充分利用 MSA 所携带的信息,从而导致相当大的信息丢失和残差距离估计不准。在这里,我们发布了一个端到端的深度学习框架(称为 CopulaNet) ,直接从MSA学习残基共进化。 研究结果表明,CopulaNet 能够有效地预测蛋白质三级结构。对于31个自由建模 CASP 13域中的24个域,我们的方法比现有先进方法获得了更高的预测精度。这项研究代表了端到端预测残基间距和蛋白质三级结构的重要一步。我们期望这里提出的方法可以得到进一步发展和应用,为理解蛋白质功能提供结构信息。


92e8d3f0051dac4602a6138f9b7e98d.jpg

项目团队成员


        谈及实际应用落地方面,卜东波表示:比如说制药,药物那一块很重要的一件事情就是,药物是个小分子,我们先说化学药不说生物药。化学药它是个小分子,我们就想知道小分子作用在哪个蛋白上,要想知道这个事情,你首先得知道蛋白质的结构,这是他们非常关注的核心问题。进一步,第二个问题就是作用在蛋白质上,具体的位点是哪一块,这是他们关注的两个基础性的问题。

 

        第三步,衡量这个小分子的药效,小分子跟我这个蛋白的结合能力是怎么样?这是进一步的一个问题,在这些基础上知道蛋白质结构是很重要的、技术性的环节。

 

        比如中科院大连化物所梁鑫淼老师建立的中药科学中心,用液相色谱和质谱技术把中药材的成分都鉴定出来,鉴定出到底有哪些小分子;在这方面梁老师团队,包括郭志谋、闫竞宇、周晗、叶贤龙等老师,做了非常好的工作。进一步的工作是确定小分子作用机理,比如和蛋白质之间的作用位点;我们正在和梁老师团队开展密切的合作。


        目前卜东波老师团队正在努力改进ProFOLD,争取达到并超过AlphaFold2的水平。


640.jpg

李明院士办公室揭牌仪式


        数研院于2019年开始与李明院士团队在健康大数据方向进行合作,2021年5月正式挂牌成立李明院士办公室,短短一年的时间,该团队在健康大数据领域获得重要进展,作为由数研院引进中原科技城的高端人才团队,已初露锋芒,相信李明院士团队将会利用大数据与人工智能技术在医疗健康领域实现更大突破。



相关资料

论文链接:Nature Communications,https://www.nature.com/articles/s41467-021-22869-8


预测服务器链接:http://protein.ict.ac.cn/FALCON/


预测软件源代码下载链接:http://protein.ict.ac.cn/ProFOLD/ 



豫ICP备19023555号-1 】@ 中科大数据研究院 版权所有
0.996672s