跳转至

蛋白质结构预测 用户指南

1. 算法简介

从蛋白质的氨基酸序列出发预测蛋白质的3D结构,称为蛋白质结构预测,其为生物信息学与理论化学所追求的最重要目标之一。蛋白质结构预测在医学上 (如,药物设计) 和在生物技术上 (如,新的酶的设计) 都是非常重要的工具。

为了准确预测蛋白质结构,腾讯 AI Lab 团队开发了 tFold 工具,采用了一套全新的“从头折叠” (de novo folding) 方法,通过三项技术创新,从而大幅提升了蛋白结构预测的精度。

首先,我们开发了“多数据来源融合” (multi-source fusion) 技术来挖掘多组多序列联配 (multiple sequence alignment, MSA) 中的共进化信息;然后,借助 “深度交叉注意力残差网络” (deep cross-attention residual network),我们能够极大地提高一些重要的蛋白2D结构信息的预测精度,例如:残基对距离与取向矩阵 (residue-residue distance and orientation matrix);最后,我们通过一种新颖的“模板辅助自由建模” (Template-based Free Modeling, TBFM) 方法,将自由建模 (Free Modeling, FM) 和模板建模 (Template-based Modeling, TBM) 生成的3D模型中的结构信息加以有效融合,从而大大提高了最终3D建模的准确性。

2. 使用流程

2.1 输入待预测的氨基酸序列 (必需)

平台提供了两种氨基酸序列的输入方法,一种是直接通过文本框进行编辑,另一种是通过本地上传FASTA文件,两种方法二选一。

两种方法都会对输入内容进行合法性检查,包括:

1) 只能以大写字母输入,不支持非标准氨基酸字符 (即:B,J,O,U,X,Z)。

2) 允许的氨基酸序列长度范围是30到800个残基。

3) 支持一次提交多个序列;多个序列用“以 > 开头的一行”作为分割,并且“>”后面的内容作为下一个序列的序列名称。

  • 通过文本框输入氨基酸序列(如下图所示一个合法的输入氨基酸序列)

    img

  • 通过本地上传FASTA文件

    img

2.2 输入任务名 (可选)

可以选择在“任务名”输入框输入任务名。若不输入,则网站会将随机分配的UniqueID作为任务名。

2.3 提交任务

在用户完成以上步骤后,点击“预测”按钮即可,显示“任务创建成功”表示提交成功。

任务成功结束后用户的注册邮箱会收到任务完成的通知。通常一个任务的计算时间在半个小时—数个小时不等。

为了合理的分配有限的资源,我们对用户的任务额度进行了一定的限制,鼠标悬停在“预测”按钮上可以看到限制情况与使用情况。在额度不足的情况下无法点击“预测”按钮提交任务。

2.4 查询历史记录

在提交任务下方的“最近运行历史”中查看最近10条任务状态;也可以点击“所有历史”查看所有历史记录。

只有完成的任务可以进行“查看”操作。

只有完成/等待中/失败任务可以被删除,运行中的任务无法删除(无法中止任务释放计算资源)。

点击“运行状态”旁的下拉箭头,可以根据任务运行状态进行筛选。

img

2.5 下载任务结果

  • 在查看任务界面点击“下载全部预测结果”下载全部计算结果,点击“只下载PDB文件”下载预测的蛋白质模型文件:

    img

  • 在“历史记录”分页中批量下载任务结果:

    img

3. 预测结果

tFold会将蛋白结构预测的结果,通过三部分加以展示,分别是:

与目前其它采用“从头折叠”(de novo folding)方法的蛋白结构预测服务器不同,我们tFold server将完整的“从头折叠”步骤的三个重要环节,以全细节展示给用户。在展示的过程中,用户将理解tFold算法是如何一步步从最开始的多序列联配(multiple sequence alignment, MSA)中抽提共进化信息,进而将这些信息通过“深度交叉注意力残差网络”(deep cross-attention residual network,DCARN)预测得到残基对距离矩阵,并最终借助该矩阵折叠出三维结构。

3.1 蛋白二维结构特征的预测结果

残基对距离矩阵 (residue-residue distance matrix) 是一类重要的蛋白二维结构特征,其能有效的辅助“从头折叠”得到三维结构。tFold 的 2D modeling 结果页面显示的内容,就是告诉用户,我们如何从多序列联配 (MSA) 中抽提出的共进化信息 (左图),通过“深度交叉注意力残差网络” (DCARN) 来准确预测残基对距离矩阵 (右图) 。

img
中间区域放大左图细节信息

注意到这里的MSA与预测的距离矩阵之间存在一一对应关系,为了考虑更多的可能性,我们最多允许3个MSA,其次序是按照预测的距离矩阵的评估质量。

为了进一步展示细节,我们可选择一个给定的30*30区域进行放大,并将放大的细节内容显示于中间下方的小方格中。若点击该30*30区域中的某个位置,我们会在中间上方的小方格中显示给定残基对<i, j>的共进化信息 (左图) 或者距离分布信息 (右图) 。

img
中间区域放大右图细节信息

此外,tFold还会把预测的二级结构 (secondary structure) 显示在右图的上方与右方。

3.2 蛋白三维结构的预测结果

tFold对蛋白三维结构的从头预测 (又称为自由建模,free modeling) ,是通过 2D modeling 预测得到的残基对距离矩阵实现的。简而言之,我们先将预测的距离分布转换成了一种能量分布,然后对其采用约束最小化方法,进行高效的3D结构建模。

img

我们将能量最优的5个三维结构模型,显示在左图,并且将该3D模型的距离矩阵,以绿色显示在右图的下三角部分。右图的上三角蓝色部分,是MSA得到的预测距离矩阵 (默认为质量最优的那个) 。

为了观察某个给定<i, j>位置上,3D结构与预测距离分布的偏差,我们在中间上方的小方格中显示出两者的具体信息。如上图所示,<78, 127> 这个位置上,该3D模型在的距离是4.9Å,比较符合预测的距离分布。

在存在模板的前提下,tFold采用一种新颖的“模板辅助自由建模” (Template-based Free Modeling, TBFM) 方法,将自由建模 (Free Modeling, FM) 和模板建模 (Template-based Modeling, TBM) 生成的3D模型中的结构信息加以有效融合,从而大大提高了最终3D建模的准确性。 (目前该server模块还在开发中,若有需求,可通过平台联系方式联系tFold研发团队。)

3.3 蛋白局部结构特征的预测结果

tFold 给出了二级结构 (SS3+SS8) ,水及表面 (ACC) ,无规结构 (DISO) ,以及跨膜区 (TM2+TM8) 等6种蛋白局部结构属性的预测,以标签分布的形式显示在右侧。中间下方的小方格以饼图的形式显示给定局部结构属性的总体标签分布。

img

4. 评测结果

tFold 已在国际公认最权威测试平台CAMEO上证明其创新价值及有效性。

腾讯 AI Lab 于2020年初在CAMEO平台注册了自动化蛋白结构预测服务器 tFold server,并自2020年6月起至今一直保持周度 (图1) 、月度、季度、半年度冠军。

tFold server在一般案例上领先业内权威方法6%以上,在困难案例上则领先12%以上。

img