基于知识能量函数优化的膜蛋白三维结构预测方法与流程

专利2022-05-09  101


本发明涉及的是一种生物工程领域的技术,具体是一种基于知识能量函数优化的膜蛋白三维结构预测方法。



背景技术:

获取准确的蛋白质结构信息的方法是通过实验测定,目前最常用的实验方法有x射线衍射法、核磁共振法和冷冻电子显微镜技术等,这些通过实验方法得到的蛋白质结构存储在生物数据库pdb(proteindatabasebank)中。pdb中现存的已解析高分辨率膜蛋白结构很少,只有1267个,约占pdb中蛋白质结构总数的2%,因此计算方法预测膜蛋白的三维结构就显得尤为重要。目前计算方法预测蛋白质结构主要有两个方向,一种是模板建模法,另一种是从头预测法。对于膜蛋白来说,由于pdb中现有的结构很少,一般情况下找不到合适的模板,因此绝大部分的膜蛋白结构预测方法都是基于从头计算的。另一方面膜蛋白多具有较长的氨基酸序列,这使得大多数从头预测的方法的时间效率极度降低,有些甚至无法完成预测任务。



技术实现要素:

本发明针对现有技术存在的上述不足,提出一种基于知识能量函数优化的膜蛋白三维结构预测方法,基于从头预测方法,使用多序列比对(msa)、二级结构预测、残基接触预测等多项技术,具有操作方便,准确度高等优点。

本发明是通过以下技术方案实现的:

本发明涉及一种基于知识能量函数优化的膜蛋白三维结构预测方法,分别根据输入序列的多序列比对结果结合统计知识得到对残基距离的约束、根据输入序列的二级结构预测结果结合pdb中的已知结构,构建结构片段查询库、根据输入序列的残基接触预测结果计算知识基础的能量函数;然后在能量函数和残基距离约束的条件下对初始结构迭代地进行片段替换并得到若干候选结构;最后对候选结构进行筛选得到最终预测膜蛋白三维结构。

所述的输入序列,为膜蛋白的氨基酸序列,序列长度不受限制,应包括多个跨膜螺旋,且跨膜部分占主体。

所述的多序列比对结果,通过将输入序列与中序列进行比对,选择出的若干条同源性较高的序列。

所述的对残基距离的约束是指:根据pdb中多种蛋白质结构的统计规律,当两种类型的残基具有接触关系时的cβ-cβ距离的取值范围的最大和最小值限制。

所述的统计规律是指:分析大量的真实蛋白质结构,计算具有接触关系的两种类型的残基距离,统计这些距离得到的取值范围。

所述的二级结构预测结果,通过基于多尺度深度学习的膜蛋白跨膜螺旋(tmh)预测模型(membrain)得到,具体操作步骤为:输入一条蛋白质序列,通过多序列比对得到大量的相似序列,结合共进化信息,使用深度学习模型和支持向量机分类器预测得到跨膜区域和跨膜方向。

所述的膜蛋白跨膜螺旋预测模型包括:跨膜区域预测模块和方向预测模块,其中:跨膜区域预测模块包括多尺度深度学习模型和二值化处理模块,该深度学习模型由小规模的基于残基的残差神经网络和大规模的基于全序列的残差神经网络组成,二值化处理模块根据动态阈值对原始预测分数进行二值化处理,并解决分割不足的问题;方向预测模块使用支持向量机分类器(svm)。

所述的结构片段查询库包括:基于包括α-螺旋和β-折叠,片段的最小长度为5个残基的特定二级结构的片段构建的查询库、基于片段的最小长度为9个残基,最大长度为16个残基的固定长度的蛋白质片段构建的固定长度片段查询库、基于3个残基的短片段构建的短片段查询库。

所述的固定长度片段查询库中每一个固定长度片段都与查询序列的某一相同长度片段对应位置二级结构相同。

所述的残基接触预测结果,通过基于深度学习的蛋白质残基接触预测模型(shen-cdeep)得到,具体为:将残基的cβ-cβ距离分为10个区间,分别为:以上,预测每对残基位于每个距离区间的概率。

所述的蛋白质残基接触预测模型包括五组共29个改进的resnet残差模块,其分别分为3、4、6、8、8五组,在前三组模块引入膨胀卷积(dilatedconvolution)机制,在后两组模块种引入基于通道的注意力机制(channel-attention)。

所述的基于知识基础的能量函数是指:用每个残基对的score-d函数关系式组计算出一个评分,将所有评分累加结果作为整个结构的能量值,其中:score-d函数关系式组是指:对于一个长度为l个残基的蛋白质序列,选取预测其cβ-cβ距离在之间概率前l个残基对和距离在之间预测概率前l/5个残基对,并去除它们之间的重复部分后对于每个残基对,计算其在每个概率区间的得分其中:n=9,i是区间序号,i=1,2,…,9,di是第i个区间的中点,pi是第i个区间对应的概率值,α是一个归一化项,这里取常数α=1.57;然后分别对每一组进行三次样条插值,得到在范围内的score-d函数关系式组。

所述的初始结构是指:两个残基之间的肽键与残基的主链平行,整体为一条直链,即迭代地进行片段替换的起点。

所述的片段替换包括:

i、生成一个随机数r1,用来确定进行三种片段替换(二级结构片段替换、固定长度片段替换、短片段替换)的哪一种;

ii、生成一个随机数r2,用来确定进行片段替换的起始位置;

iii、生成一个随机数r3,用来进行特定类型片段的选择;

iv、进行坐标变换,完成一轮片段替换过程;

v、判断替换后的结构是否满足约束条件,满足保留,不满足舍弃。

所述的候选结构,通过模拟退火算法对初始结构进行重复迭代,每次当产生能量值更低的结构时,用其替换其他能量值较高的候选结构。

所述的重复迭代的次数,优选为2000万次以上,对应的候选结构优选为100个以上。

所述的筛选是指:使用另一个基于统计知识的能量函数对于每一个接触距离在之间的概率大于0.3的残基对,计算其能量值,所有能量值的累加结果作为最终能量值;然后使用该能量值与基于知识基础的能量函数对候选结构进行综合评价,分别使用两种能量函数对候选结构进行从小到大的排序,将其序号相加,将序号和最小的结构筛选出后对该结构进行侧链优化,统计自然界中每种类型的氨基酸存在的侧链异构体,对侧链进行替换,以消除侧链原子之间可能存在的位置重叠,改善侧链构象使其更加符合真实结构,其中:p为残基对接触距离在之间的概率,dmax为这两种类型的残基之间存在接触关系时cβ-cβ距离的理论最大值。

本发明涉及一种实现上述方法的系统,包括:多序列比对模块、跨膜区域预测模块、残基接触预测模块和三级结构预测模块,其中:输入与多序列比对模块相连获得同源序列,跨膜区域预测模块与多序列比对模块和三维结构预测模块相连,结合多序列比对的结果进行跨膜区域预测并将结果传输给三级结构预测模块,残基接触预测模块同样与多序列比对模块和三维结构预测模块相连,结合多序列比对结果进行残基接触预测并将结果传输给三级结构预测模块,三级结构预测模块综合使用多序列比对模块、跨膜区域预测模块和残基接触预测模块给出的信息最终完成三级结构预测。

技术效果

本发明整体解决了现有技术的针对性不够强,精度不够高,速度不够快等问题;

与现有技术相比,本发明针对膜蛋白进行三维结构预测,可以同时给出预测过程种产生的跨膜区域和残基接触预测结果,在预测精度上相对于当前一些膜蛋白结构预测方法有10%-20%的提高,时间上只需要几十分钟到几个小时之间,操作简单,使用方便的同时,在某些蛋白质上的预测结构相对真实结构的rmsd可达到以下,大多数的蛋白质都在以内,膜内部分的精度更高。

附图说明

图1为本发明流程图。

具体实施方式

如图1所示,为本实施例涉及一种基于知识能量函数优化的膜蛋白三维结构预测方法,其输入为一条膜蛋白序列,以pdb中蛋白质编号为2d57的a链为例,具体如seqidno.1所示。

本实施例设置迭代次数为2000万次,算法开始执行,共包括三个阶段:

s1、预处理;

s2、迭代优化;

s3、后处理。

进一步的,预处理s1阶段又包括以下几个步骤:

s11、获得多序列比对结果、二级结构预测结果、残基接触预测结果;

s12、利用多序列比对结果,结合统计知识,给出对残基cβ-cβ距离的约束;利用二级结构预测结果,结合蛋白质结构数据库pdb中的已知结构,构建结构片段查询库;利用残基预测结果,给出知识基础的能量函数。

进一步的,迭代优化s2阶段又包括以下几个步骤:

s21、在能量函数和残基距离约束的条件下,从结构片段查询库中随机选择片段,对初始结构进行替换;

s22、重复s21过程2000万次,选取最后100个结构作为候选结构。

进一步的,后处理s3阶段又包括以下几个步骤:

s31、使用另一个知识基础的能量函数对100个结构进行综合评价,选出最好的一个结构;

s32、对该结构进行侧链优化,输出最终结果。

算法最终的输出为一个pdb格式的文件。

本实施例采用的评价指标其中:ln是模板结构(一般为真实的蛋白质结构)的长度,lt是与模板结构对齐残基的长度,di是第i对对齐残基之间的距离,d0是一个标准化刻度项,为固定值。

该评价指标tm-score的值介于0和1之间,值越大表示两个结构之间的相似程度越高,将预测结构与真实结构计算tm-score值可以作为评价预测结果的指标,tm-score的值越大,表明预测结构越接近于真实结构,tm-score的值越小,表明预测结构与真实结构的差异越大。gdt-ts同理,是介于0-100之间。rmsd表示预测原子坐标和真实原子坐标之间的均方根误差。

本实施例在一些膜蛋白上进行了实验,得到了如表2所示的实验结果,并和现有的膜蛋白结构预测方法film3进行了比较,在各方面指标上均有不同程度的提升,在某些蛋白质上的提升幅度达到20%以上。

表2预测结果及与film3的比较结果

与现有技术相比,本方法对于膜蛋白三维结构的预测精度有大幅提升,尤其是跨膜螺旋区域,与真实结构之间误差很低。预测时间较短,可在几个小时之内完成对长度为几百个残基的膜蛋白的三维结构预测。还可以给出预测过程中产生的跨膜区域预测结果和残基接触图。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

序列表

<110>上海交通大学

<120>基于知识能量函数优化的膜蛋白三维结构预测方法

<130>fnc482e

<141>2021-06-08

<160>1

<170>siposequencelisting1.0

<210>1

<211>224

<212>prt

<213>人工序列(artificialsequence)

<400>1

thrglnalaphetrplysalavalthralaglupheleualametleu

151015

ilephevalleuleuservalglyserthrileasntrpglyglyser

202530

gluasnproleuprovalaspmetvalleuileserleucysphegly

354045

leuserilealathrmetvalglncyspheglyhisileserglygly

505560

hisileasnproalavalthrvalalametvalcysthrarglysile

65707580

serilealalysservalphetyrilethralaglncysleuglyala

859095

ileileglyalaglyileleutyrleuvalthrproproservalval

100105110

glyglyleuglyvalthrthrvalhisglyasnleuthralaglyhis

115120125

glyleuleuvalgluleuileilethrpheglnleuvalphethrile

130135140

phealasercysaspserlysargthraspvalthrglyservalala

145150155160

leualaileglypheservalalaileglyhisleuphealaileasn

165170175

tyrthrglyalasermetasnproalaargserpheglyproalaval

180185190

ilemetglyasntrpgluasnhistrpiletyrtrpvalglyproile

195200205

ileglyalavalleualaglyalaleutyrglutyrvalphecyspro

210215220


技术特征:

1.一种基于知识能量函数优化的膜蛋白三维结构预测方法,其特征在于,分别根据输入序列的多序列比对结果结合统计知识得到对残基距离的约束、根据输入序列的二级结构预测结果结合蛋白质结构数据库pdb中的已知结构,构建结构片段查询库、根据输入序列的残基接触预测结果计算知识基础的能量函数;然后在能量函数和残基距离约束的条件下对初始结构迭代地进行片段替换并得到若干候选结构;最后对候选结构进行筛选得到最终预测膜蛋白三维结构。

2.根据权利要求1所述的基于知识能量函数优化的膜蛋白三维结构预测方法,其特征是,所述的对残基距离的约束是指:根据pdb中多种蛋白质结构的统计规律,当两种类型的残基具有接触关系时的cβ-cβ距离的取值范围的最大和最小值限制;

所述的统计规律是指:分析大量的真实蛋白质结构,计算具有接触关系的两种类型的残基距离,统计这些距离得到的取值范围。

3.根据权利要求1所述的基于知识能量函数优化的膜蛋白三维结构预测方法,其特征是,所述的二级结构预测结果,通过基于多尺度深度学习的膜蛋白跨膜螺旋预测模型得到,具体操作步骤为:输入一条蛋白质序列,通过多序列比对得到大量的相似序列,结合共进化信息,使用深度学习模型和支持向量机分类器预测得到跨膜区域和跨膜方向;

所述的膜蛋白跨膜螺旋预测模型包括:跨膜区域预测模块和方向预测模块,其中:跨膜区域预测模块包括多尺度深度学习模型和二值化处理模块,该深度学习模型由小规模的基于残基的残差神经网络和大规模的基于全序列的残差神经网络组成,二值化处理模块根据动态阈值对原始预测分数进行二值化处理,并解决分割不足的问题;方向预测模块使用支持向量机分类器。

4.根据权利要求1所述的基于知识能量函数优化的膜蛋白三维结构预测方法,其特征是,所述的结构片段查询库包括:基于包括α-螺旋和β-折叠,片段的最小长度为5个残基的特定二级结构的片段构建的查询库、基于片段的最小长度为9个残基,最大长度为16个残基的固定长度的蛋白质片段构建的固定长度片段查询库、基于3个残基的短片段构建的短片段查询库;

所述的固定长度片段查询库中每一个固定长度片段都与查询序列的某一相同长度片段对应位置二级结构相同。

5.根据权利要求1所述的基于知识能量函数优化的膜蛋白三维结构预测方法,其特征是,所述的残基接触预测结果,通过基于深度学习的蛋白质残基接触预测模型得到,具体为:将残基的cβ-cβ距离分为10个区间,分别为:以上,预测每对残基位于每个距离区间的概率;

所述的蛋白质残基接触预测模型包括五组共29个改进的resnet残差模块,其分别分为3、4、6、8、8五组,在前三组模块引入膨胀卷积机制,在后两组模块种引入基于通道的注意力机制。

6.根据权利要求1所述的基于知识能量函数优化的膜蛋白三维结构预测方法,其特征是,所述的基于知识基础的能量函数是指:用每个残基对的score-d函数关系式组计算出一个评分,将所有评分累加结果作为整个结构的能量值,其中:score-d函数关系式组是指:对于一个长度为l个残基的蛋白质序列,选取预测其cβ-cβ距离在之间概率前l个残基对和距离在之间预测概率前l/5个残基对,并去除它们之间的重复部分后对于每个残基对,计算其在每个概率区间的得分其中:n=9,i是区间序号,i=1,2,…,9,di是第i个区间的中点,pi是第i个区间对应的概率值,α是一个归一化项,这里取常数α=1.57;然后分别对每一组进行三次样条插值,得到在范围内的score-d函数关系式组。

7.根据权利要求1所述的基于知识能量函数优化的膜蛋白三维结构预测方法,其特征是,所述的初始结构是指:两个残基之间的肽键与残基的主链平行,整体为一条直链,即迭代地进行片段替换的起点;

所述的片段替换包括:

i、生成一个随机数r1,用来确定进行二级结构片段替换、固定长度片段替换或短片段替换之一;

ii、生成一个随机数r2,用来确定进行片段替换的起始位置;

iii、生成一个随机数r3,用来进行特定类型片段的选择;

iv、进行坐标变换,完成一轮片段替换过程;

v、判断替换后的结构是否满足约束条件,满足保留,不满足舍弃;

所述的候选结构,通过模拟退火算法对初始结构进行重复迭代,每次当产生能量值更低的结构时,用其替换其他能量值较高的候选结构。

8.根据权利要求1所述的基于知识能量函数优化的膜蛋白三维结构预测方法,其特征是,所述的筛选是指:使用另一个基于统计知识的能量函数对于每一个接触距离在之间的概率大于0.3的残基对,计算其能量值,所有能量值的累加结果作为最终能量值;然后使用该能量值与基于知识基础的能量函数对候选结构进行综合评价,分别使用两种能量函数对候选结构进行从小到大的排序,将其序号相加,将序号和最小的结构筛选出后对该结构进行侧链优化,统计自然界中每种类型的氨基酸存在的侧链异构体,对侧链进行替换,以消除侧链原子之间可能存在的位置重叠,改善侧链构象使其更加符合真实结构,其中:p为残基对接触距离在之间的概率,dmax为这两种类型的残基之间存在接触关系时cβ-cβ距离的理论最大值。

9.一种实现权利要求1~8中任一所述基于知识能量函数优化的膜蛋白三维结构预测方法的系统,其特征在于,包括:多序列比对模块、跨膜区域预测模块、残基接触预测模块和三级结构预测模块,其中:输入与多序列比对模块相连获得同源序列,跨膜区域预测模块与多序列比对模块和三维结构预测模块相连,结合多序列比对的结果进行跨膜区域预测并将结果传输给三级结构预测模块,残基接触预测模块同样与多序列比对模块和三维结构预测模块相连,结合多序列比对结果进行残基接触预测并将结果传输给三级结构预测模块,三级结构预测模块综合使用多序列比对模块、跨膜区域预测模块和残基接触预测模块给出的信息最终完成三级结构预测。

技术总结
一种基于知识能量函数优化的膜蛋白三维结构预测方法,分别根据输入序列的多序列比对结果结合统计知识得到对残基距离的约束、根据输入序列的二级结构预测结果结合蛋白质结构数据库PDB中的已知结构,构建结构片段查询库、根据输入序列的残基接触预测结果计算知识基础的能量函数;然后在能量函数和残基距离约束的条件下对初始结构迭代地进行片段替换并得到若干候选结构;最后对候选结构进行筛选得到最终预测膜蛋白三维结构。本发明基于从头预测方法,使用多序列比对(MSA)、二级结构预测、残基接触预测等多项技术,具有操作方便,准确度高等优点。

技术研发人员:柳源;沈红斌;冯世豪;张沛东
受保护的技术使用者:上海交通大学
技术研发日:2021.06.08
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-5078.html

最新回复(0)