:
1.本发明属于机器学习领域及多源药物信息网络领域,涉及基于多源异构药物信息网络的药物靶标预测方法,特别涉及一种基于多通路图卷积神经网络的多源异构药物信息的靶标预测方法。
背景技术:
:
2.药品的研发一直以来都是极其耗费时间资源以及成本资源的研究,传统的药物研发周期长,成本高,高污染,高风险,且需要经过漫长的临床实验的验证才有可能具备大范围应用于临床的机会。而药物靶标适应关系的相关研究及临床试验一直以来被认定为药物研发的重大困难,1993年以来fda公布批准的小分子药物以及生物药物的数量大约每年只有30
‑
40种。因此,近年来,研究人员将目光聚焦于老药新用这一领域,即,通过研究已被应用于临床的安全的药物来治疗除公开的适应症以外的病症。目前为止,已经有大量的专业药物信息系统及数据库被公开,海量的多源异构的药物信息网络的开源化给了全球的研究人员坚实的数据基础,如何利用海量的药物数据资源,从大量未被证实的药品相关数据中计算药物潜在的治疗关系迫在眉睫。
3.近几年,神经网络在图形图像以及自然语言处理领域展示出了前所未有的潜力,使得研究人员将目光聚焦在深度学习神经网络等方面,希望借助于神经网络实现药物的辅助研发功能,然而,传统的神经网络cnn等处理的数据多为规则图形图像数据,使用的卷积核等关键计算部分也是规定大小的规则矩阵,无法有效处理异构不规则的药物信息网络数据。在此基础上,基于图的卷积网络即图卷积神经网络应运而生。过去几年中,面向大规模药物信息网络,社交网络,知识图谱等不规则网络图结构的图神经网络模型得到了大规模的发展,该种神经网络目前已经发展出了相当多的变体,主要处理节点分类以及链路预测等问题。
4.针对药物信息领域中药物靶标预测的问题,目前的研究方法大体分为三类,分别是基于配体的方法,基于分子对接的方法以及基于机器学习的方法。经证实,基于配体的方法在配体的数量较少的情况下表现性能低下,而基于分子对接的方法需要预测蛋白质的三级结构的情况下预测,但是蛋白质三维结构的难以确定,并且耗时巨大,该种方法的预测效率较低。
5.为了解决基于配体方法和分子对接方法的不足,借助机器学习模型,从已有的药物和靶标的关联关系出发,分析整合药物信息,可以提高潜在的药物靶标关系对的富集程度,以降低预测的假阳性率。运用机器学习的方法整合有效的药物信息预测药物靶标的研究在药物重定位领域取得了成功的进展。在药物靶标预测过程中往往涉及到一些相关的药物信息例如,药物,靶标,副作用,疾病等节点信息,以及相关节点间的关联关系信息或相似度信息。本发明使用异构药物的子网络信息,通过使用多通路的图卷积神经网络,充分整合药物靶标的多源有效信息结合已知的药物靶点关联信息作为正样本做药物靶点的链路预测。
6.针对基于传统计算方法预测药物靶点的配体不足、表现不良以及效率低的问题,本发明提供一种基于多通路图卷积神经网络的药物靶标预测方法,目的在于避免传统的药物靶点预测的正负样本极度不均衡造成的预测精度不佳以及效率不高的问题。本发明通过使用多通路的图卷积神经网络,自动学习药物信息网络节点间的局部一致性信息以及全局一致性信息,有效的提高了预测精度以及预测效率,完成药物靶标的潜在关系对的预测工作。
技术实现要素:
:
7.针对如何融合药物信息网络的全局一致性及局部一致性信息,完成预测药物靶点的潜在关系对的任务,本发明提供一种基于多通路图卷积神经网络的药物靶标预测方法。为了实现本发明的目的,具体的实施步骤如下:
8.步骤一:计算多源异构网络的共现矩阵,包括以下步骤:
9.1.1.基于多源异构的药物信息网络的集合g=[g1,g2,g3,...,g5],其中,g表示多个药物信息子网络组成的多源异构药物信息网络,其中g=(v,e),v表示药物信息子网络中的节点,e表示节点间的关联关系,g1,g2,g3,g4,g5分别表示药物
‑
蛋白质关联关系矩阵,药物
‑
药物相互作用矩阵,药物
‑
副作用关系矩阵,药物疾病相关关联矩阵以及有关药物结构的相似性矩阵;
[0010]
1.2.基于随机游走方法,将步骤1.1中的药物信息网络的各个子网络作为初始数据,融合并计算所有子网络中的节点的拓扑结构和网络的节点表示,将计算结果输出为融合的药物信息网络的概率共现矩阵x,其中,具体的概率共现矩阵的计算公式是:
[0011]
x
k
=wx
k
‑1a (1
‑
w)g0[0012]
其中x
k
表示概率共现矩阵x在第k轮迭代的结果,g0表示步骤1.1中的多个子网络组成的药物信息网络的原始01矩阵,w表示概率,a表示转移矩阵;
[0013]
1.3.将步骤1.2计算得到的概率共现矩阵x作为输入,计算概率共现矩阵的移位正点互信息矩阵ppmi矩阵,其中ppmi矩阵的计算公式为:
[0014][0015]
其中x为步骤1.2中计算所得的概率共现矩阵,x(i,j)表示概率共现矩阵x中第i行,第j列的数据,nr和nc分别表示矩阵的行数和列数,计算所得的负数设置为0;
[0016]
计算带自环的药物
‑
药物相互作用邻接矩阵~a,
[0017]
计算公式为:
[0018][0019]
其中a为药物
‑
药物相互作用邻接矩阵,i为单位矩阵;
[0020]
步骤二:利用步骤一生成的带自环的药物
‑
药物相互作用邻接矩阵和ppmi矩阵p作为卷积核,步骤1.1中的多个子网络组成的药物信息网络g作为初始特征矩阵,将g作为多通路图卷积神经网络的输入,其中,多通路图卷积神经网络包含两条通路神经网络结构,每条通路包括三个图卷积层、一个softmax层,且网络顺序为图卷积层、图卷积层、图卷积层、
softmax层,每条通路的每个图卷积层的维度分别为3000,2000,1512;确定整合局部一致性的图卷积层前馈计算公式为:
[0021][0022]
其中,z
(i
‑
1)
表示上一层图卷积神经网络的输出数据,将其作为下一层的输入,z
(i)
表示每层图卷积神经网络的输出数据,为带自环的药物
‑
药物相互作用邻接矩阵的度矩阵,w
(i)
为可更新的模型参数;
[0023]
整合全局一致性的图卷积计算公式为:
[0024][0025]
其中,z
(i
‑
1)
表示上一层图卷积神经网络的输出数据,将其作为下一层的输入,z
(i)
表示每层图卷积神经网络的输出数据,为带自环的药物
‑
药物相互作用邻接矩阵的度矩阵,w
(i)
为可更新的模型参数;
[0026]
步骤三:使用均方差损失函数以及交叉熵损失函数作为多通路图卷积神经网络的损失函数,以整合药物信息网络的全局一致性以及布局一致性有效表示,并结合bp方法更新网络参数,使得网络随着训练的进行,网络输出越来越接近已知的药物靶标的关联关系矩阵;
[0027]
其中,均方差损失函数为:
[0028][0029]
其中,表示由带自环的药物
‑
药物相互作用邻接矩阵作为卷积核的输出矩阵的第l行,第i列的数据,y
l,i
表示已知的药物靶标关联关系的正负样本矩阵的第l行,第i列的数据,y
l
是一组数据索引,它的标签用于训练模型;
[0030]
交叉熵损失函数为:
[0031][0032]
其中,将conv
p
(x)和conv
a
(a)的输出分别作为z
p
,z
a
,其表示由ppmi矩阵p和由带自环的药物
‑
药物相互作用邻接矩阵作为卷积核的矩阵输出数据。
[0033]
即,最终的完整的损失函数为:l=l(conva) λ(t)l(conva,convp),其中,l(conva)表示整合局部一致性的损失函数,l(conva,convp)表示整合全局一致性的损失函数,λ(t)表示随着时间变换的参数函数;随着训练轮数的增加,模型参数不断更新,直到模型趋于稳定停止。
[0034]
相比于现有技术,本发明的有益效果为:
[0035]
针对基于传统计算方法预测药物靶点的配体不足、表现不良以及效率低的问题,本发明提供一种基于多通路图卷积神经网络的药物靶标预测方法,目的在于避免传统的药物靶点预测的正负样本极度不均衡造成的预测精度不佳以及效率不高的问题。本发明借助于多通路图卷积神经网络模型,通过学习多源异构的药物信息网络的局部一致性以及全局
一致性内容,整合药物信息网络的有效信息,在正负样本不均衡的情况下,实现药物靶标的预测任务。相比于现有技术,本发明有效提高了预测精度,可以为药物靶标的潜在关系提供有效的预测。
附图说明:
[0036]
图1为本发明的方法流程图。
具体实施方式:
[0037]
下面结合附图和具体实施方法对本发明作进一步详细的说明:
[0038]
如图1所示,一种基于多通路图卷积神经网络的药物靶标预测方法,包括以下步骤:
[0039]
步骤一:计算多源异构网络的共现矩阵,包括以下步骤:
[0040]
1.4.基于多源异构的药物信息网络的集合g=[g1,g2,g3,...,g5],其中,g表示多个药物信息子网络组成的多源异构药物信息网络,其中g=(v,e),v表示药物信息子网络中的节点,e表示节点间的关联关系,g1,g2,g3,g4,g5分别表示药物
‑
蛋白质关联关系矩阵,药物
‑
药物相互作用矩阵,药物
‑
副作用关系矩阵,药物疾病相关关联矩阵以及有关药物结构的相似性矩阵;
[0041]
1.5.基于随机游走方法,将步骤1.1中的药物信息网络的各个子网络作为初始数据,融合并计算所有子网络中的节点的拓扑结构和网络的节点表示,将计算结果输出为融合的药物信息网络的概率共现矩阵x,其中,具体的概率共现矩阵的计算公式是:
[0042]
x
k
=wx
k
‑1a (1
‑
w)g0[0043]
其中x
k
表示概率共现矩阵x在第k轮迭代的结果,g0表示步骤1.1中的多个子网络组成的药物信息网络的原始01矩阵,w表示概率,a表示转移矩阵;
[0044]
1.6.将步骤1.2计算得到的概率共现矩阵x作为输入,计算概率共现矩阵的移位正点互信息矩阵ppmi矩阵,其中ppmi矩阵的计算公式为:
[0045][0046]
其中x为步骤1.2中计算所得的概率共现矩阵,x(i,j)表示概率共现矩阵x中第i行,第j列的数据,nr和nc分别表示矩阵的行数和列数,计算所得的负数设置为0;
[0047]
计算带自环的药物
‑
药物相互作用邻接矩阵
[0048]
计算公式为:
[0049][0050]
其中a为药物
‑
药物相互作用邻接矩阵,i为单位矩阵;
[0051]
步骤二:利用步骤一生成的带自环的药物
‑
药物相互作用邻接矩阵和ppmi矩阵p作为卷积核,步骤1.1中的多个子网络组成的药物信息网络g作为初始特征矩阵,将g作为多通路图卷积神经网络的输入,其中,多通路图卷积神经网络包含两条通路神经网络结构,每条通路包括三个图卷积层、一个softmax层,且网络顺序为图卷积层、图卷积层、图卷积层、
softmax层,每条通路的每个图卷积层的维度分别为3000,2000,1512;确定整合局部一致性的图卷积层前馈计算公式为:
[0052][0053]
其中,z
(i
‑
1)
表示上一层图卷积神经网络的输出数据,将其作为下一层的输入,z
(i)
表示每层图卷积神经网络的输出数据,为带自环的药物
‑
药物相互作用邻接矩阵的度矩阵,w
(i)
为可更新的模型参数;
[0054]
整合全局一致性的图卷积计算公式为:
[0055][0056]
其中,z
(i
‑
1)
表示上一层图卷积神经网络的输出数据,将其作为下一层的输入,z
(i)
表示每层图卷积神经网络的输出数据,为带自环的药物
‑
药物相互作用邻接矩阵的度矩阵,w
(i)
为可更新的模型参数;
[0057]
步骤三:使用均方差损失函数以及交叉熵损失函数作为多通路图卷积神经网络的损失函数,以整合药物信息网络的全局一致性以及布局一致性有效表示,并结合bp方法更新网络参数,使得网络随着训练的进行,网络输出越来越接近已知的药物靶标的关联关系矩阵;
[0058]
其中,均方差损失函数为:
[0059][0060]
其中,表示由带自环的药物
‑
药物相互作用邻接矩阵作为卷积核的输出矩阵的第l行,第i列的数据,y
l,i
表示已知的药物靶标关联关系的正负样本矩阵的第l行,第i列的数据,y
l
是一组数据索引,它的标签用于训练模型;
[0061]
交叉熵损失函数为:
[0062][0063]
其中,将conv
p
(x)和conv
a
(a)的输出分别作为z
p
,z
a
,其表示由ppmi矩阵p和由带自环的药物
‑
药物相互作用邻接矩阵作为卷积核的矩阵输出数据。
[0064]
即,最终的完整的损失函数为:l=l(conva) λ(t)l(conva,convp),其中,l(conva)表示整合局部一致性的损失函数,l(conva,convp)表示整合全局一致性的损失函数,λ(t)表示随着时间变换的参数函数;随着训练轮数的增加,模型参数不断更新,直到模型趋于稳定停止。
[0065]
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
技术特征:
1.一种基于多通路图卷积神经网络的药物靶标预测方法,其特征在于,包括以下步骤:步骤一:计算多源异构网络的共现矩阵,包括以下步骤:1.1.基于多源异构的药物信息网络的集合g=[g1,g2,g3,...,g5],其中,g表示多个药物信息子网络组成的多源异构药物信息网络,其中g=(v,e),v表示药物信息子网络中的节点,e表示节点间的关联关系,g1,g2,g3,g4,g5分别表示药物
‑
蛋白质关联关系矩阵,药物
‑
药物相互作用矩阵,药物
‑
副作用关系矩阵,药物疾病相关关联矩阵以及有关药物结构的相似性矩阵;1.2.基于随机游走方法,将步骤1.1中的药物信息网络的各个子网络作为初始数据,融合并计算所有子网络中的节点的拓扑结构和网络的节点表示,将计算结果输出为融合的药物信息网络的概率共现矩阵x,其中,具体的概率共现矩阵的计算公式是:x
k
=wx
k
‑1a (1
‑
w)g0其中x
k
表示概率共现矩阵x在第k轮迭代的结果,g0表示步骤1.1中的多个子网络组成的药物信息网络的原始01矩阵,w表示概率,a表示转移矩阵;1.3.将步骤1.2计算得到的概率共现矩阵x作为输入,计算概率共现矩阵的移位正点互信息矩阵ppmi矩阵,其中ppmi矩阵的计算公式为:其中x为步骤1.2中计算所得的概率共现矩阵,x(i,j)表示概率共现矩阵x中第i行,第j列的数据,nr和nc分别表示矩阵的行数和列数,计算所得的负数设置为0;计算带自环的药物
‑
药物相互作用邻接矩阵计算公式为:其中a为药物
‑
药物相互作用邻接矩阵,i为单位矩阵;步骤二:利用步骤一生成的带自环的药物
‑
药物相互作用邻接矩阵和ppmi矩阵p作为卷积核,步骤1.1中的多个子网络组成的药物信息网络g作为初始特征矩阵,将g作为多通路图卷积神经网络的输入,其中,多通路图卷积神经网络包含两条通路神经网络结构,每条通路包括三个图卷积层、一个softmax层,且网络顺序为图卷积层、图卷积层、图卷积层、softmax层,每条通路的每个图卷积层的维度分别为3000,2000,1512;确定整合局部一致性的图卷积层前馈计算公式为:其中,z
(i
‑
1)
表示上一层图卷积神经网络的输出数据,将其作为下一层的输入,z
(i)
表示每层图卷积神经网络的输出数据,为带自环的药物
‑
药物相互作用邻接矩阵的度矩阵,w
(i)
为可更新的模型参数;整合全局一致性的图卷积计算公式为:
其中,z
(i
‑
1)
表示上一层图卷积神经网络的输出数据,将其作为下一层的输入,z
(i)
表示每层图卷积神经网络的输出数据,为带自环的药物
‑
药物相互作用邻接矩阵的度矩阵,w
(i)
为可更新的模型参数;步骤三:使用均方差损失函数以及交叉熵损失函数作为多通路图卷积神经网络的损失函数,以整合药物信息网络的全局一致性以及布局一致性有效表示,并结合bp方法更新网络参数,使得网络随着训练的进行,网络输出越来越接近已知的药物靶标的关联关系矩阵;其中,均方差损失函数为:其中,表示由带自环的药物
‑
药物相互作用邻接矩阵作为卷积核的输出矩阵的第l行,第i列的数据,y
l,i
表示已知的药物靶标关联关系的正负样本矩阵的第l行,第i列的数据,y
l
是一组数据索引,它的标签用于训练模型;交叉熵损失函数为:其中,将conv
p
(x)和conv
a
(a)的输出分别作为z
p
,z
a
,其表示由ppmi矩阵p和由带自环的药物
‑
药物相互作用邻接矩阵作为卷积核的矩阵输出数据;即,最终的完整的损失函数为:l=l(conva) λ(t)l(conva,convp),其中,l(conva)表示整合局部一致性的损失函数,l(conva,convp)表示整合全局一致性的损失函数,λ(t)表示随着时间变换的参数函数;随着训练轮数的增加,模型参数不断更新,直到模型趋于稳定停止。
技术总结
本发明属于机器学习以及计算机生物信息学领域,公开了一种基于多通路图卷积神经网络的药物靶标预测方法。本发明包括步骤:基于随机游走的方法,计算药物信息的概率共现矩阵;通过概率共现矩阵计算移位正点互信息(PPMI)矩阵,通过使用计算所得的PPMI矩阵以及带自环的药物信息邻接矩阵作为全局和局部一致性的卷积核,对药物信息网络做图卷积操作,整合复杂有效的节点及拓扑结构知识,并通过交叉熵损失函数以及均方差损失函数联合对模型进行训练,将训练完成的模型作为药物靶标潜在关系预测的模型。本发明避免了传统药物靶标预测方法的局限性。本发明借助于多通路图卷积神经网络模型,实现高精度的药物靶标预测。实现高精度的药物靶标预测。实现高精度的药物靶标预测。
技术研发人员:彭绍亮 冯潇逸 杨亚宁 白亮 李介臣 王小奇
受保护的技术使用者:湖南大学
技术研发日:2021.03.25
技术公布日:2021/6/29
转载请注明原文地址:https://doc.8miu.com/read-9244.html