本发明涉及到吉布斯自由能预测模型及神经网络技术,提出了一种吉布斯自由能预测的方法。
背景技术:
1、1.吉布斯自由能预测
2、吉布斯自由能预测模型可用于预测某个生化反应的吉布斯自由能,在生物合成代谢路径设计中起着至关重要的作用。吉布斯自由能在化学热力学中为判断过程进行方向而引入的热力学函数,又称自由焓,指的是在某一个热力学过程中,系统减少的内能中可以转化为对外做功的部分。标准状况下的吉布斯自由能可由公式g=h-ts计算,其中g表示吉布斯自由能,t表示热力学温度,h表示焓,s表示熵。然而公式里的h和s都难以进行测量,所以需要吉布斯自由能预测模型对其进行预测。现有的预测方法大多都没有考虑到环境因素对吉布斯自由能的影响,并且大多数方法只使用到了一种特征来编码反应,缺乏合适的特征筛选机制,所以现有方法的预测准确率都不高。
3、2.分子指纹
4、分子指纹是分子某些结构特征的一种非常抽象的表征,是一种常见的分子表示形式,用于描述和比较化学物质,它将分子结构转换为数值或二进制编码,以便进行计算和比较,可用于构建机器学习和定量构效关系模型。分子指纹通常具有以下特征:
5、(1)能够表示分子的局部特征;
6、(2)能够有效和简单地组合并代表分子的结构或物理化学性质;
7、(3)能够从比特向量高效和简单地解码成分子结构;
8、(4)指纹中的特征相互独立。
9、每种类型的指纹代表一组特定的分子性质,用不同的固定的长度的数组来表示,不同类型的指纹适用于特定的数据类型、数据集大小、应用范围等。这些特定的分子性质通常指的是原子类型、键类型、键长度、环和分支等信息。任何单一的化学指纹都无法捕捉化合物的全部关键结构或性质,但是不同类型描述符的组合会捕获化合物的多个特征,这在某些算法或模型中可以提高预测的性能。特征的存在或缺失通常被编码为二进制值(0或1),或者用数值来表示特征的存在或强度。因此,这种编码方式可以类比于人类指纹的独特性,因为每种化合物都有其独特的表示,捕捉其独特的结构特征和性质。如果两种分子具有相似的指纹,这意味着它们具有许多相似的特征和化学性质。有多种类型的分子指纹可供选择,包括、拓扑指纹(如ecfp和maccs键)、药效团指纹(pharmacophore fingerprints)、open babel指纹(fp4)等。以maccs指纹为例,该指纹编码长度为167,每一位所代表的含义可以参考open babel(一款免费、开源的化学工具箱)的介绍。其中第0位为占位符,第1~166位每一位对应一种分子特征,当化合物中存在此类特征时,该位数值为1,否则该位数值为0。
10、现有的方法,fingerprint contribution方法在预测吉布斯自由能的时候,就采用了分子指纹对生化反应进行编码,不同的是,该方法只是将多种不同的分子指纹简单的拼接在一起,输入线性模型中进行预测。该方法缺乏有效的特征筛选机制,所以预测准确率不高。
11、3.卷积神经网络
12、卷积神经网络(convolutional neural network,cnn)是受视觉系统启发而提出的一种人工神经网络。卷积神经网络通常包括卷积层、池化层、全连接层和输出。卷积层的作用主要是对一个范围内的特征进行特征值提取;池化层的作用是利用池化函数将邻近的特征进行总体的输出,减小特征图的尺寸,从而降低计算复杂度和内存消耗,通常被放置在卷积层之后;全连接层可以将前面各层得到抽象化的特征进行整合和归一化,得到高度提纯的特征分类概率;输出层一搬是根据实际需要进行的任务而设置的输出。
13、相比于传统的全连接神经网络,卷积神经网络所具有的权值共享、局部连接等特性可以大大减少神经网络中所需要训练的参数数量,降低模型的复杂度,从而加速网络训练和提高模型的泛化能力。在卷积神经网络中,卷积层和池化层的计算可以在多个并行处理单元上进行,这种并行计算的方式可以大大加快模型的运行速度。与此同时,gpu等硬件平台可以很好地对卷积运算进行加速,进一步提升网络的运算效率。随着卷积神经网络架构的不断优化和深度的不断增加,卷积神经网络逐渐成为如图像识别、目标检测、图像分类等任务的主要网络架构。
14、传统的卷积神经网络架构通常是单路输入,而在本发明中提出的卷积神经网络架构则是多路特征并行输入,分为特征预处理、特征融合和回归预测三个模块。
技术实现思路
1、本发明提出了一种基于多环境参数和分子指纹的吉布斯自由能预测模型,用于解决现有预测方法未考虑环境因素对吉布斯自由能的影响以及没有合适的特征筛选机制的问题。本发明所提出的数据编码方法和多特征融合卷积神经网络架构可以有效提高生化反应吉布斯自由能预测的准确率。
2、本发明提出的吉布斯自由能预测模型,主要有以下两方面的贡献:一是提出了一种数据编码方法,通过补零和添加环境变量将一维分子指纹特征数量扩展到某个数的平方,从而可以将一维特征向量转换为二维方阵。二是本发明提出了一种卷积神经网络架构,使用多路并行输入的方式输入基于不同种类的分子指纹的不同的反应编码,然后将生化反应的底物和产物划分为两个通道输入到网络中。卷积神经网络并行输入的路数等于我们采用的分子指纹的种类数。通过多层卷积层、池化层和全连接层进行特征预处理、特征融合,最后进行回归预测。
3、本发明所采用的技术方案包括如下步骤:
4、步骤1:提出一种新的化学反应数据编码方法
5、步骤2:提出一种基于多环境参数和分子指纹的吉布斯自由能预测网络架构
6、两个步骤,分别说明如下:
7、步骤1:一种新的化学反应数据编码方法
8、原始数据集中包括化学反应的化学计量矩阵以及生化反应中所涉及到的化合物的多种分子指纹。以训练集为例,训练集中包含n条生化反应,这n条生化反应涉及到m种化合物。将每条生化反应用m种化合物进行表示,就可得到一个大小为n×m的化学计量矩阵。在这个化学计量矩阵中,每一行数据代表一条生化反应,每一列数据则代表一种化合物。矩阵中每一个数据的绝对值表示该列指代的化合物在生化反应方程式中的化学计量系数,值为0表示该生化反应不包含这一列对应的化合物;值为正值和负值则分别代表生化反应中的底物和产物。生化反应编码的完整过程如图1所示,总共包含了六个步骤。
9、1)归一化化学计量系数:归一化的化学计量系数用s′i表示,可用公式(1)计算如下:其中,si是原始化学计量系数,smax是反应中化学计量系数最大值。
10、s′i=si/smax (1)
11、2)编码化合物:使用分子指纹对反应中的每个化合物进行编码,记为f。
12、3)构造特征向量:反应中的化合物分为底物和产物。然后,将归一化的化学计量系数s′与对应的底物或产物的分子指纹向量f相乘,将所有的反应物或生成物相乘的结果相加,得到反应物和生成物的特征向量fs和fp,如公式(2)(3)所示。其中m和n分别表示底物和产物的个数
13、
14、
15、4)补零:在上一步得到的向量末尾补0,使其长度为某个数的平方,从而可以被重塑为一个方阵。补零后的向量长度为l1=a×a。补零过程如公式(4)(5)所示,得到补零后的向量f′s和f′p。
16、f′s=fr+zd (4)
17、f′p=fp+zd (5)
18、5)添加环境变量:将环境参数按照一定的规则插入到上一步得到的特征向量中,得到特征向量f″s和f″p,长度均为l2=(a+1)×(a+1)。图中,将环境变量记为ep。
19、6)表示生化反应:将反应物和生成物的综合特征向量相结合,形成生化反应的综合表示,表示如下:
20、freaction={f″s,f″p} (6)
21、步骤2:提出一种基于多环境参数和分子指纹的吉布斯自由能预测网络架构
22、本发明基于卷积神经网络技术来实现对生化反应的吉布斯自由能的预测,卷积神经网络采用多路特征并行输入的方式。网络结构示意图如图2所示,其中输入为一条生化反应的底物与产物的多种分子指纹以及环境变量,输出为该生化反应的吉布斯自由能。基于cnn的模型主要包括三个模块:第一部分是由卷积层和池化层构成的特征提取模块,第二部分是在三路输入特征拼接后,由若干个卷积层和池化层构成的特征融合模块,第三部分则是由若干个全连接层构成的回归预测模块。通过调整网络结构,可以提升卷积神经网络的预测准确率,如增加或减少卷积层的数量、改变卷积核的数量或尺寸、改变池化层的窗口大小等。需要注意的是,由于输出为一个预测值,回归预测模块的最后一个全连接层的输出只有一个神经元。
23、1)特征预处理模块
24、特征预处理模块是网络的核心部分,负责从输入到模块的多通道特征张量中提取重要的特征信息。该模块由几个卷积层和池化层组成。卷积层通过多尺寸卷积核对输入的特征张量进行过滤,以捕获不同尺度的局部模式和特征边缘,这对于分析分子的结构和功能至关重要。池化层可以降低特征维度,从而减少参数和计算量,同时保留重要特征。为了在多路并行卷积结构中实现不同特征流的高效融合,需要保证每路的输出特征图有相同的宽度和高度大小。最后,在该模块中,设置每个分支输出向量的通道数为1。depthconcat模块可以在无信息损失的情况下将多个1通道输出合并为一个高通道输出。通道数量的大小可调,可根据具体任务的要求进行增减。
25、2)特征融合模块
26、特征融合模块也十分重要,它由多个卷积层和池化层组成。不同的是,第一个卷积层的卷积核的宽高都设置为1,设置输入通道数为n(表示n路输入,即在编码过程中采用了n种分子指纹)。将第一个卷积层的宽度和高度设置为1是本发明的另一创新点。一方面,1×1的卷积核在执行卷积操作后,保留原输入特征图的大小。另一方面,在进行卷积运算时,通过学习权重,网络能够有效的整合多通道信息并增强有用的特征信息。另外,设置第一个卷积层的输入通道设置为n,这是因为在特征预处理模块中,经过多通道特征拼接后的特征张量深度为n。1×1卷积核卷积运算过程如图3所示。卷积核的数量设置为m,则通过该层卷积层后的输出通道数为n。
27、3)回归预测模块
28、回归预测模块由多个全连接层组成,全连接层具有强大的表示能力,可以学习复杂的非线性函数。通过设置适当的全连接层数和神经元数量,模型可以很好地适应各种复杂的数据分布和回归任务。将最后一层全连接层的神经元个数设置为1,该层的输出为最终预测结果。
1.一种基于多环境参数和分子指纹的吉布斯自由能预测模型,其特征是包含以下两个步骤:
2.根据权利要求1所述的一种基于多环境参数和分子指纹的吉布斯自由能预测模型,步骤1)的特征为:
3.根据权利要求1所述的一种基于多环境参数和分子指纹的吉布斯自由能预测模型,步骤2)特征为:
