基于LSTM与Transformer的四序列系统发育树重建方法及系统

专利2026-05-03 16

本发明属于计算生物学和深度学习，具体涉及一种基于lstm与transformer的四序列系统发育树重建方法及系统。

背景技术：

1、19世纪，查尔斯-达尔文的《物种起源》中提到了进化论的概念并绘制了生命树，展示了物种的遗传演化历史，它影响着进化生物学研究。系统发育树是一种以谱系历史表示基因或物种演化关系的分支图，具有分支结构，其节点可以是不同物种、同一物种不同个体、不同基因等，以直观的方式显示了物种或基因组之间的进化关系。在测序技术兴起后，研究者们开始通过序列信息进行重建系统发育树。通常情况下，标准的系统发育树为二叉树，传达了物种演化是半随机分裂的概念。系统发育树重建和分析的研究对生物学研究具有重要意义，帮助理解进化的机制、追踪生物体的起源、预测病毒或疾病的发展等。

2、为了构建准确的系统发育树，在过去的几十年里，人们提出了许多计算模型。目前统计推断是重建系统发育树的主要方法，研究者基于多重序列比对推断系统发育树。基于统计推断的算法整体被分为基于距离的算法和基于特征的算法两类。常见的基于距离的方法包括：邻接法，非加权组平均法，加权组平均法等。常见的基于优化的主要方法有：最大简约法、最大似然法和贝叶斯推断法等。最大简约法是指通过统计发育树中特征性状改变的频次，从各种可能的结果中选取特征性状改变频次最小的发育树，以作为所研究的数据集中物种对应的系统发育树。最大似然法是在给出物种性状进化模型以及分支长度的基础之上计算数据集重建系统发育树的似然值，选择似然值最大的发育树拓扑来进行系统发育树的重建。贝叶斯系统发育推断通常通过使用随机游走马尔可夫链蒙特卡罗或组合序列蒙特卡罗等算法对拓扑和分支长度进行局部或顺序搜索来进行。这些方法尽管具有上述特点，但仍具有以下两个缺陷：

3、1)使用传统方法对系统发育树进行重建时，面对较长的基因数据计算复杂度高，当演化模型和参数偏离实际情况时，所重建的树会偏离真实结果。

4、2)使用传统方法对系统发育树进行重建时，大部分算法会直接忽略indel所携带的信息，这将造成系统发育树重建的不准确性。

5、随着深度学习的发展，研究者希望将深度学习算法应用于系统发育树重建领域，目前主要面临两个挑战：

6、1)训练数据集将直接影响模型内的参数，当模拟的训练数据集与现实时间偏差较大时，模型将无法准确应用在真实的数据集上。

7、2)传统的深度学习算法在面对较长的序列时可能会随着模型内部结构的复杂度遗忘部分边缘的序列特征，这将导致模型无法全面提取序列的特征，无法更好的重建系统发育树。

技术实现思路

1、本发明所要解决的技术问题在于针对上述现有技术中的不足，提供一种基于lstm与transformer的四序列系统发育树重建方法及系统，能够模拟不同类别的序列数据，并为序列匹配最合适的拓扑结构预测模型，进而进行准确的系统发育树重建，用于解决传统统计推断方法无法之间提取特征并且无法考虑indel信息对系统发育推断的影响的技术问题，同时构建的新的演化场景模型并使用基于transformer的网络提取特征，模拟数据集更贴近现实，解决了模拟数据集与真实数据集偏差较大以及无法整体提取序列特征的技术问题。以往的研究主要专注于基于距离或极大似然的统计推断方法，近年研究者逐渐尝试使用卷积神经网络进行系统发育树重建，本发明提供一种基于lstm与transformer的四序列系统发育树重建方法进一步填补了深度学习在系统发育推断领域研究的空白。

2、本发明采用以下技术方案：

3、基于lstm与transformer的四序列系统发育树重建方法，其特征在于，包括以下步骤：

4、将模拟序列数据集划分为训练集、验证集和测试集；

5、构建包含lstm结构的序列类别分类深度学习模型，使用训练集、验证集和测试集分别对序列类别分类深度学习模型进行训练、验证和测试；

6、构建具有包含encoder模块的transformer结构的四序列系统发育树拓扑预测深度学习模型，使用训练集、验证集和测试集分别对四序列系统发育树拓扑预测深度学习模型进行训练、验证、测试，得到预测模型的评价指标结果；

7、基于训练好的序列类别分类深度学习模型和四序列系统发育树拓扑预测深度学习模型对不同类别的序列数据匹配最优模型并进行四序列系统发育树推断，实现四序列系统发育树的重建。

8、优选地，将模拟序列数据集划分为训练集、验证集和测试集具体为：

9、s101、固定模拟序列组的数目为四条序列，生成随机四序列的系统发育树拓扑；

10、s102、根据模拟序列数据所属的类别序列是长序列或短序列，以及序列数据属于编码、非编码或标准定义所属类别，从预定义的6种序列类别场景对应的平均分歧度分布中采样出一个期望的平均分歧度d1，编码序列从(0.03，0.2)中采样，标准序列从(0.03，0.3)中采样，非编码序列从(0.15，0.3)中采样；

11、s103、从预定义的6种序列类别场景以均匀分布的采样方式采样每一个叶子节点和非叶子节点的枝长，计算得到当前系统发育树的平均分歧度d2，通过乘以系数d1/d2对每一个枝长进行缩放，得到四序列树的拓扑结构的每一个分支的枝长；

12、s104、根据四序列系统发育树拓扑结构、枝长以及根据预定义的其他参数，模拟给定系统发育树的模拟序列数据集，并制作用于监督学习的数据集，将多序列比对的序列数据作为监督学习的数据，对应的四序列系统发育树拓扑结构所属类别作为深度学习算法的监督学习分类标签，其对应的四序列所属的场景类别作为深度学习算法的监督学习分类标签，制作数据集；

13、s105、按照6:1:3的比例关系将得到的数据集划分为训练集、验证集和测试集。

14、优选地，使用训练集、验证集和测试集分别对序列类别分类深度学习模型进行训练、验证和测试，具体为：

15、s201、对数据集中原始的模拟序列的碱基信息进行编码，编码规则为'a':'0'，'t':'1'，'c':'2'，'g':'3'，'-':'4'，'n':'4'，'-'和'n'表示序列数据中的indel与信息缺失，经过编码之后，数据集中每组序列的大小为4×l，4为多序列比对中的4条序列，l为多序列比对的长度，数据集的标签则是每组序列在模拟时所属的类别；

16、s202、基于长短期记忆神经网络模型的结构，由前向的lstm与后向的lstm结合组成，构建具有三个隐藏层的深度学习分类器；

17、s203、使用步骤s201处理后得到的训练集、验证集和测试集，按照序列长度，长序列与短序列分类后，将其用于模拟序列分类的基于长短期记忆神经网络模型；

18、s204、将数据集输入深度学习分类器后，通过lstm的提取的特征被展平为一维，经过全连接层后，最后输出预测序列数据属于编码、非编码或标准；

19、s205、根据交叉熵损失函数，通过梯度下降及反向传播算法优化和更新神经网络参数，使损失函数在训练过程中逐渐收敛，针对模拟序列数据预测在中所属的类别，训练得到深度学习分类器模型；

20、s206、将步骤s205训练好的深度学习分类器模型分别运用于对应的测试集中，使用准确率评价深度学习分类器的分类准确度，得到训练好的深度学习分类器。

21、更优选地，步骤s205具体为：

22、使用交叉熵损失函数，在交叉熵损失函数最小化的过程中优化dl网络的参数；

23、使用adam优化器最小化损失函数，使用标签平滑策略在学习过程中对目标分布进行平滑。

24、更优选地，步骤s206中，准确率具体为：

25、

26、其中，tp为真阳性数，tn为真阴性数，fp为假阳性数，fn为假阴性数。

27、优选地，得到预测模型的评价指标结果具体为：

28、s301、类似步骤s201对数据集中原始的模拟序列的碱基信息进行编码，其中，编码规则为('a':'0','t':'1','c':'2','g':'3','-':'4','n':'4')，其中'-'和'n'表示序列数据中的indel与信息缺失，经过编码之后，数据集将表现为一个n×4×l的张量，其中n为数据集的数据量大小，4为多序列比对中的4条序列，l为多序列比对的长度；

29、s302、对数据集中的标签进行编码，每组四序列拥有一个四序列的系统发育树拓扑结构；无根系统发育树的拓扑结构分别是(1，2(3，4))、(1，3(2，4))、(1，4(3，2))，其中每个括号内的序列顺序调换不影响拓扑结构，编码规则为('(1，2(3，4))':'0'，'(1，3(2，4))':'1'，'(1，4(3，2))':'2')；

30、s303、通过定义类，将数据与标签进行打包用于构建数据集，构建用于序列整体特征提取的基于encoder模块的transformer构建的深度神经网络；

31、s304、通过具有6个encoder模块transformer的提取的特征被展平为一维，经过全连接层后，最后输出预测的拓扑类型(0，1，2)；

32、s305、使用sgd优化器并根据交叉熵损失函数，通过梯度下降及反向传播算法来优化和更新神经网络参数，使损失函数在训练过程中逐渐收敛，针对序列是长序列或短序列，以及序列数据属于编码、非编码或标准共6个序列类别的模拟序列数据，分别训练对应的深度学习模型；

33、s306、将步骤s305训练好的6个序列类别的深度学习模型分别运用于对应的测试集中，使用分类准确率等评价深度学习分类器的分类准确度，得到训练好的深度学习分类器。

34、更优选地，步骤s305具体为：

35、使用交叉熵损失函数，在交叉熵损失函数最小化的过程中优化dl网络的参数；

36、使用sgd优化器最小化损失函数，使用批数据加速深度学习模型的训练过程。

37、优选地，四序列系统发育树重建具体为：

38、对四序列比对数据进行分类预测，选择最优的四序列系统发育树拓扑预测深度学习模型，将四序列比对数据输入最优的四序列系统发育树拓扑预测深度学习模型中得到预测结果，实现四序列系统发育树重建，并采用罗宾逊-富兹距离作为评价标准，检验重建四序列系统发育树算法的性能。

39、更优选地，罗宾逊-富兹距离rf(t1,t2)计算如下：

41、其中，|split(tree)|为树的个子树集合个数，split(t1)∩split(t2)指t1与t2子树集合相同的个数。

42、第二方面，本发明实施例提供了一种基于lstm与transformer的四序列系统发育树重建系统，包括：

43、数据模块，将模拟序列数据集划分为训练集、验证集和测试集；

44、分类模块，构建包含lstm结构的序列类别分类深度学习模型，使用训练集、验证集和测试集分别对序列类别分类深度学习模型进行训练、验证和测试；

45、预测模块，构建具有包含encoder模块的transformer结构的四序列系统发育树拓扑预测深度学习模型，使用训练集、验证集和测试集分别对四序列系统发育树拓扑预测深度学习模型进行训练、验证、测试，得到预测模型的评价指标结果；

46、重建模块，基于训练好的序列类别分类深度学习模型和四序列系统发育树拓扑预测深度学习模型对不同类别的序列数据匹配最优模型并进行四序列系统发育树推断，实现四序列系统发育树的重建。

47、第三方面，一种芯片，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述基于lstm与transformer的四序列系统发育树重建方法的步骤。

48、第四方面，本发明实施例提供了一种电子设备，包括计算机程序，所述计算机程序被电子设备执行时实现上述基于lstm与transformer的四序列系统发育树重建方法的步骤。

49、与现有技术相比，本发明至少具有以下有益效果：

50、基于lstm与transformer的四序列系统发育树重建方法，通过indelible软件模拟不同类别数据，并对序列进行编码转化为矩阵，根据预设的参数模拟所需重建系统发育树的多序列比对数据，并制作深度学习数据集，将数据集分割成训练集、验证集和测试集；构建基于lstm的深度学习多任务分类器进行序列数据所属类别分类，使用训练集和验证集对深度学习分类器进行训练和验证，使用测试集测试分类器的准确性；构建基于transformer的深度学习多任务分类器，使用训练集和验证集对深度学习分类器进行训练和验证，使用测试集测试深度学习分类器的准确性；基于训练好的lstm深度学习分类器和transformer深度学习分类器对不同类别的序列数据匹配最优模型并进行系统发育树推断，重建系统发育树。

51、进一步的，利用多序列比对，通过深度学习算法预测四序列系统发育树拓扑结构，对序列数据进行系统发育树推断，使用基于lstm的序列分类算法可以为输入的数据匹配最合适的模型，并可以模型其他参数设置下的数据训练新深度学习模型分类器来实现重建系统发育树，利用indelible软件模拟序列数据，通过深度学习算法匹配最优算法并预测序列数据的系统发育树拓扑结构，实现重建四序列系统发育树。并可以对特定序列数据构建的新数据集，训练新深度学习分类器来实现定制用于特定类别序列数据的四序列系统发育树拓扑预测模型。

52、进一步的，按('a':'0'，'t':'1'，'c':'2'，'g':'3'，'-':'4'，'n':'4')的规则进行模拟序列编码，简洁明了，而且考虑了indel与缺失数据对于建树结果的影响。这种简洁明了的编码方式，全面考虑序列数据所携带的特征信息，使得深度学习分类器能够更好地获取序列数据里的特征，从而使得模型具有更好的性能。

53、进一步的，训练获得的深度学习分类器具有鲁棒性和普适性，可应用于不同序列数据。相对于传统的系统发育树重建算法，提取了更多的特征，如完整的序列数据特征，indel与缺失碱基的特征，序列间相互关联特征等，更有利于提高重建系统发育树的准确性。

54、可以理解的是，上述第二方面的有益效果可以参见上述第一方面中的相关描述，在此不再赘述。

55、综上所述，本发明可以实现对于固定长度的四序列进行系统发育树重建；对长序列与短序列训练了不同的模型，设计了涵盖绝大多数的序列类别，针对不同的序列类别进行深度学习分类器的训练，训练好的深度学习分类器可以对不同四序列进行系统发育树重建，并且训练了一个序列类别分类器，能对进行系统发育树重建的序列数据匹配最优的模型选择，基于多序列比对，构建了6个序列类别场景，通过深度学习算法推断序列之间的拓扑结构与演化关系，进而对序列数据进行系统发育树推断，能够重建四序列系统发育树，并可以对不同类别序列场景数据匹配最优模型，得到重建系统发育树的最优解。

56、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

技术特征：

1.基于lstm与transformer的四序列系统发育树重建方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于lstm与transformer的四序列系统发育树重建方法，其特征在于，将模拟序列数据集划分为训练集、验证集和测试集，具体为：

3.根据权利要求1所述的基于lstm与transformer的四序列系统发育树重建方法，其特征在于，使用训练集、验证集和测试集分别对序列类别分类深度学习模型进行训练、验证和测试具体为：

4.根据权利要求3所述的基于lstm与transformer的四序列系统发育树重建方法，其特征在于，步骤s205具体为：

5.根据权利要求3所述的基于lstm与transformer的四序列系统发育树重建方法，其特征在于，步骤s206中，准确率具体为：

6.根据权利要求1所述的基于lstm与transformer的四序列系统发育树重建方法，其特征在于，得到预测模型的评价指标结果具体为：

7.根据权利要求6所述的基于lstm与transformer的四序列系统发育树重建方法，其特征在于，步骤s305具体为：

8.根据权利要求1所述的基于lstm与transformer的四序列系统发育树重建方法，其特征在于，四序列系统发育树重建具体为：

9.根据权利要求8所述的基于lstm与transformer的四序列系统发育树重建方法，其特征在于，罗宾逊-富兹距离rf(t1,t2)计算如下：

10.一种基于lstm与transformer的四序列系统发育树重建系统，其特征在于，包括：

技术总结
本发明公开了一种基于LSTM与Transformer的四序列系统发育树重建方法及系统，通过使用ETE3生成一个四序列的系统发育树拓扑，模拟需重建系统发育树的多序列比对数据，并制作深度学习数据集；构建基于Bi‑LSTM模型的深度学习多任务分类器进行序列数据所属类别分类，构建基于Transformer架构的深度学习多任务分类器，对四序列数据组进行拓扑结构预测；基于训练好的LSTM深度学习分类器和Transformer深度学习分类器对不同类别的序列数据匹配最优模型TransTree，再进行系统发育树推断，重建系统发育树。本发明基于多序列比对，通过深度学习算法推断序列的类别属性，进而对序列数据进行系统发育树推断，构建系统发育树，并可以对不同类别序列数据匹配最优预测模型，得到更加准确的系统发育树推断。

技术研发人员：祖建,孙晋楠
受保护的技术使用者：西安交通大学
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1828981.html

专利

最新回复(0)