本发明属于人工智能与制浆造纸领域,特别涉及一种基于集成算法的造纸酶双向预测方法、系统、终端设备及计算机可读存储介质。
背景技术:
1、在制浆造纸行业中,生物酶已经成为了重要的生物催化剂,广泛应用于提高纸张质量、降低生产成本和环保等方面。然而,目前对于造纸酶的研究仍存在一些问题和缺点。首先,造纸酶的活性受到多种因素的影响,如温度、ph值、底物浓度等,因此,预测造纸酶的酶活和反应条件是一项具有挑战性的任务。其次,由于造纸酶的种类繁多,不同酶之间存在相互作用,因此,预测多酶混合时的反应条件和酶活是一项更加复杂和困难的任务。
技术实现思路
1、为了解决上述现有技术的不足,本发明提供了一种基于集成算法的造纸酶双向预测方法、系统、终端设备及计算机可读存储介质,通过机器机器学习模型实现了多酶应用场景的双向预测,不仅可以预测多酶最合适的应用条件,也可以反向预测不同条件下的最适酶组合,通过双向预测,可以更好地了解多酶在不同条件下的表现和最优组合,从而做出更明智的决策,提供了更灵活和高效的工具。通过本发明可以促进生物酶技术在造纸行业中的更广泛应用,对轻工造纸行业的绿色发展起到一定的指导作用。
2、本发明的第一个目的在于提供一种基于集成算法的造纸酶双向预测方法。
3、本发明的第二个目的在于提供一种基于集成算法的造纸酶双向预测系统。
4、本发明的第三个目的在于提供一种终端设备。
5、本发明的第四个目的在于提供一种计算机可读存储介质。
6、本发明的第一个目的可以通过采取如下技术方案达到:
7、一种基于集成算法的造纸酶双向预测方法,所述方法包括:
8、获取造纸酶的多酶数据集并对所述多酶数据集进行处理;所述多酶数据集中的样本包括多酶组合名称及配比、助剂种类及浓度、反应条件和酶活;所述反应条件包括孵育ph、孵育温度和孵育时间;
9、利用处理后多酶数据集对机器学习模型进行训练,对训练好的模型利用bagging算法进行集成得到集成模型;所述机器学习模型的输入数据包括助剂浓度和反应条件,输出数据包括酶活;
10、根据待测多酶的组合名称及配比、助剂种类,选择对应的集成模型;根据待测多酶的助剂浓度和反应条件,利用选择的集成模型预测多酶的酶活;根据预测的酶活以及反应条件,采用寻优算法获取多酶的最佳应用条件及酶活;
11、利用训练好的模型建立模型池;所述模型池以助剂种类为键,对应的值为模型列表,模型列表中的每个模型分别与多酶组合名称及配比对应;
12、根据待测多酶的助剂种类,利用模型池预测多酶的酶活;从模型池中选择预测酶活数值最高对应的模型作为预测模型;将预测模型对应的多酶组合名称及配比,以及预测的酶活作为输出结果。
13、进一步的,所述利用处理后多酶数据集对机器学习模型进行训练,包括:
14、首先确定选用的多酶组合名称及配比,以及助剂种类,再通过对处理后多酶数据集进行筛选得到新的数据集;新的数据集中的样本包括反应条件、助剂浓度和酶活;
15、利用新的数据集对采用不同算法的机器学习模型分别进行训练;机器学习模型的输入数据包括助剂浓度和反应条件,输出为酶活。
16、进一步的,所述对训练好的模型利用bagging算法进行集成得到集成模型,包括:
17、对同一个新的数据集训练好的机器学习模型,利用bagging算法进行集成得到集成模型;所述集成模型对应确定的多酶组合名称及配比,以及助剂种类。
18、进一步的,所述机器学习模型采用的算法包括决策树、随机森林、支持向量机回归、高斯过程回归和梯度提升回归。
19、进一步的,所述根据待测多酶的助剂种类,利用模型池预测多酶的酶活,包括:
20、根据待测多酶的助剂种类,从模型池中找到相应的模型集合;
21、根据待测多酶的助剂浓度和反应条件,利用找到的模型集合中的每个模型预测多酶的酶活。
22、进一步的,所述寻优算法为遗传算法。
23、进一步的,对所述多酶数据集进行处理,包括:
24、对多酶数据集中的样本按照多酶组合名称进行排序;
25、将排序后样本中的多酶组合名称转化为字符串;
26、对转化后的样本按照多酶组合的配比再次进行排序;
27、经过两次排序后的样本作为处理后多酶数据集。
28、进一步的,所述获取造纸酶的多酶数据集,包括:
29、获取不同造纸条件下多种造纸酶的单酶活,由造纸条件和单酶活构成单酶数据;所述造纸条件包括造纸酶种类、反应条件和助剂种类及浓度;
30、根据造纸酶的单酶数据,得到造纸酶的多酶数据集;
31、其中,根据如下公式对单酶的酶活进行计算,得到多酶酶活:
32、
33、式中,a、b、…、n为多种单酶的酶活,amax、bmax、…、nmax为a、b、…、n对应单酶的最高酶活,a、b、…、n为a、b、…、n对应单酶的酶配比。
34、本发明的第二个目的可以通过采取如下技术方案达到:
35、一种基于集成算法的造纸酶双向预测系统,所述系统包括:
36、数据获取模块,用于获取造纸酶的多酶数据集并对所述多酶数据集进行处理;所述多酶数据集中的样本包括多酶组合名称及配比、助剂种类及浓度、反应条件和酶活;所述反应条件包括孵育ph、孵育温度和孵育时间;
37、训练模块,用于利用处理后多酶数据集对机器学习模型进行训练;
38、第一预测模块,用于对训练好的模型利用bagging算法进行集成得到集成模型;所述机器学习模型的输入数据包括助剂浓度和反应条件,输出数据包括酶活;根据待测多酶的组合名称及配比、助剂种类,选择对应的集成模型;根据待测多酶的助剂浓度和反应条件,利用选择的集成模型预测多酶的酶活;根据预测的酶活以及反应条件,采用寻优算法获取多酶的最佳应用条件及酶活;
39、第二预测模块,用于利用训练好的模型建立模型池;所述模型池以助剂种类为键,对应的值为模型列表,模型列表中的每个模型分别与多酶组合名称及配比对应;根据待测多酶的助剂种类,利用模型池预测多酶的酶活;从模型池中选择预测酶活数值最高对应的模型作为预测模型;将预测模型对应的多酶组合名称及配比,以及预测的酶活作为输出结果。
40、本发明的第三个目的可以通过采取如下技术方案达到:
41、一种终端设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现上述的基于集成算法的造纸酶双向预测方法。
42、本发明的第四个目的可以通过采取如下技术方案达到:
43、一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现上述的基于集成算法的造纸酶双向预测方法。
44、本发明相对于现有技术具有如下的有益效果:
45、1、本发明提供的方法操作简便,耗时短,显著降低了实验时间和成本。通过采用集成模型,其能够结合多个模型的优势来提升预测性能、降低模型的方差,还可以提高模型的鲁棒性,减少过拟合的风险;
46、2、本发明提供的方法实现了多酶应用场景的双向预测,不仅可以预测多酶最合适的应用条件,也可以反向预测不同条件下的最适酶组合。通过双向预测,能够预测多酶在不同条件下的表现和最优组合。该方法可以作为一种更灵活、更高效的预测工具。
1.一种基于集成算法的造纸酶双向预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的造纸酶双向预测方法,其特征在于,所述利用处理后多酶数据集对机器学习模型进行训练,包括:
3.根据权利要求2所述的造纸酶双向预测方法,其特征在于,所述对训练好的模型利用bagging算法进行集成得到集成模型,包括:
4.根据权利要求1~3任一项所述的造纸酶双向预测方法,其特征在于,所述机器学习模型采用的算法包括决策树、随机森林、支持向量机回归、高斯过程回归和梯度提升回归。
5.根据权利要求1所述的造纸酶双向预测方法,其特征在于,所述根据待测多酶的助剂种类,利用模型池预测多酶的酶活,包括:
6.根据权利要求1所述的造纸酶双向预测方法,其特征在于,所述寻优算法为遗传算法。
7.根据权利要求1所述的造纸酶双向预测方法,其特征在于,对所述多酶数据集进行处理,包括:
8.根据权利要求1~3、5~7任一项所述的造纸酶双向预测方法,其特征在于,所述获取造纸酶的多酶数据集,包括:
9.一种基于集成算法的造纸酶双向预测系统,其特征在于,所述系统包括:
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1~8任一项所述的造纸酶双向预测方法。
