本发明涉及一种催化剂孔隙结构的预测方法,特别涉及一种基于机器学习技术预测scr催化剂孔隙结构的方法,属于环保技术领域。
背景技术:
随着社会的进步和经济的发展,大气污染防治成为人们日益关注的重点问题。氮氧化物(nox)对人体健康和大气环境造成巨大的危害,因此发展高效的大气污染治理方法刻不容缓。近年来环境催化技术作为有效的治理手段得到了大量的关注和研究,环境催化技术对scr催化剂有较高的要求,其中具有较大的比表面积,合适的孔容、孔径是最基本的要求。
这是因为催化过程要求污染物分子能够到达催化剂表面,即要经历外扩散、内扩散和吸附过程,虽然在开发大比表面积、合适的孔容、孔径催化剂方面已经有了很大的进展,但在开发过程中仍然采用传统的试错法,需要投入大量的人力物力,大大增加了开发的时间和成本。
因此,本发明提出了一种切实可行的基于数据驱动的预测scr催化剂孔隙结构的新方法,辅助新催化剂的开发,以降低成本,提高效率。
技术实现要素:
本发明的目的在于提供一种能够提高开发效率的基于机器学习技术预测scr催化剂孔隙结构的方法,解决背景技术中所述的问题。
本发明解决其技术问题所采用的技术方案是:
一种基于机器学习技术预测scr催化剂孔隙结构的方法,该方法包括以下步骤:
s1.收集已知的scr催化剂信息作为数据建立数据库,scr催化剂信息包括scr催化剂类型信息、scr催化剂组成信息、scr催化剂制备信息和scr催化剂孔隙结构信息;
s2.对数据进行初筛和归一化,将数据库内数据按比例划分为训练集和测试集;
s3.采用训练集构建机器学习预测模型,以scr催化剂类型信息、scr催化剂组成信息和scr催化剂制备信息作为输入参数,通过机器学习预测模型计算输出scr催化剂孔隙结构信息,以评价指标评价机器学习预测模型的精度,采用交叉验证评估机器学习预测模型的泛化能力;
s4.采用测试集测试机器学习预测模型的精度并以评价指标进行评价,当精度达标时则输出机器学习预测模型,当精度不达标时则重复步骤s3直至精度达标;
s5.采用s4所输出的机器学习预测模型对scr催化剂孔隙结构进行预测。
作为优选,所述步骤s1中,scr催化剂类型信息为贵金属、过渡金属氧化物、分子筛和复合氧化物中的一种或多种;scr催化剂组成信息为scr催化剂组成元素种类、质量分数和摩尔分数中的一种或多种;scr催化剂制备信息为scr催化剂制备方法和scr催化剂制备参数中的一种或多种,scr催化剂制备参数包括煅烧处理、退火处理、水热处理、处理温度、处理气氛和处理时间;scr催化剂孔隙结构信息为比表面积、平均孔径和平均孔容中的一种或多种。
作为优选,所述步骤s2中,数据初筛包括删除无差异的特征、采用灰色理论估算缺失值和删除异常值。
作为优选,所述步骤s2中,数据归一化采用以下公式:
式中,yi为归一化数据,xi为原始数据,xmin为原始数据中每一维数据中的最小值,xmax为原始数据中每一维数据中的最大值。
作为优选,所述步骤s2中,将数据库内数据以随机划分方法按8:2的比例划分为训练集和测试集,训练集占比80%,测试集占比20%。
作为优选,所述步骤s3包括以下子步骤:
s3.1.选择机器学习算法;
s3.2.采用训练集确定机器学习算法的超参数;
s3.3.基于整个训练集,以超参数确定的机器学习算法建立机器学习预测模型,采用十折交叉验证的方法评估机器学习预测模型的泛化能力,防止过拟合。
作为优选,所述步骤s3.1中,所述机器学习算法包括线性回归法、k近邻法、随机森林回归法、xgbregressor法、gradientboostingregressor法、ridgecv法、adaboostregressor法、elasticnetcv法和极端随机森林回归法。
作为优选,所述步骤s4中,当精度不达标时,以更换机器学习算法或调整机器学习算法的超参数重复步骤s3直至精度达标。
作为优选,所述步骤s3和s4中,评价指标为相关性系数r、回归系数r2、平均绝对误差mae、均方根误差rmse和相对误差rae中的一种或多种。
作为优选,所述相关性系数r的计算公式为:
所述回归系数r2的计算公式为:
所述平均绝对误差mae的计算公式为:
所述均方根误差rmse的计算公式为:
所述相对误差rae的计算公式为:
式中,n为样本总数,yai和ypi分别代表真实值和预测值,
本发明的有益效果是:
本发明的一种基于机器学习技术预测scr催化剂孔隙结构的方法,基于已有的scr催化剂类型、组成、制备及孔隙结构信息,利用机器学习的方法构建预测模型,可以用于对未知催化剂的高通量筛选,与传统的实验-表征开发手段相比,极大的节约了成本,加快了开发速度,具有高效、低耗、可靠性高等优点,而且普适性强,可推广应用于各种吸附和催化材料的设计与开发。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明的方法流程图;
图2是本发明实施例1的机器学习预测模型在训练集的预测结果图;
图3是本发明实施例1的机器学习预测模型在测试集的预测结果图;
图4是本发明实施例2的机器学习预测模型在训练集的预测结果图;
图5是本发明实施例2的机器学习预测模型在测试集的预测结果图。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体说明。应当理解,本发明的实施并不局限于下面的实施例,对本发明所做的任何形式上的变通和/或改变都将落入本发明保护范围。
在本发明中,若非特指,所有的份、百分比均为重量单位,所采用的设备和原料等均可从市场购得或是本领域常用的。下述实施例中的方法,如无特别说明,均为本领域的常规方法。下述实施例中的部件或设备如无特别说明,均为通用标准件或本领域技术人员知晓的部件,其结构和原理都为本技术人员均可通过技术手册得知或通过常规实验方法获知。
本发明提出了一种基于机器学习技术预测scr催化剂孔隙结构的方法,通过收集文献实验数据和催化剂信息,获取大量的催化剂组成-结构数据,构建催化剂的组成-结构数据库,利用机器学习的方法建立催化剂组成、制备方法与催化剂孔隙结构之间的非线性关系,实现scr催化剂孔隙结构的预测,为大比表面积、特定孔容、孔径scr催化剂的开发提供强大的辅助工具。
本发明的构思为:针对研究的问题,在收集已知催化剂的组成信息、制备信息和结构信息的基础上建立数据库,对数据库中的数据预处理之后,通过特征工程确认描述符,数据归一化处理后按照一定的比例划分为训练集和测试集,采用机器学习的方法构建催化剂孔隙结构信息的预测模型,通过交叉验证的方法评估模型的泛化能力,防止过拟合,再用测试集来测试模型的可靠性,采用相关性系数r,回归系数r2,平均绝对误差mae,均方根误差rmse,相对误差rae等数值指标来评估模型的精度,最终得到最佳的预测模型。该预测模型可以针对所研究体系中催化剂的孔隙结构信息进行预测,采用这种方法辅助scr催化剂的开发和设计可以提高开发效率,缩短产品开发周期。本发明对数据库中的数据来源没有特别的要求,可以来自于已发表的论文、报告、专利、公开数据库,也可以通过实验合成、测试收集得来,但要求数据的准确性和可靠性要有保证。
以下结合实施例详细叙述本发明的技术方案。
实施例1:
如图1所示的一种基于机器学习技术预测scr催化剂孔隙结构的方法,该方法包括以下步骤:
s1.收集已知的scr催化剂信息作为数据建立数据库,scr催化剂信息包括scr催化剂类型信息、scr催化剂组成信息、scr催化剂制备信息和scr催化剂孔隙结构信息;
s2.对数据进行初筛和归一化,将数据库内数据按比例划分为训练集和测试集;
s3.采用训练集构建机器学习预测模型,以scr催化剂类型信息、scr催化剂组成信息和scr催化剂制备信息作为输入参数,通过机器学习预测模型计算输出scr催化剂孔隙结构信息,以评价指标评价机器学习预测模型的精度,采用交叉验证评估机器学习预测模型的泛化能力;
s4.采用测试集测试机器学习预测模型的精度并以评价指标进行评价,当精度达标时则输出机器学习预测模型,当精度不达标时则重复步骤s3直至精度达标;
s5.采用s4所输出的机器学习预测模型对scr催化剂孔隙结构进行预测。
步骤s1中,scr催化剂类型信息为贵金属、过渡金属氧化物、分子筛和复合氧化物中的一种或多种。scr催化剂组成信息为scr催化剂组成元素种类、质量分数和摩尔分数中的一种或多种。scr催化剂制备信息为scr催化剂制备方法和scr催化剂制备参数中的一种或多种,scr催化剂制备参数包括煅烧处理、退火处理、水热处理、处理温度、处理气氛和处理时间。scr催化剂孔隙结构信息为比表面积、平均孔径和平均孔容中的一种或多种。本实施例分别选择为以下具体信息,
scr催化剂类型信息:贵金属催化剂、负载型金属氧化物催化剂、固溶体型金属氧化物催化剂、分子筛催化剂;
scr催化剂组成信息:scr催化剂组成元素种类、质量分数和摩尔分数;
scr催化剂制备信息:scr催化剂制备方法、煅烧温度、煅烧时间;
scr催化剂孔隙结构信息:比表面积。
步骤s2中,将收集到的数据进行初步筛选,包括但不限于:删除无差异的特征,采用灰色理论估算缺失值,删除异常值等。将数据库中的数据进行归一化处理,使得所有的数据都处在(0,1)之间,通过特征工程选择描述符,采用随机划分的方法将数据按照8:2的比例划分为两份,其中占比80%的作为训练集、占比20%的作为测试集;训练集用于机器学习模型训练,测试集用于测试验证模型的精度,在模型训练完成后使用。
其中,数据归一化采用以下公式:
式中,yi为归一化数据,xi为原始数据,xmin为原始数据中每一维数据中的最小值,xmax为原始数据中每一维数据中的最大值。
步骤s3包括以下子步骤:
s3.1.选择机器学习算法;
s3.2.采用训练集确定机器学习算法的超参数;
s3.3.基于整个训练集,以超参数确定的机器学习算法建立机器学习预测模型,采用十折交叉验证的方法评估机器学习预测模型的泛化能力,防止过拟合。
机器学习算法包括线性回归法、k近邻法、随机森林回归法、xgbregressor法、gradientboostingregressor法、ridgecv法、adaboostregressor法、elasticnetcv法和极端随机森林回归法。
步骤s3和s4中,评价指标为相关性系数r、回归系数r2、平均绝对误差mae、均方根误差rmse和相对误差rae中的一种或多种。
本实施例选取极端随机森林回归法作为scr催化剂比表面积的预测算法,采用回归系数r2和均方根误差rmse作为判断模型精度的评价指标,其计算公式如下:
式中,n为样本总数,yai和ypi分别代表真实值和预测值,
利用十折交叉验证,评估模型的泛化能力,防止过拟合,通过遗传算法对超参数进行优化。如图2所示,在该训练集上所得到的最佳模型预测的scr催化剂比表面积与真实值之间的回归系数r2高达0.96,均方根误差rmse仅为3.27%,据此说明该模型在训练集上可行。
需要指出的是,如果采用相关性系数r、平均绝对误差mae、相对误差rae作为评价指标,则其计算公式为:
式中,n为样本总数,yai和ypi分别代表真实值和预测值,
步骤s4中,测试集中的数据作为未知的催化剂数据并未参与模型的训练,使用训练好的预测模型,对测试集中的催化剂比表面积进行预测,预测结果如图3所示,模型预测值与实际值之间的回归系数达到0.72,均方根误差约为7.67%。据此可知该模型具有较高的精确度,可以用于新催化剂比表面积的预测,辅助催化剂的设计和开发。
实施例2:
一种基于机器学习技术预测scr催化剂孔隙结构的方法,技术方案同实施例1,其不同之处在于:
步骤s1中,scr催化剂类型信息:贵金属催化剂、负载型金属氧化物催化剂、固溶体型金属氧化物催化剂、分子筛催化剂;
scr催化剂组成信息:scr催化剂组成元素种类、质量分数和摩尔分数;
scr催化剂制备信息:scr催化剂制备方法、煅烧温度、煅烧时间;
scr催化剂孔隙结构信息:平均孔容。
步骤s3中,如图4所示,在训练集上所得到的最佳模型预测的scr催化剂平均孔容与真实值之间的回归系数r2高达0.97,均方根误差rmse仅为2.46%,说明该模型在训练集上可行。
步骤s4中,使用训练好的预测模型,对测试集的催化剂平均孔容进行预测,预测结果如图5所示,模型预测值与实际值之间的回归系数达到0.83,均方根误差约为6.73%。具有较高的精确度,可以用于新催化剂平均孔容的预测,辅助催化剂的设计和开发。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。
1.一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:该方法包括以下步骤:
s1.收集已知的scr催化剂信息作为数据建立数据库,scr催化剂信息包括scr催化剂类型信息、scr催化剂组成信息、scr催化剂制备信息和scr催化剂孔隙结构信息;
s2.对数据进行初筛和归一化,将数据库内数据按比例划分为训练集和测试集;
s3.采用训练集构建机器学习预测模型,以scr催化剂类型信息、scr催化剂组成信息和scr催化剂制备信息作为输入参数,通过机器学习预测模型计算输出scr催化剂孔隙结构信息,以评价指标评价机器学习预测模型的精度,采用交叉验证评估机器学习预测模型的泛化能力;
s4.采用测试集测试验证机器学习预测模型的精度并以评价指标进行评价,当精度达标时则输出机器学习预测模型,当精度不达标时则重复步骤s3直至精度达标;
s5.采用s4所输出的机器学习预测模型对scr催化剂孔隙结构进行预测。
2.根据权利要求1所述的一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:所述步骤s1中,scr催化剂类型信息为贵金属、过渡金属氧化物、分子筛和复合氧化物中的一种或多种;scr催化剂组成信息为scr催化剂组成元素种类、质量分数和摩尔分数中的一种或多种;scr催化剂制备信息为scr催化剂制备方法和scr催化剂制备参数中的一种或多种,scr催化剂制备参数包括煅烧处理、退火处理、水热处理、处理温度、处理气氛和处理时间;scr催化剂孔隙结构信息为比表面积、平均孔径和平均孔容中的一种或多种。
3.根据权利要求1所述的一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:所述步骤s2中,数据初筛包括删除无差异的特征、采用灰色理论估算缺失值和删除异常值。
4.根据权利要求1所述的一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:所述步骤s2中,数据归一化采用以下公式:
式中,yi为归一化数据,xi为原始数据,xmin为原始数据中每一维数据中的最小值,xmax为原始数据中每一维数据中的最大值。
5.根据权利要求1所述的一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:所述步骤s2中,将数据库内数据以随机划分方法按8:2的比例划分为训练集和测试集,训练集占比80%,测试集占比20%。
6.根据权利要求1所述的一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:所述步骤s3包括以下子步骤:
s3.1.选择机器学习算法;
s3.2.采用训练集确定机器学习算法的超参数;
s3.3.基于整个训练集,以超参数确定的机器学习算法建立机器学习预测模型,采用十折交叉验证的方法评估机器学习预测模型的泛化能力,防止过拟合。
7.根据权利要求6所述的一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:所述步骤s3.1中,所述机器学习算法包括线性回归法、k近邻法、随机森林回归法、xgbregressor法、gradientboostingregressor法、ridgecv法、adaboostregressor法、elasticnetcv法和极端随机森林回归法。
8.根据权利要求6所述的一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:所述步骤s4中,当精度不达标时,以更换机器学习算法或调整机器学习算法的超参数重复步骤s3直至精度达标。
9.根据权利要求1所述的一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:所述步骤s3和s4中,评价指标为相关性系数r、回归系数r2、平均绝对误差mae、均方根误差rmse和相对误差rae中的一种或多种。
10.根据权利要求9所述的一种基于机器学习技术预测scr催化剂孔隙结构的方法,其特征在于:所述相关性系数r的计算公式为:
所述回归系数r2的计算公式为:
所述平均绝对误差mae的计算公式为:
所述均方根误差rmse的计算公式为:
所述相对误差rae的计算公式为:
式中,n为样本总数,yai和ypi分别代表真实值和预测值,