本发明涉及特高压换流阀运行状态评估方法,具体涉及一种基于xgboost的特高压换流阀运行状态评估方法。
背景技术:
:中国是目前世界上运行与在建直流工程最多、容量最大、电压等级最高的直流输电大国。随着直流工程的增加和电网规模的扩大,电网对直流输电系统的可靠性指标要求也越来越高。特高压换流阀是目前特高压直流输电的核心设备,起着整流、逆变、开关等关键作用。一旦换流阀换相失败,将会直接导致直流侧电压下降、电流增大,严重时甚至可能导致功率传输中断,影响电网的运行安全。目前国内换流站主要采用计划检修的方式,通过安排全站停电,集中开展年度检修。然而,计划检修的停电时间较长,会对直流输电系统的经济效益产生负面影响。近年来,国内积极推行针对性和效率更高的状态检修,其中,状态确定与评估是开展状态检修的基础工作。由于换流阀在线监测技术发展缓慢,评估技术标准不完善,目前仍没有一套可靠的状态确定体系。评分法、灰色聚类与层次分析需要人为设定的因素较多,主观性过强;人工神经网络、深度学习的模型较为复杂,训练时间长,且容易产生过拟合。相对于普通的电力设备,换流阀包含的部件更多,影响其运行状态的因素也更加复杂,利用上述传统分类方法难以对换流阀进行有效的状态评估。此外,准确的状态评估需要足够多的历史故障样本作为支撑,然而目前国内投运的换流阀可靠性较高,非正常运行状态的样本较少,难以将模型训练至理想水平,从而导致基于上述方法的换流阀评估模型准确率较低。针对以上问题,一种更加客观、评估正确率更高、不依赖于足量均衡样本的换流阀运行状态评估方法是亟需解决的问题。技术实现要素:发明目的:为了克服现有技术中存在的不足,提供一种基于xgboost的特高压换流阀运行状态评估方法,以有效避免传统方法中主观性强、评估效率不足、过于依赖样本质量等问题,在对特高压换流阀状态评估方面具有更高的准确率,算法简单且易于实现,对各特征的贡献度实现可视化,在一定程度上帮助工程人员正确判断换流阀的状态等级及产生原因,为特高压换流阀的检修决策提供针对性的理论指导,应用价值和前景巨大。技术方案:为实现上述目的,本发明提供一种基于xgboost的特高压换流阀运行状态评估方法,包括如下步骤:s1:输入换流阀状态数据集;s2:对步骤s1的数据集进行预处理,实现数据均衡化;s3:训练xgboost分类器,结合k-fold交叉验证与网格搜索法获取评估模型的最优超参数;s4:根据步骤s2中预处理后的换流阀状态数据集,利用步骤s3中的评估模型对换流阀运行状态进行评估。进一步地,所述步骤s1中换流阀状态数据集包括晶闸管组件、阀冷却组件、阀避雷器以及外部环境的特征指标。进一步地,所述步骤s1中特征指标的提取方法为:a1:分析晶闸管组件、阀冷却组件、阀避雷器在特高压换流阀工作中承担的作用;a2:计及环境因素对换流阀运行的影响,共计选择42个表征运行状态的状态量;a3:对选择的各状态量进行量化;a4:设定四种运行状态等级。进一步地,所述步骤s2中预处理的方法为:b1:采用iforest算法剔除离群数据;b2:采用smote进行过采样,使得各状态等级的数据均衡化。进一步地,所述步骤s3具体为:c1:选定需要寻优的四个参数,并设定各参数网格搜索的范围;c2:逐个参数进行网格搜索,结合k-fold交叉验证法,将k个实验的准确率进行平均作为此模型下的性能指标;c3:重复上述步骤,直至准确率满足要求,获取到评估模型的最优超参数。进一步地,所述步骤c3中评估模型的最优超参数的获取过程为:d1:选择较高的学习速率,设定合理的提升器参数初始值,在每一次迭代中使用k-fold交叉验证,得到理想决策树数量;d2:依据步骤d1确定学习速率与决策树数量,采用k-fold交叉验证法与网格搜索法进行各提升器参数的寻优;d3:与步骤d2的方法相同,基于已有数据,调整正则化参数,降低过拟合;d4:适当降低学习速率,确定模型的最终理想参数组合。进一步地,所述步骤c1中选定的参数为四种,分别为决策树数量、最大树深度、最小叶子节点样本权重和与学习率。进一步地,所述步骤s3中xgboost算法目标函数为:其中该算法的目标是找到使式(1)最小的fk;不同于传统的梯度提升决策树,xgboost对式(1)进行了优化,同时采用泰勒公式将其展开,如式(3)所示式中:分别为损失函数的一次偏微分与二次偏微分;ij={i|q(xi)=j}为叶子j的样本集;l(p)相当于一个二次函数。有益效果:本发明与现有技术相比,具备如下优点:1、特征提取全面,计及环境因素对特高压换流阀运行状态的影响;2、减小了噪声点对模型训练的影响,增强了不均衡样本的训练效果,解决了现有方法过度依赖于足量均衡样本的问题,从而使得模型评估的准确率更高;3、评估过程中将各指标的贡献度可视化,易于观测对评估结果影响较大的状态量;4、可帮助工程人员正确判断特高压换流阀的运行状态,为制定换流阀检修决策提供针对性的理论指导,应用价值和前景巨大。附图说明图1为本发明的流程示意图;图2为2种数据预处理的原理示意图;图3为iforest参数的选取过程示意图;图4为各状态量的特征贡献度图;图5为评估结果的混淆矩阵图;图6为数据处理对模型的影响对比图。具体实施方式下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。本发明提供一种基于xgboost的特高压换流阀运行状态评估方法,如图1所示,其包括以下步骤:步骤一,提取特高压换流阀的晶闸管组件、阀冷却组件、阀避雷器以及外部环境4类特征指标。分析晶闸管组件、阀冷却组件、阀避雷器在特高压换流阀工作中承担的作用。本实施例基于国网企业标准《高压直流输电换流阀状态评价导则》,计及温度、相对湿度对换流阀运行的影响,共计选择42个表征运行状态的状态量,并对无明确数值的状态量量化至[0,1]。其中,0表示该状态量的积极状态,有利于换流阀的稳定运行;1表示该指标的负面状态,不利于换流阀的正常运行。在完成状态特征指标选择的基础上,对换流阀的运行状态进行划分,设定正常、注意、异常与严重四种运行状态等级。步骤二,数据预处理,剔除离群样本,并对少数类样本进行过采样。包括如下步骤:21、采用iforest算法剔除离群样本。对于数据集x={x1,x2,…,xm},从这m个数据中无放回地抽取出ψ个样本,随机选取一个特征作为起始节点,并在该特征的值域内随机选择一个值作为分界,将这ψ个样本进行二叉划分。重复进行二叉划分操作,直到x不可再被分割或二叉树达到规定的最大深度为止。22、利用smote算法对少数类样本进行过采样。对于少数类y={y1,y2,…,yn}中每个样本yi,采用欧氏距离为标准,计算其到少数类样本集y中其他所有样本的距离,得到h个近邻;然后从这h个样本中随机选取s个样本进行随机线性插值;重复该过程,直到新合成的数据使得数据集类别平衡。本实施例中smote与iforest-smote的数据处理原理示意如图2所示。图2(a)中,由于少数类集合中样本分布决定了其可以选择的近邻,因此当样本处在少数类边缘时,仅使用smote算法产生的合成样本也在类别边缘,有时甚至还会产生不合格的离群样本,这就加剧了数据的边缘化。而iforest-smote首先通过检测数据点的异常程度,剔除了离群样本,然后再进行smote过采样,以此避免生成不合格的新样本。如图2(b)所示,本发明提出的基于iforest-smote的数据预处理方法可以有效改善数据不平衡与数据分布边缘化等问题。步骤三,训练xgboost分类器,结合k-fold交叉验证与网格搜索法获取模型的最优超参数。包括如下步骤:31、选定需要寻优的四个参数:决策树数量(迭代次数)r1、最大树深度r2、最小叶子节点样本权重和r3与学习率r4,并设定各参数网格搜索的范围;32、逐个对xgboost的超参数进行网格搜索,结合k-fold交叉验证法,将k个实验的准确率进行平均作为此模型下的性能指标;xgboost算法目标函数为:其中该算法的目标是找到使式(1)最小的fk。不同于传统的梯度提升决策树,xgboost对式(1)进行了优化,同时采用泰勒公式将其展开,如式(3)所示式中:分别为损失函数的一次偏微分与二次偏微分;ij={i|q(xi)=j}为叶子j的样本集。l(p)可以看成一个二次函数,l(p)越小,意味着树的结构越好。33、重复上述步骤,直至准确率满足要求。具体参数寻优的顺序如下:331、选择较高的学习速率,设定合理的提升器参数初始值,在每一次迭代中使用k-fold交叉验证;332、依据步骤331确定学习速率与决策树数量,采用k-fold交叉验证法与网格搜索法进行各提升器参数的寻优。333、与步骤332的方法相同,基于已有数据,调整正则化参数,降低过拟合。334、适当降低学习速率,确定模型的最终理想参数组合。步骤四,将预处理后的数据集输入xgboost模型,对任意的换流阀运行状态进行评估。由于xgboost模型具有可视化的特点,对每个树模型进行分析,可以直观地展现换流阀运行状态的评估过程。每棵树参与划分的状态量、状态量分界值以及叶子节点的分数值各不相同。对于某组换流阀运行数据,根据每棵树的状态量要求进行划分,判断出该组数据在各棵树中所对应的叶子节点与叶子分值。将该组数据在类别1每棵树中对应的分数相加,即可得到该组数据在类别1中的总分数。此外,在xgboost模型中,采用特征贡献度能够衡量出各个状态量对评估结果的影响程度,从而为检修决策的制定提供理论指导。基于上述本发明的技术方案,本实施例将本发明方法进行实例应用,具体如下:取2018年江苏省某换流站的791组实测数据,包括查阅设备资料、巡视检查、带电检测、在线监测以及检修试验等。iforest算法的主要参数为itree数目s、样本采样数量ψ以及异常数据比例p。通常来说,ψ设定为默认值256就足以取得良好的异常检测效果。因此,本实施例对不同的itree数量s以及异常数据比例p进行分析,以准确率作为评价指标,默认参数下的xgboost作为基础分类器,选取最优参数组合。由图3可见,p=0时,模型准确率维持在93.3%左右,与参数s关系不大;p=0.03时模型的准确率最高,达到了94%以上。而在特定p下,当itree数目s达到80时结果通常趋向稳定。基于以上分析,iforest算法的主要参数设置如下:s=80,ψ=256,p=0.03。在原始791组数据中检测出23组离群样本,将其剔除后剩余768组,其中,正常、注意、异常与严重状态的样本分别占总样本数的56.9%、27.6%、11.2%与4.3%,正常状态样本远多于其他各类状态的样本,数据集严重不平衡。采用smote方法对少数类样本进行过采样,使各类样本数能够达到相对均衡的状态。数据预处理的结果如表1所示。表1数据预处理前后结果通过iforest-smote进行数据预处理,得到4种状态数据各430组左右。这些数据将组成新的数据集,用作xgboost模型的输入。设定初始学习率为0.1,然后进行迭代,当决策树数目达到500左右时模型准确率最高,且趋于平稳,因此确定r1=500;在此基础上,对树的最大深度与最小叶子节点样本权重和进行寻优,二者分别在r2=8与r3=1时准确率达到最大;最后通过逐步降低学习率可知,当r4=0.05时,模型准确率达到整体最大值97.1%。最佳参数组合如表2“最佳值”一列所示表2xgboost模型参数参数符号初始值搜索范围步长最佳值决策树数量r11000[1,1000]1500最大树深度r26[1,20]18最小叶子节点样本权重和r31[1,9]11学习率r40.1[0,0.1]0.010.05采用特征贡献度来衡量各个状态量对评估结果的影响程度。如图4所示,横轴代表特征编号s1—s42,纵轴代表特征贡献度,取值为[0,1]。图4中,晶闸管组件中的阀跳闸s10对换流阀状态评估的影响最大,特征贡献度达到了0.165。而在实际情况中,一旦发生了阀跳闸,将会严重影响换流站的整流逆变工作。因此,阀跳闸因素的特征贡献度最高与实际情况相符合。除此之外,晶闸管监视报警s11、阀冷却组件的阀塔主水路s27与阀避雷器的红外测温温度s36都具有较大的特征贡献度,这些都是实际巡检过程中需要着重关注的因素。基于搭建好的评估模型,对测试数据进行分类,结果可用图5的混淆矩阵表示。图5中的纵坐标为真实结果,横坐标为预测结果;最后一行与最后一列表示换流阀各状态等级分类的精确率与召回率;混淆矩阵右下角的数字表示整个评估模型的准确率。在344个用于测试的数据中,评估正确的数量达到了334个,准确率为97.1%。在10个错误分类中,相差1个状态等级的有8个,且所有的错误分类都发生在不正常运行状态的数据中,即正常运行的换流阀分类精确率为100%。这些细微的误差对检修决策的影响较小。为验证数据预处理部分对本发明所提模型的影响,分别利用原始数据集(xgboost)、smote处理后的数据集(smote-xgboost)以及iforest-smote处理后的数据集(iforest-smote-xgboost)进行训练,得到3个分类器,模型的其他步骤(如交叉验证、参数寻优等)保持一致。分类结果如图6所示。结合图6中的评价结果,可以得出结论:1)从整体上来看,加入iforest剔除离群样本后,4种状态的精确率、召回率均有提升,这也与图3中基于准确率选取出的最优参数p与s相对应。2)数据预处理对正常状态与注意状态的影响不大,精确率与召回率非常接近。这是因为正常与注意状态的数据量充足,且离群样本影响较小,仅通过原始数据即可训练出较优的xgboost评估模型。3)数据预处理对异常状态与严重状态的精确率、召回率有较大影响。采用iforest处理后的数据中,异常状态样本有86组,严重状态样本有33组,这些少量的数据难以训练模型至理想水平。然而通过smote算法,可以有效扩充少数类样本,且降低离群样本出现的概率,使得各类别的数据达到一个相对均衡的状态,从而有效辨识少数类样本。此外,本实施例还将参数寻优后的xgboost(gs-xgboost)与默认参数的xgboost、随机森林(randomforest,rf)以及决策树(decisiontree,dt)进行对比,判断各个方法对相同数据集的分类准确率。表3为这4种方法的准确率比较。表34种多分类算法准确率对比分类方法正确样本测试样本准确率/%gs-xgboost33434497.1xgboost32834494.2rf32334493.9dt33134496.2从表3中4种方法准确率对比可以看出,每一种分类器都可以对换流阀的运行状态进行有效分类。其中,gs-xgboost的分类精度最高,这也是因为本发明对xgboost模型中4个关键参数进行了网格寻优,在各个参数的取值范围内设定步长,从而寻得了最优参数。总体来说,本发明提出的评估方法能够较为准确地反应特高压换流阀的运行状态。当前第1页1 2 3 
技术特征:1.一种基于xgboost的特高压换流阀运行状态评估方法,其特征在于,包括如下步骤:
s1:输入换流阀状态数据集;
s2:对步骤s1的数据集进行预处理,实现数据均衡化;
s3:训练xgboost分类器,结合k-fold交叉验证与网格搜索法获取评估模型的最优超参数;
s4:根据步骤s2中预处理后的换流阀状态数据集,利用步骤s3中的评估模型对换流阀运行状态进行评估。
2.根据权利要求1所述的一种基于xgboost的特高压换流阀运行状态评估方法,其特征在于,所述步骤s1中换流阀状态数据集包括晶闸管组件、阀冷却组件、阀避雷器以及外部环境的特征指标。
3.根据权利要求2所述的一种基于xgboost的特高压换流阀运行状态评估方法,其特征在于,所述步骤s1中特征指标的提取方法为:
a1:分析晶闸管组件、阀冷却组件、阀避雷器在特高压换流阀工作中承担的作用;
a2:计及环境因素对换流阀运行的影响,选择表征运行状态的状态量;
a3:对选择的各状态量进行量化;
a4:设定四种运行状态等级。
4.根据权利要求1所述的一种基于xgboost的特高压换流阀运行状态评估方法,其特征在于,所述步骤s2中预处理的方法为:
b1:采用iforest算法剔除离群数据;
b2:采用smote进行过采样,使得各状态等级的数据均衡化。
5.根据权利要求1所述的一种基于xgboost的特高压换流阀运行状态评估方法,其特征在于,所述步骤s3具体为:
c1:选定需要寻优的参数,并设定各参数网格搜索的范围;
c2:逐个参数进行网格搜索,结合k-fold交叉验证法,将k个实验的准确率进行平均作为此模型下的性能指标;
c3:重复上述步骤,直至准确率满足要求,获取到评估模型的最优超参数。
6.根据权利要求5所述的一种基于xgboost的特高压换流阀运行状态评估方法,其特征在于,所述步骤c3中评估模型的最优超参数的获取过程为:
d1:选择学习速率,设定提升器参数初始值,在每一次迭代中使用k-fold交叉验证,得到理想决策树数量;
d2:依据步骤d1确定学习速率与决策树数量,采用k-fold交叉验证法与网格搜索法进行各提升器参数的寻优;
d3:与步骤d2的方法相同,基于已有数据,调整正则化参数,降低过拟合;
d4:降低学习速率,确定模型的最终理想参数组合。
7.根据权利要求5所述的一种基于xgboost的特高压换流阀运行状态评估方法,其特征在于,所述步骤c1中选定的参数为四种,分别为决策树数量、最大树深度、最小叶子节点样本权重和与学习率。
8.根据权利要求1所述的一种基于xgboost的特高压换流阀运行状态评估方法,其特征在于,所述步骤s3中xgboost算法目标函数为:
其中
该算法的目标是找到使式(1)最小的fk;xgboost对式(1)进行了优化,同时采用泰勒公式将其展开,如式(3)所示
式中:分别为损失函数的一次偏微分与二次偏微分;ij={i|q(xi)=j}为叶子j的样本集;l(p)相当于一个二次函数。
技术总结本发明公开了一种基于XGBoost的特高压换流阀运行状态评估方法,包括如下步骤:输入换流阀状态数据集;对数据集进行预处理,实现数据均衡化;训练XGBoost分类器,结合K‑fold交叉验证与网格搜索法获取评估模型的最优超参数;根据预处理后的换流阀状态数据集,利用评估模型对换流阀运行状态进行评估。本发明在对特高压换流阀状态评估方面具有更高的准确率,算法简单且易于实现,对各特征的贡献度实现可视化,在一定程度上帮助工程人员正确判断换流阀的状态等级及产生原因,为特高压换流阀的检修决策提供针对性的理论指导,应用价值和前景巨大。
技术研发人员:梅飞;张家堂;裴鑫;顾佳琪
受保护的技术使用者:河海大学
技术研发日:2021.04.27
技术公布日:2021.08.03