基于鲁棒半监督判别分析的工业过程故障方法与流程

专利2022-05-09  100



1.本发明涉及一种工业过程故障分类方法,尤其涉及一种基于鲁棒半监督判别分析的工业过程故障分类方法。


背景技术:

2.现代工业过程日益大规模化、复杂化,导致故障产生的可能性显著增加;当故障在大规模的、复杂的工业过程中传播时,会导致低产品质量、高生产能耗、设备损坏、人员伤亡、环境污染等严重后果。例如,2019年7月19日,河南省三门峡市河南煤气集团义马气化厂的空气分离装置因冷箱漏液故障出现“砂爆”,最终导致爆炸,并造成15人死亡、16人重伤。2020年9月8日,山西省临汾市襄汾县襄汾宏源焦化有限公司烟气脱硫风机突发停机故障,导致烟道爆裂,并造成2人死亡。因此,为了确保安全、高质、高效、绿色生产,有必要进行有效的过程监测,及时地发现和消除故障。
3.传统的过程监测方法大致包括状态估计、参数估计、等价空间等基于机理模型的方法和故障树、专家系统、有向图等基于专家知识的方法,对于大规模复杂工业过程,上述两类方法在实用性、通用性等方面仍存在较大缺陷;近年来,集散控制系统、工业物联网等信息技术的迅速发展为现代工业过程的数据采集与存储奠定了坚实基础;因此,数据驱动的过程监测已成为现代工业过程综合自动化的关键研究领域之一。作为数据驱动过程监测的重要研究内容,故障分类能够在检测故障是否发生的同时,为操作工程师提供故障类别信息,对于后续的故障溯源与过程恢复具有重要作用。因此,有必要针对实际工业过程,研究实用有效的故障分类方法。
4.从机器学习的角度分析,工业过程故障分类本质上属于典型的模式识别问题,通常采用近邻分类器、随机森林、判别分析、支持向量机、神经网络等方法实现;其中,判别分析、支持向量机、神经网络是使用更为广泛的三类方法。
5.早期的基于判别分析的工业过程故障分类方法均采用监督学习模式,要求所有历史训练样本被全部地、正确地标记;受限于高成本专家标记资源,实际工业过程的历史训练样本通常只能被随机标记小部分;因此,近年来,研究者们逐渐提出一些基于半监督判别分析的工业过程故障分类方法。
6.然而,对于现有的基于半监督判别分析的工业过程故障分类方法,见图1,仍有如下问题尚未得到有效解决:
7.(1)在利用无标记历史训练样本信息时,无法识别源于未知故障类别的无标记历史训练样本;这些样本本质上相当于异常点(或噪声)数据,会严重影响模型分类性能,见图2。
8.(2)所建立的故障分类模型无法识别源于未知故障类别的在线样本,导致模型实用性不强、分类性能亟待改善。


技术实现要素:

9.本发明针对现有技术的不足,提供了一种基于鲁棒半监督判别分析的工业过程故障方法。
10.本发明包括以下步骤:
11.步骤1:故障分类模型的离线训练
12.(1)对工业过程历史训练样本进行随机标记,使得部分历史训练样本获得标记信息。
13.(2)对工业过程历史训练样本进行标准化预处理,消除不同量纲对建模的影响。
14.(3)利用样本识别准则,识别历史训练样本中源于未知故障类别的样本,避免这些样本参与半监督分类模型的建立,从而消除这些样本对分类模型的不良影响。
15.(4)结合有标记历史训练样本和无标记历史训练样本的信息,建立基于半监督判别分析的工业过程故障分类模型。
16.步骤2:故障分类模型的在线使用
17.(1)利用样本识别准则,识别在线样本中源于未知故障类别的样本,避免故障分类模型将上述样本误分类为已知故障类别。
18.(2)对于源于已知故障类别的在线样本,则将其输入至半监督判别分析故障分类模型,进一步实现精确分类。
19.本发明的有益效果:相比于现有的基于半监督判别分析的工业过程故障分类方法,本发明结合实际工业过程,充分考虑了源于未知故障类别的历史训练样本和在线样本,提出了一种基于鲁棒半监督判别分析的工业过程故障分类方法。其创新之处包括如下两方面,一方面,设计了一种基于历史训练样本偏离度的样本识别准则,该准则能够有效识别源于未知故障类别的历史训练样本和在线样本,从而改善模型分类性能;另一方面,该准则能够和现有的半监督判别分析方法有机结合,提高现有半监督判别分析方法的鲁棒性。
附图说明
20.图1是现有方法假定的工业过程半监督故障分类场景图。
21.图2是实际的工业过程半监督故障分类场景图。
22.图3是本发明方法流程图。
23.图4是标记样本偏离度示意图。
24.图5是基于偏离度的样本识别准则图。
具体实施方式
25.如图3所示,本发明的具体实施步骤如下:
26.步骤1:故障分类模型的离线训练
27.(1)对工业过程历史训练样本进行随机标记,使得部分历史训练样本获得标记信息。
28.一方面,假定所收集的历史训练样本源于k个工况,每个工况的历史训练样本个数为n
k
,k=1,2,....,k,每个样本可表示为x∈r
m
(其中m为样本维度或变量个数)。对于k个工况,可分为1个正常工况、k

1个故障工况;对于k

1个故障工况,可分为g个存在有标记历史
训练样本的故障工况(相当于已知故障),以及k
‑1‑
g个不存在有标记历史训练样本的故障工况(相当于未知故障)。另一方面,根据专家标记资源的稀缺程度,假定标记率为η。那么,对于上述1个正常工况和g个已知故障工况,可认为每个工况均有n
k
×
η个样本被随机标记。
29.(2)对工业过程历史训练样本进行标准化预处理,消除不同量纲对建模的影响。
30.采用z

score标准化方法对历史训练样本进行预处理。假定源于正常工况的、被标记的历史训练样本个数为n
nl
,对于任一变量m,m=1,2,...,m,可利用上述n
nl
个样本,先按如下公式(1)计算变量m的均值mean(m):
[0031][0032]
其中,x
i
(m)表示样本x
i
,i=1,2,...,n
nl
的第m,m=1,2,...,m个变量。
[0033]
然后,可用如下公式(2)计算变量m的方差var(m):
[0034][0035]
进一步地,可用如下公式(3)计算变量m的标准差std(m):
[0036][0037]
结合上述均值mean(m)和标准差std(m),对于所有历史训练样本(同样适用于在线样本)x
i
的变量m,可按如下公式(4)进行标准化处理:
[0038][0039]
其中,为x
i
(m)标准化处理后所得的值。
[0040]
(3)利用样本识别准则,识别历史训练样本中源于未知故障类别的样本,避免这些样本参与半监督分类模型的建立,从而消除这些样本(本质上相当于异常点或噪声)对分类模型的不良影响。
[0041]
首先,如图4所示,以工况f(包括正常工况和已知故障工况)为例,可利用该工况的所有被标记历史训练样本组成的集合f
l
,寻找到其偏离度阈值。设该工况的所有被标记历史训练样本总数为则这些被标记历史训练样本的中心可按如下公式(5)计算:
[0042][0043]
对于集合f
l
中的任意被标记历史训练样本x
i
,可根据样本相对于中心的欧式距离,按如下公式(6)计算样本的偏离度
[0044][0045]
因此,综合考虑集合f
l
中的所有被标记历史训练样本,可按如下公式(7)计算所有被标记历史训练样本的最大偏离度
[0046]
[0047]
进一步地,可按如下公式(8)计算所有被标记历史训练样本的平均偏离度ad
f

[0048][0049]
结合上述最大偏离度和平均偏离度ad
f
,可按如下公式(9)计算偏离度阈值td
f

[0050][0051]
其中,α
f
和β
f
之积用来调整偏离度阈值td
f
和最大偏离度的关系,α
f
为样本识别准则中的参数,可根据实际情况进行选定。
[0052]
确定所有已知工况(即存在被标记历史训练样本的工况)的偏离度阈值后,可按图5所示的样本识别准则,对所有无标记历史训练样本进行识别,判断无标记历史训练样本是否源于未知故障。以图5中的3个故障为例,其中故障1、2均存在被标记的历史训练样本,代表已知故障(或工况),故障3不存在被标记的历史训练样本,代表未知故障(或工况)。由于故障2、3的无标记历史训练样本相对于故障1中心的偏离度远大于故障1的偏离度阈值,因而这些样本即使未被标记,也不会被认为源于故障1;类似地,故障1、3的无标记历史训练样本,同样不会被认为源于故障2;因此,故障3的无标记历史训练样本,既不会被认为源于故障1,亦不会被认为源于故障2;所以,故障3作为未知故障,其中的无标记历史训练样本能够被样本识别准则准确识别,避免作为异常点或噪声参与半监督故障分类模型的建立并严重降低模型分类性能。
[0053]
(4)结合被标记历史训练样本和无标记历史训练样本的信息,建立基于半监督判别分析的工业过程故障分类模型。
[0054]
利用上述(3)中的样本识别准则过滤掉源于未知故障类别的无标记历史训练样本后,可利用源于1 g个已知工况(包括1个正常工况和g个故障工况)类别的被标记历史训练样本和无标记历史训练样本,建立基于半监督判别分析的工业过程故障分类模型。由步骤1—(1)可知,对于工况k,k=1,2,...,1 g,每个工况均有n
k
×
η个样本被随机标记。在这种情况下,对于工况k,利用表示该工况所有被标记历史训练样本的集合,集合中的样本个数为并可按如下公式(10)计算该工况所有被标记历史训练样本的中心
[0055][0056]
基于上述中心,可按如下公式(11)计算工况k的类内离散度矩阵s
wk

[0057][0058]
考虑所有1 g个已知工况,可知所有工况的类内离散度矩阵s
w
为:
[0059]
[0060]
针对所有1 g个已知工况,被标记的历史训练样本个数n
l
可按如下公式(13)计算:
[0061][0062]
所有被标记历史训练样本的均值可按如下公式(14)计算:
[0063][0064]
对于所有已知工况,可按如下公式(15)计算类内离散度矩阵:
[0065][0066]
对于所有已知工况,设所有被标记历史训练样本构成的集合为x
l
,其中的样本个数为n
l
,所有无标记历史训练样本构成的集合为x
u
,其中的样本个数为n
u
,利用如下公式(16)计算所有历史训练样本(包括被标记的和无标记的)的均值c
t

[0067][0068]
然后,利用如下公式(17)计算所有样本的整体离散度矩阵:
[0069][0070]
结合维度为m的单位矩阵i
m
,可按如下公式(18)定义正则化的类间离散度矩阵和类内离散度矩阵:
[0071][0072]
参数β∈[0,1]为调整有监督历史训练样本信息和全局历史训练样本信息的系数,参照现有的大部分相关研究工作,通常情况下取0.5。
[0073]
半监督判别分析的关键,在于寻找合适的投影向量w
i
,使得原始空间中的样本投影至特征空间后,类内距离缩小,类间距离变大,从而在投影空间中实现更准确的分类。上述过程可用公式(19)所示的优化命题体现:
[0074][0075]
并且,上述优化命题转化为公式(20)所示的广义特征值问题:
[0076]
s
rb
w
i
=λ
i
s
rw
w
i
ꢀꢀ
or(s
rw
)
‑1s
rb
w
i
=λ
i
w
i
ꢀꢀꢀ
(20)
[0077]
其中,λ
i
,i=1,2,...,m为所求的广义特征值,w
i
,i=1,2,...,m为相应的广义特征向量;可将广义特征值按照大小排序为λ1≥λ2≥...≥λ
m
,对应的广义特征向量组成的投影矩阵为w=[w1,w2,...,w
m
]。若采用所有的广义特征向量进行投影,则模型的复杂度过高;因此,可采用如下类似于aic信息准则的方式确定合适的投影向量个数a:
[0078][0079]
其中,f
mis
(a)表示将所有被标记历史训练样本投影至前a个投影向量张成的特征空间后形成的误分类率,表示平均每类工况的被标记历史训练样本个数。因此,采用上述方式确定a后,最终的投影矩阵为w(a)=[w1,w2,...,w
a
]。
[0080]
当利用投影矩阵w(a)将样本从原始空间投影至特征空间后,可采用经典的贝叶斯分类法则确定样本类别。由于已知工况类别个数为1 g,对于样本x
t
(适应于历史训练样本和在线样本),其属于每类工况f
k
,k=1,2,...,1 g的先验概率为属于每类工况f
k
的条件概率为:
[0081][0082]
其中,∑
k
、s
wk
分别表示工况f
k
中所有被标记历史训练样本的协方差矩阵、均值向量、个数、类内离散度矩阵。
[0083]
由贝叶斯分类法则,可知样本x
t
属于工况f
k
的后验概率为:
[0084][0085]
进一步地,可根据样本x
t
属于各个工况的后验概率,选择后验概率最大的工况作为分类结果,如以下公式所示:
[0086][0087]
为简化运算,可采用如下判别函数g
k
(x
t
):
[0088][0089]
当计算完样本x
t
对应各个工况的判别函数值后,可选择判别函数值最大的工况作为分类结果,如以下公式所示:
[0090][0091]
步骤2:故障分类模型的在线使用
[0092]
(1)利用样本识别准则,识别在线样本中源于未知故障类别的样本,避免故障分类模型将上述样本误分类为已知故障类别。
[0093]
利用步骤1第(3)条中的样本识别准则,将在线样本和各个已知故障类别的偏离度阈值进行比较。若在线样本相对于各个已知故障类别中心的偏离度均大于其偏离度阈值,
则在线样本可认为源于未知故障类别;否则,在线样本可认为源于已知故障类别。
[0094]
(2)对于源于已知故障类别的在线样本,则将其输入至半监督判别分析故障分类模型,进一步实现精确分类。
[0095]
利用步骤1第(4)条建立的基于半监督判别分析的工业过程故障分类模型,对源于已知故障类别的在线样本进行分类,判断在线样本所属的故障类别。
[0096]
为了对本发明进行验证,本部分利用源于化工过程基准仿真平台te过程的数据和源于实际空分设备的数据进行实验,验证上述基于鲁棒半监督判别分析(robust semi

supervised fisher discriminant analysis,rsfda)的工业过程故障分类方法的效果与优势。对于te过程和实际空分设备,利用样本识别准则对历史训练样本的识别结果分别如表1和表2所示;利用rsfda对在线样本的分类结果分别如表3和表4所示;此外,采用
[0097]
fisher判别分析(fisher discriminant analysis,fda)、指数判别分析(exponential discriminant analysis,eda)、半监督fisher判别分析(semi

supervised fisher discriminant analysis,sfda)等工业过程故障分类方法作为对比。由实验结果可知,相比于现有方法技术,本发明所提出的基于鲁棒半监督判别分析(robust semi

supervised fisher discriminant analysis,rsfda)的工业过程故障分类技术一方面能够准确识别源于未知故障类别的历史训练样本,避免这些样本作为异常点或噪声严重干扰半监督故障分类模型的建立;另一方面能够准确识别源于未知故障类别的在线样本,避免这些样本被误认为源于已知故障类别导致误分类。总之,相比于现有方法技术,本发明所提出的工业过程故障分类技术具有更强的鲁棒性,更加适用于实际工业过程。
[0098]
表1.te过程历史训练样本的识别结果
[0099][0100]
表2.空分设备历史训练样本的识别结果
[0101][0102]
表3.te过程故障分类实验结果
[0103] fdaedasfdarsfda投影向量个数11920
故障0(即正常工况)分类精度63.5%65.0%43.75%64.88%故障10(已知故障)分类精度41.63%41.38%79.63%94.5%故障1(未知故障)分类精度00099%故障2(未知故障)分类精度00095.7%整体分类精度26.28%26.59%30.84%88.5%
[0104]
表4.空分设备故障分类实验结果
[0105] fdaedasfdarsfda投影向量个数1111故障0(即正常工况)分类精度100%100%12%100%故障1(已知故障)分类精度100%100%25.5%100%故障2(未知故障)分类精度000100%整体分类精度66.67%66.67%12.5%100%
[0106]
以上实施例仅用以说明本发明的技术方案而非限制,仅仅参照较佳实施例对本发明进行了详细说明。本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

技术特征:
1.基于鲁棒半监督判别分析的工业过程故障方法,其特征在于该方法包括以下步骤:步骤1:故障分类模型的离线训练(1)对工业过程历史训练样本进行随机标记,使得部分历史训练样本获得标记信息;(2)对工业过程历史训练样本进行标准化预处理,消除不同量纲对建模的影响;(3)利用样本识别准则,识别历史训练样本中源于未知故障类别的样本,避免这些样本参与半监督分类模型的建立,从而消除这些样本对分类模型的不良影响;(4)结合有标记历史训练样本和无标记历史训练样本的信息,建立基于半监督判别分析的工业过程故障分类模型;步骤2:故障分类模型的在线使用(1)利用样本识别准则,识别在线样本中源于未知故障类别的样本,避免故障分类模型将上述样本误分类为已知故障类别;(2)对于源于已知故障类别的在线样本,则将其输入至半监督判别分析故障分类模型,进一步实现精确分类;步骤1中所述的样本识别准则,其建立过程如下:对于所有已知工况,利用其被标记的历史训练样本,确定其偏离度阈值,所述的偏离度阈值由最大偏离度和平均偏离度确定,基于各个已知工况的偏离度阈值,进行样本识别。2.根据权利要求1所述的基于鲁棒半监督判别分析的工业过程故障方法,其特征在于:步骤1中第(4)条:在半监督故障分类模型建立过程中,综合利用被标记历史训练样本信息和所有历史训练样本信息,构造正则化的离散度矩阵,采用广义特征值分解求解最优的投影向量,利用贝叶斯分类法则实现样本分类。3.根据权利要求1所述的基于鲁棒半监督判别分析的工业过程故障方法,其特征在于:在确定投影向量个数时,为了在模型复杂度和分类性能之间寻求平衡,采用类似于aic信息准则的方式确定合适的投影向量个数a:其中,f
mis
(a)表示将所有被标记历史训练样本投影至前a个投影向量张成的特征空间后形成的误分类率,表示平均每类工况的被标记历史训练样本个数,m为样本维度。4.根据权利要求1所述的基于鲁棒半监督判别分析的工业过程故障方法,其特征在于:步骤2中第(1)条:利用已建立的样本识别准则,将在线样本和各个已知故障类别的偏离度阈值进行比较;若在线样本相对于各个已知故障类别中心的偏离度均大于其偏离度阈值,则在线样本可认为源于未知故障类别;否则,在线样本可认为源于已知故障类别。
技术总结
本发明涉及一种基于鲁棒半监督判别分析的工业过程故障分类方法。本发明在离线建模阶段,首先对历史训练样本进行随机标记,并利用正常工况下被标记历史训练样本的均值、标准差,对所有历史训练样本进行标准化处理,消除量纲不同对建模的影响。进一步地,对于各个已知工况,利用其被标记历史训练样本,建立基于偏离度阈值的样本识别准则,识别源于未知故障类别的历史训练样本。结合被标记历史训练样本信息和源于已知故障类别的无标记历史训练样本信息,建立基于半监督判别分析的故障分类模型。在模型在线使用阶段,利用已建立的样本识别准则,识别源于未知故障类别的在线样本,本发明能显著改善现有半监督判别分析方法在未知故障场景下的鲁棒性。知故障场景下的鲁棒性。知故障场景下的鲁棒性。


技术研发人员:刘俊 蒋鹏 许欢 李添骄
受保护的技术使用者:杭州电子科技大学
技术研发日:2021.03.26
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-367.html

最新回复(0)