技术领域:
本发明专利属于工业时序域,具体涉及一种基于目标先验分布的工业时序域适应分类方法。
背景技术:
:
为实现工业智能,工业时序数据,需要被充分利用,而时间序列分类是工业智能的一个重要技术方法。工业时序分类是常见的问题,比如故障诊断,异常检测及其他预测,是指由工业设备采集的传感器数据。该数据的特点是,连续数据,标签少,噪声大,存在数据漂移问题。
工业时序数据由于存在数据漂移等问题,无法直接应用深度学习方法,且一些专家经验并没有充分考虑。
迁移学习有源域与目标域,源域就是已有的数据,目标域就是要应用的目标。比如,工业时序分类的任务,比如故障诊断,源域就是一种工况下的故障分类,目标域就是新的工况下的故障分类。
例如:有两类不同环境场景下的工业设备数据的传感器信号,目的希望做设备状况分类,场景a下训练的模型直接用到场景b下的数据上,准确率很差,那怎么办呢?我有些场景b的标签数据,同时专家告诉我,场景b下一般哪种类别常见,哪种类别稀有,据此可构造目标域的先验分布,那么利用场景b的少量数据,结合场景a的大量数据,结合专家的经验,就可以训练一个场景b的模型,准确率更高。以故障诊断未来,场景a和场景b就是不同工况下的故障分类,专家经验就是告诉我场景b下内圈故障比例50%,外圈故障比例30%,滚珠故障比例20%。
在目前现有技术中存在下列问题:
1.工业时序数据存在数据噪声大,样本不足的情况,现有的图像或文本迁移学习无法直接应用于工业时序数据。
2.现有的工业时序的域适应分类方法,大部分对于目标域的先验分布没有充分考虑。目前的迁移学习大多只是考虑的对抗损失,而对于目标域的先验分布信息并未充分考虑。在目标域有有一些先验知识的情况下,并没有充分利用该部分信息。
因此,本发明实际上,通过引入先验知识改进了迁移学习的域适应应用于工业时序数据分类上。基于上述在源域与目标域时序数据分布不同的情况下,提出一种基于目标先验分布的工业时序域适应分类方法用以改善工业时序分类的效果。
技术实现要素:
:
本发明的目的在于提供一种基于目标先验分布的工业时序域适应分类方法。
为实现上述目的,本发明所采取的技术方案是一种基于目标先验分布的工业时序域适应分类方法,包括以下几个步骤:
第一步:时序数据预处理
初始工业时序数据经过归一化,平滑等预处理,得到处理后的时间序列作为网络的输入数据,该网络的需要数据需要,源域的时间序列数据,时间序列所属的类别,目标域的时间序列数据。
第二步:网络结构与损失函数设计
网络结构为神经网络结构,依据不同数据集,网络结构不同。这里提供某一实验数据集的网络供参考:
网络按照该损失函数为目标进行训练。
损失函数包括源域的交叉熵损失(图中的taskloss),源域与目标域的对抗损失(图中domainloss),目标域的先验损失(图中jensen-shannonloss)。工业时序分类模型的优化目标是三个目标损失的集合,其中交叉熵损失目的是为了提高模型的分类准确性,对抗损失目的是希望源域与目标域的数据分布尽可能相似,即找到源域与目标域共性的部分,先验损失的目的为希望目标域的数据分布与给出的先验分布尽可能相似。
(x,y)~ds中ds代表的是源域,(x,y)代表的是带标签的源域数据,x为数据,y为标签。c(x)代表的是任务分类器,f(x)代表特征生成器,d(x)代表域分类器,r(x)为梯度反转操作。ds,dt为域标签,默认源域为0,目标域为1。ytrue为目标域数据标签的类别先验分布。整个loss由任务分类器的损失ly、域分类器的损失ld、弱监督损失lws构成。首先,任务分类器损失ly由带标签的目标域数据计算而得,任务分类器将特征生成器的输出f(x)作为输入,最后将输出预测结果c(f(x))与标签y计算损失,即e(x,y)~ds[ly(c(f(x)),y)]。其次,域分类器的损失由带各自域标签的源域数据以及目标域数据计算而得,域分类器将特征生成器的输出f(x)作为输入,将输出预测结果d(r(f(x)))与数据x对应的域标签计算损失。需要注意的是,r(x)在域分类器预测数据的域标签的过程中不起作用,其只在反向传播的过程中对域分类器传导至特征生成器的梯度进行符号反转操作。最后,弱监督损失lws由目标域数据的类别先验分布ytrue与任务分类器对目标域数据预测的伪标签的类别概率分布计算而得。整个loss优化过程通过最小化上述三个损失实现。
ly和ld都是交叉熵损失,lws先验损失是js散度,相应的公式如下:
djs为jensen-shannons散度,其由kullback-leibler散度经过上述计算而得。
其中p,q为两个已知的概率分布。
lws为弱监督损失,其通过计算目标域数据的类别先验分布
第三步:对抗训练
对抗训练涉及特征生成网络,域分类器网络和任务分类器网络。特征生成网络目的是提取工业时序数据的特征,域分类器网络的目的是做一个二分类,预测数据来源属于源域还是目标域,任务分类器网络的目的是将源域的数据尽可能分类准确。
对抗训练目的希望,一方面实现源域数据集准确分类,实现现分类误差的最小化;另一方面是要混淆源域数据集和目标域数据集,实现域分类误差的最大化。对抗训练参照dann的网络训练方法(因为引入了梯度反转层,将原先的对抗损失转为了统一的最小化问题),按照提出的损失函数进行网络训练,直至网络收敛。
第四步:保存特征生成网络与任务分类器网络。
第五步:将新的工业时序数据输入保存的特征生成网络与任务分类器网络得到预测结果。
本发明公开了一种基于目标先验分布的工业时序域适应分类方法,包括以下几个步骤:1)时序数据预处理,2)网络结构与损失函数设计;3)对抗训练;4)保存特征生成网络与任务分类器网络;5)将新的工业时序数据输入保存的特征生成网络与任务分类器网络得到预测结果;通过引入先验知识改进了迁移学习的域适应应用于工业时序数据分类上;提高了模型在目标域的准确性;引入目标域的先验分布,增强了模型的泛化性能。
附图说明
图1为本发明流程示意图,
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面对本发明实施方案进行详细描述。一种基于目标先验分布的工业时序域适应分类方法,包括以下几个步骤:
第一步:时序数据预处理
初始工业时序数据经过归一化,平滑等预处理,得到处理后的时间序列作为网络的输入数据,该网络的需要数据需要,源域的时间序列数据,时间序列所属的类别,目标域的时间序列数据。
第二步:网络结构与损失函数设计
网络结构为神经网络结构,依据不同数据集,网络结构不同。这里提供某一实验数据集的网络供参考:
网络按照该损失函数为目标进行训练。
损失函数包括源域的交叉熵损失(图中的taskloss),源域与目标域的对抗损失(图中domainloss),目标域的先验损失(图中jensen-shannonloss)。工业时序分类模型的优化目标是三个目标损失的集合,其中交叉熵损失目的是为了提高模型的分类准确性,对抗损失目的是希望源域与目标域的数据分布尽可能相似,即找到源域与目标域共性的部分,先验损失的目的为希望目标域的数据分布与给出的先验分布尽可能相似。
(x,y)~ds中ds代表的是源域,(x,y)代表的是带标签的源域数据,x为数据,y为标签。c(x)代表的是任务分类器,f(x)代表特征生成器,d(x)代表域分类器,r(x)为梯度反转操作。ds,dt为域标签,默认源域为0,目标域为1。ytrue为目标域数据标签的类别先验分布。整个loss由任务分类器的损失ly、域分类器的损失ld、弱监督损失lws构成。首先,任务分类器损失ly由带标签的目标域数据计算而得,任务分类器将特征生成器的输出f(x)作为输入,最后将输出预测结果c(f(x))与标签y计算损失,即e(x,y)~ds[ly(c(f(x)),y)]。其次,域分类器的损失由带各自域标签的源域数据以及目标域数据计算而得,域分类器将特征生成器的输出f(x)作为输入,将输出预测结果d(r(f(x)))与数据x对应的域标签计算损失。需要注意的是,r(x)在域分类器预测数据的域标签的过程中不起作用,其只在反向传播的过程中对域分类器传导至特征生成器的梯度进行符号反转操作。最后,弱监督损失lws由目标域数据的类别先验分布ytrue与任务分类器对目标域数据预测的伪标签的类别概率分布计算而得。整个loss优化过程通过最小化上述三个损失实现。
ly和ld都是交叉熵损失,lws先验损失是js散度,相应的公式如下:
djs为jensen-shannons散度,其由kullback-leibler散度经过上述计算而得。其中p,q
为两个已知的概率分布。
lws为弱监督损失,其通过计算目标域数据的类别先验分布
第三步:对抗训练
对抗训练涉及特征生成网络,域分类器网络和任务分类器网络。特征生成网络目的是提取工业时序数据的特征,域分类器网络的目的是做一个二分类,预测数据来源属于源域还是目标域,任务分类器网络的目的是将源域的数据尽可能分类准确。
对抗训练目的希望,一方面实现源域数据集准确分类,实现现分类误差的最小化;另一方面是要混淆源域数据集和目标域数据集,实现域分类误差的最大化。对抗训练参照dann的网络训练方法(因为引入了梯度反转层,将原先的对抗损失转为了统一的最小化问题),按照提出的损失函数进行网络训练,直至网络收敛。
第四步:保存特征生成网络与任务分类器网络。
第五步:将新的工业时序数据输入保存的特征生成网络与任务分类器网络得到预测结果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
1.一种基于目标先验分布的工业时序域适应分类方法,其特征在于:包括以下几个步骤:1)时序数据预处理,2)网络结构与损失函数设计;3)对抗训练;4)保存特征生成网络与任务分类器网络;5)将新的工业时序数据输入保存的特征生成网络与任务分类器网络得到预测结果。
2.基于权利要求1所述的一种基于目标先验分布的工业时序域适应分类方法,其特征在于:所述时序数据预处理步骤如下:初始工业时序数据经过归一化,平滑等预处理,得到处理后的时间序列作为网络的输入数据,该网络的需要数据需要,源域的时间序列数据,时间序列所属的类别,目标域的时间序列数据。
3.基于权利要求2所述的一种基于目标先验分布的工业时序域适应分类方法,其特征在于:所述网络结构与损失函数设计步骤如下:网络结构为神经网络结构,依据不同数据集,网络结构不同;网络按照该损失函数为目标进行训练;
损失函数包括源域的交叉熵损失,源域与目标域的对抗损失,目标域的先验损失;工业时序分类模型的优化目标是三个目标损失的集合,其中交叉熵损失目的是为了提高模型的分类准确性,对抗损失目的是希望源域与目标域的数据分布尽可能相似,即找到源域与目标域共性的部分,先验损失的目的为希望目标域的数据分布与给出的先验分布尽可能相似;
上述函数中:(x,y)~ds中ds代表的是源域,(x,y)代表的是带标签的源域数据,x为数据,y为标签。c(x)代表的是任务分类器,f(x)代表特征生成器,d(x)代表域分类器,r(x)为梯度反转操作。ds,dt为域标签,默认源域为0,目标域为1。ytrue为目标域数据标签的类别先验分布。整个loss由任务分类器的损失ly、域分类器的损失ld、弱监督损失lws构成;首先,任务分类器损失ly由带标签的目标域数据计算而得,任务分类器将特征生成器的输出f(x)作为输入,最后将输出预测结果c(f(x))与标签y计算损失,即e(x,y)~ds[ly(c(f(x)),y)]。其次,域分类器的损失由带各自域标签的源域数据以及目标域数据计算而得,域分类器将特征生成器的输出f(x)作为输入,将输出预测结果d(r(f(x)))与数据x对应的域标签计算损失。需要注意的是,r(x)在域分类器预测数据的域标签的过程中不起作用,其只在反向传播的过程中对域分类器传导至特征生成器的梯度进行符号反转操作。最后,弱监督损失lws由目标域数据的类别先验分布ytrue与任务分类器对目标域数据预测的伪标签的类别概率分布计算而得。整个loss优化过程通过最小化上述三个损失实现;
ly和ld都是交叉熵损失,lws先验损失是js散度,相应的公式如下:
djs为jensen-shannons散度,其由kullback-leibler散度经过上述计算而得。其中p,q
lws为弱监督损失,其通过计算目标域数据的类别先验分布
4.基于权利要求3所述的一种基于目标先验分布的工业时序域适应分类方法,其特征在于:所述对抗训练步骤如下:对抗训练涉及特征生成网络,域分类器网络和任务分类器网络。特征生成网络目的是提取工业时序数据的特征,域分类器网络的目的是做一个二分类,预测数据来源属于源域还是目标域,任务分类器网络的目的是将源域的数据尽可能分类准确;对抗训练目的希望,一方面实现源域数据集准确分类,实现现分类误差的最小化;另一方面是要混淆源域数据集和目标域数据集,实现域分类误差的最大化;对抗训练参照dann的网络训练方法,按照提出的损失函数进行网络训练,直至网络收敛。
技术总结