本发明涉及小样本机械故障诊断,特别涉及一种基于改进孪生胶囊网络的小样本跨工况故障诊断方法及系统。
背景技术:
1、旋转机械,如轴承、齿轮、电动机、水泵等,是工业生产中最常见的设备之一,在机械制造、航空航天、轨道交通、汽车生产、水利水电等领域,都发挥着至关重要的作用。随着现代工业技术的高速发展,旋转机械变得更加大型化、复杂化、高性能化。在制造生产过程中,由于旋转机械在运行过程中常常会受到多种复杂因素的影响,故障的发生往往是不可避免的。因此,开发一种准确、高效的故障诊断方法对于提前预防故障、减少停机时间和降低维修成本具有十分重要的实际意义和现实需求。
2、近年来,基于深度学习技术的旋转机械故障诊断方法发展迅速,因其能够自动从大量的设备运行数据中学习到复杂的特征表示,进而识别出各种故障模式,不再依赖于专家知识或动力学模型,被广泛运用于各种旋转机械故障诊断工作中。基于深度学习的故障诊断研究通常会涉及多种不同的深度学习模型,例如卷积神经网络(cnn)、循环神经网络(rnn)、深度置信网络(dbn)和自编码器等。这些模型可以处理多种多样的数据形式,其中就包括故障诊断领域中最常使用的时间序列振动信号数据、频谱数据和图像数据等。
3、基于深度学习的故障诊断方法,往往需要使用大量的、高质量的有标签数据对深度学习模型进行训练,使其拥有较好的故障诊断性能。但是在实际的工业生产场景中,往往会面临以下几方面挑战:(1)在某些工业设备中,可能会出现罕见的故障情况,由于设备长时间处于平稳的运行状态,这些故障的发生概率很小,难以收集足够数量的样本来支持传统深度学习模型的训练;(2)在某些工业领域,例如飞机引擎、核电站水泵等领域,由于设备的复杂性较高、风险性较大,难以获取足够的高质量带标签数据进行故障诊断研究;(3)在实际的工业生产场景中,存在着不断变换的工况条件和众多不同的设备,设备的关键部件如齿轮、轴承、转轴等的特征频率和幅值信息等都会发生变化,用于训练深度学习模型的训练集数据和实际部署过程中使用的测试集数据,往往存在着较大的数据分布差异,因此使用传统的深度学习模型,难以达到很好的跨域诊断性能。
4、为了解决上述的故障数据难以获取及不同工况下故障诊断效果不佳的问题,一些用于解决小样本问题和跨工况问题的深度学习故障诊断方法已经被提出。其中,基于元迁移学习的方法在最近一段时间成为研究的热点。中国专利《一种基于元迁移学习的轴承小样本故障诊断方法和系统》(申请日:2023.02.16;申请号:202310121756.0;申请公布日:2023.07.21;申请公布号:cn 116465630 a)公开了一种基于元迁移学习的轴承小样本故障诊断方法,该方法是一种针对小样本的轴承故障诊断方法和系统,通过采集振动信号、转换为特征图片,并利用元迁移学习对深度学习模型进行训练和优化,实现高效的小样本故障诊断。虽然元迁移学习在小样本故障诊断场景中展现出了一定的潜力,但是要找到与源域训练集具有高相似性的目标域数据并非易事,此外,元迁移学习过程中适当元任务的选择以及参数的调整也十分复杂,这些问题都可能影响故障诊断模型的性能。因此,需要寻找一种有效的方法来同时解决故障诊断中面临的小样本问题和跨工况问题,提高故障诊断方法的泛化能力和可靠性。
技术实现思路
1、本发明的目的在于克服现有技术的缺点与不足,提供一种基于改进孪生胶囊网络的小样本跨工况故障诊断方法,该方法可以有效提高深度学习模型在旋转机械小样本故障诊断与跨工况故障诊断中的诊断精度,有效改进小样本变工况场景下的智能故障诊断任务。
2、为了实现本发明的目的,本发明提供的一种基于孪生多尺度注意力小波胶囊网络的旋转机械故障诊断方法,步骤如下:
3、步骤1、故障数据的采集和标定:使用振动加速度传感器,采集旋转机械在不同的实验工况下的振动加速度信号,并设置类别标签。从获取到的振动加速度信号中,使用滑窗技术截取一定长度的数据段构成样本;
4、步骤2、构建源域训练样本对数据集:选取某一工况的数据集作为源域数据集,并从源域数据集中随机抽取两个样本构成样本对。来自相同故障类别的样本构成的样本对称为正样本对,来自不同故障类别的样本构成的样本对称为负样本对。所有的正负样本对构成源域训练样本对数据集;
5、步骤3、构建满足n-shot测试的目标域支持样本集和测试样本集:选取源域数据集工况之外的工况数据集作为目标域数据集,将目标域数据集划分为每类n个带标签样本构成的支持样本集和剩余不带标签的样本构成的测试样本集;
6、步骤4、构建特征提取器:特征提取器用于对原始故障振动信号进行特征提取,包括并联的两个分支特征提取器,每个分支特征提取器包括串联的多尺度注意力小波输入特征提取模块和胶囊网络模块多尺度注意力小波输入特征提取模块用于通过采用相同小波核函数但核大小不同的多个小波卷积层或采用使用不同小波核函数的多个小波卷积层来对原始的振动信号进行不同尺度的特征提取以提取到更多有用的信息,胶囊网络模块用于对多尺度注意力小波输入特征提取模块提取到的特征做进一步提取,获得更细粒度的特征;
7、步骤5、构建度量学习器:度量学习器用于计算特征向量在特征空间中的距离,并判断样本对的相似度;
8、步骤6、构建孪生多尺度注意力小波胶囊网络小样本跨工况故障诊断模型:将步骤4中构建的特征提取器和步骤5中构建的度量学习器相结合,构成能够完成小样本与跨工况情况下的旋转机械故障诊断模型;
9、步骤7、模型训练:将步骤2中构建的源域训练样本对数据集中的样本对,分批次输入到步骤6中构建的小样本跨工况故障诊断模型中,对模型的特征提取器和度量学习器进行训练;
10、步骤8、模型测试:将步骤3中构建的测试样本集中的样本,分别和支持样本集中的样本进行配对,并分批次输入步骤7中已完成训练的小样本跨工况故障诊断模型进行诊断,得到小样本跨工况条件下的旋转机械故障诊断结果。
11、最终可以使用训练得到的小样本跨工况故障诊断模型来进行故障诊断。
12、进一步地,在步骤1中,旋转机械的不同工况数据指1)在相同负载下不同转速的振动信号与2)在相同转速下不同负载的振动信号,以确保获得覆盖各种情况的原始振动信号数据。采集每种工况下的原始振动信号后,采用滑窗技术截取特定长度的数据段作为样本,使得同一工况下所有样本构成该工况的数据集。在截取样本时,确保各样本数据点之间不重叠。
13、进一步地,在步骤2中,选取特定工况的数据集作为源域数据集,确保每个样本都具有故障类别标签,并控制每个故障类别的样本数量,如每类不超过20个标记样本。从源域数据集中随机抽取两个样本构成样本对,将来自相同故障类别的样本对定义为正样本对,赋予“1”的标签;将来自不同故障类别的样本对定义为负样本对,赋予“0”的标签。确保正、负样本对数量相等,其中正样本对数量不超过同一故障类别中可能构成的所有不重复样本对的最大数量。所有正负样本对共同构成源域训练样本对数据集。
14、进一步地,在步骤3中,不同工况的选择包括相同转速下不同负载的情况以及相同负载下不同转速的情况。根据n-shot测试的具体要求,目标域数据集被划分为两部分:一部分为支持样本集,由每个故障类别指定数量n的带标签样本组构成,用于标识目标域故障类别;另一部分为测试样本集,由目标域数据集中除去支持样本集之外的剩余不带标签的样本构成,用于测试模型在目标域上的诊断性能。
15、进一步地,在步骤4中,通过构建多尺度注意力小波输入特征提取模块,利用不同大小的小波卷积核进行特征提取或利用不同的小波核函数来进行特征提取,并采用改进金字塔注意力加权模块对提取的特征进行重要性加权,从而优化特征的表达能力。该模块包括一系列的小波卷积模块,每个模块都包括小波卷积层、一维batchchannelnormalization层、relu层以及一维maxpool层。改进金字塔注意力加权模块通过cbam注意力权重模块和softmax函数对特征进行加权处理,使得不同特征根据其在整体中的重要程度被适当放大,其主要的工作流程是将不同的小波卷积模块提取到的特征分别送入cbam注意力权重模块中,得到对应的cbam注意力权重再将所得到的这些权重拼接在一起,并送入softmax函数模块,计算每个特征的权重在所有特征权重中的占比wi,得到不同小波卷积模块提取到的特征在所有特征中的重要程度;将不同的特征与对应的wi相乘得到加权后的特征并沿通道方向拼接,得到一个多尺度注意力小波特征。
16、进一步地,在步骤4中,胶囊网络模块由三个不同大小卷积核的卷积模块、一个一维胶囊网络模块和一个展开层串联构成。卷积模块包含了一个一维卷积层,一个一维batchchannelnormal层,一个relu层。一维胶囊网络模块由两个共享权值的一维胶囊网络串联构成。将多尺度注意力小波输入特征提取模块与胶囊网络模块串联,形成模型的一个分支特征提取器。为了构建孪生网络结构,复制该分支特征提取器,得到两个分支结构相同、权值共享,并将它们并联,从而完成孪生多尺度注意力小波胶囊网络特征提取器的构建。这一步骤实现了对原始故障振动信号的高效特征提取,为后续的故障诊断和分析提供了强大的支持。
17、进一步地,在步骤5中,通过构建一个结合全连接网络和dropout层的度量学习器来实现特征向量间距离的计算与样本对相似度的判断。该度量学习器主要包含两个全连接模块,以及位于这两个模块之间的一个dropout层。首个全连接模块由一个全连接层紧接一个relu激活层串联构成,目的是对输入的特征向量进行初步的非线性变换和激活。其后,通过引入dropout层,增强学习器的泛化能力,有效减少过拟合风险。第二个全连接模块仅包含一个全连接层,旨在进一步转换特征向量,以便进行最终的相似度计算。
18、进一步地,在步骤6中,孪生多尺度注意力小波胶囊网络特征提取器与度量学习器的结合,构成一个高效的小样本跨工况故障诊断模型。此模型通过串联步骤4中开发的特征提取器和步骤5中设计的度量学习器,实现了对旋转机械故障特征的深度学习和精确度量。特征提取器负责从原始故障振动信号中抽取关键信息,并通过度量学习器精确计算特征向量间的相似度,从而实现小样本跨工况条件下的故障诊断。
19、进一步地,在步骤7中,对孪生多尺度注意力小波胶囊网络小样本跨工况故障诊断模型进行训练,采用mini-batch学习方法。训练使用源域训练样本对数据集,其中每个批次的样本对大小设置为32。训练过程中,采用对比损失函数以优化模型,同时使用adadelta优化器,其学习率定为0.0003。整个训练过程预定进行50个epoch,直至达到既定的训练周期后停止,以此完成模型的训练并优化其性能。
20、进一步地,在步骤8中,将步骤3构建的测试样本集中的样本与支持样本集中的样本进行配对,形成测试样本对。随后,这些测试样本对被分批次输入到经过步骤7训练优化的孪生多尺度注意力小波胶囊网络故障诊断模型中进行处理。在模型测试过程中,对每个测试样本对中的两个样本在特征空间中的距离进行计算,以此来评估样本对的相似度。模型通过识别具有最小特征空间距离的样本对,确定最相似样本对的支持样本所属的故障类别标签作为测试样本的预测标签,实现了对测试样本集的旋转机械故障诊断,从而验证了模型在小样本跨工况条件下的诊断性能和准确性。
21、本发明还提供基于改进孪生胶囊网络的小样本跨工况故障诊断系统,用于实现前述方法,所述系统包括以下模块:
22、信号获取模块,用于获取旋转机械在不同的实验工况下的振动加速度信号,并设置类别标签,基于所述振动加速度信号构建样本;
23、数据集构建模块,用于选取某一工况的数据集作为源域数据集,并从源域数据集中随机抽取两个样本构成样本对,来自相同故障类别的样本构成的样本对称为正样本对,来自不同故障类别的样本构成的样本对称为负样本对,所有的正负样本对构成源域训练样本对数据集,并选取源域数据集工况之外的工况数据集作为目标域数据集,将目标域数据集划分为每类n个带标签样本构成的支持样本集和剩余不带标签的样本构成的测试样本集;
24、特征提取器构建模块,用于构建特征提取器,特征提取器用于对原始故障振动信号进行特征提取,包括并联的两个分支特征提取器,每个分支特征提取器包括串联的多尺度注意力小波输入特征提取模块和胶囊网络模块,多尺度注意力小波输入特征提取模块用于通过采用相同小波核函数但核大小不同的多个小波卷积层或采用使用不同小波核函数的多个小波卷积层来对原始的振动信号进行不同尺度的特征提取以提取到更多有用的信息,胶囊网络模块用于对多尺度注意力小波输入特征提取模块提取到的特征做进一步提取,获得更细粒度的特征;
25、度量学习器构建模块,用于构建度量学习器,用于计算特征向量在特征空间中的距离,并判断样本对的相似度;
26、模块构建模块,用于构建孪生多尺度注意力小波胶囊网络小样本跨工况故障诊断模型,将所述中构建的特征提取器和所述度量学习器相结合,构成用于完成小样本与跨工况情况下的旋转机械故障诊断模型;
27、模型训练模块,用于将构建的源域训练样本对数据集中的样本对,分批次输入到所述孪生多尺度注意力小波胶囊网络小样本跨工况故障诊断模型中,对特征提取器和度量学习器进行训练;
28、诊断模块,用于将待测数据输入到训练得到的孪生多尺度注意力小波胶囊网络小样本跨工况故障诊断模型中,得到小样本跨工况条件下的旋转机械故障诊断结果。
29、与现有技术相比,本发明的有益效果至少如下:
30、1、本发明使用孪生神经网络作为解决旋转机械小样本跨工况情况下的故障诊断问题的框架,能够通过精细的特征提取和对比损失的学习机制,有效捕捉和比较样本间的细微差异,从而实现对不同故障类别的精确诊断,即使面对样本数量有限和工况变化大的挑战,也能维持出色的诊断性能和良好的泛化能力。
31、2、本发明通过融合多尺度小波卷积与创新性地引入的注意力机制模块,显著提升了旋转机械跨工况故障诊断的性能。多尺度小波卷积结合了小波变换技术的多尺度分解能力和卷积神经网络的特征提取能力,通过小波变换对信号进行多尺度的分解,可以精确捕捉到信号在不同频率和尺度上的局部特征,而卷积神经网络则能够从这些分解后的信号中自动学习到有用的特征表示。多尺度小波卷积的应用使得本模型能够深入挖掘并利用旋转机械信号在不同频率和尺度上的特征信息,确保了对复杂故障模式的高效识别。同时,所引入的注意力机制模块通过动态调整不同尺度特征的权重分配,优化了模型对关键故障特征的关注度,进一步增强了故障诊断的准确性和鲁棒性。该技术的应用,特别是在样本量有限及实验工况发生变化的场景中,不仅提高了故障检测的准确率和可靠性,而且显著提升了模型的泛化能力,为旋转机械的故障诊断提供了一种高效、可靠的技术方案。
32、3、本发明通过使用胶囊网络模块,进一步提高了对旋转机械小样本故障诊断的性能。胶囊网络模块的结构允许它捕获输入数据的层次化空间关系,一维胶囊网络可以通过自身的动态路由机制有效地学习特征之间的部分到整体的关系,不同于传统的卷积神经网络(cnn)只能捕捉局部特征而忽略其空间层次结构,胶囊网络能够通过其内部的向量表示捕获特征的方向和大小等信息,使得模型在只使用少量样本进行训练的情况下,能够更加有效地识别和学习复杂的故障特征,使得模型能在更细粒度上理解故障信号,实现小样本跨工况情况下更为精确和鲁棒的故障诊断。
33、4、本发明所提出的方法,充分考虑了在工业实际中的运用情况,在目标域数据极为有限且源域数据量不大的条件下,也能实现高精度的故障诊断,展现了在满足实际生产需求的同时,对资源利用的极致优化和技术创新的实际应用潜力,具备一定的工业应用价值。
1.基于改进孪生胶囊网络的小样本跨工况故障诊断方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于改进孪生胶囊网络的小样本跨工况故障诊断方法,其特征在于,通过目标域数据集对模型进行测试,在模型测试时,将测试样本集中的样本分别和支持样本集中的样本进行配对,并分批次输入已完成训练的孪生多尺度注意力小波胶囊网络小样本跨工况故障诊断模型中进行诊断,得到小样本跨工况条件下的旋转机械故障诊断结果。
3.根据权利要求2所述的基于改进孪生胶囊网络的小样本跨工况故障诊断方法,其特征在于,将测试样本集中的样本与支持样本集中的样本进行配对,形成测试样本对;随后,这些测试样本对被分批次输入到经过训练优化的孪生多尺度注意力小波胶囊网络故障诊断模型中进行处理;在模型测试过程中,对每个测试样本对中的两个样本在特征空间中的距离进行计算,以此来评估样本对的相似度;模型通过识别具有最小特征空间距离的样本对,确定最相似样本对的支持样本所属的故障类别标签作为测试样本的预测标签,实现对测试样本集的旋转机械故障诊断。
4.根据权利要求1所述的基于改进孪生胶囊网络的小样本跨工况故障诊断方法,其特征在于,在步骤1中,旋转机械的不同工况数据包括:在相同负载下不同转速的振动信号、在相同转速下不同负载的振动信号。
5.根据权利要求1所述的基于改进孪生胶囊网络的小样本跨工况故障诊断方法,其特征在于,所述多尺度注意力小波输入特征提取模块包括多尺度小波模块和注意力模块,多尺度小波模块用于利用不同大小的小波卷积核或不同小波核函数来进行不同尺度的特征提取,注意力模块用于对提取的特征进行重要性加权。
6.根据权利要求5所述的基于改进孪生胶囊网络的小样本跨工况故障诊断方法,其特征在于,多尺度小波模块包括多个不同尺度的小波卷积模块,每个小波卷积模块包括小波卷积层、一维batchchannelnormalization层、relu层以及一维maxpool层,小波卷积层用于从原始振动信号中提取故障特征,batchchannelnormalization层用于提高模型的收敛速度、提高训练的稳定性和提高模型的鲁棒性,relu层用于在神经网络中引入非线性,maxpool层用于对提取到的故障特征进行下采样,其中,多个小波卷积模块中的小波卷积层的小波核函数类型相同但核大小不同以实现多尺度,或,多个小波卷积模块中的小波卷积层采用不同类型的小波核函数以实现多尺度;
7.根据权利要求1所述的基于改进孪生胶囊网络的小样本跨工况故障诊断方法,其特征在于,所述胶囊网络模块包括三个不同大小卷积核的卷积模块、一个一维胶囊网络模块和一个展开层,卷积模块、一维胶囊网络模块和展开层串联连接,每个卷积模块包括一维卷积层、一维batchchannelnormal层和relu层,一维胶囊网络模块包括两个串联的共享权值的一维胶囊网络。
8.根据权利要求1所述的基于改进孪生胶囊网络的小样本跨工况故障诊断方法,其特征在于,所述度量学习器包括两个全连接模块、以及位于两个全连接模块之间的一个dropout层,首个全连接模块包括串联连接的全连接层和relu激活层串联,用于对输入的特征向量进行初步的非线性变换和激活,dropout层用于增强学习器的泛化能力;第二个全连接模块仅包含一个全连接层,用于进一步转换特征向量,以便进行最终的相似度计算。
9.根据权利要求1-8任一所述的基于改进孪生胶囊网络的小样本跨工况故障诊断方法,其特征在于,对孪生多尺度注意力小波胶囊网络小样本跨工况故障诊断模型进行训练,采用mini-batch学习方法,训练使用源域训练样本对数据集,并设置每个批次的样本对大小;训练过程中,采用对比损失函数以优化模型,同时使用adadelta优化器来进行优化。
10.基于改进孪生胶囊网络的小样本跨工况故障诊断系统,其特征在于,用于实现权利要求1-9任一所述方法,所述系统包括以下模块: