一种基于自适应密度聚类算法的过程状态标注方法及装置

专利2025-12-02  1


本发明属于数据挖掘与分析,特别涉及一种基于自适应密度聚类算法的过程状态标注方法及装置。


背景技术:

1、随着物联网的高速发展和信息处理能力的提高、以及人口红利趋于消失的现状,提高质量和效率已成为我国工业发展的迫切需求。实现数字化、自动化和信息化,可实现工业生产现场的全面感知、自动控制和集中集成,有效降低恶劣自然环境下的人工操作强度,降低生产管理难度。通过智能物联网,可以及时诊断问题,优化管理流程,提高工作效率,实现精细化管理,降低成本,提高效率。通过物联网技术与工业生产过程的融合,建立工业生产过程的实时信息采集、传输与分析应用系统,实现对过程的监控与优化控制,从而显著降低能源消耗,有效提高生产效率。

2、由于物联网中的数据集大多是由传感器收集的,其样本很少甚至没有标签。它限制了它们的有效使用和积极反馈。数据标注耗时费力,尤其是在数据量大、更新快的情况下。因此,对大规模物联网数据集进行人工标注是不可能的。此外,它们之间的强相关性需要对样本解耦进行研究。因此,聚类作为一种无监督的机器学习算法,在快速而准确的标注过程的状态上具有很高的应用价值,也是最大化挖掘过程数据的前提,进而实现工业生产现场的全面感知、自动控制和集中集成。


技术实现思路

1、本发明针对上述需求与问题,提供了一种基于自适应密度聚类算法的过程状态标注方法及装置,用以对实时产生的无标签过程数据进行自动的类别标注,解决了目前人工标注的高成本、高耗时、标准不统一、准确率低的问题。

2、本发明为实现上述目的所采用的技术方案是:

3、一种基于自适应密度聚类算法的过程状态标注方法,包括以下步骤:

4、1)获取无标签的传感器实时过程数据作为样本,构建无标签数据集;

5、2)计算无标签数据集内所有样本的欧氏距离矩阵以及自适应密度;

6、3)计算无标签数据集的自适应邻域;

7、4)根据样本的自适应密度和样本间的欧式距离绘制决策图,并选择密度中心,作为搜索的起点集;

8、5)所有起点按照自适应密度从大到小的顺序进行邻域搜索,将位于其邻域内的所有满足合并条件的样本标注与起点一致的类簇,经过标注的样本再作为下一轮的起点,进行邻域搜索,直至邻域内再无满足条件的样本,结束搜索;

9、6)返回步骤5),并从起点集中选择下一个未被标注的起点进行邻域搜索,直至起点集清空,完成传感器过程数据的状态标注。

10、所述自适应密度ρi为:

11、

12、其中,n表示样本的个数,dij表示样本i和样本j的欧氏距离,dave表示所有点到其最近点的距离的平均值,即自适应邻域,

13、

14、所述步骤4)具体为:

15、在无标签数据集中,对于每一个样本点i,找到所有比该样本点点i密度大的样本点j,选取其中最小的dij,记为δi,将δi与ρi分别作为纵坐标与横坐标作图即为决策图,所述密度中心即为δ值大于阈值的样本。

16、所述步骤5),包括以下步骤:

17、将所选密度中心以密度从大到小顺序排列作为搜索的起点集,以某一个搜索起点为圆心,dave作为自适应邻域的半径,将邻域内密度大于密度阈值的样本均标注为与搜索起点相同的类簇c[i],即满足以下表达式:

18、c[i]={j|dij-dave≤0,j∈d′}

19、其中,d'是满足密度大于密度阈值的样本集;

20、将被标注过的样本作为下一轮邻域搜索的起点,进行下一轮邻域搜索,直至所有样本的邻域内再无满足密度条件的样本;

21、从搜索起点集选择下一个搜索起点,如果该起点已经被标注,则抛弃该起点,选择下一个搜索起点进行邻域搜索,以此类推,直至搜索起点集内再无未被标注的起点,邻域搜索过程结束,剩余未被标注的点,将其标注为距离其最近点相同的标签。

22、一种基于自适应密度聚类算法的过程状态标注装置,包括:

23、数据获取模块,用于获取无标签的传感器实时过程数据作为样本,构建无标签数据集;

24、自适应密度计算模块,用于计算无标签数据集内所有样本的欧氏距离矩阵以及自适应密度;计算无标签数据集的自适应邻域;

25、自适应邻域搜索模块,用于根据样本的自适应密度和样本间的欧式距离绘制决策图,并选择密度中心,作为搜索的起点集;所有起点按照自适应密度从大到小的顺序进行邻域搜索,将位于其邻域内的所有满足合并条件的样本标注与起点一致的类簇,经过标注的样本再作为下一轮的起点,进行邻域搜索,直至邻域内再无满足条件的样本,结束搜索;从起点集中选择下一个未被标注的起点进行邻域搜索,直至起点集清空,完成传感器过程数据的状态标注。

26、一种基于自适应密度聚类算法的过程状态标注装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现所述的一种基于自适应密度聚类算法的过程状态标注方法。

27、一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现所述的一种基于自适应密度聚类算法的过程状态标注方法。

28、本发明具有以下有益效果及优点:

29、1.本发明提出一种非参数密度计算方式。根据数据集的大小和特点,计算样本到最近样本距离的平均值,并将该距离作为参数,计算每个点的密度。

30、2.本发明提出了密度中心的概念及其基于决策图的关联选择方法。密度中心是聚类的起始点,直接影响聚类结果。通过一种基于决策图的密度中心选择策略来调整聚类结果。

31、3.本发明提出一种邻域自适应的邻域搜索聚类方法。每个数据集的邻域半径只与数据点的密度有关,可以自动计算,从而避免了人工设置。

32、4.本发明具有标准化,结构简单,容易标准化大规模推广。该装置适用面广,通用性强,制造成本低,易于推广使用,应用广泛,具有良好的经济效益和社会效益。



技术特征:

1.一种基于自适应密度聚类算法的过程状态标注方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于自适应密度聚类算法的过程状态标注方法,其特征在于,所述自适应密度ρi为:

3.根据权利要求1所述的一种基于自适应密度聚类算法的过程状态标注方法,其特征在于,所述步骤4)具体为:

4.根据权利要求1所述的一种基于自适应密度聚类算法的过程状态标注方法,其特征在于,所述步骤5),包括以下步骤:

5.一种基于自适应密度聚类算法的过程状态标注装置,其特征在于,包括:

6.一种基于自适应密度聚类算法的过程状态标注装置,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1-4任一项所述的一种基于自适应密度聚类算法的过程状态标注方法。

7.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-4任一项所述的一种基于自适应密度聚类算法的过程状态标注方法。


技术总结
本发明公开了一种基于自适应密度聚类的过程状态标注方法及装置,包括自适应密度计算模块,自适应邻域搜索模块。首先,采用非参数密度计算方法实现密度的自动计算;其次,计算该数据集的自适应邻域;最后,按照密度大小由高至低,循环选取密度中心,将满足合并条件的样本归为统一类簇。它的一个突出特点是可以自动设置参数,这是同类方法所不具备的。本发明可以对实时产生的无标签过程数据进行自动的类别标注,解决了目前人工标注的高成本、高耗时、标准不统一、准确率低的问题。

技术研发人员:何玉庆,张涛,李德才
受保护的技术使用者:中国科学院沈阳自动化研究所
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1825409.html

最新回复(0)