一种基于自适应密度聚类算法的过程状态标注方法及装置

专利2025-12-02 26

本发明属于数据挖掘与分析，特别涉及一种基于自适应密度聚类算法的过程状态标注方法及装置。

背景技术：

1、随着物联网的高速发展和信息处理能力的提高、以及人口红利趋于消失的现状，提高质量和效率已成为我国工业发展的迫切需求。实现数字化、自动化和信息化，可实现工业生产现场的全面感知、自动控制和集中集成，有效降低恶劣自然环境下的人工操作强度，降低生产管理难度。通过智能物联网，可以及时诊断问题，优化管理流程，提高工作效率，实现精细化管理，降低成本，提高效率。通过物联网技术与工业生产过程的融合，建立工业生产过程的实时信息采集、传输与分析应用系统，实现对过程的监控与优化控制，从而显著降低能源消耗，有效提高生产效率。

2、由于物联网中的数据集大多是由传感器收集的，其样本很少甚至没有标签。它限制了它们的有效使用和积极反馈。数据标注耗时费力，尤其是在数据量大、更新快的情况下。因此，对大规模物联网数据集进行人工标注是不可能的。此外，它们之间的强相关性需要对样本解耦进行研究。因此，聚类作为一种无监督的机器学习算法，在快速而准确的标注过程的状态上具有很高的应用价值，也是最大化挖掘过程数据的前提，进而实现工业生产现场的全面感知、自动控制和集中集成。

技术实现思路

1、本发明针对上述需求与问题，提供了一种基于自适应密度聚类算法的过程状态标注方法及装置，用以对实时产生的无标签过程数据进行自动的类别标注，解决了目前人工标注的高成本、高耗时、标准不统一、准确率低的问题。

2、本发明为实现上述目的所采用的技术方案是：

3、一种基于自适应密度聚类算法的过程状态标注方法，包括以下步骤：

4、1)获取无标签的传感器实时过程数据作为样本，构建无标签数据集；

5、2)计算无标签数据集内所有样本的欧氏距离矩阵以及自适应密度；

6、3)计算无标签数据集的自适应邻域；

7、4)根据样本的自适应密度和样本间的欧式距离绘制决策图，并选择密度中心，作为搜索的起点集；

8、5)所有起点按照自适应密度从大到小的顺序进行邻域搜索，将位于其邻域内的所有满足合并条件的样本标注与起点一致的类簇，经过标注的样本再作为下一轮的起点，进行邻域搜索，直至邻域内再无满足条件的样本，结束搜索；

9、6)返回步骤5)，并从起点集中选择下一个未被标注的起点进行邻域搜索，直至起点集清空，完成传感器过程数据的状态标注。

10、所述自适应密度ρi为：

11、

12、其中，n表示样本的个数，dij表示样本i和样本j的欧氏距离，dave表示所有点到其最近点的距离的平均值，即自适应邻域，

13、

14、所述步骤4)具体为：

15、在无标签数据集中，对于每一个样本点i，找到所有比该样本点点i密度大的样本点j，选取其中最小的dij，记为δi，将δi与ρi分别作为纵坐标与横坐标作图即为决策图，所述密度中心即为δ值大于阈值的样本。

16、所述步骤5)，包括以下步骤：

17、将所选密度中心以密度从大到小顺序排列作为搜索的起点集，以某一个搜索起点为圆心，dave作为自适应邻域的半径，将邻域内密度大于密度阈值的样本均标注为与搜索起点相同的类簇c[i],即满足以下表达式：

18、c[i]＝{j|dij-dave≤0,j∈d′}

19、其中，d'是满足密度大于密度阈值的样本集；

20、将被标注过的样本作为下一轮邻域搜索的起点，进行下一轮邻域搜索，直至所有样本的邻域内再无满足密度条件的样本；

21、从搜索起点集选择下一个搜索起点，如果该起点已经被标注，则抛弃该起点，选择下一个搜索起点进行邻域搜索，以此类推，直至搜索起点集内再无未被标注的起点，邻域搜索过程结束，剩余未被标注的点，将其标注为距离其最近点相同的标签。

22、一种基于自适应密度聚类算法的过程状态标注装置，包括：

23、数据获取模块，用于获取无标签的传感器实时过程数据作为样本，构建无标签数据集；

24、自适应密度计算模块，用于计算无标签数据集内所有样本的欧氏距离矩阵以及自适应密度；计算无标签数据集的自适应邻域；

25、自适应邻域搜索模块，用于根据样本的自适应密度和样本间的欧式距离绘制决策图，并选择密度中心，作为搜索的起点集；所有起点按照自适应密度从大到小的顺序进行邻域搜索，将位于其邻域内的所有满足合并条件的样本标注与起点一致的类簇，经过标注的样本再作为下一轮的起点，进行邻域搜索，直至邻域内再无满足条件的样本，结束搜索；从起点集中选择下一个未被标注的起点进行邻域搜索，直至起点集清空，完成传感器过程数据的状态标注。

26、一种基于自适应密度聚类算法的过程状态标注装置，包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现所述的一种基于自适应密度聚类算法的过程状态标注方法。

27、一种计算机可读存储介质，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现所述的一种基于自适应密度聚类算法的过程状态标注方法。

28、本发明具有以下有益效果及优点：

29、1.本发明提出一种非参数密度计算方式。根据数据集的大小和特点，计算样本到最近样本距离的平均值，并将该距离作为参数，计算每个点的密度。

30、2.本发明提出了密度中心的概念及其基于决策图的关联选择方法。密度中心是聚类的起始点，直接影响聚类结果。通过一种基于决策图的密度中心选择策略来调整聚类结果。

31、3.本发明提出一种邻域自适应的邻域搜索聚类方法。每个数据集的邻域半径只与数据点的密度有关，可以自动计算，从而避免了人工设置。

32、4.本发明具有标准化，结构简单，容易标准化大规模推广。该装置适用面广，通用性强，制造成本低，易于推广使用，应用广泛，具有良好的经济效益和社会效益。

技术特征：

1.一种基于自适应密度聚类算法的过程状态标注方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于自适应密度聚类算法的过程状态标注方法，其特征在于，所述自适应密度ρi为：

3.根据权利要求1所述的一种基于自适应密度聚类算法的过程状态标注方法，其特征在于，所述步骤4)具体为：

4.根据权利要求1所述的一种基于自适应密度聚类算法的过程状态标注方法，其特征在于，所述步骤5)，包括以下步骤：

5.一种基于自适应密度聚类算法的过程状态标注装置，其特征在于，包括：

6.一种基于自适应密度聚类算法的过程状态标注装置，其特征在于，包括存储器和处理器；所述存储器，用于存储计算机程序；所述处理器，用于当执行所述计算机程序时，实现如权利要求1-4任一项所述的一种基于自适应密度聚类算法的过程状态标注方法。

7.一种计算机可读存储介质，其特征在于，所述存储介质上存储有计算机程序，当所述计算机程序被处理器执行时，实现如权利要求1-4任一项所述的一种基于自适应密度聚类算法的过程状态标注方法。

技术总结
本发明公开了一种基于自适应密度聚类的过程状态标注方法及装置，包括自适应密度计算模块，自适应邻域搜索模块。首先，采用非参数密度计算方法实现密度的自动计算；其次，计算该数据集的自适应邻域；最后，按照密度大小由高至低，循环选取密度中心，将满足合并条件的样本归为统一类簇。它的一个突出特点是可以自动设置参数，这是同类方法所不具备的。本发明可以对实时产生的无标签过程数据进行自动的类别标注，解决了目前人工标注的高成本、高耗时、标准不统一、准确率低的问题。

技术研发人员：何玉庆,张涛,李德才
受保护的技术使用者：中国科学院沈阳自动化研究所
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1825409.html

专利

最新回复(0)