本发明属于数据挖掘与分析,特别涉及一种基于自适应密度聚类算法的过程状态标注方法及装置。
背景技术:
1、随着物联网的高速发展和信息处理能力的提高、以及人口红利趋于消失的现状,提高质量和效率已成为我国工业发展的迫切需求。实现数字化、自动化和信息化,可实现工业生产现场的全面感知、自动控制和集中集成,有效降低恶劣自然环境下的人工操作强度,降低生产管理难度。通过智能物联网,可以及时诊断问题,优化管理流程,提高工作效率,实现精细化管理,降低成本,提高效率。通过物联网技术与工业生产过程的融合,建立工业生产过程的实时信息采集、传输与分析应用系统,实现对过程的监控与优化控制,从而显著降低能源消耗,有效提高生产效率。
2、由于物联网中的数据集大多是由传感器收集的,其样本很少甚至没有标签。它限制了它们的有效使用和积极反馈。数据标注耗时费力,尤其是在数据量大、更新快的情况下。因此,对大规模物联网数据集进行人工标注是不可能的。此外,它们之间的强相关性需要对样本解耦进行研究。因此,聚类作为一种无监督的机器学习算法,在快速而准确的标注过程的状态上具有很高的应用价值,也是最大化挖掘过程数据的前提,进而实现工业生产现场的全面感知、自动控制和集中集成。
技术实现思路
1、本发明针对上述需求与问题,提供了一种基于自适应密度聚类算法的过程状态标注方法及装置,用以对实时产生的无标签过程数据进行自动的类别标注,解决了目前人工标注的高成本、高耗时、标准不统一、准确率低的问题。
2、本发明为实现上述目的所采用的技术方案是:
3、一种基于自适应密度聚类算法的过程状态标注方法,包括以下步骤:
4、1)获取无标签的传感器实时过程数据作为样本,构建无标签数据集;
5、2)计算无标签数据集内所有样本的欧氏距离矩阵以及自适应密度;
6、3)计算无标签数据集的自适应邻域;
7、4)根据样本的自适应密度和样本间的欧式距离绘制决策图,并选择密度中心,作为搜索的起点集;
8、5)所有起点按照自适应密度从大到小的顺序进行邻域搜索,将位于其邻域内的所有满足合并条件的样本标注与起点一致的类簇,经过标注的样本再作为下一轮的起点,进行邻域搜索,直至邻域内再无满足条件的样本,结束搜索;
9、6)返回步骤5),并从起点集中选择下一个未被标注的起点进行邻域搜索,直至起点集清空,完成传感器过程数据的状态标注。
10、所述自适应密度ρi为:
11、
12、其中,n表示样本的个数,dij表示样本i和样本j的欧氏距离,dave表示所有点到其最近点的距离的平均值,即自适应邻域,
13、
14、所述步骤4)具体为:
15、在无标签数据集中,对于每一个样本点i,找到所有比该样本点点i密度大的样本点j,选取其中最小的dij,记为δi,将δi与ρi分别作为纵坐标与横坐标作图即为决策图,所述密度中心即为δ值大于阈值的样本。
16、所述步骤5),包括以下步骤:
17、将所选密度中心以密度从大到小顺序排列作为搜索的起点集,以某一个搜索起点为圆心,dave作为自适应邻域的半径,将邻域内密度大于密度阈值的样本均标注为与搜索起点相同的类簇c[i],即满足以下表达式:
18、c[i]={j|dij-dave≤0,j∈d′}
19、其中,d'是满足密度大于密度阈值的样本集;
20、将被标注过的样本作为下一轮邻域搜索的起点,进行下一轮邻域搜索,直至所有样本的邻域内再无满足密度条件的样本;
21、从搜索起点集选择下一个搜索起点,如果该起点已经被标注,则抛弃该起点,选择下一个搜索起点进行邻域搜索,以此类推,直至搜索起点集内再无未被标注的起点,邻域搜索过程结束,剩余未被标注的点,将其标注为距离其最近点相同的标签。
22、一种基于自适应密度聚类算法的过程状态标注装置,包括:
23、数据获取模块,用于获取无标签的传感器实时过程数据作为样本,构建无标签数据集;
24、自适应密度计算模块,用于计算无标签数据集内所有样本的欧氏距离矩阵以及自适应密度;计算无标签数据集的自适应邻域;
25、自适应邻域搜索模块,用于根据样本的自适应密度和样本间的欧式距离绘制决策图,并选择密度中心,作为搜索的起点集;所有起点按照自适应密度从大到小的顺序进行邻域搜索,将位于其邻域内的所有满足合并条件的样本标注与起点一致的类簇,经过标注的样本再作为下一轮的起点,进行邻域搜索,直至邻域内再无满足条件的样本,结束搜索;从起点集中选择下一个未被标注的起点进行邻域搜索,直至起点集清空,完成传感器过程数据的状态标注。
26、一种基于自适应密度聚类算法的过程状态标注装置,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现所述的一种基于自适应密度聚类算法的过程状态标注方法。
27、一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现所述的一种基于自适应密度聚类算法的过程状态标注方法。
28、本发明具有以下有益效果及优点:
29、1.本发明提出一种非参数密度计算方式。根据数据集的大小和特点,计算样本到最近样本距离的平均值,并将该距离作为参数,计算每个点的密度。
30、2.本发明提出了密度中心的概念及其基于决策图的关联选择方法。密度中心是聚类的起始点,直接影响聚类结果。通过一种基于决策图的密度中心选择策略来调整聚类结果。
31、3.本发明提出一种邻域自适应的邻域搜索聚类方法。每个数据集的邻域半径只与数据点的密度有关,可以自动计算,从而避免了人工设置。
32、4.本发明具有标准化,结构简单,容易标准化大规模推广。该装置适用面广,通用性强,制造成本低,易于推广使用,应用广泛,具有良好的经济效益和社会效益。
1.一种基于自适应密度聚类算法的过程状态标注方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于自适应密度聚类算法的过程状态标注方法,其特征在于,所述自适应密度ρi为:
3.根据权利要求1所述的一种基于自适应密度聚类算法的过程状态标注方法,其特征在于,所述步骤4)具体为:
4.根据权利要求1所述的一种基于自适应密度聚类算法的过程状态标注方法,其特征在于,所述步骤5),包括以下步骤:
5.一种基于自适应密度聚类算法的过程状态标注装置,其特征在于,包括:
6.一种基于自适应密度聚类算法的过程状态标注装置,其特征在于,包括存储器和处理器;所述存储器,用于存储计算机程序;所述处理器,用于当执行所述计算机程序时,实现如权利要求1-4任一项所述的一种基于自适应密度聚类算法的过程状态标注方法。
7.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1-4任一项所述的一种基于自适应密度聚类算法的过程状态标注方法。
