本发明涉及图像处理领域,具体是一种基于多通道自适应滤波的图聚类方法。
背景技术:
1、聚类问题是按照某个特定标准(如距离)把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。根据聚类问题的定义,聚类算法主要解决三个方面的问题:即如何衡量相似性的大小、如何进行簇或类的划分以及如何确定簇类。常见的聚类算法主要有三类:k-means、谱聚类和深度嵌入聚类算法。其中,k-means是一种迭代求解的聚类算法,具体步骤为:将数据分为k组,并随机选取k个对象作为初始的聚类中心,然后计算每个对象与各子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心,多次迭代直到收敛或者达到迭代次数上限。每个聚类中心以及分配给它们的对象就代表一个聚类。而谱聚类则是一种基于图论的聚类算法,其主要思想是将聚类问题转化为图的划分问题。谱聚类算法将所有的数据当作空间中的点,点与点之间可以用边相连。距离较远的两个点之间的边权重值较低,而距离较近的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图后不同的子图间边权重之和尽可能低,而子图内边权重之和尽可能高,从而达到聚类的目的。深度嵌入聚类则是一种引入kl损失来进行迭代优化的非监督聚类算法,其主要思想是采用软标签来解决无监督聚类过程中无法使用标签信息指导网络参数更新的问题,并采用kl散度来衡量微调过程中数据表示的软标签,从而使得最终的聚类效果得到提升。
2、图是一种由边和顶点构成的数据结构,记为g(v,e)。其中,v={v_1,v_2,v_3,…,v_m}为图的顶点集,共有m个顶点,g表示无向图,e为边集,w为权重矩阵,w_ij表示结点v_i和v_j之间权重。对于图数据集而言,相关研究更多关注的一般是同配图,即:一类相邻结点具有相同或相近的标签信息的图。与之相对的另一类图则被称为异配图,即满足相邻结点标签信息差异较大的图。
3、图聚类算法就是解决具有图结构的数据集的聚类问题,其主要研究内容是如何更好的融合结构特征和结点特征,以完成特征的高效融合从而生成高质量的聚类标签。传统的图聚类算法一般包含两个步骤:①通过图卷积网络或其他图嵌入方式获得自身特征和图结构信息的低维特征表示②针对获得的特征采用聚类算法划分类或簇。
4、对比学习作为一种自监督式的深度学习范式,其本身不依赖标注数据,并在计算机视觉、自然语言处理等领域取得了瞩目的成绩。受此启发,近年来很多相关工作聚焦在对比学习和图聚类任务结合上。对比学习是自监督学习的一种,其核心思想是从尽可能的缩小相似样本(正样本对)的距离,拉大差异样本(负样本对)的距离。对比学习算法包含代理任务和目标函数,其通过代理任务定义对比学习的正负样本,并利用目标函数来计算损失从而指导模型的学习方向。因为表现出了良好的性能,对比学习在深度图聚类中受到了广泛应用。目前,现有方法大多将图对比学习作为表示学习的方式,应用于下游的图聚类任务。
5、基于图对比学习的图聚类算法在非同配图数据集上表现不佳,这是由于常见的图对比学习算法采用的均为低通滤波器,会将输入的特征信息进行平滑化处理,使得最终输出的不同结点图表示趋同。对于相邻结点相似度较大的同配图,这类算法效果较好;但是对于相邻结点差异度较显著的异配图,算法很难有好的表现。此发明就是针对这一问题设计了一种基于多通道自适应滤波的子模块,通过引入自适应权重,使得算法能根据图数据集的同配性自适应调整不同通道的占比权重,从而适应不同同配性的图数据集,尤其是异配图数据集。
6、传统图聚类算法在不同的图数据集上聚类指标存在较显著差异,而且在一些结点数目较多的图数据集上表现不佳。比如一种基于滤波的图聚类方法,根据结点之间的相似性获得结点相似性矩阵,再使用自适应高斯滤波器对结点对相似性矩阵进行滤波,将综合相似性矩阵进行k均值聚类,获得最终聚类结果。然而,这种方法存在的不足在于仅仅考虑了低通滤波器,这使得方法在异配图数据集上的聚类效果不佳,而且不同数据集的聚类效果存在较大差异。本发明针对这一问题采用了一种新的图采样技术,通过引入子图聚类的方式,让算法可以适应不同结点数目的图数据集。同时,多个子图的采样可以同步进行,对于大型数据集本算法支持并行计算以提高算法效率。
技术实现思路
1、本发明提出的基于多通道自适应滤波的图聚类方法包含图采样算法模块、多通道自适应对比学习模块和特征融合与聚类模块。通过图采样算法,从输入的原始图数据(a,x)中生成若干子图,从(a1,x1)到(an,xn),各个子图再分别输入多通道自适应对比学习模块。该模块会根据输入的子图表示的同配性自适应调整不同滤波器的占比,并通过图对比学习的方式,获取各个子图的表示。然后,将各个子图的表示经过特征融合后采用聚类算法完成聚类任务。由于各子图的采样是同时进行的,可以通过并行计算加速算法。
2、本发明的目的至少通过如下技术方案之一实现。
3、一种基于多通道自适应滤波的图聚类方法,包括以下的步骤:
4、通过图采样算法,将原始图数据中生成子图;
5、将生成的各个子图分别输入多通道自适应图对比学习模块,根据各个子图表示的同配性自适应调整不同滤波器的占比,并通过图对比学习的方式,获取各个子图的表示;
6、将各个子图的表示经过特征融合后采用聚类算法完成聚类任务。
7、进一步地,图采样算法是针对输入的原始图数据进行采样,生成多个子图,将距离结点v的最短距离小于r的结点记为结点v的r跳邻居让图g中的结点集v中每一个结点v的r跳邻居组成相应的r近邻网络,每一个r近邻网络是一个子图,定义为其中,是v的r跳邻居的笛卡尔积,ε是原图的边集,且满足是子图的特征矩阵。
8、进一步地,所使用图采样算法为随机游走算法,包含一下步骤:
9、从一个或一系列基本结点开始遍历一张图;
10、在任意一个结点以1-a的概率移动到一个随机选择的邻点,以a概率跳回起点;
11、反复重复上述过程,生成子图。
12、进一步地,所述多通道自适应图对比学习模块是一个双分支的网络结构,利用数据增强生成原始图数据集的两个视图,并通过最小化在线网络fθ和目标网络fφ学习到的结点表示优化模型。
13、进一步地,采用的数据增强方式有两种:边调整和属性屏蔽,其中,边调整表示随机增加或删除边,属性屏蔽是随机屏蔽掉结点的一些属性,通过数据增强,输入的子图会产生两个相应的视图和其中,和分别表示两个视图的邻接矩阵;和分别表示两个视图的特征矩阵。
14、进一步地,在线网络fθ和目标网络fφ的每一层都由多通道自适应滤波器组层,从而适配不同图数据集;经过数据增强后的图的视图g1和g2通过多通道自适应滤波器后自动调整信号中不同成分占比,利用三个系数αl、αi和αh调整低通信号和高通信号的占比,最终生成图表示和
15、通过将原始图数据信号分别输入三个不同的图滤波器来计算αl、αi和αh:
16、hl=relu((fl·x)wl)
17、hi=relu((fi·x)wi)
18、hh=relu((fh·x)wh)
19、
20、
21、
22、其中,fl、fi和fh分别为低频、自身与高频滤波器,wl、wi、wh、和均为可学习权重矩阵,σ为激活函数,x为图的视图的特征矩阵;
23、利用混合矩阵wmix实现自适应,即其中,t是调控系数,表示自适应系数,
24、最终获得的图表示为其中⊙表示元素积。
25、进一步地,多通道自适应图对比学习模块的损失函数是利用生成的图的两个视图的表示,将生成的视图g1和g2分别输入在线网络fθ和目标网络fφ得到图表示和即和接着将输入预测器得到在线图表示损失函数的优化目标是让在线图表示尽可能地接近目标图表示具体表达式为:
26、
27、其中,n为结点总数,l(θ,φ)为优化目标,和分别表示每个结点的在线图表示和目标图表示。
28、进一步地,所述聚类算法为k-means聚类算法,设定聚类类别数为常数k,随机选定初始点为质心,并通过计算每一个样本与质心之间的欧式距离,将样本点归到最相似的类中,接着,重新计算每个类的质心,重复这样的过程,直到质心不再改变,最终确定每个样本所属的类别以及每个类的质心。
29、进一步地,利用图采样算法辅助完成图聚类任务,将全图聚类任务转化为子图划分问题,提升图聚类任务的各项指标。
30、进一步地,支持同时采样多个子图,降低图采样算法在生成子图时带来的时间消耗。
31、与现有的技术相比,本发明的有益效果为:
32、本发明运用图理论中知识,将图聚类问题转化为r近邻划分问题,将原有的全图聚类转为子图聚类,从而更好地提升算法的各项聚类指标。此外,考虑到图采样算法在生成子图时带来额外的时间开销,本发明的图采样算法支持并行计算,从而提升整体效率。
33、传统的图对比算法大多采用低通滤波器,这使得基于传统图对比学习算法的聚类算法在异配图上表现不佳。本发明提出一种多通道的自适应滤波器模块,很好地适配异配图数据集。相较于单通道结构,本发明的多通道结构能充分利用低通信号和高通信号,并且能根据输入的图信号的不同自动调节不同信号的占比,在不同同配性的数据集都取得很好的效果。
1.一种基于多通道自适应滤波的图聚类方法,其特征在于,包括以下的步骤:
2.如权利要求1所述的一种基于多通道自适应滤波的图聚类方法,其特征在于,图采样算法是针对输入的原始图数据进行采样,生成多个子图,将距离结点v的最短距离小于r的结点记为结点v的r跳邻居让图g中的结点集v中每一个结点v的r跳邻居组成相应的r近邻网络,每一个r近邻网络是一个子图,定义为其中,是v的r跳邻居的笛卡尔积,ε是原图的边集,且满足是子图的特征矩阵。
3.如权利要求1所述的一种基于多通道自适应滤波的图聚类方法,其特征在于,所使用图采样算法为随机游走算法,包含一下步骤:
4.如权利要求1所述的一种基于多通道自适应滤波的图聚类方法,其特征在于,所述多通道自适应图对比学习模块是一个双分支的网络结构,利用数据增强生成原始图数据集的两个视图,并通过最小化在线网络fθ和目标网络fφ学习到的结点表示优化模型。
5.如权利要求4所述的一种基于多通道自适应滤波的图聚类方法,其特征在于,采用的数据增强方式有两种:边调整和属性屏蔽,其中,边调整表示随机增加或删除边,属性屏蔽是随机屏蔽掉结点的一些属性,通过数据增强,输入的子图会产生两个相应的视图和其中,和分别表示两个视图的邻接矩阵;和分别表示两个视图的特征矩阵。
6.如权利要求3所述的一种基于多通道自适应滤波的图聚类方法,其特征在于,在线网络fθ和目标网络fφ的每一层都由多通道自适应滤波器组层,从而适配不同图数据集;经过数据增强后的图的视图g1和g2通过多通道自适应滤波器后自动调整信号中不同成分占比,利用三个系数αl、αi和αh调整低通信号和高通信号的占比,最终生成图表示和
7.如权利要求3所述的一种基于多通道自适应滤波的图聚类方法,其特征在于,多通道自适应图对比学习模块的损失函数是利用生成的图的两个视图的表示,将生成的视图g1和g2分别输入在线网络fθ和目标网络fφ得到图表示和即和接着将输入预测器得到在线图表示损失函数的优化目标是让在线图表示尽可能地接近目标图表示具体表达式为:
8.如权利要求1所述的一种基于多通道自适应滤波的图聚类方法,其特征在于,所述聚类算法为k-means聚类算法,设定聚类类别数为常数k,随机选定初始点为质心,并通过计算每一个样本与质心之间的欧式距离,将样本点归到最相似的类中,接着,重新计算每个类的质心,重复这样的过程,直到质心不再改变,最终确定每个样本所属的类别以及每个类的质心。
9.如权利要求1所述的一种基于多通道自适应滤波的图聚类方法,其特征在于,利用图采样算法辅助完成图聚类任务,将全图聚类任务转化为子图划分问题,提升图聚类任务的各项指标。
10.如权利要求1所述的一种基于多通道自适应滤波的图聚类方法,其特征在于,支持同时采样多个子图,降低图采样算法在生成子图时带来的时间消耗。