基于潜在图案嵌入的自监督异构图节点分类方法

专利2026-02-16 22

本发明属于图神经网络的节点分类，进一步涉及异构图节点分类技术，具体为一种基于潜在图案嵌入的自监督异构图节点分类方法，可用于社交网络中将用户、话题等不同类型的节点进行分类，以识别潜在的热门话题或关键用户等任务。

背景技术：

1、随着互联网的普及，除了图像、文本和声音等流行数据之外，网络或图数据成为另一种重要的数据类型。有效的分析和挖掘图数据，对相关产业的发展可以起到巨大的推动作用。最近，图表示学习方法在社交网络分析、药物发现、交通流预测等领域展现出卓越性能。在社交网络中，图表示学习方法可识别潜在社群和关键节点，有助于精准推荐和信息传播预测。在药物发现中，它能够挖掘药物分子间的关系，加速新药研发。在交通流预测方面，图表示学习方法可以有效处理城市交通网络的复杂结构，提升交通流预测的准确性。随着技术的不断发展，图表示学习有望在更多领域发挥重要作用，推动数据分析和决策的创新，为各行业带来更高效、智能的解决方案。在图表示学习邻域，已经提出了许多图神经网络方法在节点分类中取得了良好的效果。然而，这些方法大多建立在同态假设的基础上，即连接的节点往往彼此具有相似的属性，这使得在异构图网络任务中表现较差。与同质网络图相比，异质网络图通常包含多种节点类型和关系，使得其结构更为复杂。在异质网络图中，不同节点类型之间的连接代表不同的关系，每种关系所表达的语义也各不相同。相对于同质网络图，异质网络图更贴近现实世界中数据的多样性和复杂性。异质网络图涵盖了更丰富的信息，包含的节点对象和关系种类更为多样，因此对其进行表示具有更大的现实意义，但同时也带来更大的挑战。目前，绝大多数异构图节点分类方法仅限于有监督学习，而现实世界中大多数异构图网络是没有标签信息的，这些方法无法应用于缺乏标签的任务。虽然存在一些无监督异质网络图节点分类方法，但这些方法可处理的节点类型和关系类型有限，对网络图中丰富的语义信息和结构信息不能够充分利用。

2、tang等人提出了一种新的图解码器，通过邻域wasserstein重建nwr重建关于邻近性和结构的整个邻域信息。该解码器通过重建节点度、节点特征和邻域分布来计算邻域重建损失。这种解码器通过重建节点度、节点特征和邻域分布来计算邻域重建损失，在异构图中表现出良好的性能。fan等人提出了一个最大化跨特征和拓扑视图表示的互信息的异构图表示方法，利用特征视图和拓扑视图之间的互信息最大化来进行异构图节点表示。该方法首先构建特征图，通过测量节点对之间的距离来捕获特征空间中节点的底层结构。然后，使用跨视图表示学习模块来捕获图上的特征视图和拓扑视图上的本地和全局信息内容。最后通过最小化重构损失迫使模型学习特征空间和拓扑空间的共享信息。这些方法通过从多个角度解码或从多个视图中提取特征来使得模型学习到更高质量的节点表示，虽然能够在一定程度上提高了异构图节点分类性能，却忽略了异构图中复杂的语义结构关系，即异构图中的图案信息。

3、现有基于自动编码器的图神经网络方法只专注于解码节点特征以重建直接连接。然而，由于这些方法固有的过于简化的连接重构，学习到的节点表示往往会丢弃大量信息，从而在异构图网络节点分类任务中表现出较差的性能。基于对比学习的异构图神经网络方法使用数据增强(如结构扰动、属性扰动和图扩散)来设计视图，并将其与原始图进行对比。相应地，相关视图对(正向)将被拉到一起，而不相关视图对(负向)将在潜空间中被推开。然而，这些方法通过破坏原始的图拓扑或节点属性来学习图网络中的结构信息，并不能捕获到异构图中复杂的结构和语义信息，影响了在异构图网络中进行节点分类的成功率。传统图神经网络主要基于同质性假设，对异构图网络效果较差。在这种网络中，连接的节点可能属于不同类别，同类节点距离较远。异构图的复杂结构和丰富语义信息对节点分类至关重要。此外，异构图节点标注费时费钱，因此自监督方法的发展变得尤为重要。目前的自监督异构图方法主要侧重于学习同质节点表示，未有效利用异构图结构和语义信息。因此，如何在缺乏标签的情况下进行异构图节点分类，并有效的利用异构图中丰富的结构和语义信息来学习到更易区分的节点表示，成为了本领域技术人员亟需解决的技术问题。

技术实现思路

1、本发明目的在于针对上述现有技术的不足，提出一种基于潜在图案嵌入的自监督异构图节点分类方法，用于解决现有技术不能有效利用异构图结构和语义信息，在缺乏标签的情况下异构图节点分类效果不佳的问题。本发明通过利用一个潜在重复图案嵌入模块来捕获异构图种的重复图案信息，并将其嵌入到节点表示中，从而能够更好地捕获异构图中结构和语义信息，提升异构图网络节点分类的准确率。

2、实现本发明的思路：首先，设计潜在重复图案嵌入lrpe模块，通过选择最相似的m个节点的k跳邻域来构建子图序列，并通过gcn网络来捕获每个子图的特征从而构建子图特征序列，将其作为bi-lstm的输入从而得到潜在重复图案表示；然后，通过设计邻域结构嵌入nse编码器从随机游走得到的序列中捕获节点的高阶邻域表示。此外，通过随机策略生成负样本序列来构建对比学习损失，以提高nse编码器的辨别能力。最后，将获得的潜在重复图案表示、高阶邻域表示和节点自身特征融合，以获得最终的节点表示。此外，本发明中还设计了邻域结构保留解码器和特征重构解码器，分别用于指导邻域结构提取网络和特征融合网络。

3、本发明实现上述目的具体步骤如下：

4、(1)将异构图网络的拓扑结构和节点属性分别转换为邻接矩阵a和节点特征矩阵x，构建输入数据集g＝(a,x)；

5、(2)搭建由潜在重复图案嵌入lrpe模块、对比学习模块、特征融合模块和解码器模块组成的异构图表示学习模型；其中lrpe模块利用k跳邻域围绕具有最相似属性的节点构建子图，并将其输入双向长短期记忆网络bilstm以捕捉潜在重复图案信息从而表征异构图网络中的语义关系；对比学习模块包括正负样本构建、邻域结构嵌入nse编码器和对比损失计算，用于捕捉节点的高阶邻域表示和计算对比损失；所述特征融合模块，用于将lrpe模块和nse编码器中分别获得的潜在重复图案信息和节点的高阶邻域表示与节点自特征进行整合，获取节点的最终表征；解码器包括邻域结构保留解码器和特征重构解码器，分别用于指导邻域结构提取网络和特征融合网络，并计算邻域结构保留损失和特征重构损失；

6、(3)利用余弦函数测量节点之间的相似性，得到节点相似矩阵其中n表示异构图网络中节点的个数；根据节点相似矩阵s对每个节点选取m个与其属性最相似的节点组成节点序列，并通过对其采样生成子图序列；

7、(4)提取每个子图的特征，获取m个子图的表示序列，并利用bi-lstm从子图表示序列中捕获存在在于m个相似节点周围的重复图案信息，生成潜在重复图案表示hp；

8、(5)通过随机游走策略对异构图网络中每个节点的高阶邻居进行采样，生成邻域拓扑序列lp，并将lp设置为正样本；同时，通过随机策略在异构图中随机采样与正样本相同个数的节点构成负样本序列ln；然后分别将lp和ln作为邻域结构嵌入nse编码器的输入，利用nse编码器生成节点邻域表示hl和负节点表示h；

9、(6)使用多层感知器mlp将通过步骤3和步骤4得到了潜在重复图案表示hp和节点邻域表示hl与节点自特征x进行整合，得到节点的最终表征z；

10、(7)根据节点邻域表示hl和负节点表示h计算对比学习损失lcl；同时利用特征重构解码器和邻域结构保留解码器分别重构节点特征和邻域结构特征，计算特征重构损失lf和邻域结构保留总损失lns；根据lcl、lf和lns计算模型的总损失l，采用梯度下降算法实现模型的训练更新；

11、(8)利用训练好的模型获取异构图中节点的最终表示；

12、(9)利用分类器，根据得到的节点最终表示进行节点分类，得到分类结果。

13、本发明与现有技术相比具有以下优点：

14、第一、由于本发明首次尝试以无监督方式利用异构图中的重复出现模式来生成节点表示，设计出一种潜在重复图案嵌入lrpe模块，用于探索相似节点周围的重复出现图案信息，并将其嵌入节点表征中；这使得学习到的节点表示包含了更多的语义结构信息，从而有效提升了异构图节点分类性能。

15、第二、由于本发明设计了一种邻域结构嵌入nse编码器来捕捉高阶邻域表示，使得无需利用多层gcn来捕获节点高阶邻域表示，从而解决了现有方法存在的过度平滑问题。此外，本发明中还为nse编码器配备了一个对比学习模块来提高其辨别能力，使得nse可以捕获高质量的节点邻域表示。

16、第三、由于本发明为nse编码器配备了一个新颖的图解码器来重建节点邻域信息，使得通过nse编码器学习到的表征包含尽可能多的邻域信息，从而更利于区分节点。

技术特征：

1.一种基于潜在图案嵌入的自监督异构图节点分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于：步骤(3)中生成子图序列，具体实现步骤如下：

3.根据权利要求2所述的方法，其特征在于：步骤(3.3)中子图序列还可以通过随机游走采样生成。

4.根据权利要求1所述的方法，其特征在于：步骤(4)中提取每个子图的特征，通过具有共享权重的图卷积神经网络gcn编码器或变体实现。

5.根据权利要求1所述的方法，其特征在于：步骤(7)中所述对比学习损失lcl，是按照互信息神经估计mine方法计算正样本表示和负样本表示之间的互信息，并使用詹森-香农js发散互信息估计器训练神经判别器，根据下式计算对比学习损失lcl：

6.根据权利要求1所述的方法，其特征在于：步骤(7)中所述特征重构损失lf，是通过特征重构解码器ψf获得重构节点特征然后最小化原始节点特征x与重构节点特征之间的差值，最终确定节点特征重构的目标损失，即特征重构损失lf：

7.根据权利要求1所述的方法，其特征在于：步骤(7)中邻域结构保留总损失lns，根据如下步骤得到：

8.根据权利要求1所述的方法，其特征在于：步骤(7)中所述模型的总损失l，具体如下：

技术总结
本发明公开了一种基于潜在图案嵌入的自监督异构图节点分类方法，主要解决现有技术中异构图节点分类效果不佳的问题。包括：1)设计潜在重复图案嵌入模块，通过选择最相似的M个节点的k跳邻域构建子图序列；2)通过GCN网络捕获子图特征，构建子图特征序列；3)将子图特征序列作为Bi‑LSTM的输入，得到潜在重复图案表示；4)设计邻域结构嵌入NSE编码器从随机游走得到的序列中捕获节点的高阶邻域表示；5)通过随机策略生成负样本序列来构建对比学习损失；6)将获得的潜在重复图案表示、高阶邻域表示和节点自身特征融合得到最终的节点表示，并利用分类器实现分类。本发明能够更好地捕获信息，有效提升异构图节点分类准确率。

技术研发人员：宋娟,杨理杰,冯明涛,李佳楠,汪辰凯,范佳辰
受保护的技术使用者：西安电子科技大学
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1827659.html

专利

最新回复(0)