本技术涉及图数据处理,尤其涉及一种基于泛化模型的图数据预测方法、装置、设备及存储介质。
背景技术:
1、图神经网络(graph neural networks,gnns)是用于处理图结构数据的深度学习模型。在图神经网络中,通过考虑节点之间的关系(即边的存在)来更新和聚合节点的特征,以逐步构建出节点之间的关系,并学习到图的结构表示。
2、相关技术中,在对图神经网络进行训练的过程中,通常在最大化图数据和真实标签之间的互信息的前提下,从输入图数据中提取关键特征用于对图数据的预测。然而,这种训练方式使得图神经网络尽可能学习图数据中输入特征和标签之间的所有统计相关性,没有区分输入特征与标签之间的因果效应和非因果效应,使得图神经网络倾向于访问非因果特征作为图数据预测的捷径,降低了图神经网络训练完毕后,对图数据预测的准确性。
技术实现思路
1、本技术实施例的主要目的在于提出一种基于泛化模型的图数据预测方法、装置、设备及存储介质,能够提高对图数据预测的准确性。
2、为实现上述目的,本技术实施例的第一方面提出了一种基于泛化模型的图数据预测方法,所述方法包括:
3、获取目标图数据,其中,所述目标图数据包括多个目标节点和所述多个目标节点组成的节点连接结构;
4、基于所述目标图数据中的多个所述目标节点之间组成的节点连接结构,查找出每个目标节点在目标关联层级内的目标连接结构的目标子图;
5、将所述目标子图输入至泛化模型,得到所述目标子图中的目标节点的节点类别标签;
6、其中,所述泛化模型基于目标损失最小化的训练过程进行样本子图中样本节点连接结构与样本节点类别标签之间的因果预测学习得到,所述目标损失由第一损失、第二损失和第三损失构成,所述第一损失根据对样本子图的核心特征在对应的所述样本节点类别标签下的第一预测概率确定;所述第二损失根据对所述样本子图的冗余特征在对应的所述样本节点类别标签下的第二预测概率确定;所述第三损失根据所述核心特征和所述冗余特征之间的样本距离确定,所述核心特征为按照注意力机制得到的边掩码矩阵对样本子图的样本节点连接结构进行增强表示得到的特征;所述冗余特征为按照所述边掩码矩阵的补集矩阵对样本子图的样本节点连接结构进行弱化表示得到的特征。
7、相应的,本技术实施例的第二方面提出了一种基于泛化模型的图数据预测装置,所述装置包括:
8、获取模块,用于获取目标图数据,其中,所述目标图数据包括多个目标节点和所述多个目标节点组成的节点连接结构;
9、查找模块,用于基于所述目标图数据中的多个所述目标节点之间组成的节点连接结构,查找出每个目标节点在目标关联层级内的目标连接结构的目标子图;
10、输入模块,用于将所述目标子图输入至泛化模型,得到所述目标子图中的目标节点的节点类别标签;其中,所述泛化模型基于目标损失最小化的训练过程进行样本子图中样本节点连接结构与样本节点类别标签之间的因果预测学习得到,所述目标损失由第一损失、第二损失和第三损失构成,所述第一损失根据对样本子图的核心特征在对应的所述样本节点类别标签下的第一预测概率确定;所述第二损失根据对所述样本子图的冗余特征在对应的所述样本节点类别标签下的第二预测概率确定;所述第三损失根据所述核心特征和所述冗余特征之间的样本距离确定,所述核心特征为按照注意力机制得到的边掩码矩阵对样本子图的样本节点连接结构进行增强表示得到的特征;所述冗余特征为按照所述边掩码矩阵的补集矩阵对样本子图的样本节点连接结构进行弱化表示得到的特征。
11、在一些实施方式中,所述样本子图的样本节点包括中心样本节点和多个相邻样本节点;所述基于泛化模型的图数据预测装置还包括训练模块,用于:
12、获取用于训练预设模型的样本图数据,并按照所述样本图数据的样本节点连接结构对所述样本图数据中的每个样本节点生成对应的样本子图;
13、获取各样本子图的初始特征矩阵和邻接矩阵,并依次将所述初始特征矩阵输入至预设模型中进行特征聚合,得到每个样本子图的融合特征矩阵;
14、根据所述邻接矩阵和所述融合特征矩阵,确定每个所述样本子图的核心特征和冗余特征;
15、基于所述核心特征和所述冗余特征,确定所述预设模型的目标损失;
16、基于所述目标损失更新所述预设模型的参数,当所述预设模型收敛时,得到训练好的泛化模型。
17、在一些实施方式中,所述训练模块,还用于:
18、基于所述样本子图的融合特征矩阵,将所述样本子图中任意两个样本节点输入至多层感知机,得到任意两个样本节点之间的边掩码值;
19、根据所述样本子图中的多个边掩码值,生成所述样本子图的边掩码矩阵;
20、基于所述邻接矩阵、所述融合特征矩阵和所述边掩码矩阵,生成所述样本子图对应的核心特征;
21、根据所述样本子图的边掩码矩阵,生成对应的补集矩阵;
22、基于所述邻接矩阵、所述融合特征矩阵和所述补集矩阵,得到所述样本子图的冗余特征。
23、在一些实施方式中,所述训练模块,还用于:
24、获取基础图数据和不同类别的多个子图案,并将多个所述子图案分配至所述基础图数据的任一样本节点上,得到样本图数据;
25、针对所述样本图数据的节点数量确定添加所述样本图数据的边的预设数量,并在所述样本图数据中对任意两个样本节点添加边,其中,对所述样本图数据添加的边的数量等于所述预设数量。
26、在一些实施方式中,所述训练模块,还用于:
27、获取所述样本图数据的节点密度,并基于所述节点密度,确定每个所述样本节点的样本关联层级;
28、针对每个所述样本节点作为中心样本节点,基于所述中心样本节点和相邻样本节点之间组成的样本节点连接结构,查找出每个所述中心样本节点在样本关联层级内的目标样本节点连接结构的样本子图。
29、在一些实施方式中,所述基于泛化模型的图数据预测装置还包括生成模块,用于:
30、获取预设的图论库;
31、获取所述样本节点的预设的特征指标,并通过所述图论库生成每个样本节点在对应的所述特征指标下的节点特征向量;其中,所述特征指标包括节点标识、节点度、聚类系数、介数中心性和接近中心性中的至少一个;
32、根据多个样本节点对应的多个节点特征向量,生成第一特征矩阵。
33、在一些实施方式中,所述训练模块,还用于:
34、在每个所述样本子图中,确定每个样本节点的节点标识;
35、基于所述节点标识,从所述第一特征矩阵中,确定每个所述样本节点对应的节点特征向量;
36、根据所述样本子图的多个样本节点对应的多个节点特征向量,生成所述样本子图的初始特征矩阵;
37、基于所述样本节点之间的连接关系,生成所述特征矩阵对应的邻接矩阵。
38、在一些实施方式中,所述训练模块,还用于:
39、根据每个所述样本子图的节点标识,从所述第一特征矩阵中确定所述样本子图的节点度矩阵;
40、获取所述样本子图的邻接矩阵,并通过所述节点度矩阵对所述邻接矩阵进行归一化,得到归一化后的邻接矩阵;
41、将所述中心样本节点作为融合中心,基于归一化后的所述邻接矩阵,进行样本节点特征的逐层融合,得到所述中心样本节点对应更新后的中心节点特征向量;
42、根据所述中心节点特征向量对所述初始特征矩阵的中心样本节点的节点特征向量进行更新,得到每个所述样本子图的融合特征矩阵。
43、在一些实施方式中,所述训练模块,还用于:
44、基于针对所述样本子图的核心特征输出的预测节点类别标签相对于所述核心特征的样本节点类别标签之间的差异确定第一损失;
45、基于预设模型针对所述样本子图的冗余特征预测各样本节点类别标签时的概率分布均匀度确定第二损失;
46、根据所述核心特征和所述冗余特征之间的样本距离确定第三损失;
47、基于所述第一损失、所述第二损失和所述第三损失之和,构成所述预设模型的目标损失。
48、相应的,本技术实施例的第三方面提出了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本技术第一方面实施例任一项所述的基于泛化模型的图数据预测方法。
49、相应的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本技术第一方面实施例任一项所述的基于泛化模型的图数据预测方法。
50、本技术实施例通过获取目标图数据,其中,目标图数据包括多个目标节点和多个目标节点组成的节点连接结构;基于目标图数据中的多个目标节点之间组成的节点连接结构,查找出每个目标节点在目标关联层级内的目标连接结构的目标子图;将目标子图输入至泛化模型,得到目标子图中的目标节点的节点类别标签;其中,泛化模型基于目标损失最小化的训练过程进行样本子图中样本节点连接结构与样本节点类别标签之间的因果预测学习得到,目标损失由第一损失、第二损失和第三损失构成,第一损失基于针对样本子图的核心特征输出的预测节点类别标签相对于核心特征的样本节点类别标签之间的差异确定;第二损失基于预设模型针对样本子图的冗余特征预测各样本节点类别标签时的概率分布均匀度确定;第三损失根据核心特征和冗余特征之间的样本距离确定,核心特征为按照注意力机制得到的边掩码矩阵对样本子图的样本节点连接结构进行增强表示得到的特征;冗余特征为按照边掩码矩阵的补集矩阵对样本子图的样本节点连接结构进行弱化表示得到的特征。以此,可以通过构建目标损失对预设模型进行训练,并在训练的过程中使得预设模型趋向于通过核心特征来进行预测、减少对冗余特征的偏好,减少核心特征和冗余特征之间的样本距离,由此,可以使得训练好的泛化模型具备更强的因果解释能力和泛化能力。并且,通过注意力机制得到的边掩码矩阵增强表示样本子图的样本连接结构,通过边掩码矩阵的补集矩阵弱化表示样本子图的样本节点连接结构,有助于训练好的泛化模型能够更好地捕捉目标节点之间的重要关系,减少冗余信息的干扰,使得预设模型更加专注于核心特征的学习。在泛化模型应用的过程中,能够基于目标图数据获取需要预测的目标节点的目标子图,使得泛化模型无需对整个目标图数据进行预测,只需要获取需要预测的目标节点的相关目标子图即可,有助于泛化模型更加专注地分析目标节点之间的因果关系,提高了预测的效率和准确性。综上,本技术能够提高训练好的泛化模型对图数据预测的准确性。
1.一种基于泛化模型的图数据预测方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于泛化模型的图数据预测方法,其特征在于,所述样本子图的样本节点包括中心样本节点和多个相邻样本节点;所述泛化模型通过以下方式训练得到:
3.根据权利要求2所述的基于泛化模型的图数据预测方法,其特征在于,所述根据所述邻接矩阵和所述融合特征矩阵,确定每个所述样本子图的核心特征和冗余特征,包括:
4.根据权利要求2所述的基于泛化模型的图数据预测方法,其特征在于,所述获取用于训练预设模型的样本图数据,包括:
5.根据权利要求2所述的基于泛化模型的图数据预测方法,其特征在于,所述按照所述样本图数据的样本节点连接结构对所述样本图数据中的每个样本节点生成对应的样本子图,包括:
6.根据权利要求2所述的基于泛化模型的图数据预测方法,其特征在于,所述获取各样本子图的初始特征矩阵和邻接矩阵之前,还包括:
7.根据权利要求6所述的基于泛化模型的图数据预测方法,其特征在于,所述获取各样本子图的初始特征矩阵和邻接矩阵,包括:
8.根据权利要求6所述的基于泛化模型的图数据预测方法,其特征在于,所述依次将所述初始特征矩阵输入至预设模型中进行特征聚合,得到每个样本子图的融合特征矩阵,包括:
9.根据权利要求2所述的基于泛化模型的图数据预测方法,其特征在于,所述基于所述核心特征和所述冗余特征,确定所述预设模型的目标损失,包括:
10.一种基于泛化模型的图数据预测装置,其特征在于,所述装置包括:
11.一种计算机设备,其特征在于,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现权利要求1至9任一项所述的基于泛化模型的图数据预测方法。
12.一种计算机可读存储介质,所述存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至9任一项所述的基于泛化模型的图数据预测方法。