基于学术网络的学者画像方法及系统与流程

专利2022-05-09  37



1.本发明涉及学术网络和数据挖掘领域,具体地说,本发明涉及一种基于学术网络的学者画像方法及系统。


背景技术:

2.学术网络是一种描述学术实体及其关系的数据组织形式,随着科研学术活动的不断进行,新的学术文献不断被发表,新的学者不断加入学术网络中,这使得学术网络的规模变得越来越庞大。学术网络包含多种复杂的关系,这也意味着学术网络中包含着丰富的语义信息,研究学术数据并捕捉这些语义信息是一个重要的工作。对于学术网络的研究可应用于科研社区发现,专家推荐,学术同行评审评议等领域。以学者画像为例,其目的是根据异质学术网络,确定学者的研究兴趣等属性信息,实现对评审专家的精准刻画,从而保证专家评审评议过程中评审专家推荐的精准性。
3.在进行学者画像时,需要精准推荐评审专家。学术网络是一种异质信息网络,其异构性使学术网络包含了丰富的语义信息,如期刊与论文的收录关系,学者与论文的发表关系等,综合考虑学术网络中包含的复杂语义信息可以捕捉更多的上下文语义信息,对学者的属性信息有更准确的预测,进而实现更精准的评审专家推荐。
4.现有学者画像技术主要存在如下的缺点和不足:
5.1)现有的学者画像技术没有充分考虑学术网络中的隐含语义,导致识别结果不准确。现有的学者画像技术主要是利用信息网络中已有的属性信息进行学者建模,忽略了学术网络的网络结构特征,无法充分考虑到学术网络中包含的复杂语义,导致对于学者特征的刻画不准确,进而影响到了属性识别结果。
6.2)现有的学者画像技术没有考虑学术网络的节点在连接性上的差异,导致识别结果不准确。现有的学者画像技术对学术网络中所有的节点进行了几乎相同的特征提取操作,忽略了学术网络中节点在连接性上的差异,无法充分的提取连接性较高的节点的语义信息,进而影响到了属性识别结果。
7.3)现有的学者画像技术没有考虑邻域节点和非邻域节点在节点语义提取上的差异,导致识别结果不准确。现有的学者画像技术在节点采样中忽略了可以更好反映节点语义的邻域节点,无法充分捕捉节点语义信息,进而影响到了属性识别结果。


技术实现要素:

8.发明人经过研究提出一个基于异质学术网络的学者画像方法,以克服上述现有技术缺陷。该方法首先选取多条可以表达学术网络中语义的元路径,为每一条元路径分配一个初始使用概率,所有元路径的使用概率之和为1,通过使用多条元路径来充分考虑学术网络中的多种语义信息。在随机游走采样开始时,根据预设的使用概率随机选取一条元路径进行随机游走采样,采样序列中的节点从左向右排列,节点的回退窗口定义为以当前节点为右边界且包含多个节点的窗口。在每一次采样之后通过回退概率触发回退采样,当触发
回退采样时回退到当前节点的回退窗口中度最大的节点。在执行完回退采样之后继续按照元路径进行随机游走采样,当沿元路径随机游走结束时,根据使用概率再次选取一条元路径继续进行随机游走采样直至采样结束,回退采样可以使随机游走采样更加注重邻域节点的影响,这使得采样过程更加合理,有利于提高学者表示的准确性。为了考虑学术网络的节点在连接性上的差异,提高学者表示的准确性,提出了一种采样上的改进,对于度(出度 入度)较高的节点进行较多次数的随机游走来探索其邻域,进而更全面的提取节点特征,对于度较低的节点,只进行较少次数的随机游走即可捕捉到节点特征。在随机游走采样结束之后,将节点序列输入到skip

gram模型中学习并得到学者表示向量。最后,通过学者表示向量计算学者属性取值的概率分布,识别学者的属性信息,对学者进行画像。
9.本发明的目的是解决上述现有技术在进行学者画像时无法捕捉学术网络中的异质语义信息以及无法体现节点连接性和领域节点影响的问题,提出了一种基于学术网络的学者画像方法,其中包括:
10.步骤1、获取异质学术网络,基于该异质学术网络中节点间关系,选取多条表示不同语义信息的元路径,构成元路径集合,并为元路径集合中各元路径分配使用概率;
11.步骤2、根据学术网络中各节点的度,为各节点分配随机游走的采样长度,从元路径集合中根据该使用概率选取元路径,并以选取的元路径对该异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到该采样长度,获得节点序列;
12.步骤3、将该节点序列输入到skip

gram模型中获得特征向量,将该特征向量投影到属性取值的概率空间,以选取概率值最大的属性作为学者画像的向量表示。
13.所述的基于学术网络的学者画像方法,其中步骤1中该异质学术网络包括多种类型的节点。
14.所述的基于学术网络的学者画像方法,其中步骤2中为各节点分配随机游走的采样长度具体包括:
15.td(v)表示节点v的度,walk_length(v)表示从节点v开始随机游走采样的采样长度,k是调整采样序列大小的超参数;
16.walk_length(v)=k
·
td(v)。
17.所述的基于学术网络的学者画像方法,其中步骤2中对该异质学术网络使用基于回退的随机游走采样包括:
18.在该异质学术网络中沿元路径进行随机游走采样,在每次采样后都有一定的概率触发回退操作:
[0019][0020]
e表示该异质学术网的边集合,v
i
节点类型是t
t
,v
i 1
节点类型是t
t 1
,n
t 1
(v
i
)表示v
i
节点的t
t 1
类型节点邻域,若当前节点v
i
的类型是t
t
,则下一跳是t
t 1
类型的节点v
i 1

[0021]
所述的基于学术网络的学者画像方法,其中步骤2中该基于回退的随机游走采样具体包括:节点回退到以当前采样的节点为右边界的窗口内度最大的节点,然后继续进行随机游走采样。
[0022]
本发明还提出了一种基于学术网络的学者画像系统,其中包括:
[0023]
模块1,用于根据该异质学术网络中节点间关系,选取多条表示不同语义信息的元路径,构成元路径集合,并为元路径集合中各元路径分配使用概率;
[0024]
模块2,用于根据学术网络中各节点的度,为各节点分配随机游走的采样长度,从元路径集合中根据该使用概率选取元路径,并以选取的元路径对该异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到该采样长度,获得节点序列;
[0025]
模块3,用于将该节点序列输入到skip

gram模型中获得特征向量,将该特征向量投影到属性取值的概率空间,以选取概率值最大的属性作为学者画像的向量表示。
[0026]
所述的基于学术网络的学者画像系统,其中模块1中该异质学术网络包括多种类型的节点。
[0027]
所述的基于学术网络的学者画像系统,其中模块2中为各节点分配随机游走的采样长度具体包括:
[0028]
td(v)表示节点v的度,walk_length(v)表示从节点v开始随机游走采样的采样长度,k是调整采样序列大小的超参数;
[0029]
walk_length(v)=k
·
td(v)。
[0030]
所述的基于学术网络的学者画像系统,其中模块2中对该异质学术网络使用基于回退的随机游走采样包括:
[0031]
在该异质学术网络中沿元路径进行随机游走采样,在每次采样后都有一定的概率触发回退操作:
[0032][0033]
e表示该异质学术网的边集合,v
i
节点类型是t
t
,v
i 1
节点类型是t
t 1
,n
t 1
(v
i
)表示v
i
节点的t
t 1
类型节点邻域,若当前节点v
i
的类型是t
t
,则下一跳是t
t 1
类型的节点v
i 1

[0034]
所述的基于学术网络的学者画像系统,其中模块2中该基于回退的随机游走采样具体包括:节点回退到以当前采样的节点为右边界的窗口内度最大的节点,然后继续进行随机游走采样。
[0035]
由以上方案可知,本发明的优点在于:
[0036]
本发明研究了基于异质学术网络的学者画像方法和系统,在采样过程中通过节点度对随机游走长度进行了修正,并使用基于回退的随机游走策略对学术网络进行节点采样,从而输入到skip

gram模型中获得节点表示向量来进行学者画像。与现有技术相比,本发明能够更加充分的考虑学术网络中的语义信息,并可以考虑到学术网络中节点连接性的差异以及邻域节点的影响,使得学者画像识别结果更加准确。
附图说明
[0037]
图1为本发明的结构图;
[0038]
图2为本发明整体方法流程图;
[0039]
图3为本发明步骤s300的详细流程图;
[0040]
图4为本发明步骤s400的详细流程图。
具体实施方式
[0041]
本发明主要是通过下述关键点实现上述技术效果:
[0042]
关键点1,随机游走长度的改进方法;使用节点度来修正节点的随机游走长度,能够考虑到学术网络中节点连接性的差异,使随机游走过程更加合理,进而使学者画像更加精准;
[0043]
关键点2,基于回退的随机游走策略;使用回退操作使随机游走过程可以更加注重邻域节点的影响,使随机游走更加合理,进而使学者画像更加精准。
[0044]
为让本发明的上述特征和效果能阐述的更明确易懂,下文特举实施例,并配合说明书附图作详细说明如下。
[0045]
本发明的学者画像方法考虑了学术网络,在采样过程中通过节点度对随机游走长度进行了修正,并使用基于回退的随机游走策略对学术网络进行节点采样,从而输入到skip

gram模型中获得节点表示向量,并根据节点的表示向量计算学者属性取值概率,从而识别学者的属性取值。
[0046]
下面详细描述了本发明的学者画像方法,参考图1为本发明的结构图。在本发明中,系统主要包括学者表示提取模块11,学者画像识别模块12。下面对各个模块进行详细的描述。
[0047]
a.学者表示提取模块11
[0048]
学者表示提取模块11用于提取学者的特征表示。学者表示提取模块11包括元路径选取模块111、采样长度改进模块112、回退策略采样模块113和学者表示嵌入模块114。
[0049]
元路径选取模块111通过对学术网络中节点关系的观察,选取多条可以表示不同语义信息的元路径;采样长度改进模块112统计学术网络中节点的度,并通过节点度来修正节点的随机游走长度;回退策略采样模块113在学术网络上进行基于回退策略的随机游走采样,得到采样序列;学者表示嵌入模块114通过将采样序列输入到skip

gram模型中以获得学者的表示向量。
[0050]
b.学者画像识别模块12
[0051]
学者画像识别模块12用于通过学者的表示向量,识别学者属性取值。学者画像识别模块12包括属性概率计算模块121和属性取值选择模块122。
[0052]
属性概率计算模块121通过将学者表示输入到分类模型,得到学者属性取值的概率分布;属性取值选择模块122通过学者属性取值的概率分布确定学者属性的取值。
[0053]
本发明提供一种基于学术网络的学者画像方法及系统,具体如图2所示,包括如下步骤:
[0054]
步骤s100,获取学术网络。获取异质学术网络g=(v,e),其中v表示节点集合,由于包含多个类型的节点所以其属于异质学术网络,节点类型可例如是学者姓名、论文名称、会议名称等,e表示边集合,包含多个类型的边,边类型可例如是从学者姓名指向论文名称的边为第一类型边、从论文名称指向会议名称的边为第二类型边、从学者姓名指向会议名称的边为第三类型边等。
[0055]
步骤s200,根据语义信息,选取元路径集合。长度为l(l>2)的元路径ρ表示为a1a2…
a
l
,其中a
i
表示学术网络中的节点类型,且a1表示学者节点类型,a
i
=a
l 1

i
。通过选择能表达语义信息的一条或多条元路径,得到元路径集合p,并为每一条元路径分配使用概率;其中
语义信息为预设信息,例如是挑选学者共同发表的论文、论文间的引述关系、会议上发表了那些论文等;分配使用概率可根据经验人工分配,或进行均分。假设a、p、c和t分别代表作者、论文、会议和术语,元路径apa表示不同作者的论文,元路径apcpa表示不同作者在同一会议上发表的论文,元路径aptpa表明不同作者发表的论文包含相同的术语。
[0056]
步骤s300,改进节点随机游走采样的长度。
[0057]
所述步骤s300如图3所示,包括下列步骤:
[0058]
步骤s301,统计学术网络中每个节点度(入度 出度)。根据学术网络中的边,统计得到节点v的度td(v)。
[0059]
步骤s302,随机游走长度计算。对于节点v,walk_length(v)表示的是从节点v开始随机游走采样的长度,k是调整采样序列大小的超参数。
[0060]
walk_length(v)=k
·
td(v)
[0061]
步骤s400,随机选取元路径并使用基于回退的随机游走策略进行采样获得节点序列。
[0062]
所述步骤s400如图4所示,包括下列步骤:
[0063]
步骤s401,随机选取一条元路径。在元路径集合p中根据预设的使用概率随机选取一条元路径ρ。
[0064]
步骤s402,沿选定的元路径ρ进行随机游走采样。在学术网络中沿元路径ρ进行随机游走采样,在每次采样之后都有一定的概率触发回退操作。
[0065][0066]
e表示该异质学术网的边集合,v
i
节点类型是t
t
,v
i 1
节点类型是t
t 1
,n
t 1
(v
i
)表示v
i
节点的t
t 1
类型节点邻域,若当前节点v
i
的类型是t
t
,则下一跳是t
t 1
类型的节点v
i 1

[0067]
步骤s403,判断是否达到随机游走长度限制。在学术网络中沿元路径ρ进行随机游走采样之后,如果以v为开始节点的随机游走采样得到的节点序列长度达到walk_length(v),则停止采样。
[0068]
步骤s404,判断是否触发回退。在学术网络中沿元路径ρ进行随机游走采样时,每一次采样都有一定概率fb_prob触发回退操作。
[0069]
步骤s405,回退采样。当进行回退采样时,节点回退到以当前采样的节点为右边界的窗口内度最大的节点,然后继续进行随机游走,直至随机游走结束,设回退窗口的大小为fb_window_size。
[0070]
步骤s406,判断是否达到随机游走长度限制。在学术网络中沿元路径ρ进行随机游走采样之后,如果以v为开始节点的随机游走采样得到的节点序列长度达到walk_length(v),则停止采样。
[0071]
步骤s500,将节点序列输入到skip

gram模型中获得学者表示向量。skip

gram模型通过最大化节点的共现概率来实现节点嵌入,得到学者的表示向量。
[0072]
步骤s600,计算学者属性取值的概率分布。将学者特征表示输入到logistic regression模型中进行训练,投影到属性取值的概率空间,对于属性取值c=(c1,c2,

,c
k
),得到属性取值的概率分布p=(p1,p2,

,p
k
)。其中训练内容包括以学者的特征表示作
为训练数据,以学者的研究领域作为标签,进行训练。
[0073]
步骤s700,根据概率分布确定学者的属性取值。如果属性取值只有一个,则选取概率值最大的属性取值c作为学者v的识别结果:
[0074]
c=c
k
[0075]
k=argmax
k∈k
p
k
[0076]
如果属性取值有多个,则选择概率大于阈值δ的属性取值,得到属性取值集合c:
[0077]
c={c
i
|p
i
>δ,i∈[1,k]}
[0078]
本发明具备如下优势:
[0079]
1)提出了一种随机游走长度的改进方法。在学术网络中,不同的节点的连接性是有差异的,在考虑了节点连接性的差异之后,通过使用节点度来修正随机游走长度来使特征提取过程更加合理,使学者的表示更加合理,进而提高学者画像结果的精准性。
[0080]
2)提出了一种基于回退的随机游走策略。在学术网络中,邻域节点更能准确地建模节点的语义特征,在考虑了领域节点在语义上的差异之后,通过回退操作使节点回退到回退窗口内度最大的节点,提高了邻域节点的共现概率,使学者的表示更加合理,进而使得学者画像结果更加精准。
[0081]
以下为与上述方法实施例对应的系统实施例,本实施方式可与上述实施方式互相配合实施。上述实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用在上述实施方式中。
[0082]
本发明还提出了一种基于学术网络的学者画像系统,其中包括:
[0083]
模块1,用于根据该异质学术网络中节点间关系,选取多条表示不同语义信息的元路径,构成元路径集合,并为元路径集合中各元路径分配使用概率;
[0084]
模块2,用于根据学术网络中各节点的度,为各节点分配随机游走的采样长度,从元路径集合中根据该使用概率选取元路径,并以选取的元路径对该异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到该采样长度,获得节点序列;
[0085]
模块3,用于将该节点序列输入到skip

gram模型中获得特征向量,将该特征向量投影到属性取值的概率空间,以选取概率值最大的属性作为学者画像的向量表示。
[0086]
所述的基于学术网络的学者画像系统,其中模块1中该异质学术网络包括多种类型的节点。
[0087]
所述的基于学术网络的学者画像系统,其中模块2中为各节点分配随机游走的采样长度具体包括:
[0088]
td(v)表示节点v的度,walk_length(v)表示从节点v开始随机游走采样的采样长度,k是调整采样序列大小的超参数;
[0089]
walk_length(v)=k
·
td(v)。
[0090]
所述的基于学术网络的学者画像系统,其中模块2中对该异质学术网络使用基于回退的随机游走采样包括:
[0091]
在该异质学术网络中沿元路径进行随机游走采样,在每次采样后都有一定的概率触发回退操作:
[0092][0093]
e表示该异质学术网的边集合,v
i
节点类型是t
t
,v
i 1
节点类型是t
t 1
,n
t 1
(v
i
)表示v
i
节点的t
t 1
类型节点邻域,若当前节点v
i
的类型是t
t
,则下一跳是t
t 1
类型的节点v
i 1

[0094]
所述的基于学术网络的学者画像系统,其中模块2中该基于回退的随机游走采样具体包括:节点回退到以当前采样的节点为右边界的窗口内度最大的节点,然后继续进行随机游走采样。

技术特征:
1.一种基于学术网络的学者画像方法,其特征在于,包括:步骤1、获取异质学术网络,基于该异质学术网络中节点间关系,选取多条表示不同语义信息的元路径,构成元路径集合,并为元路径集合中各元路径分配使用概率;步骤2、根据学术网络中各节点的度,为各节点分配随机游走的采样长度,从元路径集合中根据该使用概率选取元路径,并以选取的元路径对该异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到该采样长度,获得节点序列;步骤3、将该节点序列输入到skip

gram模型中获得特征向量,将该特征向量投影到属性取值的概率空间,以选取概率值最大的属性作为学者画像的向量表示。2.如权利要求1所述的基于学术网络的学者画像方法,其特征在于,步骤1中该异质学术网络包括多种类型的节点。3.如权利要求1所述的基于学术网络的学者画像方法,其特征在于,步骤2中为各节点分配随机游走的采样长度具体包括:td(v)表示节点v的度,walk_length(v)表示从节点v开始随机游走采样的采样长度,k是调整采样序列大小的超参数;walk_length(v)=k
·
td(v)。4.如权利要求1所述的基于学术网络的学者画像方法,其特征在于,步骤2中对该异质学术网络使用基于回退的随机游走采样包括:在该异质学术网络中沿元路径进行随机游走采样,在每次采样后都有一定的概率触发回退操作:e表示该异质学术网的边集合,v
i
节点类型是t
t
,v
i 1
节点类型是t
t 1
,n
t 1
(v
i
)表示v
i
节点的t
t 1
类型节点邻域,若当前节点v
i
的类型是t
t
,则下一跳是t
t 1
类型的节点v
i 1
。5.如权利要求1所述的基于学术网络的学者画像方法,其特征在于,步骤2中该基于回退的随机游走采样具体包括:节点回退到以当前采样的节点为右边界的窗口内度最大的节点,然后继续进行随机游走采样。6.一种基于学术网络的学者画像系统,其特征在于,包括:模块1,用于根据该异质学术网络中节点间关系,选取多条表示不同语义信息的元路径,构成元路径集合,并为元路径集合中各元路径分配使用概率;模块2,用于根据学术网络中各节点的度,为各节点分配随机游走的采样长度,从元路径集合中根据该使用概率选取元路径,并以选取的元路径对该异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到该采样长度,获得节点序列;模块3,用于将该节点序列输入到skip

gram模型中获得特征向量,将该特征向量投影到属性取值的概率空间,以选取概率值最大的属性作为学者画像的向量表示。7.如权利要求6所述的基于学术网络的学者画像系统,其特征在于,模块1中该异质学术网络包括多种类型的节点。8.如权利要求6所述的基于学术网络的学者画像系统,其特征在于,模块2中为各节点分配随机游走的采样长度具体包括:
td(v)表示节点v的度,walk_length(v)表示从节点v开始随机游走采样的采样长度,k是调整采样序列大小的超参数;walk_length(v)=k
·
td(v)。9.如权利要求6所述的基于学术网络的学者画像系统,其特征在于,模块2中对该异质学术网络使用基于回退的随机游走采样包括:在该异质学术网络中沿元路径进行随机游走采样,在每次采样后都有一定的概率触发回退操作:e表示该异质学术网的边集合,v
i
节点类型是t
t
,v
i 1
节点类型是t
t 1
,n
t 1
(v
i
)表示v
i
节点的t
t 1
类型节点邻域,若当前节点v
i
的类型是t
t
,则下一跳是t
t 1
类型的节点v
i 1
。10.如权利要求6所述的基于学术网络的学者画像系统,其特征在于,模块2中该基于回退的随机游走采样具体包括:节点回退到以当前采样的节点为右边界的窗口内度最大的节点,然后继续进行随机游走采样。
技术总结
本发明提出一种基于学术网络的学者画像方法及系统,包括获取包括多类型节点的异质学术网络,并获取待画像识别学者的语义信息,通过在异质学术网络中选择符合语义信息的元路径,得到元路径集合,并为元路径集合中各元路径分配使用概率;根据学术网络中学者节点的度,得到从学者节点开始随机游走的采样长度,从元路径集合中根据使用概率选取元路径,并以选取的元路径对异质学术网络使用基于回退的随机游走采样,直到随机游走采样得到的节点序列长度达到采样长度,获得节点序列;将节点序列输入到Skip


技术研发人员:梁英 刘政君 谢小杰 王梓森 史红周
受保护的技术使用者:中国科学院计算技术研究所
技术研发日:2021.02.25
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-15121.html

最新回复(0)