基于领域知识图谱的评价方法及系统与流程

专利2022-05-09  87


本发明涉及知识图谱评价领域,特别涉及一种基于领域知识图谱的评价方法及系统。



背景技术:

知识图谱是人工智领域近来一个发展迅速的分支。因为通过知识图谱可以让机器掌握和使用知识,具备认知智能,从而为人工智能更深层、更广泛的应用打开了大门。领域知识图谱(domainknowledgegraph,简称dkg)虽然较通用知识图谱(generalknowledgegraph,简称gkg)范围有限,但因其数据质量高、贴近行业应用而有可能成为最先落地的技术。目前在金融、医疗、农业和法律等领域的行业知识图谱都取得了不错的应用效果。其中也包括了用行业知识图谱去评价已有的技术成果,比如现有技术中一种利用医疗知识图谱对医生开具的处方进行评价。而对知识图谱本身如何评价的问题也一直存在。耗费大量人力物力等各种资源建立的这个庞大数据集到底如何?不论是作为知识图谱的构建方还是知识图谱的使用方,都是非常关心的。

现有技术对知识图谱的评价认为主要包括三方面:规模、质量和实时。其中实时是指知识图谱是否跟上了知识本身的更新,而对质量细分了三个指标:正确率、知识的深度和知识粒度,但一般只是作了学术上的定性分析,未提供可操作的实施方法。此外现有技术中一种知识图谱的评价方法和装置,仅针对使用者个人知识图谱作评价,并且要与一个已知的科学知识图谱作比对。更像是一个人对自己掌握知识的完善程度的自测。另一种是基于知识图谱的智能问答系统并对问答系统的性能进行了评价。虽然知识图谱的规模和质量好坏对问答系统的评价有影响,但这种评价引入了问答系统的设计、内容选取和问答结果评价等额外环节,显然不能简单地将问答系统的表现作为对知识图谱本身的客观评价。



技术实现要素:

基于此,有必要提供一种有效的基于领域知识图谱的评价方法。

同时,提供一种可有效进行评价的基于领域知识图谱的评价系统。

一种基于领域知识图谱的评价方法,包括:

获取文献:针对待评估的领域知识图谱dkg,获取该领域最近n年的核心期刊和普通期刊文献;

扩展:对待评估的领域知识图谱dkg三元组i的三元组<h,r,t>进行扩展,实体词h扩展后得到h1,t扩展后得到t1,关系词r扩展后得到r1,扩展后组合形成三元组扩展集合wi。若h1有m个元素、t1有n个元素、r1有p个元素,通过组合产生k=m×n×p个三元组,将三元组扩展集合wi中的各个三元组的实体词和关系词提取出来去重后形成领域专业词典c,若dkg中的三元组个数为z,则扩展后的三元组个数为

匹配:对获取的核心期刊和普通期刊中的文章进行分词,对分词后的文章,采用三元组扩展集合wi中的任一三元组三个元素进行匹配,若任一三元组匹配出现在文章的一个句子中,作强相关计数st1;若文章的同一句中只出现三元组中任意两个元素,根据已匹配的两个元素对三元组扩展集合wi进行检索,若三元组中的剩下的一个元素不能匹配,作不一致计数st2;若任一三元组中的三个元素出现在文章的一个段落中或其中任两个元素分散在一个段落中,作弱相关计数st3;对分词后的文章,三元组扩展集合wi中所有三元组都要进行匹配;

关联表示:获取的文章句子数目记为u,采用向量v=[v1,v2,v3]表示三元组与文献的关联程度,其中v1表示知识表达一致的比例,v2表示知识表达不一致的比例,v3表示知识涵盖有关联的比例,对dkg每个三元组进行匹配操作,对dkg中的三元组i获得一个向量vi;

关联强度评价:计算三元组与文献相关强度的量:s=||α1v1|| ||α2v2|| ||α3v3||,其中α1、α2、α3为加权系数;

质量评价:计算三元组质量:q=||α1v1||-||α2v2||。

在优选实施例中,所述α1、α2、α3分别根据v1、v2、v3与对应三元组的关联强度确定。

在优选实施例中,还包括:

所有文章匹配关联:对所选择的年限n年内的所有文章进行匹配步骤,对dkg中的每一个三元组i,对于核心期刊得到向量v1=[v11,v12,v13],对于普通期刊得到向量v2=[v21,v22,v23]。若获取核心期刊有m1种,普通期刊m2种,若由m1种核心期刊,n年所有文章的集合为e,总共有d篇文章,对于属于e的第j篇文章:

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目;st1uj表示wi中第u个三元组与e中第j篇文章的强相关计数;

同理:

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目;st2uj表示wi中第u个三元组与e中第j篇文章的不一致计数;

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目;st3uj表示wi中第u个三元组与e中第j篇文章的弱相关计数;

v2=[v21,v22,v23]中各分量进行计算时将核心期刊换成普通期刊,计算方法与v1相同。

在优选实施例中,还包括:dkg规模度量:即dkg中所有三元组与文章的关联强度之和,三元组规模越大与文章知识点的重合度越高,反之亦然。β1和β2为分别针对核心期刊和普通期刊的加权系数;

dkg的质量度量:

dkg实时性度量:选取最近两个接续的l年,分别计算这两个时段的dkg规模,计算的最近l年的dkg规模为s1、前一个l年的dkg规模为s2,r=s1/s2,若r>1实时性是正面的,表明dkg与新近文献的重合度高于过往文献;若r<1实时性是负面的,表明dkg与新近文献的重合度低于过往文献。

评价指标:根据计算所得的[s,q,r]分别作为dkg的规模、质量和实时性三个维度测量指标。

在优选的实施例中,l为5≤n≤15。

在优选的实施例中,所述α1=1;α2∈[0.4,0.6];α3∈[0.01,0.09]。

进一步,优选的,α2=1/2;α3=1/16。

在优选的实施例中,所述β1=1和β2∈[0.3,0.8];进一步,优选的,β2=0.4。

在优选的实施例中,所述n为5≤n≤30。

在优选的实施例中,所述匹配步骤中:对获取的核心期刊和普通期刊中的文章进行分词时,结合领域专业词典c进行分词,以免三元组的相关实体词和关系词被错分。对dkg中三元组所述扩展包括:同义词扩展、缩略词扩展、别名别称扩展等。

一种基于领域知识图谱的评价系统,包括:

获取文献模块:针对待评估的领域知识图谱dkg,获取该领域最近n年的核心期刊和普通期刊文献;

扩展模块:对待评估的领域知识图谱dkg三元组i的三元素<h,r,t>进行扩展,实体词h、t分别扩展后得到h1、t1,关系词r扩展后得到r1,扩展后组合形成三元组扩展集合wi,若h1有m个元素、t1有n个元素、r1有p个元素,通过组合产生k=m×n×p个三元组,将三元组扩展集合wi中的各个三元组的实体词和关系词提取出来去重后形成领域专业词典c,若dkg中的三元组个数为z,则扩展后的三元组个数为

匹配模块:对获取的核心期刊和普通期刊中的文章进行分词,对分词后的文章,采用三元组扩展集合wi中的任一三元组三个元素进行匹配,若任一三元组匹配出现在文章的一个句子中,作强相关计数st1;若文章的同一句中只出现三元组中任意两个元素,根据已匹配的两个元素对三元组扩展集合wi进行检索,若三元组中的剩下的一个元素不能匹配,作不一致计数st2;若任一三元组中的三个元素出现在文章的一个段落中或其中任两个元素分散在一个段落中,作弱相关计数st3;对分词后的文章,三元组扩展集合wi中所有三元组都要进行匹配;

关联表示模块:获取的文章句子数目记为u,采用向量v=[v1,v2,v3]表示三元组与文献的关联程度,其中v1表示知识表达一致的比例,v2表示知识表达不一致的比例,v3表示知识涵盖有关联的比例,

对dkg每个三元组进行匹配操作,对dkg中的三元组i获得一个向量vi;

强度评价模块:计算三元组与文献相关强度的量:s=||α1v1|| ||α2v2|| ||α3v3||,其中α1、α2、α3为加权系数;

质量评价模块模块:计算三元组质量:q=||α1v1||-||α2v2||。

在优选的实施例中,还包括:

所有文章匹配关联模块:对所选择的年限n年内的所有文章进行匹配步骤,对dkg中的每一个三元组i,对于核心期刊得到向量v1=[v11,v12,v13],对于普通期刊得到向量v2=[v21,v22,v23]。若获取核心期刊有m1种,普通期刊m2种,若由m1种核心期刊,n年所有文章的集合为e,总共有d篇文章,对于属于e的第j篇文章:

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目;st1uj表示wi中第u个三元组与e中第j篇文章的强相关计数;

同理:

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目。st2uj表示wi中第u个三元组与e中第j篇文章的不一致计数;

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目;st3uj表示wi中第u个三元组与e中第j篇文章的弱相关计数;

v2=[v21,v22,v23]中各分量进行计算时将核心期刊换成普通期刊,计算方法与v1相同;

dkg规模度量模块:即dkg中所有三元组与文章的关联强度之和,三元组规模越大与文章知识点的重合度越高,反之亦然。β1和β2为分别针对核心期刊和普通期刊的加权系数;

dkg的质量度量模块:

dkg实时性度量模块:选取最近两个接续的l年,分别计算这两个时段的dkg规模,计算的最近l年的dkg规模为s1、前一个l年的dkg规模为s2,r=s1/s2,若r>1实时性是正面的,表明dkg与新近文献的关联度高于过往文献;若r<1实时性是负面的,表明dkg与新近文献的关联度低于过往文献。

评价指标模块:根据计算所得的[s,q,r]分别作为dkg的规模、质量和实时性三个维度测量指标;

所述匹配模块中对获取的核心期刊和普通期刊中的文章进行分词时,结合领域专业词典c进行分词。

在优选的实施例中,所述扩展包括:同义词扩展、缩略词扩展、别名别称扩展。

上述基于领域知识图谱的评价方法及系统,直接用三元组与文本进行匹配,这样就省去了从文本中提取三元组的过程,另一方面,期刊文献作为一种其知识正确性经过评审的尺子,在度量时可采取相对简明的策略;通过领域知识图谱的三元组与外在的知识源(同一领域期刊)的关联来对知识图谱的质量进行评估,选择了期刊文献所含的知识作为尺子来度量知识图谱的大小。并且由于期刊文献覆盖的研究内容广、文章评审较严格、发行频率适中,这样就对评价dkg的规模、质量和实时性等方面都有了保证。借助期刊文献来评价知识图谱,某种意义上是把之前投入的人力的价值再利用一次,从而避免了现实中实际组织人力对知识图谱评审。这不仅节省了大量成本,由于这些领域期刊本身也是在滚动发展的,使得这个评价工作随时都能有效地得以进行,相当于可以进行动态评估。

附图说明

图1为本发明一实施例的基于领域知识图谱的评价方法的部分流程图。

具体实施方式

如图1所示,本发明一实施例的基于领域知识图谱的评价方法,包括:

获取文献:针对待评估的领域知识图谱dkg,获取该领域最近n年的核心期刊和普通期刊文献;

扩展:对待评估的领域知识图谱dkg三元组i的三元组<h,r,t>进行扩展,实体词h、t分别扩展后得到h1、t1,关系词r扩展后得到r1,扩展后组合形成三元组扩展集合wi。若h1有m个元素、t1有n个元素、r1有p个元素,通过组合产生k=m×n×p个三元组,将三元组扩展集合wi中的各个三元组的实体词和关系词提取出来去重后形成领域专业词典c,若dkg中的三元组个数为z,则扩展后的三元组个数为

匹配:对获取的核心期刊和普通期刊中的文章进行分词,优选的,分词过程结合上述领域专业词典c完成,避免三元组的相关实体词和关系词被错分;对分词后的文章,采用三元组扩展集合wi中的任一三元组三个元素进行匹配,若任一三元组匹配出现在文章的一个句子中,作强相关计数st1;若文章的同一句中只出现三元组中任意两个元素,根据已匹配的两个元素对三元组扩展集合wi进行检索,若三元组中的剩下的一个元素不能匹配,作不一致计数st2;若任一三元组中的三个元素出现在文章的一个段落中或其中任两个元素分散在一个段落中,作弱相关计数st3;对分词后的文章,三元组扩展集合wi中所有三元组都要进行匹配;

关联表示:获取的文章句子数目记为u,采用向量v=[v1,v2,v3]表示三元组与文献的关联程度,其中v1表示知识表达一致的比例,v2表示知识表达不一致的比例,v3表示知识涵盖有关联的比例,对dkg每个三元组进行匹配操作,对dkg中的三元组i获得一个向量vi;

关联强度评价:计算三元组与文献相关强度的量:s=||α1v1|| ||α2v2|| ||α3v3||,其中α1、α2、α3为加权系数;

质量评价:计算三元组质量:q=||α1v1||-||α2v2||。

知识图谱通常用三元组表示,dkg可以视为三元组的集合,其中的元素可标记为<h,r,t>,可以看作主谓宾,其中r表示h和t之间的关系。比如<中国,首都,北京>,就表达了中国的首都是北京这样一个事实。在领域知识图谱中,也是同样的表达方式,只是描述的内容更有所针对领域的特点,比如<操作治疗方案,治疗后备选检查,血常规>就表示操作治疗方案中血常规是一个治疗后备选检查项这一事实。

由于领域术语表达的多样性,在期刊文献中部分实体名称存在不同的别名、别称等,关系词也存在同义词表达相同或者相似的意思,因而需要对dkg三元组作扩展。优选的,本实施例的扩展包括:同义词扩展、缩略词扩展、别名别称扩展。

如临床医学术语表达的多样性,在期刊文献中部分实体名称存在不同的别名、别称等,关系词也存在同义词表达相同或者相似的意思,因而需要对dkg三元组作扩展。比如“脓性痰”的别称包括“痰液粘稠”、“痰粘”、“痰质地黏稠”、“痰黏”、“痰质粘稠”、“痰粘稠”、“痰黏稠”、“脓痰”等;比如“治疗”的同义词是“诊疗”、“医疗”、“医治”等。三元组<脓性痰,治疗用药,阿奇霉素>、<痰液粘稠,医治用药,阿奇霉素>和<脓痰,医疗用药,阿奇霉素>都被认为是表达同样的意思。同样在下面例子中用到的,疾病名称“肺血管病”的别称包括“肺血管疾病”、“血管性肺疾病”、“肺血管类疾病”等;作为临床所见名称“肺动脉压力增高”的别称包括“肺动脉压力升高”、“肺动脉压升高”、“肺动脉压增高”等。对dkg三元组<h,r,t>中的实体名词h,t作扩展得到h1和t1。这步实体名扩展操作可基于各领域实体名称数据资源或者领域词典来完成。同时对关系词也作相应的扩展,包括同义词扩展r1。这步实体名扩展操作可基于词林等网上工具来完成。假设h1有m个元素、t1有n个元素、r1有p个元素,通过组合将产生k=m×n×p个三元组,他们与原来的三元组<h,r,t>从表达内容上是等同的,我们将所有这些三元组的集合标记为wi,即dkg中第i个三元组的扩展集,其元素个数为k。如果原来dkg的三元组个数为z,则扩展后的三元组个数为:将这m个三元组的实体名词和关系词提取出来,去重后形成一个领域专业词典c。

对文章进行分词,可用词典分词算法(比如常用的双向最大匹配法,bi-mm)或者基于统计的机器学习算法,也可直接用开源的结巴中文分词软件完成(https://github.com/fxsjy/jieba/)。对文章分词的目的是为提高后续的三元组匹配效率和准确性。需要指出的是分词算法必须把领域专业词典c使用起来,以确保相关的实体名词不会被切分开来。以“肺高血压是常见的肺血管疾病,是由各种原因导致的肺动脉压力升高。”这句话为例,通用的分词算法切分结果如下:["肺","高血压","是","常见","的","肺","血管","疾病",",","是","由","各种","原因","导致","的","肺动脉","压力","升高","。"]。里面的实体名词“肺高血压”、“肺血管疾病”和“肺动脉压力升高”都被错误地切分了,失去了原来的含义。优选的,本实施例的匹配步骤中:对获取的核心期刊和普通期刊中的文章进行分词时,结合领域专业词典c进行分词。利用领域专业词典c约束后才能得到想要的结果:["肺高血压","是","常见","的","肺血管疾病",",","是","由","各种","原因","导致","的","肺动脉压力升高","。"]。

对分词后的文章,扩展产生的三元组进行检测。即对dkg中的任意三元组i扩展集wi,将其中的任一三元组<h,r,t>三个元素与分词后的文章进行匹配。

如果三元组匹配出现在一个句子中,则认为是强相关的知识点描述,三元组表达的知识与文章中的一致,作强相关计数st1;比如三元组<肺高血压,是,肺血管疾病>就可与上述的例句完全匹配。

不一致计数:同一句中只出现<h,r,t>中任两个元素,但无第三个元素。此时,要根据已匹配的两个元素,对待评价的知识图谱三元组扩展集进行检索。比如<h,r,t>中,r,t匹配上了,就要找出所有的x=<*,r,t>,式中处于原来h位置的*为任意值。如果所有的*都不能与句子匹配,由于已通过实体名称扩展和关系词扩展,因此<h,r,t>中第三个元素不能匹配,意味着该三元组表达的知识与文献中是不一致的,包括各种不同情形:比如三元组的知识不全,文献对此作了补充;或者三元组的两个实体间关系与文献中的描述不一致等各种情形。比如文中原句为“肺高血压是常见的肺血管疾病,肺静脉阻塞也是一种肺血管疾病。”其分词为:["肺高血压","是","常见","的","肺血管疾病",","肺静脉阻塞","也","是","一种","肺血管疾病","。"]。

如果待评测的领域知识图谱里只有三元组<肺高血压,是,肺血管疾病>,而没有三元组<肺静脉阻塞,是,肺血管疾病>,后半句就只能匹配上<h,r,t>中的r和t,并且在知识图谱中找不到句子中表达的h,就说明原来的知识图谱不完整。<h,r,t>中其它元素缺失情形类似,都要作不一致计数st2。

如果该三元组的扩展集中某个三元组x能匹配上<h,r,t>,就说明三元组x将会与句子获得一致性验证,本三元组不作任何处理,即st1与st2都不作计数统计,而留待三组x与该句子匹配时按上述规则处理。

如果三元组匹配没有出现在一个句子中,但出现在一个段落中,包括<h,r,t>或其中任两个元素分散出现在一个段落中情形,则认为是弱相关的,它们之间从知识内容的描述上有所覆盖,作弱相关计数st3。

对该三元组的扩展形成的三元组扩展集合wi中的所有三元组重复进行匹配步骤,进行相关计数统计。

进一步,本实施例的

进一步,本实施例的α1、α2、α3分别根据v1、v2、v3与对应三元组的关联强度确定。进一步,优选的,α1=1;α2∈[0.4,0.6];α3∈[0.01,0.09]。

进一步,本实施例的n为5≤n≤30。

进一步,本实施例的l为5≤l≤15。

进一步,本实施例的s实际反映了三元组i在文章中的呈现程度。将dkg中所有三元组在文献中的呈现程度汇集起来,可作为度量dkg规模有效指标。

三元组质量根据如下公式计算进行度量:q=||α1v1||-||α2v2||。即该三元组在文献中得到一致性确认的数目减去检测到的不一致性数目。该计算表明dkg三元组正确率越高、颗粒度越细,所获得的q值也就越大。

对每个细分领域,都有普通期刊和核心期刊发行。这些期刊杂志的文章反映了该领域的最新进展,并且发表的文章经过严格评审,其内容的正确性有了一定保障。本实施例的普通期刊为除核心期刊外的国家期刊。其中国家级期刊由全国性机构或学会主办,由国家新闻出版署与国家科委在商定的数额内审批,并编入“国内统一刊号”。核心期刊由相关机构(比如北大、南大等)根据期刊的学术水平和影响力评定,每年都会有一定调整,比如北大每年出版《中文核心期刊要目总览》。在知网等大型数据资源库上,核心期刊也有专门的标识。通常认为核心期刊的学术水平更高一些,也是评定各种职称或者学位的参考依据。入选核心期刊或者国家级期刊的文章,虽然不能保证每篇文章的知识点都百分之百正确,但从统计学角度,因个别文章错误引入的质量问题是可以被抵消的,其知识的正确性已足以支撑对相应领域知识图谱的评价。考虑到各领域期刊的体量,以医学领域为例,有国内统一刊号的“cn-”开头的期刊1375种,核心期刊有248种,覆盖了所有的细分研究领域。而且这些期刊大多为月刊,部分为双月刊、季刊,因而其更新频次是比较高的。所以以此为评价参照数据资源,可满足对知识图谱评价的主要指标:规模、质量和实时方面的要求。

匹配步骤中,进行匹配时,句子中只有一个三元组元素时不作任何处理,因为这种情况下对所表达的知识与三元组关联程度比较弱。如果在一个段落中出现了2个或以上元素,则作弱相关计数st3。一个段落中三元组只有一个元素或者0个匹配上,表明该段落与三元组关联太弱,可直接忽视掉。优先以句子为单位进行处理,三元组对句子的匹配仅限于该句子内,没有落入句子统计的两种情形的,再到段落层面处理。

本发明的基于领域知识图谱的评价方法,还包括:

所有文章匹配关联:对所选择的年限n年内的所有文章进行匹配步骤,对dkg中的每一个三元组i,对于核心期刊得到向量v1=[v11,v12,v13],对于普通期刊得到向量v2=[v21,v22,v23]。若获取核心期刊有m1种,普通期刊m2种,若由m1种核心期刊,n年所有文章的集合为e,总共有d篇文章,对于属于e的第j篇文章:

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目。st1uj表示wi中第u个三元组与e中第j篇文章的强相关计数;

同理:

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目。st2uj表示wi中第u个三元组与e中第j篇文章的不一致计数;

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目;st3uj表示wi中第u个三元组与e中第j篇文章的弱相关计数;

v2=[v21,v22,v23]中各分量进行计算时将核心期刊换成普通期刊,计算方法与v1相同。

对于dkg规模的度量,可以通过每个三元组的呈现数据累加获得。

本发明的基于领域知识图谱的评价方法,还包括:

dkg规模度量:即dkg中所有三元组与文章的关联强度之和,三元组规模越大与文章知识点的重合度越高,反之亦然。β1和β2为分别针对核心期刊和普通期刊的加权系数;

dkg的质量度量:

dkg实时性度量:选取最近两个接续的l年,分别计算这两个时段的dkg规模,计算的最近l年的dkg规模为s1、前一个l年的dkg规模为s2,r=s1/s2,若r>1实时性是正面的,表明dkg与新近文献的重合度高于过往文献;若r<1实时性是负面的,表明dkg与新近文献的重合度低于过往文献。

评价指标:根据计算所得的[s,q,r]分别作为dkg的规模、质量和实时性三个维度测量指标。

基于核心期刊和普通期刊学术声望上的差异,可取β1=1和β2∈[0.3,0.8]。

对dkg实时性度量,选取最近两个接续l年,如l=5时,分别选取l1为最近5年,l2为最近的第6到10年。分别计算这两个时段的规模。通过比值来度量实时程度。

若按dkg规模度量步骤计算的最近l年的规模数据为s1、之前一个l年的规模数据为s2,则比值:r=s1/s2可作为dkg实时性的度量。如果r>1认为实时性是正面的,根据行业知识更新速度的不同,可根据r值界定实时性合格、良好、优秀。如果r<1认为实时性是负面的,dkg已经跟不上该领域知识更新的节奏,可评价为过时。

评价指标步骤中,按上述计算所得的[s,q,r]分别作为dkg的规模、质量和实时性三个维度测量指标。使用者可根据应用场景和侧重点的不同分别对dkg进行评估。上述计算可用于单个dkg量化评价,也可用于同一领域的两个dkg的比较。

本发明一实施例的基于领域知识图谱的评价系统,包括:

获取文献模块:针对待评估的领域知识图谱dkg,获取该领域最近n年的核心期刊和普通期刊文献;

扩展模块:对待评估的领域知识图谱dkg三元组i的三元素<h,r,t>进行扩展,实体词h、t分别扩展后得到h1、t1,关系词r扩展后得到r1,扩展后组合形成三元组扩展集合wi,若h1有m个元素、t1有n个元素、r1有p个元素,通过组合产生k=m×n×p个三元组,将三元组扩展集合wi中的各个三元组的实体词和关系词提取出来去重后形成领域专业词典c,若dkg中的三元组个数为z,则扩展后的三元组个数为

匹配模块:对获取的核心期刊和普通期刊中的文章进行分词,优选的,分词过程结合上述领域专业词典c完成,避免三元组的相关实体词和关系词被错分;对分词后的文章,采用三元组扩展集合wi中的任一三元组三个元素进行匹配,若任一三元组匹配出现在文章的一个句子中,作强相关计数st1;若文章的同一句中只出现三元组中任意两个元素,根据已匹配的两个元素对三元组扩展集合wi进行检索,若三元组中的剩下的一个元素不能匹配,作不一致计数st2;若任一三元组中的三个元素出现在文章的一个段落中或其中任两个元素分散在一个段落中,作弱相关计数st3;对分词后的文章,三元组扩展集合wi中所有三元组都要进行匹配;

关联表示模块:获取的文章句子数目记为u,采用向量v=[v1,v2,v3]表示三元组与文献的关联程度,其中v1表示知识表达一致的比例,v2表示知识表达不一致的比例,v3表示知识涵盖有关联的比例,

对dkg每个三元组进行匹配操作,对dkg中的三元组i获得一个向量vi;

关联强度评价模块:计算三元组与文献相关强度的量:s=||α1v1|| ||α2v2|| ||α3v3||,其中α1、α2、α3为加权系数;

质量评价模块模块:计算三元组质量:q=||α1v1||-||α2v2||。

本发明一实施例的基于领域知识图谱的评价系统,还包括:

所有文章匹配关联模块:对所选择的年限n年内的所有文章进行匹配步骤,对dkg中的每一个三元组i,对于核心期刊得到向量v1=[v11,v12,v13],对于普通期刊得到向量v2=[v21,v22,v23]。若获取核心期刊有m1种,普通期刊m2种,若由m1种核心期刊,n年所有文章的集合为e,总共有d篇文章,对于属于e的第j篇文章:

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目;st1uj表示wi中第u个三元组与e中第j篇文章的强相关计数;

同理:

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目。st2uj表示wi中第u个三元组与e中第j篇文章的不一致计数;

公式中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目;st3uj表示wi中第u个三元组与e中第j篇文章的弱相关计数;

同理:v2=[v21,v22,v23]中各分量进行计算时将核心期刊换成普通期刊,计算方法与v1相同;

dkg规模度量模块:即dkg中所有三元组与文章的关联强度之和,三元组规模越大与文章知识点的重合度越高,反之亦然。β1和β2为分别针对核心期刊和普通期刊的加权系数;

dkg的质量度量模块:

dkg实时性度量模块:选取最近两个接续的l年,分别计算这两个时段的dkg规模,计算的最近l年的dkg规模为s1、前一个l年的dkg规模为s2,r=s1/s2,若r>1实时性是正面的,表明dkg与新近文献的关联度高于过往文献;若r<1实时性是负面的,表明dkg与新近文献的关联度低于过往文献。评价指标模块:根据计算所得的[s,q,r]分别作为dkg的规模、质量和实时性三个维度测量指标。

目前知识图谱的研究工作,大都集中在知识图谱的自动构建上(包括实体和关系的抽取等),因为这是构建大规模知识图谱必须面对的问题。要么投入大量人力物力(有时可能远超想象的预算)以人工为主去构建,要么依靠技术进步去自动构建。由于数据的爆炸式增长,自动构建之路是必经的,虽然目前仍然任重道远。另一方面,不管人工构建还是自动构建的知识图谱都面临评价问题。最稳妥的仍是找业内人士来逐一评估,这又是一个耗时耗力的工作。对于各个行业的领域知识图谱,其所在行业的期刊是一个规模、质量和实时性都可依赖的知识资源。这些期刊文章的撰写和评审工作,实际上已经耗尽了大量人力,或者说已经把这些业内人士掌握的知识转移到发表的文章里了。因此借助期刊文献来评价知识图谱,某种意义上是把之前投入的人力的价值再利用一次,从而避免了现实中实际组织人力对知识图谱评审。这不仅节省了大量成本,由于这些领域期刊本身也是在滚动发展的,使得这个评价工作随时都能有效地得以进行,相当于可以进行动态评估。

本发明直接用三元组与文本进行匹配,这样就省去了从文本中提取三元组的过程。另一方面,期刊文献作为一种其知识正确性经过评审的尺子,在度量时可采取相对简明的策略。而不用考虑两个三元组间关系的各种情形。本发明通过领域知识图谱的三元组与外在的知识源(同一领域期刊)的关联来对知识图谱的质量进行评估。

以上述依据本申请的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项申请技术思想的范围内,进行多样的变更以及修改。本项申请的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。


技术特征:

1.一种基于领域知识图谱的评价方法,其特征在于,包括:

获取文献:针对待评估的领域知识图谱dkg,获取该领域最近n年的核心期刊和普通期刊文献;

扩展:对待评估的领域知识图谱dkg三元组i的三元素<h,r,t>进行扩展,实体词h扩展后得到h1,实体词t扩展后得到t1,关系词r扩展后得到r1,扩展后组合形成三元组扩展集合wi,若h1有m个元素、t1有n个元素、r1有p个元素,通过组合产生k=m×n×p个三元组,将三元组扩展集合wi中的各个三元组的实体词和关系词提取出来去重后形成领域专业词典c,若dkg中的三元组个数为z,则扩展后的三元组个数为

匹配:对获取的核心期刊和普通期刊中的文章进行分词,对分词后的文章,采用三元组扩展集合wi中的任一三元组三个元素进行匹配,若任一三元组匹配出现在文章的一个句子中,作强相关计数st1;若文章的同一句中只出现三元组中任意两个元素,根据已匹配的两个元素对三元组扩展集合wi进行检索,若三元组中的剩下的一个元素不能匹配,作不一致计数st2;若任一三元组中的三个元素出现在文章的一个段落中或其中任两个元素分散在一个段落中,作弱相关计数st3;对分词后的文章,三元组扩展集合wi中所有三元组都要进行匹配;

关联表示:获取的文章句子数目记为u,采用向量v=[v1,v2,v3]表示三元组与文献的关联程度,其中v1表示知识表达一致的比例,v2表示知识表达不一致的比例,v3表示知识涵盖有关联的比例,对dkg每个三元组进行匹配操作,对dkg中的三元组i获得一个向量vi;

关联强度评价:计算三元组与文献相关强度的量:s=||α1v1|| ||α2v2|| ||α3v3||,其中α1、α2、α3为加权系数;

质量评价:计算三元组质量:q=||α1v1||-||α2v2||。

2.根据权利要求1所述的基于领域知识图谱的评价方法,其特征在于,所述α1、α2、α3分别根据v1、v2、v3与对应三元组的关联强度确定。

3.根据权利要求2所述的基于领域知识图谱的评价方法,其特征在于,还包括:

所有文章匹配关联:对所选择的年限n年内的所有文章进行匹配步骤,对dkg中的每一个三元组i,对于核心期刊得到向量v1=[v11,v12,v13],对于普通期刊得到向量v2=[v21,v22,v23],若获取核心期刊有m1种,普通期刊m2种,若由m1种核心期刊,n年所有文章的集合为e,总共有d篇文章,对于属于e的第j篇文章:

其中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目,st1uj表示wi中第u个三元组与e中第j篇文章的强相关计数;

同理:

其中st2uj表示wi中第u个三元组与e中第j篇文章的不一致计数;

其中st3uj表示wi中第u个三元组与e中第j篇文章的弱相关计数;

同理:v2=[v21,v22,v23]中各分量进行计算时将核心期刊换成普通期刊,计算方法与v1相同。

4.根据权利要求3所述的基于领域知识图谱的评价方法,其特征在于,还包括:

dkg规模度量:即为dkg中所有三元组与文章的关联强度之和,三元组规模越大与文章知识点的重合度越高,反之亦然;β1和β2为分别针对核心期刊和普通期刊的加权系数;

dkg的质量度量:

dkg实时性度量:选取最近两个接续的l年,分别计算这两个时段的dkg规模,计算的最近l年的dkg规模为s1、前一个l年的dkg规模为s2,r=s1/s2,若r>1实时性是正面的,表明dkg与新近文献的关联度高于过往文献;若r<1实时性是负面的,表明dkg与新近文献的关联度低于过往文献;

评价指标:根据计算所得的[s,q,r]分别作为dkg的规模、质量和实时性三个维度测量指标。

5.根据权利要求4所述的基于领域知识图谱的评价方法,其特征在于,所述β1=1和β2∈[0.3,0.8],5≤l≤15。

6.根据权利要求1至5任意一项所述的基于领域知识图谱的评价方法,其特征在于,所述α1=1;α2∈[0.4,0.6];α3∈[0.01,0.09]。

7.根据权利要求1至5任意一项所述的基于领域知识图谱的评价方法,其特征在于,所述n为5≤n≤30。

8.根据权利要求1至5任意一项所述的基于领域知识图谱的评价方法,其特征在于,所述匹配步骤中:对获取的核心期刊和普通期刊中的文章进行分词时,结合领域专业词典c进行分词,所述扩展包括:同义词扩展、缩略词扩展、别名别称扩展。

9.一种基于领域知识图谱的评价系统,其特征在于,包括:

获取文献模块:针对待评估的领域知识图谱dkg,获取该领域最近n年的核心期刊和普通期刊文献;

扩展模块:对待评估的领域知识图谱dkg三元组i的三元素<h,r,t>进行扩展,实体词h、t分别扩展后得到h1、t1,关系词r扩展后得到r1,扩展后组合形成三元组扩展集合wi,若h1有m个元素、t1有n个元素、r1有p个元素,通过组合产生k=m×n×p个三元组,将三元组扩展集合wi中的各个三元组的实体词和关系词提取出来去重后形成领域专业词典c,若dkg中的三元组个数为z,则扩展后的三元组个数为:

匹配模块:对获取的核心期刊和普通期刊中的文章进行分词,对分词后的文章,采用三元组扩展集合wi中的任一三元组三个元素进行匹配,若任一三元组匹配出现在文章的一个句子中,作强相关计数st1;若文章的同一句中只出现三元组中任意两个元素,根据已匹配的两个元素对三元组扩展集合wi进行检索,若三元组中的剩下的一个元素不能匹配,作不一致计数st2;若任一三元组中的三个元素出现在文章的一个段落中或其中任两个元素分散在一个段落中,作弱相关计数st3;对分词后的文章,三元组扩展集合wi中所有三元组都要进行匹配;

关联表示模块:获取的文章句子数目记为u,采用向量v=[v1,v2,v3]表示三元组与文献的关联程度,其中v1表示知识表达一致的比例,v2表示知识表达不一致的比例,v3表示知识涵盖有关联的比例,对dkg每个三元组进行匹配操作,对dkg中的三元组i获得一个向量vi;

关联强度评价模块:计算三元组与文献相关强度的量:s=||α1v1|| ||α2v2|| ||α3v3||,其中α1、α2、α3为加权系数;

质量评价模块模块:计算三元组质量:q=||α1v1||-||α2v2||。

10.根据权利要求9所述的基于领域知识图谱的评价系统,其特征在于,还包括:

所有文章匹配关联模块:对所选择的年限n年内的所有文章进行匹配步骤,对dkg中的每一个三元组i,对于核心期刊得到向量v1=[v11,v12,v13],对于普通期刊得到向量v2=[v21,v22,v23]。若获取核心期刊有m1种,普通期刊m2种,若由m1种核心期刊,n年所有文章的集合为e,总共有d篇文章,对于属于e的第j篇文章:

其中ki为三元组i的扩展集wi的元素个数,uj为文章集合e中第j篇文章的句子数目,st1uj表示wi中第u个三元组与e中第j篇文章的强相关计数;

同理:

其中st2uj表示wi中第u个三元组与e中第j篇文章的不一致计数;

其中st3uj表示wi中第u个三元组与e中第j篇文章的弱相关计数;

同理:v2=[v21,v22,v23]中各分量进行计算时将核心期刊换成普通期刊,计算方法与v1相同;

dkg规模度量模块:即dkg中所有三元组与文章的关联强度之和,三元组规模越大与文章知识点的重合度越高,反之亦然。β1和β2为分别针对核心期刊和普通期刊的加权系数;

dkg的质量度量模块:

dkg实时性度量模块:选取最近两个接续的l年,分别计算这两个时段的dkg规模,计算的最近l年的dkg规模为s1、前一个l年的dkg规模为s2,r=s1/s2,若r>1实时性是正面的,表明dkg与新近文献的关联度高于过往文献;若r<1实时性是负面的,表明dkg与新近文献的关联度低于过往文献;

评价指标模块:根据计算所得的[s,q,r]分别作为dkg的规模、质量和实时性三个维度测量指标;

所述匹配模块中对获取的核心期刊和普通期刊中的文章进行分词时,结合领域专业词典c进行分词;

所述扩展包括:同义词扩展、缩略词扩展、别名别称扩展。

技术总结
一种基于领域知识图谱的评价方法及系统包括针对待评估DKG获取该领域核心期刊和普通期刊;对DKG三元组三元素进行扩展形成三元组扩展集合Wi;若三元组匹配出现在文献的一个句子中作强相关计数ST1;若同一句中只出现三元组中两个元素作不一致计数ST2;若三元组中两个及以上元素在一个段落中作弱相关计数ST3;V=[v1,v2,v3]表示三元组与文献的关联程度,三元组与文献相关强度量s=||α1v1|| ||α2v2|| ||α3v3||;三元组质量q=||α1v1||‑||α2v2||;上述方法及系统直接用三元组与文本进行匹配,省去从文本中提取三元组的过程,且不用考虑两个三元组间关系。

技术研发人员:郑传双;樊向东;韩红玉;万享
受保护的技术使用者:深圳市曙光信息技术有限公司
技术研发日:2021.05.14
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-8809.html

最新回复(0)