本发明属于知识图谱补全技术领域,具体涉及一种基于判决书文本的自动抽取关系的知识图谱补全方法。
背景技术:
目前知识图谱在各个行业中应用逐步打开,尤其在金融、医疗、法律、旅游方面。知识图谱助力法律智能,能够在一定程度上利用现有大数据与自然语言处理技术,提供一些智能的解决方案。由于信息的更新速度,动态的知识图谱补全能够突破固定的场景,处理含有新实体或新关系,具有较强的扩展性。这样的法律知识图谱才具有更好的现实意义。所以基于自动抽取的知识图谱补全很有必要。
知识图谱(knowledgegraph)作为一种结构化的语义知识库,以符号的形式描述物理世界中的概念实体及其相互关系,是从“关系”的角度来分析问题。所以关系抽取是知识图谱补全的关键一步。知识图谱补全的信息源主要从两个方面:一是发现两个旧实体中存在的新关系;二是寻找两个新实体中的关系。无论哪种信息源的补全都是为了让知识图谱具有动态性,这样的知识图谱才具有一定的意义。基于判决书的知识图谱其特点在于具有较强的领域性和规范性,粒度较小。且基于法律知识图谱的补全方法少之甚少。传统的补全算法一是使用欧式距离作为度量的基于翻译转化的知识图谱补全算法,这种模型的准确性受无关维度的干扰,并且在处理复杂关系时具有局限性;这种方法应用在判决书知识图谱的补全上是小题大做。二是基于关系路径的知识图谱补全算法,这种算法无法在低连通图(关系稀疏的知识图谱)上有效的进行计算;若采用此方法必须有一个较为成熟完善的判决书知识图谱作为基础。
技术实现要素:
本发明要解决的技术问题是:提供一种基于判决书文本的自动抽取关系的知识图谱补全方法,用于实现动态地、自动化地补全知识图谱的功能。
本发明为解决上述技术问题所采取的技术方案为:一种基于判决书文本的自动抽取关系的知识图谱补全方法,包括以下步骤:
s01:根据判决书文本的种类构建法律知识图谱;
s02:抽取法律知识图谱中的关系;
s06:按步骤s02得到的关系抽取判决书文本中的句子的关系,若成功抽取则执行步骤s07;若无法抽取则执行步骤s08;
s07:将步骤s06抽取的关系添加到法律知识图谱中;
s08:将步骤s06无法抽取的关系加入到谓语导向词库并补全法律知识图谱。
按上述方案,所述的步骤s02中,具体步骤为:抽取法律知识图谱中三元组的谓语动词并设置谓语导向词库。
进一步的,所述的步骤s06中,具体步骤为:使用谓语导向词库中的谓语导向词逐个匹配判决书文本中的句子。
进一步的,所述的步骤s07中,具体步骤为:通过匹配到谓语导向词的句子建立三元组,并将三元组添加到法律知识图谱中。
进一步的,所述的步骤s08中,具体步骤为:筛查未匹配到谓语导向词的句子,将新的谓语动词加入到谓语导向词库,补全法律知识图谱。
按上述方案,所述的步骤s02与步骤s06之间,还包括以下步骤:
s03:根据判决书文本的种类选择不同的法律知识图谱和谓语导向词库;
s04:设置判决书文本的起始位置和结束位置;
s05:对判决书文本中起始位置和结束位置之间的句子依次编号为a1、…、an,并对句子的成分标注词性。
进一步的,所述的步骤s08中,对未匹配到谓语导向词的句子依次编号为b1、…、bn;将加入谓语导向词库的新的谓语导向词依次编号为c1、…、cn。
按上述方案,还包括以下步骤:
s09:选择构建法律知识图谱的判决书文本,用新的谓语导向词对已有的判决书文本执行步骤s04~步骤s06。
按上述方案,还包括以下步骤:
s10:对新增的判决书文本执行步骤s03~步骤s09;
s11:根据新增的判决书文本补全法律知识图谱。
一种计算机存储介质,其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行一种基于判决书文本的自动抽取关系的知识图谱补全方法。
本发明的有益效果为:
1.本发明的一种基于判决书文本的自动抽取关系的知识图谱补全方法,是一个综合了人工参与和自动抽取的循环渐进的过程;一方面通过人工参与,总结包括法律领域的已有知识图谱的构建方法,如三元组,设置谓语导向词,抽取包括新判决书文本的特定领域的关系;另一方面将新判决书文本中出现的、已有方法无法抽取的关系总结入库,以指导已有知识图谱增加新关系以补全知识图谱;如此循环往复,动态更新,形成一个不断更新壮大的闭环流程,实现了自动地抽取判决书文本中的三元组、动态地完善和丰富知识图谱的内容的功能。
2.本发明用于补全的关系抽取方法是建立在知识图谱之上的,通过总结知识图谱的三元组设置谓语导向词,使抽取的范围更加特定、精确,在此基础上建立的三元组对知识图谱补全具有较高的利用率;因此本发明分类更精确,覆盖范围更全面。
3.本发明根据不同案件的判决书文本补全不同的知识图谱,针对不同类型的判决书完成特定的补全任务,具有较强的针对性和实用性。
附图说明
图1是本发明实施例的流程图。
图2是本发明实施例的伪卡盗刷领域知识图谱。
图3是本发明实施例的句子编号及词性标注示例图。
图4是本发明实施例的伪卡盗刷补全示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细的说明。
参见图1,本发明实施例的一种基于判决书文本的自动抽取关系的知识图谱补全方法,包括以下步骤:
s01:领域专家根据判决书文本的种类构建不同的法律知识图谱;
s02:通过抽取法律知识图谱中三元组的谓语动词来设置谓语导向词库;
s03:根据判决书的种类选择不同的知识图谱和谓语导向词库;
s04:设置判决书文本的起止位置(如:起始位置:法院审理查明,结束位置:本院认为);
s05:对法律判决书中起止位置中的句子编号(a1…an)并进行词性标注;
s06:利用所选择谓语导向词库中的谓语导向词逐个匹配新法律判决书文本中的句子(a1…an);
s07:将匹配到谓语导向词的句子建立三元组添加到已有的知识图谱中;
s08:对未匹配到谓语导向词的句子标号(b1…bn);
s09:对标号的句子b1…bn进行筛查,总结出新的谓语动词,判断是否将其加入到谓语导向词库中,若有新的谓语导向词入库,将其标号(c1…cn),并选择构建知识图谱的法律判决书文本;
s10:用新的谓语导向词对已有的法律判决书继续执行步骤s4-步骤s6;
s11:每当有新增的法律判决书文本出现时,重复步骤s3-步骤s10;
s12:根据特定的法律判决书文本完成特定领域的知识图谱补全工作。
实施例:
一、场景描述
伪卡盗刷法院判决书:
法院审理查明:王xx于2015年4月22日在z银行办理开户手续,申领一张储蓄卡。此卡于2015年9月1日下午13点32分18秒在t国通过atm取现xxx。王xx于2015年9月1日下午13点35分10秒于家中收到银行支出短信当即报警并前往就近柜台办理挂失手续,具体时间为:2015年9月1日13点36分01秒致电z银行电话挂失,于13点57分至派出所报案,随后于14点23分至z银行柜台办理挂失手续。另查明王某某2015年全年无出境记录。
二、具体步骤
步骤1:参见图2,领域专家根据伪卡盗刷法院判决书文本构建伪卡盗刷法律知识图谱;
步骤2:通过抽取伪卡盗刷知识图谱中三元组的谓语动词如开户、刷卡、报警、挂失等来设置谓语导向词库;
步骤3:根据新判决书的种类选择不同的知识图谱和谓语导向词库;
步骤4:设置判决书文本的起止位置,如起始位置为“法院审理查明”,结束位置为“本院认为”;
步骤5:参见图3,将起止位置中的句子依次编号a1、…、an并进行词性标注;
步骤6:利用谓语导向词逐个匹配新判决书文本中的句子;
步骤7:将匹配到谓语导向词的句子建立三元组,并添加到已有的知识图谱中;
步骤8:对未匹配到谓语导向词的句子“b1:另查明王某某2015年全年无出境记录”进行标号;
步骤9:对b1进行筛查,总结出新的谓语动词“出境”,判断是否将其加入到谓语导向词库中;若有新的谓语导向词入库,将其标号为“c1:出境”,并选择构建知识图谱的判决书文本;
步骤10:使用新的谓语导向词对已有的判决书执行步骤4~步骤6的操作;
步骤11:每当有新的判决书文本出现时,重复执行步骤3~步骤10;
步骤12:参见图4,根据特定的判决书文完成特定领域的知识图谱补全工作。
以上实施例仅用于说明本发明的设计思想和特点,其目的在于使本领域内的技术人员能够了解本发明的内容并据以实施,本发明的保护范围不限于上述实施例。所以,凡依据本发明所揭示的原理、设计思路所作的等同变化或修饰,均在本发明的保护范围之内。
1.一种基于判决书文本的自动抽取关系的知识图谱补全方法,其特征在于:包括以下步骤:
s01:根据判决书文本的种类构建法律知识图谱;
s02:抽取法律知识图谱中的关系;
s06:按步骤s02得到的关系抽取判决书文本中的句子的关系,若成功抽取则执行步骤s07;若无法抽取则执行步骤s08;
s07:将步骤s06抽取的关系添加到法律知识图谱中;
s08:将步骤s06无法抽取的关系加入到谓语导向词库并补全法律知识图谱。
2.根据权利要求1所述的一种基于判决书文本的自动抽取关系的知识图谱补全方法,其特征在于:所述的步骤s02中,具体步骤为:抽取法律知识图谱中三元组的谓语动词并设置谓语导向词库。
3.根据权利要求2所述的一种基于判决书文本的自动抽取关系的知识图谱补全方法,其特征在于:所述的步骤s06中,具体步骤为:使用谓语导向词库中的谓语导向词逐个匹配判决书文本中的句子。
4.根据权利要求3所述的一种基于判决书文本的自动抽取关系的知识图谱补全方法,其特征在于:所述的步骤s07中,具体步骤为:通过匹配到谓语导向词的句子建立三元组,并将三元组添加到法律知识图谱中。
5.根据权利要求4所述的一种基于判决书文本的自动抽取关系的知识图谱补全方法,其特征在于:所述的步骤s08中,具体步骤为:筛查未匹配到谓语导向词的句子,将新的谓语动词加入到谓语导向词库,补全法律知识图谱。
6.根据权利要求1所述的一种基于判决书文本的自动抽取关系的知识图谱补全方法,其特征在于:所述的步骤s02与步骤s06之间,还包括以下步骤:
s03:根据判决书文本的种类选择不同的法律知识图谱和谓语导向词库;
s04:设置判决书文本的起始位置和结束位置;
s05:对判决书文本中起始位置和结束位置之间的句子依次编号为a1、…、an,并对句子的成分标注词性。
7.根据权利要求6所述的一种基于判决书文本的自动抽取关系的知识图谱补全方法,其特征在于:所述的步骤s08中,对未匹配到谓语导向词的句子依次编号为b1、…、bn;将加入谓语导向词库的新的谓语导向词依次编号为c1、…、cn。
8.根据权利要求1所述的一种基于判决书文本的自动抽取关系的知识图谱补全方法,其特征在于:还包括以下步骤:
s09:选择构建法律知识图谱的判决书文本,用新的谓语导向词对已有的判决书文本执行步骤s04~步骤s06。
9.根据权利要求1所述的一种基于判决书文本的自动抽取关系的知识图谱补全方法,其特征在于:还包括以下步骤:
s10:对新增的判决书文本执行步骤s03~步骤s09;
s11:根据新增的判决书文本补全法律知识图谱。
10.一种计算机存储介质,其特征在于:其内存储有可被计算机处理器执行的计算机程序,该计算机程序执行如权利要求1至权利要求9中任意一项所述的一种基于判决书文本的自动抽取关系的知识图谱补全方法。
技术总结