一种面向叙事文本的事理图谱构建方法、装置、设备与存储介质

专利2025-05-05  8


本发明涉及自然语言处理领域,特别涉及一种面向叙事文本的事理图谱构建方法、装置、设备与存储介质。


背景技术:

1、事件作为人类社会活动的核心概念之一,驱动着人们的社会行为。在这个信息爆炸的时代,构建事理图谱成为理解人类行为和事件演化规律的关键。事理图谱以结构化的方式描述客观世界中的事件及其复杂关系,其中的节点承载着具有一定泛化的抽象事件,为深层次的认知提供了框架。

2、随着互联网的迅速发展,每天涌现出数以亿计的叙事文本,蕴含着人类活动的方方面面。构建事理图谱通过从这些文本中提取知识,为我们提供了探究人类行为和社会动态的一种途径。这一过程不仅是对信息的整合和提炼,更是对人类活动本质的思辨和解析。此外,事理图谱还具有广泛的应用价值,可用于事件预测、常识推理、消费意图挖掘、辅助决策等多个领域。

3、尽管现有技术在基于文本构建事理图谱方面取得了一定进展,然而,其主要采用主语-谓词或者主语-谓词-宾语的表示方式定义抽象事件节点,但是上述方式的节点粒度过于具体,导致大量冗余信息的产生,形成冗余节点,从而引入数据噪声;而事件预测方面大多数方法都是链式的一条线进行预测,但是实际生活中大多数事件的走向都不是这种简单的线条,而是一种发散多维的图,这些情况不仅降低了事理图谱的整体质量,也容易对下游应用产生不良影响;


技术实现思路

1、本发明目的在于,为了克服现有技术的不足,提供一种面向叙事文本的事理图谱构建方法、装置、设备与存储介质,该方法首先获取叙事文本文档并进行主题分类,随后运用基于指令微调的统一信息抽取技术,从文档中提取出实体、关系以及事件信息,接着,利用这些信息以及预定义的事件本体构建实例图,并以此为基础生成相应的事理图谱;所提供的方法以高效的方式从叙事文本中提取关键信息,通过实例图和事理图谱的建立更全面地揭示文本中的实体、关系和事件信息。这不仅有助于深化对复杂事件演化规律的理解,而且提升了对复杂事件的预测能力,该发明为处理叙事文本、挖掘其中潜在知识提供了一种有力工具。

2、本发明所述的一种面向叙事文本的事理图谱构建方法,该方法包括:叙事文档实体抽取,事件信息抽取,关系抽取和事理图谱构建,具体操作按以下步骤进行:

3、a、获取叙事文本文档,从维基百科、百度百科平台获取,并对其进行主题分类;

4、b、对叙事文档进行实体、关系及事件信息提取,并解决跨文档实体和事件的共指消解,其中事件信息包括事件触发词、事件类型及事件要素;

5、c、针对每个主题下的文档,基于步骤s2已获得的实体、关系和事件信息以及事件本体构建其实例图;

6、d、针对每个主题,基于步骤c中获得的实例图,构建事理图谱。

7、步骤b中所述的关系为实体与实体之间的关系、实体与事件之间的关系以及事件与事件之间的关系;事件要素是预先定义的事件本体中的事件论元。

8、步骤c中所述实例图,包括:

9、两类节点:以触发词表示的事件节点,以事件要素表示的实体节点;

10、三类边:事件节点之间的边,表示事件之间的关系,可能的关系类型为因果、顺承、条件、转折和并列;实体节点到事件节点的边,表示该实体为对应事件的论元;实体节点到实体节点的边,表示这两个实体存在关系。

11、步骤d中基于实例图构建事理图谱,具体操作为:

12、某主题下实例图中某个事件节点设为初始事件节点,并根据该主题下所有实例图中的事件发生概率获得下一个事件节点;

13、根据预先定义的事件本体,获取形成事件节点所对应的事件论元,并在图谱中添加对应的实体节点;

14、预测实体节点与图谱中已存在节点之间的关系,并图谱中添加相应的边;

15、根据事件论元及已存在的关系,预测新增节点与初设节点之间的关系并在现有图谱中添加对应的边;

16、继续循环执行针对每个主题,基于获得的实例图,构建事理图谱操作,生成该节点下条件概率大于预定概率阈值的事件节点并加入现有图谱中;

17、将新增节点依次设为初设节点并迭代的方式继续预测下一个事件节点。

18、一种基于面向叙事文本的事理图谱构建方法的装置,该装置是由叙事文档收集与主题分类模块、实体、关系及事件信息提取模块、实例图构建模块和基于实例图的事理图谱构建模块组成,其中:

19、叙事文档收集与主题分类模块:用于收集叙事文档以及对其进行主题分类;

20、实体、关系及事件信息提取模块:用于对叙事文档的实体、关系、事件信息为触发词、事件类型、事件要素对应实体的提取;

21、实例图构建模块:用于对已提取的实体及事件信息按照抽取的各类关系进行重新组织,将其构建为实例图;

22、基于实例图的事理图谱构建模块:用于依据已知的实例图,迭代的方式构建事件节点、实体节点及各个节点之间的边。

23、一种面向叙事文本的事理图谱构建电子设备,其中,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

24、一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。

25、本发明所述的一种面向叙事文本的事理图谱构建方法、装置、设备与存储介质;

26、第一方面提供了一种面向叙事文本的事理图谱构建的方法,包括以下步骤:

27、s1、获取叙事文本文档,并对其进行主题分类;

28、s2、对叙事文档进行实体、关系及事件信息提取,并解决跨文档实体和事件的共指消解;

29、s3、针对每个主题下的文档,基于步骤s2已获得的实体、关系和事件信息以及事件本体构建其实例图;

30、s4、针对每个主题,基于s3中获得的实例图,构建事理图谱。

31、第二方面、本发明实施例提供了一种面向叙事文本的事理图谱构建的装置,其包含:

32、叙事文档收集与主题分类模块:用于收集叙事文档以及对叙事文档进行主题分类;

33、叙事文档进行实体、关系及事件信息提取模块:用于对叙事文档的实体、关系、事件信息(包括触发词、触发词在预先定义本体中所属事件类型、预先定义本体中包含的事件要素对应实体)的提取;

34、实例图构建模块:对已提取的实体及事件信息按照抽取的关系类别进行重新组织,将其构建为实例图;

35、基于实例图的事理图谱构建模块:依据已知的实例图,迭代的方式构建事件节点、实体节点及各个节点之间的边;

36、本发明的第三方面、提供了一种电子设备,其中,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;以及一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面中所述的任意一项方法。

37、本发明与现有技术相比取得以下技术效果:

38、本发明公开了一种面向叙事文本的事理图谱构建方法、装置、设备与存储介质。相较于现有技术,本发明的实施例通过统一信息抽取方法,可有效地提取叙事文本中的实体、关系和事件信息。进一步,利用预定义的事件本体,生成抽象事件节点的实例图,将特定主题下的事理图谱视为诱导生成相应主题实例图的隐含知识,通过训练模型,采用最大化每个实例图生成概率的方法,实现事理图谱的生成。这样的事理图谱更具代表性,能更好地捕捉相应主题的一般演化规律;与传统技术相比,本发明的方法有助于更全面、更准确地理解和呈现叙事文本中的复杂信息,特别是在对复杂事件演化规律进行理解和预测方面,本发明的实施提供了一种更好的方法,通过构建主题相关的事理图谱,本发明为深入挖掘叙事文本背后的内涵,提高对复杂事件演化规律的认识以及预测其发展的能力提供了有效手段。


技术特征:

1.一种面向叙事文本的事理图谱构建方法,其特征在于该方法包括:叙事文档实体抽取,事件信息抽取,关系抽取和事理图谱构建,具体操作按以下步骤进行:

2.根据权利要求书1所述的一种面向叙事文本的事理图谱构建方法,其特征在于步骤b中所述的关系为实体与实体之间的关系、实体与事件之间的关系以及事件与事件之间的关系;事件要素是预先定义的事件本体中的事件论元。

3.根据权利要求书1所述的一种面向叙事文本的事理图谱构建方法,其特征在于步骤c中所述实例图,包括:

4.根据权利要求书1所述的一种面向叙事文本的事理图谱构建方法,其特征在于步骤d中基于实例图构建事理图谱,具体操作为:

5.一种基于权利要求1所述面向叙事文本的事理图谱构建方法的装置,其特征在于,该装置是由叙事文档收集与主题分类模块、实体、关系及事件信息提取模块、实例图构建模块和基于实例图的事理图谱构建模块组成,其中:

6.一种面向叙事文本的事理图谱构建电子设备,其中,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-4中任一项所述的方法。

7.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1-4中任一项所述的方法。


技术总结
本发明公开了一种面向叙事文本的事理图谱构建方法、装置、设备与存储介质,该方法首先获取叙事文本文档并进行主题分类,随后运用基于指令微调的统一信息抽取技术,从文档中提取出实体、关系以及事件信息,接着,利用这些信息以及预定义的事件本体构建实例图,并以此为基础生成相应的事理图谱;所提供的方法以高效的方式从叙事文本中提取关键信息,通过实例图和事理图谱的建立更全面地揭示文本中的实体、关系和事件信息。这不仅有助于深化对复杂事件演化规律的理解,而且提升了对复杂事件的预测能力,该发明为处理叙事文本、挖掘其中潜在知识提供了一种有力工具。

技术研发人员:马博,杨雅婷,艾孜麦提·艾尼瓦尔,恩卡尔·奴尔太,董瑞,王磊,周喜
受保护的技术使用者:中国科学院新疆理化技术研究所
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1819628.html

最新回复(0)