基于自然语言识别的文档分析方法及系统与流程

专利2025-07-28  31


本发明涉及自然语言处理,具体涉及基于自然语言识别的文档分析方法及系统。


背景技术:

1、随着现在互联网的迅猛发展,各种智能设备的普及,各行各业的信息广泛传播,越来越多的数据资源不断涌现。对海量的文档文本数据资源进行有效整合,可以实现对不同来源的文档文本数据资源的重点信息提取和分析。因此,从海量数据资源进行关键信息提取变得尤为重要。自动文摘技术能从文档文本中提取关键信息,并将关键信息汇聚成摘要文本,实现文档文本中关键信息的重点提取,提升文档文本分类的准确性。

2、为了实现对文档文本的自动文摘,需要进行长命名实体识别,识别和分类文本中的长实体。基于svm的长命名实体识别算法原理简单、易实现,可以识别和分类文本中的长实体,但文档文本的数据量庞大、特征维度偏高,同时,实体的边界交织重叠难以识别,使svm的训练效率降低,影响长实体的识别准确率。


技术实现思路

1、本发明提供基于自然语言识别的文档分析方法及系统,以解决实体的边界不易识别导致的长命名实体识别不准确的问题,所采用的技术方案具体如下:

2、第一方面,本发明一个实施例提供了基于自然语言识别的文档分析方法,该方法包括以下步骤:

3、对需要进行长命名实体识别的文档的文本数据进行预处理,获取文档的语句数据序列,建立历史数据库;

4、计算词语的全局信息量,获取词语的句法距离向量,根据词语的全局信息量,获取不同词语之间的基础词共存剥离权重,统计两个不同的词语的词间隔距离,根据词间隔距离和文档中不同词语在同一语句数据序列中同时出现的频次,获取两个不同词语之间的共现表征强度,进而获取两个不同词语之间的长实体依存系数;

5、向左和向右分别获取每个词语的相邻词语,获取词语的左界限词语序列,根据词语的左界限词语序列,获取词语的命名左方向截断距离,进而获取词语的命名左方向倾斜度,获取待分析词语的命名右方向倾斜度;

6、根据历史数据库、命名左方向倾斜度和命名右方向倾斜度,建立词语方向分类模型,使用词语方向分类模型获取词语的最优命名方向,建立语句数据序列的无向图,对无向图的节点进行节点选取,划分出语句数据序列的长实体,实现基于自然语言识别的文档分析。

7、进一步,所述计算词语的全局信息量,包括的具体方法为:

8、计算语句数据序列中每一个词语的香农信息量,将所述词语的香农信息量记为词语的全局信息量。

9、进一步,所述不同词语之间的基础词共存剥离权重,获取的具体方法为:

10、将两个词语的全局信息量的和记为信息量和;

11、将所述两个词语所在的文档中所有语句数据序列中包含的词语的全局信息量的和,记为信息量总和;

12、将信息量和与信息量总和的比值,记为所述两个词语之间的基础词共存剥离权重。

13、进一步,所述根据词间隔距离和文档中不同词语在同一语句数据序列中同时出现的频次,获取两个不同词语之间的共现表征强度,具体的表达式为:

14、

15、式中,za,b表示词语a和词语b之间的共现表征强度,其中,词语a和词语b在同一语句数据序列中;na,b表示词语a和词语b所在的需要进行长命名实体识别的文档中,在同一语句数据序列中同时出现词语a和词语b的频次;na,b′表示词语a和词语b所在的需要进行长命名实体识别的文档中,在同一语句数据序列中同时出现词语a和词语b′的频次,其中,词语b′,词语a和词语b在同一语句数据序列中;da,b表示词语a和词语b的词间隔距离;da,b′表示词语a和词语b′的词间隔距离;exp()表示以自然常数为底的指数函数;α1表示第一调整参数;ba表示词语a所在的语句数据序列中,包含的不同词语的数量。

16、进一步,所述进而获取两个不同词语之间的长实体依存系数,包括的具体方法为:

17、将两个词语之间的基础词共存剥离权重与共现表征强度的乘积,记为两个词语的第一乘积;

18、将两个词语的句法距离向量之间的距离与第一调整参数的和,记为两个词语的第一距离;

19、将两个词语的第一乘积与第一距离的比值的归一化值,记为两个词语之间的长实体依存系数。

20、进一步,所述根据词语的左界限词语序列,获取词语的命名左方向截断距离,具体的表达式为:

21、

22、式中,tra(l)表示词语a的命名左方向截断距离;μa(l1)表示词语a的左界限词语序列内包含的前l1个长实体依存系数的均值;σa(l1)表示词语a的左界限词语序列内包含的前l1个长实体依存系数的方差;l表示第一预设阈值;α1表示第一调整参数。

23、进一步,所述词语的命名左方向倾斜度,获取的具体方法为:

24、将词语的左界限词语序列内每一个长实体依存系数分别作为待分析系数,将待分析系数与待分析系数的前一个长实体依存系数的差值的绝对值,记为待分析系数的第一差值;

25、将以所述待分析系数的第一差值的相反数为自变量的指数函数值,记为待分析系数的第一幂值;

26、将左界限词语序列内所有长实体依存系数的第一幂值的和与词语的命名左方向截断距离的乘积,记为词语的命名左方向倾斜度。

27、进一步,所述根据历史数据库、命名左方向倾斜度和命名右方向倾斜度,建立词语方向分类模型,包括的具体方法为:

28、获取历史数据库中每个词语的命名左方向倾斜度和命名右方向倾斜度;

29、将历史数据库中的文本数据作为训练集,标签种类设置为向左、向右、双向和无向,对训练集中的词语打标签,采用径向基函数核函数作为svm的核函数,使用历史数据库中所有词语的命名左方向倾斜度和命名右方向倾斜度对svm模型进行训练,获取训练完成的支持向量机模型,将训练完成的支持向量机模型记为词语方向分类模型。

30、进一步,所述对无向图的节点进行节点选取,划分出语句数据序列的长实体,实现基于自然语言识别的文档分析,包括的具体方法为:

31、将无向图中连线连接的节点数量大于等于预设参数的节点记为目标节点,将目标节点对应的词语按照词语在语句数据序列中的顺序进行排列,获取语句数据序列的长实体,实现基于自然语言识别的文档分析。

32、第二方面,本发明实施例还提供了基于自然语言识别的文档分析系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

33、本发明的有益效果是:

34、本发明对需要进行长命名实体识别的文档获取的语句数据序列进行分析,立足于文档来源广泛,导致语句准确性不足、长实体嵌套导致的实体的边界无法准确确定的问题,首先,根据长实体命名具有统一性,对应实体的多个词语具有共现特性的特征,对不同词语在文档中同时出现和共存的特征进行评价,获取两个不同词语之间的长实体依存系数,同时,排除表征范围广、使用次数频繁的基础词组对长命名实体识别的影响;然后,根据长实体属于专用名词,包含多个连续、彼此嵌套的词语,这些词语组合在一起才完整表示一个特定的实体的特征,判断每个词语向左、向右采集的相邻词语达到实体边界的可能性,获取词语的命名左方向倾斜度和命名右方向倾斜度,提升后续实体边界获取的准确性;最后,根据历史数据库、命名左方向倾斜度和命名右方向倾斜度,建立词语方向分类模型,根据词语方向分类模型划分出需要进行长命名实体识别的文档的语句数据序列的长实体,实现基于自然语言识别的文档分析,解决实体的边界不易识别导致的长命名实体识别不准确的问题。


技术特征:

1.基于自然语言识别的文档分析方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述计算词语的全局信息量,包括的具体方法为:

3.根据权利要求2所述的基于自然语言识别的文档分析方法,其特征在于,所述不同词语之间的基础词共存剥离权重,获取的具体方法为:

4.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述根据词间隔距离和文档中不同词语在同一语句数据序列中同时出现的频次,获取两个不同词语之间的共现表征强度,具体的表达式为:

5.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述进而获取两个不同词语之间的长实体依存系数,包括的具体方法为:

6.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述根据词语的左界限词语序列,获取词语的命名左方向截断距离,具体的表达式为:

7.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述词语的命名左方向倾斜度,获取的具体方法为:

8.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述根据历史数据库、命名左方向倾斜度和命名右方向倾斜度,建立词语方向分类模型,包括的具体方法为:

9.根据权利要求1所述的基于自然语言识别的文档分析方法,其特征在于,所述对无向图的节点进行节点选取,划分出语句数据序列的长实体,实现基于自然语言识别的文档分析,包括的具体方法为:

10.基于自然语言识别的文档分析系统,包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1-9任意一项方法的步骤。


技术总结
本发明涉及自然语言处理技术领域,提出了基于自然语言识别的文档分析方法及系统,包括:根据需要进行长命名实体识别的文档获取文档的语句数据序列,建立历史数据库;获取基础词共存剥离权重,获取共现表征强度,进而获取长实体依存系数;获取词语的命名左方向倾斜度和命名右方向倾斜度;根据历史数据库、命名左方向倾斜度和命名右方向倾斜度,建立词语方向分类模型,使用词语方向分类模型获取词语的最优命名方向,建立语句数据序列的无向图,对无向图的节点进行节点选取,划分出语句数据序列的长实体,实现基于自然语言识别的文档分析。本发明解决实体的边界不易识别导致的长命名实体识别不准确的问题。

技术研发人员:刘义辉
受保护的技术使用者:北京尚博信科技有限公司
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1823167.html

最新回复(0)