一种基于知识图谱的养老补贴政策匹配方法及系统与流程

专利2022-05-10  32



1.本发明涉及自然语言处理技术领域,具体地说涉及一种基于知识图谱的养老补贴政策匹配方法及系统。


背景技术:

2.国家和地方颁布了一系列养老产业扶持政策和养老服务补贴政策。但一方面政策繁多,老人和养老服务提供商难以从大量的政策中快速的找到适合自己的政策。另一方面老年人对政策的关注度不高,不能及时从互联网上获取相关养老服务补贴政策的信息,导致信息滞后,不能及时享受到国家的政策福利。因此如何利用技术手段对养老服务业的相关政策进行挖掘和分析,提取出政策中补贴条件,并且主动的把相关政策推荐给条件适合的老人是养老服务补贴政策进一步落实面临的一个问题。


技术实现要素:

3.本发明提供一种基于知识图谱的养老补贴政策匹配方法及系统,以解决现有技术存在的网上各种政策繁多,无法做到对政策信息针对性的筛选,用户筛选效率低,体验差的问题。
4.为解决上述技术问题,本发明提供一种基于知识图谱的养老补贴政策匹配方法,包括:
5.步骤1:对网页的url地址规律进行分析,找出网页跳转的规律,根据规律对url地址进行拼接或组装;根据获取到政策详情的url,进入到政策详情页面,对政策信息进行爬取;并基于日志文件和政策详情的url访问字典,实现政策库的动态增量式更新;
6.步骤2:对政策进行分类,筛选出养老相关政策;结合之前收集和积累的养老相关政策,以及新爬取的养老相关政策,构造一个养老领域文本分类的数据集,训练一个文本分类模型,用文本分类模型进行政策分类;
7.步骤3:基于训练出的文本分类模型筛选出的养老相关政策,完成政策文本段落级结构化;再依据养老相关政策文档中的政策补贴条件语句,完成五元组中政策补贴对象的词汇级结构化;然后利用词汇数据构建一个养老领域术语词汇关系知识图谱;
8.步骤4:根据老年人用户的条件,在构建好的术语词汇关系知识图谱政策库中进行匹配,找出老年人能够享受到的养老补贴政策。
9.所述步骤1包括:
10.步骤1.1:url地址拼接,为寻求爬虫对网站内部具体信息的爬取,首先进行了对网页的url地址规律的分析,找出网页跳转的规律,根据规律使用正则表达式对url地址实现变量介入的拼接或组装;
11.步骤1.2:主页html的处理,利用政策网站单页面开发的特性,对网站的html结构进行分析处理;依据于公示政策页面的分级化(e.g.<ul><li></li></ul>),利用爬虫技术中css的选择器爬取列表中包括政策名称、颁布时间的相关信息,并获取<a>元素中的二级
url地址,实现部分信息的爬取和爬虫批量进入单体政策具体信息网站的自动化处理;
12.步骤1.3:政策具体信息的爬取,根据批量获取的政策详情的url,进入到政策详情页面,对政策信息进行爬取;
13.步骤1.4:政策爬取的动态增量式更新,为了进一步对政策信息进行清洗和分类,来保证政策爬取的正确性和完整性,设置了政策爬取的日志文件和政策详情的url访问字典,以及政策爬取的数量统计文件;已达到防止数据库中政策冗余的问题。
14.所述步骤1.3中,在政策详情页面上,政策信息分为如下两部分,第一部分是政策的一些基本信息,在政策详情页的最上方,用一个表的形式展示出;第二部分是政策的内容文本信息,利用结构化的网站html信息,对于这两部分要分别进行爬取,逐条取出列表中政策的基本信息。
15.所述步骤1.4中,政策爬取的日志文件用于存储爬取失败的或者没有爬取到内容的政策,一般是因为政策详情页展示的是图片或者附件,无法获取文本内容,对于这种情况,把其写入政策爬取日志里,以便后续进行人工处理。
16.所述步骤1.4中,政策详情的url访问字典,主要用于保存已经访问过的政策的url地址,目的是进行政策的更新操作;当政府网站颁布新的政策时,在进行政策库更新的时候,首先判断政策的url地址是否在政策详情的url访问字典中;如果存在就说明已经访问过了,如果不存在,再进行相应的更新操作。
17.所述步骤2包括:
18.步骤2.1:构建养老领域文本分类数据集,对之前收集和积累的养老相关政策类别设置为1;对从网上新爬取到的其他非养老相关政策,只取其政策文本内容,类别设置为0;
19.步骤2.2:数据预处理,对数据集中的政策文本进行预处理,首先根据中文标点符和换行符对每个政策文本进行句子级别的拆分;然后采用ltp对每个句子进行分词;最后把预处理后的政策文本数据集分割成训练集和测试集,训练集用于模型的训练,测试集用于评估模型分类的性能;
20.步骤2.3:模型训练,针对政策文本这一篇章级的分类,选择han模型进行训练,在han模型中,通过"词

句子

文章"的层次化结构来表示一篇文本。
21.所述步骤2.3中,han模型有两个层次的attention机制,分别存在于词层次(word level)和句子层次(sentence level)。
22.所述步骤3包括:
23.步骤3.1:以五元组对政策文本进行段落级的结构化,根据对政策文本内容的分析,设计一个五元组结构来对一个政策文本进行段落级的结构化;即把一个政策文本根据段落内容转化成[总则,政策补贴对象,政策补贴标准,补贴申请流程,其他]的五元组形式;
[0024]
步骤3.2:对政策补贴对象语句进行词汇级的结构化,对五元组中政策补贴对象部分进行进一步的结构化,在政策文本中,补贴对象是罗列出的语句;首先逐条选中补贴对象语句,采用ltp工具进行初步的分词,然后手动对分词的结果进行调整和确认;并且把调整后的分词结果保存到术语词汇字典中,下次再进行分词时先读取术语词汇字典;分词完成之后保存词汇和补贴对象语句之间的关系,即保存一个补贴对象语句是由哪些词汇组成的;并且保存补贴对象语句和政策之间的关系,即一个补贴条件语句属于哪个政策;
[0025]
步骤3.3:构建术语词汇关系知识图谱,依据上述步骤中的术语词汇字典,结合国
家和地方颁布的养老服务相关的标准规范,构建一个包含同义词、相似词、兼容词、冲突词四种关系的术语词汇关系知识图谱;以此术语词汇关系知识图谱,完成对相似词汇、同义词汇、兼容词汇、冲突词汇的模块整理。
[0026]
所述步骤4包括:
[0027]
步骤4.1:养老政策匹配,根据用户键入或选择的老人信息,形成老人的条件数组,利用步骤3.2中每一条政策补贴对象语句结构化所形成的词汇组,匹配用户所键入或选择的老人信息的条件数组,匹配完成后获取该政策补贴对象语句所属的政策;
[0028]
步骤4.2:根据术语词汇关系知识图谱进行进一步匹配,为进一步提高系统的匹配能力,利用构建的术语词汇关系知识图谱,与用户所选择或键入的基本信息进行同义词汇、相似词汇和兼容词汇的匹配,并获取该词汇所属的补贴对象语句,以及补贴对象语句所属的政策;
[0029]
步骤4.3:养老政策匹配程度排序,根据用户输入或选择形成老人的条件数组与每一条政策补贴对象语句结构化所形成的词汇组的匹配程度,对匹配到的相关政策依据匹配程度高低进行排序。
[0030]
一种基于知识图谱的养老补贴政策匹配系统,其采用上述中一项所述的基于知识图谱的养老补贴政策匹配方法。
[0031]
本发明带来的有益效果:与现有技术相比,本发明的基于知识图谱的养老补贴政策匹配方法及系统,对各级政府的政策进行爬取,基于文本分类模型,筛选出养老服务相关的政策,然后基于知识图谱技术对养老政策进行结构化,提取出政策中的补贴条件、补贴对象、补贴标准和补贴办理方式等重要信息;方便用户输入老人的基本信息进行养老政策的查询,通过补贴条件与老人的基本信息进行匹配,给老人个性化的推送其能享受的补贴政策,给老人推送符合其条件的补贴扶持政策;提高老人获取政策的效率,促进政策的进一步具体落实。
附图说明
[0032]
图1是根据本发明实施例的方法流程图;
[0033]
图2是对政策补贴对象语句进行词汇级的结构化示意图。
具体实施方式
[0034]
为使本发明的目的、技术方案和优点更加清楚,以下结合附图及具体实施例,对本发明作进一步地详细说明。
[0035]
结合图1,本发明提供的一种基于知识图谱的养老补贴政策匹配方法,包括:
[0036]
步骤1:对网页的url地址规律进行分析,找出网页跳转的规律,根据规律对url地址进行拼接或组装;根据获取到政策详情的url,进入到政策详情页面,对政策信息进行爬取;并基于日志文件和政策详情的url访问字典,实现政策库的动态增量式更新;
[0037]
步骤2:对政策进行分类,筛选出养老相关政策;结合之前收集和积累的养老相关政策,以及新爬取的养老相关政策,构造一个养老领域文本分类的数据集,训练一个文本分类模型,用文本分类模型进行政策分类;
[0038]
步骤3:基于训练出的文本分类模型筛选出的养老相关政策,完成政策文本段落级
结构化;再依据养老相关政策文档中的政策补贴条件语句,完成五元组中政策补贴对象的词汇级结构化;然后利用词汇数据构建一个养老领域术语词汇关系知识图谱;
[0039]
步骤4:根据老年人用户的条件,在构建好的术语词汇关系知识图谱政策库中进行匹配,找出老年人能够享受到的养老补贴政策。
[0040]
进一步的,所述步骤1包括:
[0041]
步骤1.1:url地址拼接,为寻求爬虫对网站内部具体信息的爬取,首先进行了对网页的url地址规律的分析,找出网页跳转的规律,根据规律使用正则表达式对url地址实现变量介入的拼接或组装;
[0042]
步骤1.2:主页html的处理,利用政策网站单页面开发的特性,对网站的html结构进行分析处理;依据于公示政策页面的分级化(e.g.<ul><li></li></ul>),利用爬虫技术中css的选择器爬取列表中包括政策名称、颁布时间的相关信息,并获取<a>元素中的二级url地址,实现部分信息的爬取和爬虫批量进入单体政策具体信息网站的自动化处理;
[0043]
步骤1.3:政策具体信息的爬取,根据批量获取的政策详情的url,进入到政策详情页面,对政策信息进行爬取;
[0044]
步骤1.4:政策爬取的动态增量式更新,为了进一步对政策信息进行清洗和分类,来保证政策爬取的正确性和完整性,设置了政策爬取的日志文件和政策详情的url访问字典,以及政策爬取的数量统计文件;已达到防止数据库中政策冗余的问题。
[0045]
进一步的,所述步骤1.3中,在政策详情页面上,政策信息分为如下两部分,第一部分是政策的一些基本信息,在政策详情页的最上方,用一个表的形式展示出;第二部分是政策的内容文本信息,利用结构化的网站html信息,对于这两部分要分别进行爬取,逐条取出列表中政策的基本信息。
[0046]
用于存储政策基本信息的数据结构设计如表1所示:
[0047][0048][0049]
表1
[0050]
以此数据结构的设计,完成对政策信息的初步清洗和分类,然后存储到实现设计的数据结构里,政策文本信息也要全部提取和临时保存到txt文件中。
[0051]
进一步的,所述步骤1.4中,政策爬取的日志文件用于存储爬取失败的或者没有爬取到内容的政策,一般是因为政策详情页展示的是图片或者附件,无法获取文本内容,对于这种情况,把其写入政策爬取日志里,以便后续进行人工处理。
[0052]
进一步的,所述步骤1.4中,政策详情的url访问字典,主要用于保存已经访问过的政策的url地址,目的是进行政策的更新操作;当政府网站颁布新的政策时,在进行政策库更新的时候,首先判断政策的url地址是否在政策详情的url访问字典中;如果存在就说明已经访问过了,如果不存在,再进行相应的更新操作。
[0053]
进一步的,所述步骤2包括:
[0054]
步骤2.1:构建养老领域文本分类数据集,对之前收集和积累的养老相关政策类别设置为1;对从网上新爬取到的其他非养老相关政策,只取其政策文本内容,类别设置为0;
[0055]
步骤2.2:数据预处理,对数据集中的政策文本进行预处理,首先根据中文标点符和换行符对每个政策文本进行句子级别的拆分;然后采用ltp对每个句子进行分词;最后把预处理后的政策文本数据集分割成训练集和测试集,训练集用于模型的训练,测试集用于评估模型分类的性能;
[0056]
步骤2.3:模型训练,针对政策文本这一篇章级的分类,选择han模型进行训练,在han模型中,通过"词

句子

文章"的层次化结构来表示一篇文本。
[0057]
进一步的,所述步骤2.3中,han模型有两个层次的attention机制,分别存在于词层次(word level)和句子层次(sentence level)。
[0058]
进一步的,所述步骤3包括:
[0059]
步骤3.1:以五元组对政策文本进行段落级的结构化,根据对政策文本内容的分析,设计一个五元组结构来对一个政策文本进行段落级的结构化;即把一个政策文本根据段落内容转化成[总则,政策补贴对象,政策补贴标准,补贴申请流程,其他]的五元组形式;
[0060]
步骤3.2:结合图2,对政策补贴对象语句进行词汇级的结构化,对五元组中政策补贴对象部分进行进一步的结构化,即完成[政策补贴对象

补贴语句

词汇组]的转换,形成[政策名称

政策补贴语句

词汇组]的三元组关系;在政策文本中,补贴对象是罗列出的语句;首先逐条选中补贴对象语句,采用哈工大ltp工具进行初步的分词,然后手动对分词的结果进行调整和确认;并且把调整后的分词结果保存到术语词汇字典中,下次再进行分词时先读取术语词汇字典;分词完成之后保存词汇和补贴对象语句之间的关系,即保存一个补贴对象语句是由哪些词汇组成的;并且保存补贴对象语句和政策之间的关系,即一个补贴条件语句属于哪个政策;形成如下的三元组:
[0061]
(政策名,include,政策条件语句)
[0062]
(政策条件语句,consists of,条件词汇1)
[0063]
(政策条件语句,consists of,条件词汇2)
[0064]
依据上述三元组,完成政策知识图谱的构建。
[0065]
步骤3.3:构建术语词汇关系知识图谱,依据上述步骤中的术语词汇字典,结合国家和地方颁布的养老服务相关的标准规范,构建一个包含同义词、相似词、兼容词、冲突词四种关系的术语词汇关系知识图谱;形成如下示例的三元组:
[0066]
(失能老人,同义词,介护老人)
[0067]
(高龄老人,兼容词,老年人)
[0068]
以此术语词汇关系知识图谱,完成对相似词汇、同义词汇、兼容词汇、冲突词汇的模块整理。
[0069]
进一步的,所述步骤4包括:
[0070]
步骤4.1:养老政策匹配,根据用户键入或选择的老人信息,形成老人的条件数组,利用步骤3.2中每一条政策补贴对象语句结构化所形成的词汇组,匹配用户所键入或选择的老人信息的条件数组,匹配完成后获取该政策补贴对象语句所属的政策;
[0071]
步骤4.2:根据术语词汇关系知识图谱进行进一步匹配,为进一步提高系统的匹配能力,利用构建的术语词汇关系知识图谱,与用户所选择或键入的基本信息进行同义词汇、相似词汇和兼容词汇的匹配,并获取该词汇所属的补贴对象语句,以及补贴对象语句所属的政策;
[0072]
步骤4.3:养老政策匹配程度排序,根据用户输入或选择形成老人的条件数组与每一条政策补贴对象语句结构化所形成的词汇组的匹配程度,对匹配到的相关政策依据匹配程度高低进行排序。
[0073]
一种基于知识图谱的养老补贴政策匹配系统,其采用上述中一项所述的基于知识图谱的养老补贴政策匹配方法。
[0074]
综上所述,本发明的基于知识图谱的养老补贴政策匹配方法及系统,对各级政府的政策进行爬取,基于文本分类模型,筛选出养老服务相关的政策,然后基于知识图谱技术对养老政策进行结构化,提取出政策中的补贴条件、补贴对象、补贴标准和补贴办理方式等重要信息;方便用户输入老人的基本信息进行养老政策的查询,通过补贴条件与老人的基本信息进行匹配,给老人个性化的推送其能享受的补贴政策,给老人推送符合其条件的补贴扶持政策;提高老人获取政策的效率,促进政策的进一步具体落实。
[0075]
以上所述仅为本发明的实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的权利要求范围之内。
转载请注明原文地址:https://doc.8miu.com/read-1719144.html

最新回复(0)