本发明属于政务技术领域,涉及政务百科构建技术,具体是一种基于知识图谱的政务百科构建方法。
背景技术:
政务,汉语词汇。指政府的事务性工作;泛指行政事务。现有的政务不局限于线下实体政务,还包括电子政务,电子政务是指国家机关在政务活动中,全面应用现代信息技术、网络技术以及办公自动化技术等进行办公、管理和为社会提供公共服务的一种全新的管理模式。广义电子政务的范畴,应包括所有国家机构在内;而狭义的电子政务主要包括直接承担管理国家公共事务、社会事务的各级行政机关。我们常见的电子政务主要有政务系统、电子政务平台等。
基于知识图谱的政务百科构建后,在进行政务信息查询时,当前的检索方式很难准确地检索到查询人员所想要的政务信息,检索到政务信息通常条数较多,需要查询人员重新限定检索要素进行查询,费时费力,为此,我们提出一种基于知识图谱的政务百科构建方法。
技术实现要素:
针对现有技术存在的不足,本发明目的是提供一种基于知识图谱的政务百科构建方法。
本发明所要解决的技术问题为:
基于知识图谱的政务百科构建后,在进行政务信息查询时,当前的检索方式很难准确地检索到查询人员所想要的政务信息,检索到政务信息通常条数较多,需要查询人员重新限定检索要素进行查询,费时费力。
本发明的目的可以通过以下技术方案实现:
一种基于知识图谱的政务百科构建方法,政务百科构建方法包括以下具体步骤;
步骤一:根据各单位公开的权责清单,明确各单位职责及机构职能;
步骤二:对各单位网站互动交流频道及政务服务平台咨询和互动信息资源进行归集和整理;
步骤三:对各单位归集整理的咨询信息进行归纳,形成部门的政务百科目录体系,结合各单位的机构职能,进行补充和转换;
步骤四:实地调研,与各部门确认百科目录是否符合部门的实际情况,根据实际情况进行调整和完善;
步骤五:根据目录体系,建立对应的百科词条,对词条中涉及的政策文件及相关服务,建立对应的关联关系;
步骤六:对百科词条和服务对象进行标签化,通过机器学习调整权重关系,形成词条与词条之间以及词条和服务对象之间的知识图谱;
政务百科通过政务百科系统进行构建,政务百科系统包括服务器、数据采集模块、注册登录模块、映射联系模块、数据分析模块、实体抽取模块以及关键字库;
所述注册登录模块用于使用人员通过登录终端提交用户数据后进行注册登录,并将用户数据发送至服务器内进行存储,使用人员通过登录终端输入政务信息关键字,政务信息关键字发送至服务器中;
所述数据采集模块用于获取注册登录模块输入的政务信息关键字,并将政务信息关键字发送至数据分析模块;所述实体抽取模块是用于对政策文件进行实体抽取,主要对政策文件的知识抽取实现政策文件和百科词条关联;
所述关键字库用于存储若干个政务信息的预设关键字;所述映射联系模块用于将分析后的政务信息关键字与服务器中的关键字库进行比对;所述数据分析模块接收数据采集模块发送的政务信息关键字,并结合映射联系模块对政务信息关键字进行数据分析。
进一步地,所述实体抽取模块的抽取过程具体如下:
s1:提取四类关键词,首先要提取的第一个信息就是问题词qword,即问题的一个明显特征;提取第二个关键的信息,即焦点词qfocus,表示实体的类型;提取第三个的信息,即问题的主题词qtopic;提取第四个的特征,即问题的中心动词qverb;
s2:通过对问题提取问题词qword、问题焦点词qfocus、问题主题词qtopic和问题中心动词qverb这四个问题特征从而形成问题图,将问题词qword、问题焦点qfocus、问题主题词qtopic和问题中心动词qverb加入相对应的节点中;
若该节点是命名实体,则将该节点变为命名实体形式,用于区分对象、地域类型的名字,从而删除掉不重要的节点;
s3:构建特征向量识别实体训练器,在候选实体中找出正确实体,特征向量中的每一维,对应一个实体的候选答案特征;每一个实体的候选答案特征由问题特征中的一个特征和候选答案特征的一个特征组合而成,在提取候选答案的特征时,提取每个实体的关系和属性,即每一个关系和整个问题的关联度,采用概率的形式p(r|q)表示,即朴素贝叶斯
通过政策知识库和两个数据集分别对上面的概率进行统计估算;
其中,第一个数据集是政策文件抽象的个三元组数据集,第二个数据集是政策文件实体对齐数据集,数据中不直接包含政策知识库中的关系r,采用近似的办法,若一个数据集中的三元组包含的两个实体和政策知识库中的关系r包含的两个实体一样,则三元组中存在该关系r,计数加一。
进一步地,所述数据分析模块的分析过程具体如下
步骤l1:获取政务信息关键字输入人员的查询等级,若使用人员的查询等级为第四查询等级,不可进行政务信息查询,若使用人员的查询等级为第一查询等级、第二查询等级或第三查询等级,进入下一步骤;
步骤l2:获取政务信息关键字的字数,并将字数标记为xi,i=1,2,……,n;
步骤l3:获取政务信息关键字中对应字位的笔画数bxi,将政务信息关键字中所有字位的笔画数组合构成当前特征值y1;
步骤l4:通过映射联系模块获取关键字库中字数相同的预设关键字,按照步骤s3中的方法获取字数相同的预设关键字的预设特征值y;
步骤l5:利用公式cfv=y1/y得到当前特征值与预设特征值比对后的重复率cfv;
步骤l6:若重复率cfv大于等于设定的重复率阈值,通过映射联系模块将政务信息关键字与预设关键字建立联系,并通过预设关键字调取百科词条对应的政策文件和服务,反之,不进行任何操作。
进一步地,安全组合状态包括身份可信度已知已关联、身份可信度已知未关联、身份可信度未知已关联和身份可信度未知未关联。
进一步地,用户数据包括姓名、手机号码、身份证号码。
进一步地,实体抽取主要包括实体抽取、关系抽取和属性抽取;
实体抽取:称为命名实体识别,政策文件的实体包括主题、对象、来源、区域和时间;
关系抽取:实体和对应实体之间的关系,也是政策中的重要知识,需要采用分词、语义识别技术手段将关系信息提取出来;
属性抽取:实体的属性信息和关系类似,关系反映实体的外部联系,属性体现实体的内部特征。
与现有技术相比,本发明的有益效果是:
1、本发明首先根据各单位公开的权责清单,明确各单位职责及机构职能;对各单位网站互动交流频道及政务服务平台咨询和互动信息资源进行归集和整理;对各单位归集整理的咨询信息进行归纳,形成部门的政务百科目录体系;实地调研,与各部门确认百科目录是否符合部门的实际情况,根据实际情况进行补充和转换;根据目录体系,建立对应的百科词条,对词条中涉及的政策文件及相关服务,建立对应的关联关系;
2、本发明通过实体抽取模块对政策文件进行实体抽取,通过政务百科系统对政策文件的知识抽取实现政策文件和百科词条关联,实现政策文件和政务百科词条之间相互匹配,建立知识图谱,提升查询人员对百科词条的理解,建立信息之间的关联关系;
3、本发明在基于知识图谱将政务百科构建完成后,通过数据分析模块和映射联系模块将政务信息关键字与关键字库中的预设关键字比对,通过计算检索关键字的特征值与数据库中预设关键字的特征值进行比对,从而能够准确地检索到查询人员所想要的政务信息,无需查询人员反复查询和限定检索要素省时省力。
附图说明
为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
图1为本发明的工作流程图;
图2为本发明中建设目标的总体架构图;
图3为本发明中政务百科系统的系统框图。
具体实施方式
下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
请参阅图1-3所示,一种基于知识图谱的政务百科构建方法,政务百科构建方法包括以下具体步骤;
步骤一:根据各单位公开的权责清单,明确各单位职责及机构职能;
步骤二:对各单位网站互动交流频道及政务服务平台咨询和互动信息资源进行归集和整理;
步骤三:对各单位归集整理的咨询信息进行归纳,形成部门的政务百科目录体系,结合各单位的机构职能,进行补充和转换;
步骤四:实地调研,与各部门确认百科目录是否符合部门的实际情况,根据实际情况进行调整和完善;
步骤五:根据目录体系,建立对应的百科词条,对词条中涉及的政策文件及相关服务,建立对应的关联关系;
步骤六:对百科词条和服务对象进行标签化,通过机器学习调整权重关系,形成词条与词条之间以及词条和服务对象之间的知识图谱;
如图3所示,所述政务百科系统包括服务器、数据采集模块、注册登录模块、安全分析模块、映射联系模块、数据分析模块、实体抽取模块以及关键字库;
所述注册登录模块用于使用人员通过登录终端提交用户数据后进行注册登录,并将用户数据发送至服务器内进行存储,使用人员通过登录终端输入政务信息关键字,政务信息关键字发送至服务器中,其中,用户数据包括姓名、手机号码、身份证号码等;
所述数据采集模块用于获取注册登录模块输入的政务信息关键字,并将政务信息关键字发送至数据分析模块和安全分析模块;所述安全分析模块用于对使用人员进行安全分析,安全分析过程具体如下:
k1:政务系统记录使用人员的用户数据,使用人员通过登录终端中政务系统的线上政务子系统访问政务系统;
k2:政务系统的服务器与线上政务子系统的服务器之间通过使用人员的用户数据进行关联;
k3:为使用人员定义一个关联的安全组合状态;
k4:通过安全组合状态定义使用人员的查询等级;
k5:若安全组合状态为身份可信度已知已关联时,使用人员的查询等级为第一查询等级,使用人员政务查询不受限制,若安全组合状态为身份可信度已知未关联时,使用人员的查询等级为第二查询等级,使用人员政务查询受限制,若安全组合状态为身份可信度未知已关联时,使用人员的查询等级为第三查询等级,使用人员政务查询受限制,若安全组合状态为身份可信度未知未关联时,使用人员的查询等级为第四查询等级,使用人员不可进行政务查询;
所述实体抽取模块用于对使政策文件进行实体抽取,实体抽取的过程具体如下:
对政策文件的知识抽取实现政策文件和百科词条关联,主要包括实体、关系、属性的抽取。一是实体抽取,也称为命名实体识别,政策文件的实体包括主题,对象,来源,区域,时间等等。二是关系抽取,也就是实体和对应实体之间的关系,也是政策中的重要知识,需要采用分词、语义识别等技术手段将关系信息提取出来。三是属性抽取,也就是实体的属性信息,和关系比较类似,关系反映实体的外部联系,属性体现实体的内部特征。
s1:提取四类关键词,首先要提取的第一个信息就是问题词(记作qword),例如什么对象(企业或个人等),什么时间,在哪些地域,符合什么要求,满足什么条件等,它是问题的一个明显特征。第二个关键的信息,就是焦点词(记作qfocus),这个词暗示了实体的类型,比如数据/范围/机构等,我们直接将问题词qword相关的那个名词抽取出来作为qfocus。第三个我们需要的信息,就是这个问题的主题词(记作qtopic)。我们可以通过命名实体识别(namedentityrecognition,ner)来确定主题词,需要注意的是,可能存在多个主题词。最后,第四个我们需要提取的特征,就是问题的中心动词(记作qverb),动词能够给我们提供很多和答案相关的信息。我们可以通过词性标注(part-of-speech,pos)确定qverb。通过对问题提取问题词qword,问题焦点qfocus,问题主题词qtopic和问题中心动词qverb这四个问题特征。
s2:形成问题图,①将问题词qword,问题焦点qfocus,问题主题词qtopic和问题中心动词qverb加入相对应的节点中。②如果该节点是命名实体,那就把该节点变为命名实体形式,这一步的目的是因为数据中涉及到的命名实体名字太多,这里我们只需要区分它是对象、地域还是其他类型的名字即可。③删除掉一些不重要的节点,如限定词(determiner,如一个/那个/一些/这个/彼此等),介词(preposition)和标点符号(punctuation)。
s2:构建特征向量识别实体训练器,在候选实体中找出正确实体,实际上是一个二分类问题(判断每个候选实体是否是正确的),需要训练一个分类器来找到正确答案。特征向量中的每一维,对应一个实体-候选答案特征。每一个实体-候选答案特征由问题特征中的一个特征,和候选答案特征的一个特征,组合(combine)而成。在提取候选答案的特征时,对每个实体提取了它的关系和属性,即每一个关系r和整个问题q的关联度,可表示为概率的形式p(r|q)。采用朴素贝叶斯backoffmodel(即
通过政策知识库和两个数据集分别对上面的概率进行统计估算。第一个数据集是政策文件抽象的个三元组数据集,第二个数据集是政策文件实体对齐对数据集。值得一提的是,这些数据中并不直接包含知识库中的关系r,那么要如何去估,采用了一个近似的办法,如果一个数据集中的三元组包含的两个实体和知识库中的关系r包含的两个实体一样,就认为这个三元组中存在该关系r,计数加一。
所述关键字库用于存储若干个政务信息的预设关键字;所述映射联系模块用于将分析后的政务信息关键字与服务器中的关键字库进行比对;所述数据分析模块接收数据采集模块发送的政务信息关键字,并结合映射联系模块对政务信息关键字进行数据分析,分析过程具体如下
步骤l1:获取政务信息关键字输入人员的查询等级,若使用人员的查询等级为第四查询等级,不可进行政务信息查询,若使用人员的查询等级为第一查询等级、第二查询等级或第三查询等级,进入下一步骤;
步骤l2:获取政务信息关键字的字数,并将字数标记为xi,i=1,2,……,n;
步骤l3:获取政务信息关键字中对应字位的笔画数bxi,将政务信息关键字中所有字位的笔画数组合构成当前特征值y1;
步骤l4:通过映射联系模块获取关键字库中字数相同的预设关键字,按照步骤s3中的方法获取字数相同的预设关键字的预设特征值y;
步骤l5:利用公式cfv=y1/y得到当前特征值与预设特征值比对后的重复率cfv;
步骤l6:若重复率cfv大于等于设定的重复率阈值,通过映射联系模块将政务信息关键字与预设关键字建立联系,并通过预设关键字调取百科词条对应的政策文件和服务,反之,不进行任何操作;
具体举例说明:政务信息关键字为“农村合作医疗”,则政务信息关键字的当前特征值为06-07-06-07-07-07,获取关键字库中字数的预设关键字,包括:“城市医疗保险”、“交通强制保险”、“农村合作医疗”,获取预设关键字的预设特征值分别为:09-05-07-07-09-09、06-10-12-08-09-09和06-07-06-07-07-07,通过比对重复率判断该政务信息关键字与关键字库中的预设关键字“农村合作医疗”相匹配,从而依据百科词条建立关联,依据预设关键字“农村合作医疗”获取对应的政策文件和相关服务;
其中,百科词条如下表所示:
1、建设目标
在数据治理一期成果基础上,继续梳理细化政策主题库、服务主题库、咨询主题库。并基于这三类主题库提炼政务百科分类、词目、词条,构建政府网站政务百科,政务百科可以作为独立的网站频道部署,也可以与智能机器人结合提供服务,总体架构图如图2所示。
2、建设范围
以服务为主线,对“12345政府服务热线”平台高频、重要、热点信息进行梳理结合信息公开网政策文件和政务服务网提供的政务服务,形成合肥市政府网站政务百科频道。
3、主题资源梳理
从群众的政策需求、办事服务需求和问题咨询需求的角度出发,分别围绕群众关切的政策、服务和问题咨询信息梳理形成一套知识库,应用于政府网站、政务新媒体和移动终端。同时,对知识库中的信息进行科学合理分类形成各类主题,并提供检索和信息推荐等功能,便于群众查找和使用。
3.1、政策主题库
政策主题库主要是对市级政府网站中各类政策文件、法规、规章等信息资源进行统一管理,利用分类明确的目录体系实现对文件的分类管理,同时包含发布的文件相关的政策解读、相关新闻报道、服务事项、服务指南等信息资源。政策文件库主要包含文件标题、文号、颁布单位、颁布时间、修订时间、主题词、文件正文、是否有效等信息。
3.2、服务主题库
服务主题库信息资源主要源自“互联网 政务服务”一体化平台,主要包含服务事项,办事指南、常见政务服务咨询问题等信息资源。包括服务事项名称、所属部门、办事指南等内容。
3.3、咨询主题库
对全市领导信箱、投诉咨询、意见征集、在线调查等信息资源进行归集,按照不同的类别归类并形成咨询知识库,为咨询热点问题、咨询投诉情况等分析提供数据支撑
3.4、建立关联关系
政务百科的各主题库之间并不是独立存在的,每个主题库中的个体信息都会与其他主题库之间存在关联关系,即提供一类的信息的同时,推荐展示与该信息存在关联关系的其他信息。例如,用户在点击咨询主题库中劳动保障主题时,系统会展示劳动保障主题下的所有咨询信息,同时会推荐用户可能会感兴趣的与劳动保障相关的政策文件。当用户点击一条具体信息时,如“问:什么争议属于劳动争议?怎么样才能申请劳动仲裁?”系统会进入具体内容页展示该信息的全部内容,同时,提供与劳动争议相关的用户可能感兴趣的政策文件,如《中华人民共和国劳动争议调解仲裁法》、《劳动保障监察条例》、《女职工劳动保护特别规定》、《中华人民共和国劳动合同法实施条例》等,以及可能需要的服务,如劳动人事争议调仲裁申请、劳动人事争议调解申请、劳动保障监察举报投诉受理、劳动保障诚信示范单位查询服务等;
其中,针对以上关联关系,具体实现步骤如下:
(1)在初期梳理各主题库信息的同时,对每个个体信息进行标签化,即划定一个或多个关键词;
(2)将一类主题库中的所有关键词,与另外两类主题库中的关键词作关系划分,形成三类主题库中关键词的关系矩阵;
(3)当用户点击一条具体信息时,系统则根据该信息的关键词搜寻与其存在关系的其他关键词的对应信息,并集中展示。
4、政务百科构建
按照类、目和条的分类框架形成政务百科,根据服务和咨询的变化情况不断的增加和完善,其中百科数量按照平均20条每个部门,50个部门总共词条数据约为1000条(其中包含民生领域的部门词条数远大于20条,具体数量按照实际情况计算);
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节,也不限制该发明仅为的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
1.一种基于知识图谱的政务百科构建方法,其特征在于,政务百科构建方法包括以下具体步骤;
步骤一:根据各单位公开的权责清单,明确各单位职责及机构职能;
步骤二:对各单位网站互动交流频道及政务服务平台咨询和互动信息资源进行归集和整理;
步骤三:对各单位归集整理的咨询信息进行归纳,形成部门的政务百科目录体系,结合各单位的机构职能,进行补充和转换;
步骤四:实地调研,与各部门确认百科目录是否符合部门的实际情况,根据实际情况进行调整和完善;
步骤五:根据目录体系,建立对应的百科词条,对词条中涉及的政策文件及相关服务,建立对应的关联关系;
步骤六:对百科词条和服务对象进行标签化,通过机器学习调整权重关系,形成词条与词条之间以及词条和服务对象之间的知识图谱;
政务百科通过政务百科系统进行构建,政务百科系统包括服务器、数据采集模块、注册登录模块、映射联系模块、数据分析模块、实体抽取模块以及关键字库;
所述注册登录模块用于使用人员通过登录终端提交用户数据后进行注册登录,并将用户数据发送至服务器内进行存储,使用人员通过登录终端输入政务信息关键字,政务信息关键字发送至服务器中;
所述数据采集模块用于获取注册登录模块输入的政务信息关键字,并将政务信息关键字发送至数据分析模块;所述实体抽取模块是用于对政策文件进行实体抽取,主要对政策文件的知识抽取实现政策文件和百科词条关联;
所述关键字库用于存储若干个政务信息的预设关键字;所述映射联系模块用于将分析后的政务信息关键字与服务器中的关键字库进行比对;所述数据分析模块接收数据采集模块发送的政务信息关键字,并结合映射联系模块对政务信息关键字进行数据分析。
2.根据权利要求1所述的一种基于知识图谱的政务百科构建方法,其特征在于,所述实体抽取模块的抽取过程具体如下:
s1:提取四类关键词,首先要提取的第一个信息就是问题词qword,即问题的一个明显特征;提取第二个关键的信息,即焦点词qfocus,表示实体的类型;提取第三个的信息,即问题的主题词qtopic;提取第四个的特征,即问题的中心动词qverb;
s2:通过对问题提取问题词qword、问题焦点词qfocus、问题主题词qtopic和问题中心动词qverb这四个问题特征从而形成问题图,将问题词qword、问题焦点qfocus、问题主题词qtopic和问题中心动词qverb加入相对应的节点中;
若该节点是命名实体,则将该节点变为命名实体形式,用于区分对象、地域类型的名字,从而删除掉不重要的节点;
s3:构建特征向量识别实体训练器,在候选实体中找出正确实体,特征向量中的每一维,对应一个实体的候选答案特征;每一个实体的候选答案特征由问题特征中的一个特征和候选答案特征的一个特征组合而成,在提取候选答案的特征时,提取每个实体的关系和属性,即每一个关系和整个问题的关联度,采用概率的形式p(r|q)表示,即朴素贝叶斯
通过政策知识库和两个数据集分别对上面的概率进行统计估算;
其中,第一个数据集是政策文件抽象的个三元组数据集,第二个数据集是政策文件实体对齐数据集,数据中不直接包含政策知识库中的关系r,采用近似的办法,若一个数据集中的三元组包含的两个实体和政策知识库中的关系r包含的两个实体一样,则三元组中存在该关系r,计数加一。
3.根据权利要求1所述的一种基于知识图谱的政务百科构建方法,其特征在于,所述数据分析模块的分析过程具体如下
步骤l1:获取政务信息关键字输入人员的查询等级,若使用人员的查询等级为第四查询等级,不可进行政务信息查询,若使用人员的查询等级为第一查询等级、第二查询等级或第三查询等级,进入下一步骤;
步骤l2:获取政务信息关键字的字数,并将字数标记为xi,i=1,2,……,n;
步骤l3:获取政务信息关键字中对应字位的笔画数bxi,将政务信息关键字中所有字位的笔画数组合构成当前特征值y1;
步骤l4:通过映射联系模块获取关键字库中字数相同的预设关键字,按照步骤s3中的方法获取字数相同的预设关键字的预设特征值y;
步骤l5:利用公式cfv=y1/y得到当前特征值与预设特征值比对后的重复率cfv;
步骤l6:若重复率cfv大于等于设定的重复率阈值,通过映射联系模块将政务信息关键字与预设关键字建立联系,并通过预设关键字调取百科词条对应的政策文件和服务,反之,不进行任何操作。
4.根据权利要求2所述的一种基于知识图谱的政务百科构建方法,其特征在于,安全组合状态包括身份可信度已知已关联、身份可信度已知未关联、身份可信度未知已关联和身份可信度未知未关联。
5.根据权利要求1所述的一种基于知识图谱的政务百科构建方法,其特征在于,用户数据包括姓名、手机号码、身份证号码。
6.根据权利要求1所述的一种基于知识图谱的政务百科构建方法,其特征在于,实体抽取主要包括实体抽取、关系抽取和属性抽取;
实体抽取:称为命名实体识别,政策文件的实体包括主题、对象、来源、区域和时间;
关系抽取:实体和对应实体之间的关系,也是政策中的重要知识,需要采用分词、语义识别技术手段将关系信息提取出来;
属性抽取:实体的属性信息和关系类似,关系反映实体的外部联系,属性体现实体的内部特征。
技术总结