一种华文教育领域的多源知识图谱融合方法及装置与流程

专利2022-05-09  109


本发明涉及知识图谱领域,具体涉及一种华文教育领域的多源知识图谱融合方法及装置。
背景技术
:华文教育是以华侨华人子女为对象,以语言文化传承教育为目标的中文二语教学。它区别于国际中文教育,呈现汉语言教学和中华文化传承的并重特点。华裔青少年作为海外华侨华人的子女,一般得到了父母亲人的中文语言文化熏陶,具有一定的中文底蕴。这使得华文教育介于第一语言和第二语言教学之间,呈现出文化传承和第二语言教学的相融合的教学特色,自身积累了一系列高质量的华文教学领域教学资源。但上述教学资源组成类型复杂(异构)且往往来源于不同的教学组织或机构(多源)。多源异构数据的碎片化、关联性不足等特征容易导致“信息孤岛”、数据资源无法完成向知识的转化等问题,进而导致数据资源的价值无法得到充分挖掘。构建多源知识图谱即是对数据自身进行理解、分析,并提炼有效知识的重要途径。知识图谱这一概念在2012年由谷歌提出并成功应用于搜索引擎当中。它通过结构化的形式描述客观世界中概念、实体与其之间的关系,实现了强大的语义处理能力和数据结构化组织能力,为数据挖掘、个性化推荐与智能问答等需要大量知识数据进行支撑的任务提供了基础。但是,对于异构数据知识图谱构建与多源知识图谱的融合,传统的数据库与分析挖掘技术工具几乎无能为力。技术实现要素:针对上述提到的异构数据知识图谱构建与多源知识图谱的融合难度大等问题。本申请的实施例的目的在于提出了一种华文教育领域的多源知识图谱融合方法及装置,来解决以上
背景技术
部分提到的技术问题。第一方面,本申请的实施例提供了一种华文教育领域的多源知识图谱融合方法,包括以下步骤:s1,通过汉字学理知识构建以第一实体集ec和第一关系集rc构成的汉字学理三元组信息gc,形式为<ei,rj,ek>,其中ei,ek∈ec,rj∈rc;s2,通过华文教学知识构建以第二实体集et和第二关系集rt构成的华文教学三元组信息gt,形式为<hi,lj,hk>,其中hi,hk∈et,lj∈rt;s3,通过华文教材知识构建以第三实体集eb和第三关系集rb构成的华文教材三元组信息gb,形式为<mi,nj,mk>,其中mi,mk∈eb,nj∈rb;第一实体集ec、第二实体集et与第三实体集eb两两之间至少存在相同的实体节点构成共现实体集合;以及s4,从汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb中筛选出共现实体集合,根据共现实体集合将汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb进行融合,得到华语教育领域的知识图谱。在一些实施例中,第一实体集ec包括汉字结构实体、汉字部首实体、汉字拼音实体、汉字开放知识实体和汉字实体,第一实体集ec和第一关系集rc采用众包的方式收集并以json字符串格式进行建立。在一些实施例中,第二实体集et包括教学方法实体、教学技巧实体、词语实体、成语实体和汉字实体,第二实体集et和第二关系集rt中的教学方法实体和教学技巧实体以xmind文件格式导出,词语实体、成语实体、汉字实体与教学方法实体、教学技巧实体之间的关系集合采用众包的方式收集并以excel表格的格式进行建立。在一些实施例中,第三实体集eb包括教材实体、教材册数实体、教材课数实体、习题实体、词语实体、成语实体和汉字实体,第三实体集eb和第三关系集rb采用将选定华文教材以册数与课数为粒度进行分割,以课数为最细粒度对选定华文教材中的词语实体、成语实体和汉字实体进行标注,将选定华文教材中习题考察内容与词语实体、成语实体和汉字实体进行关联并以excel表格的格式进行建立。在一些实施例中,共现实体集合包括词语实体、成语实体和汉字实体。在一些实施例中,步骤s4具体包括遍历共现实体集合,通过匹配同义节点,进而完成同义节点合并,最后整合同义节点分别在汉字学理三元组信息gc、华文教学三元组信息gt或华文教材三元组信息gb中的关系,得到华语教育领域的知识图谱。在一些实施例中,同义节点为来源于汉字学理三元组信息gc、华文教学三元组信息gt和华文教材三元组信息gb之间的其中两个且同名的节点。第二方面,本申请的实施例提供了一种华文教育领域的多源知识图谱融合装置,包括:汉字学理三元组信息建立模块,被配置为通过汉字学理知识构建以第一实体集ec和第一关系集rc构成的汉字学理三元组信息gc,形式为<ei,rj,ek>,其中ei,ek∈ec,rj∈rc;华文教学三元组信息模块,被配置为通过华文教学知识构建以第二实体集et和第二关系集rt构成的华文教学三元组信息gt,形式为<hi,lj,hk>,其中hi,hk∈et,lj∈rt;华文教材三元组信息模块,被配置为通过华文教材知识构建以第三实体集eb和第三关系集rb构成的华文教材三元组信息gb,形式为<mi,nj,mk>,其中mi,mk∈eb,nj∈rb;第一实体集ec、第二实体集et与第三实体集eb两两之间至少存在相同的实体节点构成共现实体集合;以及知识图谱融合模块,被配置为从汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb中筛选出共现实体集合,根据共现实体集合将汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb进行融合,得到华语教育领域的知识图谱。第三方面,本公开实施例提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。本发明公开了一种华文教育领域的多源知识图谱融合方法及装置,通过设计基于汉字、华文教学与华文教材的实体集与关系集,完成多源知识图谱的模式层设计,并在模式层的基础上,根据多源知识图谱各自的元数据构成,采用不同的方法完成多源知识图谱的构建。然后筛选具有教学用途的多源图谱共现实体节点,通过对其中的同义节点以及其关系进行合并,完成多源图谱的融合任务。本发明提供了一种针对现有华文教育领域知识碎片化解决方案,融合后的知识图谱对具有教学用途的知识信息进行了关联与整合,提升了其在华文教育领域的覆盖度与使用价值,为后续在知识图谱上进行的数据挖掘、个性化推荐与智能问答等工作提供了便利。附图说明为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本申请的一个实施例可以应用于其中的示例性装置架构图;图2为本发明的实施例的华文教育领域的多源知识图谱融合方法的流程示意图;图3为本发明的实施例的汉字学理三元组信息gc的概念层设计示意图;图4为本发明的实施例的汉字学理三元组信息gc的元数据json字符串示意图;图5为本发明的实施例的汉字学理三元组信息gc的(部分)可视化示意图;图6为本发明的实施例的华文教学三元组信息gt的概念层设计示意图;图7为本发明的实施例的华文教学技巧(部分)知识导图示意图;图8为本发明的实施例的华文教学三元组信息gt的(部分)可视化示意图;图9为本发明的实施例的华文教材三元组信息gb的概念层设计示意图;图10为本发明的实施例的华文教材三元组信息gb的的(部分)可视化示意图;图11为本发明的实施例的融合后的知识图谱gf的(部分)可视化示意图;图12为本发明的实施例的华文教育领域的多源知识图谱融合装置的示意图;图13是适于用来实现本申请实施例的电子设备的计算机装置的结构示意图。具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。图1示出了可以应用本申请实施例的华文教育领域的多源知识图谱融合方法或华文教育领域的多源知识图谱融合装置的示例性装置架构100。如图1所示,装置架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如数据处理类应用、文件处理类应用等。终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。在此不做具体限定。服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上传的文件或数据进行处理的后台数据处理服务器。后台数据处理服务器可以对获取的文件或数据进行处理,生成处理结果。需要说明的是,本申请实施例所提供的华文教育领域的多源知识图谱融合方法可以由服务器105执行,也可以由终端设备101、102、103执行,相应地,华文教育领域的多源知识图谱融合装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。在所处理的数据不需要从远程获取的情况下,上述装置架构可以不包括网络,而只需服务器或终端设备。图2示出了本申请的实施例提供的一种华文教育领域的多源知识图谱融合方法,包括以下步骤:s1,通过汉字学理知识构建以第一实体集ec和第一关系集rc构成的汉字学理三元组信息gc,形式为<ei,rj,ek>,其中ei,ek∈ec,rj∈rc;s2,通过华文教学知识构建以第二实体集et和第二关系集rt构成的华文教学三元组信息gt,形式为<hi,lj,hk>,其中hi,hk∈et,lj∈rt;s3,通过华文教材知识构建以第三实体集eb和第三关系集rb构成的华文教材三元组信息gb,形式为<mi,nj,mk>,其中mi,mk∈eb,nj∈rb;第一实体集ec、第二实体集et与第三实体集eb两两之间至少存在相同的实体节点构成共现实体集合;以及s4,从汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb中筛选出共现实体集合,根据共现实体集合将汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb进行融合,得到华语教育领域的知识图谱。第一步:汉字学理三元组信息gc构建本发明所定义的第一实体集ec及其所属实体类别说明如表1所示:表1第一实体集本发明所定义的第一关系集rc及其所属关系类别说明如表2所示:表2第二关系集构成汉字学理三元组信息gc的元数据主要通过众包的方式由人工收集数据并按要求提交特定格式json字符串用于生成第一实体集ec与第一关系集rc,json字符串格式如下表3所示。并将其存储于mysql数据库,形成汉字学理三元组信息gc。表3汉字学理三元组信息元数据json字符串格式字段类型说明namestring汉字structurestring汉字结构pinyinstring汉字拼音bushoustring汉字部首knowledgearray汉字开放知识字符串构成的数组如图3所示为汉字学理三元组信息gc的概念层设计示意图,如图4所示为汉字学理三元组信息gc的元数据json字符串示意图,最终得到如图5所示的汉字学理三元组信息gc的(部分)可视化示意图。第二步:华文教学三元组信息gt构建本发明所定义的第二实体集et及其所属实体类别说明如表4所示:表4第二实体集本发明所定义的第二关系集rt及其所属关系类别说明如表5所示:表5第二关系集起始节点结束节点关系说明汉字教学方法该汉字在教学时使用此教学方法。汉字教学技巧该汉字在教学时使用此教学技巧。词语教学方法该词语在教学时使用此教学方法。词语教学技巧该词语在教学时使用此教学技巧。成语教学方法该成语在教学时使用此教学方法。成语教学技巧该成语在教学时使用此教学技巧。制作华文教学三元组信息gt的元数据分为两步,第一步由华文教育的专业人员制作教学方法实体与教学技巧实体的元数据集合,该元数据集合以xmind文件的格式导出,通过程序解析后存入mysql数据库,其中教学方法实体与教学技巧实体的概念、代表人物、出现时间等信息作为实体属性一并存入。第二步通过众包的形式收集汉字实体、词语实体与成语实体这三类实体与教学方法实体和教学技巧实体的关系元数据集合,以excel表格的格式提交后通过程序解析存入mysql数据库,最终得到华文教学三元组信息gt。如图6所示为华文教学三元组信息gt的概念层设计示意图,如图7所示为华文教学技巧(部分)知识导图示意图,最终得到如图8所示的华文教学三元组信息gt的(部分)可视化示意图。第三步:华文教材三元组信息gb构建本发明所定义的第三实体集eb及其所属实体类别说明如表6所示:表6第三实体集本发明所定义的第三关系集rb及其所属关系类别说明如表7所示:表7第三关系集制作华文教材三元组信息gb的元数据首先需对选定华文教材以册数与课数为粒度进行分割,并以课数为最细粒度交付到具有华文教学知识的人员手中,根据参与教案等材料,标注该课需掌握的汉字实体、词语实体与成语实体,并将课后习题按指定格式提取至excel表格中,并根据习题考察内容与汉字实体、词语实体及成语实体进行关联,最终得到华文教材的格式化数据,由程序进行解析后存入mysql数据库,至此完成华文教材三元组信息gb的制作。如图9所示为华文教材三元组信息gb的概念层设计示意图,最终得到如图10所示的华文教材三元组信息gb的(部分)可视化示意图。第四步:基于共现实体节点的知识图谱融合以其中一个实施例作为示例,从汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb中筛选出共现实体集合eco={新c、新t、新b、新年t、新年b、辞旧迎新t、辞旧迎新b...},筛选原则为:(1)该实体节点具有教学用途,即该实体属于汉字实体、词语实体、成语实体三类实体中任意一类;(2)该实体节点同时出现在两份不同的三元组信息中。其中新c代表该实体节点来自汉字学理三元组信息gc,新t代表该实体节点来自华文教学三元组信息gt,新b代表该实体节点来自华文教材三元组信息gb。对共现实体集合eco,将来源于不同三元组信息同名的节点认为是同义节点,进而完成同义节点与其来源三元组信息的关系集合进行合并,最终得到融合后的知识图谱gf。如图11所示为融合后的知识图谱gf的(部分)可视化示意图。至此,一种华文教育领域的多源知识图谱构建与融合方法全部结束。不难发现,本发明构建的华文教育领域的多源知识图谱具有全面的知识覆盖范围、良好的知识表示结构和深层次的关系推理等优点,作为华文教育领域的数据支撑,融合后的知识图谱对具有教学用途的知识信息进行了关联与整合,为后续在知识图谱上进行的数据挖掘、个性化推荐与智能问答等工作提供了便利。进一步参考图12,作为对上述各图所示方法的实现,本申请提供了一种华文教育领域的多源知识图谱融合装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。本申请的实施例提供的一种华文教育领域的多源知识图谱融合装置,包括:汉字学理三元组信息建立模块1,被配置为通过汉字学理知识构建以第一实体集ec和第一关系集rc构成的汉字学理三元组信息gc,形式为<ei,rj,ek>,其中ei,ek∈ec,rj∈rc;华文教学三元组信息模块2,被配置为通过华文教学知识构建以第二实体集et和第二关系集rt构成的华文教学三元组信息gt,形式为<hi,lj,hk>,其中hi,hk∈et,lj∈rt;华文教材三元组信息模块3,被配置为通过华文教材知识构建以第三实体集eb和第三关系集rb构成的华文教材三元组信息gb,形式为<mi,nj,mk>,其中mi,mk∈eb,nj∈rb;第一实体集ec、第二实体集et与第三实体集eb两两之间至少存在相同的实体节点构成共现实体集合;以及知识图谱融合模块4,被配置为从汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb中筛选出共现实体集合,根据共现实体集合将汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb进行融合,得到华语教育领域的知识图谱。下面参考图13,其示出了适于用来实现本申请实施例的电子设备(例如图1所示的服务器或终端设备)的计算机装置1300的结构示意图。图13示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。如图13所示,计算机装置1300包括中央处理单元(cpu)1301和图形处理器(gpu)1302,其可以根据存储在只读存储器(rom)1303中的程序或者从存储部分1309加载到随机访问存储器(ram)1304中的程序而执行各种适当的动作和处理。在ram1304中,还存储有装置1300操作所需的各种程序和数据。cpu1301、gpu1302、rom1303以及ram1304通过总线1305彼此相连。输入/输出(i/o)接口1306也连接至总线1305。以下部件连接至i/o接口1306:包括键盘、鼠标等的输入部分1307;包括诸如、液晶显示器(lcd)等以及扬声器等的输出部分1308;包括硬盘等的存储部分1309;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1310。通信部分1310经由诸如因特网的网络执行通信处理。驱动器1311也可以根据需要连接至i/o接口1306。可拆卸介质1312,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1311上,以便于从其上读出的计算机程序根据需要被安装入存储部分1309。特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1310从网络上被下载和安装,和/或从可拆卸介质1312被安装。在该计算机程序被中央处理单元(cpu)1301和图形处理器(gpu)1302执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读介质或者是上述两者的任意组合。计算机可读介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的装置、装置或器件,或者任意以上的组合。计算机可读介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行装置、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行装置、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、rf等等,或者上述的任意合适的组合。可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、smalltalk、c ,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。附图中的流程图和框图,图示了按照本申请各种实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的装置来实现,或者可以用专用硬件与计算机指令的组合来实现。描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中。作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:通过汉字学理知识构建以第一实体集ec和第一关系集rc构成的汉字学理三元组信息gc,形式为<ei,rj,ek>,其中ei,ek∈ec,rj∈rc;通过华文教学知识构建以第二实体集et和第二关系集rt构成的华文教学三元组信息gt,形式为<hi,lj,hk>,其中hi,hk∈et,lj∈rt;通过华文教材知识构建以第三实体集eb和第三关系集rb构成的华文教材三元组信息gb,形式为<mi,nj,mk>,其中mi,mk∈eb,nj∈rb;第一实体集ec、第二实体集et与第三实体集eb两两之间至少存在相同的实体节点构成共现实体集合;从汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb中筛选出共现实体集合,根据共现实体集合将汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb进行融合,得到华语教育领域的知识图谱。以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。当前第1页1 2 3 
技术特征:

1.一种华文教育领域的多源知识图谱融合方法,其特征在于,包括以下步骤:

s1,通过汉字学理知识构建以第一实体集ec和第一关系集rc构成的汉字学理三元组信息gc,形式为<ei,rj,ek>,其中ei,ek∈ec,rj∈rc;

s2,通过华文教学知识构建以第二实体集et和第二关系集rt构成的华文教学三元组信息gt,形式为<hi,lj,hk>,其中hi,hk∈et,lj∈rt;

s3,通过华文教材知识构建以第三实体集eb和第三关系集rb构成的华文教材三元组信息gb,形式为<mi,nj,mk>,其中mi,mk∈eb,nj∈rb;所述第一实体集ec、所述第二实体集et与所述第三实体集eb两两之间至少存在相同的实体节点构成共现实体集合;以及

s4,从所述汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb中筛选出所述共现实体集合,根据所述共现实体集合将所述汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb进行融合,得到华语教育领域的知识图谱。

2.根据权利要求1所述的华文教育领域的多源知识图谱融合方法,其特征在于,所述第一实体集ec包括汉字结构实体、汉字部首实体、汉字拼音实体、汉字开放知识实体和汉字实体,所述第一实体集ec和所述第一关系集rc采用众包的方式收集并以json字符串格式进行建立。

3.根据权利要求1所述的华文教育领域的多源知识图谱融合方法,其特征在于,所述第二实体集et包括教学方法实体、教学技巧实体、词语实体、成语实体和汉字实体,所述第二实体集et和第二关系集rt中的所述教学方法实体和所述教学技巧实体以xmind文件格式导出,所述词语实体、所述成语实体、所述汉字实体与所述教学方法实体、所述教学技巧实体之间的关系集合采用众包的方式收集并以excel表格的格式进行建立。

4.根据权利要求1所述的华文教育领域的多源知识图谱融合方法,其特征在于,所述第三实体集eb包括教材实体、教材册数实体、教材课数实体、习题实体、词语实体、成语实体和汉字实体,所述第三实体集eb和第三关系集rb采用将选定华文教材以册数与课数为粒度进行分割,以课数为最细粒度对所述选定华文教材中的所述词语实体、所述成语实体和所述汉字实体进行标注,将所述选定华文教材中习题考察内容与所述词语实体、所述成语实体和所述汉字实体进行关联并以excel表格的格式进行建立。

5.根据权利要求1所述的华文教育领域的多源知识图谱融合方法,其特征在于,所述共现实体集合包括词语实体、成语实体和汉字实体。

6.根据权利要求1所述的华文教育领域的多源知识图谱融合方法,其特征在于,所述步骤s4具体包括遍历所述共现实体集合,通过匹配同义节点,进而完成同义节点合并,最后整合同义节点分别在所述汉字学理三元组信息gc、华文教学三元组信息gt或华文教材三元组信息gb中的关系,得到所述华语教育领域的知识图谱。

7.根据权利要求1所述的华文教育领域的多源知识图谱融合方法,其特征在于,所述同义节点为来源于所述汉字学理三元组信息gc、华文教学三元组信息gt和华文教材三元组信息gb之间的其中两个且同名的节点。

8.一种华文教育领域的多源知识图谱融合装置,其特征在于,包括:

汉字学理三元组信息建立模块,被配置为通过汉字学理知识构建以第一实体集ec和第一关系集rc构成的汉字学理三元组信息gc,形式为<ei,rj,ek>,其中ei,ek∈ec,rj∈rc;

华文教学三元组信息模块,被配置为通过华文教学知识构建以第二实体集et和第二关系集rt构成的华文教学三元组信息gt,形式为<hi,lj,hk>,其中hi,hk∈et,lj∈rt;

华文教材三元组信息模块,被配置为通过华文教材知识构建以第三实体集eb和第三关系集rb构成的华文教材三元组信息gb,形式为<mi,nj,mk>,其中mi,mk∈eb,nj∈rb;所述第一实体集ec、所述第二实体集et与所述第三实体集eb两两之间至少存在相同的实体节点构成共现实体集合;以及

知识图谱融合模块,被配置为从所述汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb中筛选出所述共现实体集合,根据所述共现实体集合将所述汉字学理三元组信息gc、华文教学三元组信息gt、华文教材三元组信息gb进行融合,得到华语教育领域的知识图谱。

9.一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的方法。

技术总结
本发明公开了一种华文教育领域的多源知识图谱融合方法及装置,通过设计基于汉字、华文教学与华文教材的实体集与关系集,完成多源知识图谱的模式层设计,并在模式层的基础上,根据多源知识图谱各自的元数据构成,采用不同的方法完成多源知识图谱的构建。然后筛选具有教学用途的多源图谱共现实体节点,通过对其中的同义节点以及其关系进行合并,完成多源图谱的融合任务。本发明提供了一种针对现有华文教育领域知识碎片化解决方案,融合后的知识图谱对具有教学用途的知识信息进行了关联与整合,提升了其在华文教育领域的覆盖度与使用价值,为后续在知识图谱上进行的数据挖掘、个性化推荐与智能问答等工作提供了便利。

技术研发人员:王华珍;赵荐轩;廖永新;吕挺;汪晓凤;喻小光
受保护的技术使用者:华侨大学
技术研发日:2021.05.28
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-8865.html

最新回复(0)