本发明涉及医学数据处理领域,特别是涉及一种基于语义分析及知识图谱的疾病研究数据集融合方法、系统及终端。
背景技术:
1、疾病研究数据集是一种包含特定疾病相关患者、病因、症状、诊断、治疗、基因、影像及随访等信息的数据库。数据集的制定需要由专业的医学专家、研究人员针对不同的研究目标结合专业的研究方法制定对应的数据的收集、整理和分析,以便用于研究和改善疾病的诊断、治疗和预防方法。
2、疾病研究数据集的目标包括:通过对疾病研究数据集的分析,可以帮助医生更准确地识别病因、症状和治疗方法,从而提高诊断准确性;研究人员可以通过对疾病研究数据集的深入研究,探索或验证治疗方法和药物的有效性,为患者提供更多的治疗选择。通过对疾病研究数据集的分析,可以找出疾病的危险因素和预防措施,有助于减少疾病的发生率。
3、疾病研究数据集的设计及数据采集需要耗费大量的人力物力,不同的数据集在研究目的、覆盖地区、研究周期及专业水平的方面有较大差异。在药物研究发现、临床研究发现及个性化诊疗等方面经常会产生很多的“定制化”的疾病研究数据集,并且已经收集整理了较多的数据,但当开展新的类似或者关联研究时仍需要重新开始建立疾病研究数据集,导致研究周期无法缩短、研究成本无法降低、研究的准确性无法提高。需要一套能够对已有疾病研究数据集进行融合的工具,以提升研究的效率,提高研究的质量,拓展研究的范围。
4、目前主要通过临床医学专业人员和信息化专业人员配合,通过人工核对的方式对不同的数据集进行融合处理,融合的质量及效率严重依赖于人员的能力,无法持续准确快速的完成疾病研究数据集的融合工作。
技术实现思路
1、鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于语义分析及知识图谱的疾病研究数据集融合方法、系统及终端,用于解决以上现有技术问题。
2、为实现上述目的及其他相关目的,本发明提供一种基于语义分析及知识图谱的疾病研究数据集融合方法,包括:获取待融合的数据源以及目标专病库的元数据;根据所述数据源以及其对应的元数据,初步构建知识图谱;基于语义分析融合工具,将所述数据源以及初步构建的知识图谱进行融合,并更新所述知识图谱。
3、于本发明的一实施例中,所述将所述数据源以及初步构建的知识图谱进行融合,并更新所述知识图谱包括:基于输入所述语义分析融合工具的所述数据源与初步构建的知识图谱以及各自的元数据,确定所述数据源与知识图谱之间的相似字段;基于所述数据源与知识图谱之间的相似字段,自动进行所述数据源以及所述知识图谱之间的字段映射,并更新所述知识图谱。
4、于本发明的一实施例中,所述基于输入所述语义分析融合工具的所述数据源与初步构建的知识图谱以及各自的元数据,确定所述数据源与知识图谱之间的相似字段包括:根据输入的所述数据源与知识图谱以及各自对应的元数据,生成对应所述数据源与知识图谱中各字段所对应的语义向量;基于各字段所对应的语义向量,查找所述数据源与知识图谱之间的相似字段。
5、于本发明的一实施例中,所述根据输入的所述数据源与知识图谱以及各自对应的元数据,生成对应所述数据源与知识图谱中各字段所对应的语义向量包括:基于输入的所述数据源与知识图谱以及各自对应的元数据,通过bert模型对所述数据源与知识图谱中的各字段进行编码,获得各字段所对应的语义向量。
6、于本发明的一实施例中,所述基于各字段所对应的语义向量,查找所述数据源与知识图谱之间的相似字段包括:将各字段所对应的语义向量进行kmeans聚类,并确定同时包含有所述数据源与知识图谱中字段的类别;在确定的各类别中分别计算其中所述数据源与知识图谱的各字段之间的距离,并基于计算的距离确定所述数据源与知识图谱之间的相似字段。
7、于本发明的一实施例中,所述基于所述数据源与知识图谱之间的相似字段,自动进行所述数据源以及所述知识图谱之间的字段映射包括:将所述数据源的字段与知识图谱之间的相似字段进行映射,融合为同一个字段。
8、于本发明的一实施例中,所述方法还包括:在所述数据源以及所述知识图谱之间进行字段映射后,将所述数据源中未映射的字段融合至字段映射后的知识图谱中,以更新所述知识图谱。
9、于本发明的一实施例中,所述元数据包括:字段名称、数据类型、数据格式、数据长度和其他元数据。
10、为实现上述目的及其他相关目的,本发明提供一种基于语义分析及知识图谱的疾病研究数据集融合系统,包括:元数据获取模块,用于获取待融合的数据源以及目标专病库的元数据;知识图谱初步构建模块,连接所述元数据获取模块,用于根据所述数据源以及其对应的元数据,初步构建知识图谱;融合模块,连接所述知识图谱初步构建模块,用于基于语义分析融合工具,将所述数据源以及初步构建的知识图谱进行融合,并更新所述知识图谱。
11、为实现上述目的及其他相关目的,本发明提供一种基于语义分析及知识图谱的疾病研究数据集融合控制终端包括:一或多个存储器及一或多个处理器;所述一或多个存储器,用于存储计算机程序;所述一或多个处理器,连接所述存储器,用于运行所述计算机程序以执行所述的方法。
12、如上所述,本发明是一种基于语义分析及知识图谱的疾病研究数据集融合方法、系统及终端,具有以下有益效果:本发明通过获取待融合的数据源以及目标专病库的元数据,并根据所述数据源以及其对应的元数据初步构建知识图谱,再基于语义分析融合工具,将所述数据源以及初步构建的知识图谱进行融合,并更新所述知识图谱。本发明可自动对已有疾病研究数据集进行快速且准确的融合。
1.一种基于语义分析及知识图谱的疾病研究数据集融合方法,其特征在于,包括:
2.根据权利要求1中所述的基于语义分析及知识图谱的疾病研究数据集融合方法,其特征在于,所述将所述数据源以及初步构建的知识图谱进行融合,并更新所述知识图谱包括:
3.根据权利要求1中所述的基于语义分析及知识图谱的疾病研究数据集融合方法,其特征在于,所述基于输入所述语义分析融合工具的所述数据源与初步构建的知识图谱以及各自的元数据,确定所述数据源与知识图谱之间的相似字段包括:
4.根据权利要求1中所述的基于语义分析及知识图谱的疾病研究数据集融合方法,其特征在于,所述根据输入的所述数据源与知识图谱以及各自对应的元数据,生成对应所述数据源与知识图谱中各字段所对应的语义向量包括:
5.根据权利要求1中所述的基于语义分析及知识图谱的疾病研究数据集融合方法,其特征在于,所述基于各字段所对应的语义向量,查找所述数据源与知识图谱之间的相似字段包括:
6.根据权利要求1中所述的基于语义分析及知识图谱的疾病研究数据集融合方法,其特征在于,所述基于所述数据源与知识图谱之间的相似字段,自动进行所述数据源以及所述知识图谱之间的字段映射包括:
7.根据权利要求1中所述的基于语义分析及知识图谱的疾病研究数据集融合方法,其特征在于,所述方法还包括:
8.根据权利要求1中所述的基于语义分析及知识图谱的疾病研究数据集融合方法,其特征在于,所述元数据包括:字段名称、数据类型、数据格式、数据长度和其他元数据。
9.一种基于语义分析及知识图谱的疾病研究数据集融合系统,其特征在于,包括:
10.一种基于语义分析及知识图谱的疾病研究数据集融合控制终端,其特征在于,包括:一或多个存储器及一或多个处理器;