本发明涉及医疗数据挖掘,具体涉及一种中西医结合的临床术语知识图谱构建方法。
背景技术:
1、构建中西医结合的临床术语知识图谱时,处理中西医术语之间的差异和融合问题是一个关键任务。由于中西医术语来源于不同的理论体系和文化背景,它们在概念、表达和应用上存在显著差异,现有方法中往往通过中英文的翻译结果的一致性来对临床术语进行含义的对应,但由于中西医的语义、语境等的不同,导致通过这种方法所确定的临床术语对应关系存在较大的误差,进而影响中西医结合的临床术语知识图谱构建的准确性。
技术实现思路
1、本发明的目的在于提供一种中西医结合的临床术语知识图谱构建方法,用于解决现有的不同语言类型的临床术语知识图谱构建的准确性较差的问题。
2、为解决上述技术问题,本发明提供了一种中西医结合的临床术语知识图谱构建方法,包括以下步骤:
3、获取两种不同语言类型的医学术语的节点,以及在相同语言类型中各个节点之间的连接关系中相连接的两个节点之间连接边的边值,每个节点对应一个对应语言类型的医学术语的描述向量;
4、根据在两种不同语言类型中任意两个节点的描述向量之间的关联程度,对在两种不同语言类型中的节点进行匹配,确定两种不同语言类型的节点中构成信息连接节点对的信息连接节点以及剩余的待评估节点;
5、根据两种语言类型中待评估节点与信息连接节点对中对应信息连接节点的连接边的边值之间的相关关系,确定两种不同语言类型的待评估节点之间的连接关系,从而得到两种不同语言类型的医学术语的知识图谱。
6、进一步的,确定两种不同语言类型的待评估节点之间的连接关系,包括:
7、根据相同语言类型中每个待评估节点与所有信息连接节点对中对应信息连接节点的连接边的边值分布情况,对相同语言类型中每个待评估节点所连接的所有信息连接节点进行分类,得到各个级别节点集;
8、根据两种不同语言类型的待评估节点的各个级别节点集之间的分布情况,对在两种不同语言类型中的待评估节点进行匹配,确定两种不同语言类型的待评估节点组成的待评估节点集以构成待评估节点集对;
9、根据待评估节点集对中任意两个不同语言类型的待评估节点的各个级别节点集的分布情况,以及相同语言类型中各个节点之间的连接关系,确定两种不同语言类型的待评估节点之间的连接关系。
10、进一步的,得到各个级别节点集,包括:
11、在相同语言类型中,将每个待评估节点与各个信息连接节点的边值按照大小顺序进行排列,得到边值排序序列,对边值排序序列进行多阈值分割,得到各个边值类别,并将每个边值类别中的所有边值的均值确定为该边值类别的代表值;
12、将代表值按照从大到小的顺序进行排列,得到代表值序列,将代表值序列中的第i个代表值对应的边值类别中所有边值对应的信息连接节点作为每个待评估节点的第i个级别节点集。
13、进一步的,确定两种不同语言类型的待评估节点组成的待评估节点集以构成待评估节点集对,包括:
14、对于一种语言类型中任意一个待评估节点c与另外一种语言类型中任意一个待评估节点d,若待评估节点c和d的相同级别节点集的信息连接节点对占比均大于设定占比阈值,则判定待评估节点c和待评估节点d之间满足判别条件;
15、获取一种语言类型中的各个待评估节点构成的待评估节点集x以及另外一种语言类型中的各个待评估节点构成的待评估节点集y,若待评估节点集x中的任意一个待评估节点与待评估节点集y中的任意一个待评估节点之间均满足判别条件,则将待评估节点集x和待评估节点集y确定为一个待评估节点集对。
16、进一步的,确定两种不同语言类型的待评估节点之间的连接关系,包括:
17、对于待评估节点集对中任意两个不同语言类型的待评估节点,对每个待评估节点及其各个级别节点集所构成的图结构进行逐步聚类,得到每次聚类的各个聚类类别;
18、确定每个待评估节点的每个级别节点集中的节点在每次聚类的每个聚类类别中的数量占比,进而确定每个级别节点集中的节点在不同聚类的各个聚类类别中的最大数量占比,将所述最大数量占比对应的聚类次数作为每个级别节点集的目标聚类次数,将所述最大数量占比对应的聚类类别作为每个级别节点集的目标聚类类别;
19、根据任意两个不同语言类型的待评估节点的相同级别节点集对应的两个目标聚类类别中,信息连接节点对的数量在对应两个待评估节点的相同级别节点集中信息连接节点对的总数量中的占比,以及相同级别节点集对应的两个目标聚类次数之间的差异,确定任意两个不同语言类型的待评估节点之间的聚类相似指标;
20、根据所述聚类相似指标,确定两种不同语言类型的待评估节点之间的连接关系。
21、进一步的,确定任意两个不同语言类型的待评估节点之间的聚类相似指标,对应的计算公式为:
22、;
23、其中,表示待评估节点集对中任意两个不同语言类型的待评估节点e和f之间的聚类相似指标;表示待评估节点e和f的第个级别节点集对应的两个目标聚类类别中信息连接节点对的数量;表示待评估节点e和f的第个级别节点集中信息连接节点对的总数量;表示待评估节点e的第个级别节点集对应的目标聚类次数,表示待评估节点f的第个级别节点集对应的目标聚类次数;表示待评估节点e和f的相同级别节点集的数量;表示自然常数;| |表示取绝对值符号。
24、进一步的,根据所述聚类相似指标,确定两种不同语言类型的待评估节点之间的连接关系,包括:
25、在每个待评估节点集对中,将任意两个不同语言类型的待评估节点之间的聚类相似指标与设定聚类相似指标进行比较;
26、若聚类相似指标大于设定聚类相似指标,则对对应两个待评估节点进行连线,从而得到所有待评估节点之间的初步连接关系;
27、在初步连接关系中,若所有待评估节点与其他待评估节点之间最多存在一条连线时,则将初步连接关系确定为最终的所有待评估节点之间的连接关系;否则,根据初步连接关系中存在连线的两个不同语言类型的待评估节点之间的聚类相似指标,对初步连接关系进行修正,从而得到最终的所有待评估节点之间的连接关系。
28、进一步的,对初步连接关系进行修正,从而得到最终的所有待评估节点之间的连接关系,包括:
29、将存在待评估节点与其他待评估节点之间存在一条以上连线对应的待评估节点集对,确定为目标待评估节点集对;
30、根据所述目标待评估节点集对中存在连线的两个不同语言类型的待评估节点之间的聚类相似指标,对所述目标待评估节点集对中的两个不同语言类型的待评估节点进行一对一匹配,得到待评估节点匹配对;
31、将所述目标待评估节点集对中各个待评估节点匹配对中两个待评估节点之间的连线保留,并将其他待评估节点之间的连线断开,从而得到最终的所有待评估节点之间的连接关系。
32、进一步的,采用格里纽曼算法对图结构进行逐步聚类。
33、进一步的,确定两种不同语言类型的节点中构成信息连接节点对的信息连接节点,包括:
34、确定一种语言类型中任意一个节点的描述向量与另外一种语言类型中任意一个节点的描述向量之间的相似度,将相似度大于设定相似度阈值的两个节点均确定为构成信息连接节点对的信息连接节点。
35、本发明具有如下有益效果:获取两种不同语言类型的医学术语的节点,每个医学术语对应一个描述向量,并预先将在相同语言类型中包含上下级医学术语关系的节点相连,并确定相连接的两个节点之间连接边的边值,边值表征了两个节点对应医学术语之间的联系紧密性程度。对于含义明确的两种不同语言类型的医学术语,如中医术语和西医术语,其对应两个节点的描述向量之间的关联程度较高,而对于信息涵盖范围较大的两种不同语言类型的医学术语,其对应两个节点的描述向量之间的关联程度较低,基于此可对两种不同语言类型的医学术语的节点进行匹配筛选,从而确定含义明确的中医术语和西医术语对应的信息连接节点,并将两种不同语言类型的表示相同医学含义的信息连接节点构成信息连接节点对,同时将信息涵盖范围较大、且无法确定是否含义相同的两种不同语言类型的医学术语对应的节点确定为待评估节点。由于在同一种语言类型中信息涵盖范围较大的待评估节点与不同信息连接节点存在连接,且连接边的边值表征了待评估节点与信息连接节点之间的联系紧密性程度,若两种不同语言类型的两个待评估节点表示相同的医学含义,则两个待评估节点与其相同语言类型的信息连接节点之间的连接关系应当相近,因此通过对两种语言类型中待评估节点与信息连接节点对中对应信息连接节点的连接边的边值之间的相关关系进行分析,即可确定两种不同语言类型的待评估节点之间的连接关系,从而最终得到两种不同语言类型的医学术语的知识图谱。本发明通过首先确定含义明确且非常相近的两种不同语言类型的医学术语作为信息连接节点,并根据信息涵盖范围较大的两种不同语言类型的医学术语对应的待评估节点与信息连接节点之间的连接关系,确定两种不同语言类型的待评估节点之间的联系,从而避免了将含义不相近的两种不同语言类型的医学术语联系在一起,确保了知识图谱的构建准确性。
1.一种中西医结合的临床术语知识图谱构建方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种中西医结合的临床术语知识图谱构建方法,其特征在于,得到各个级别节点集,包括:
3.根据权利要求1所述的一种中西医结合的临床术语知识图谱构建方法,其特征在于,确定两种不同语言类型的待评估节点组成的待评估节点集以构成待评估节点集对,包括:
4.根据权利要求1所述的一种中西医结合的临床术语知识图谱构建方法,其特征在于,确定任意两个不同语言类型的待评估节点之间的聚类相似指标,对应的计算公式为:
5.根据权利要求1所述的一种中西医结合的临床术语知识图谱构建方法,其特征在于,根据所述聚类相似指标,确定两种不同语言类型的待评估节点之间的连接关系,包括:
6.根据权利要求5所述的一种中西医结合的临床术语知识图谱构建方法,其特征在于,对初步连接关系进行修正,从而得到最终的所有待评估节点之间的连接关系,包括:
7.根据权利要求1所述的一种中西医结合的临床术语知识图谱构建方法,其特征在于,采用格里纽曼算法对图结构进行逐步聚类。
8.根据权利要求1所述的一种中西医结合的临床术语知识图谱构建方法,其特征在于,确定两种不同语言类型的节点中构成信息连接节点对的信息连接节点,包括:
