基于医疗知识图谱的智能问答方法和装置与流程

专利2022-05-10  2



1.本发明涉及医疗卫生技术领域,具体涉及一种基于医疗知识图谱的智能问答方法和装置。


背景技术:

2.医疗平台能够为用户提供医疗知识的智能问答服务,使得不方便去医院的用户可以通过医疗平台咨询到相关医学答案。相关技术采用通过模板匹配的方式来理解用户输入的自然语言问句,并根据模板的问句类型和用户问句中的医疗实体来构建图数据查询语句,并从相关医疗知识图谱中检索答案。
3.然而,由于医疗领域知识专业性强且较复杂,相关技术通过模板匹配这一单一的检索方式检索出的答案可能不是用户想要的答案,使得相关技术难以根据用户的问题给出针对性强的回答,答案准确度低。


技术实现要素:

4.有鉴于此,提供一种基于医疗知识图谱的智能问答方法和装置,以解决相关技术存在的难以根据用户的问题给出针对性强的回答的问题。
5.本发明采用如下技术方案:
6.第一方面,本技术提供了一种基于医疗知识图谱的智能问答方法,包括:
7.获取患者咨询文本;
8.根据所述患者咨询文本和预设咨询问答模型在预设医疗知识图谱中同时进行图搜索、文本检索和语义向量检索,对应得到三种召回结果;
9.将所有所述召回结果输入至预设排序评分模型,得到所有所述召回结果的评分数据;
10.在所有所述召回结果中确定出评分最高的目标召回结果;
11.将所述目标召回结果发送给预设终端。
12.优选的,所述预设医疗知识图谱通过如下方法构建:
13.获取医疗知识数据;所述医疗知识数据包括结构化数据、半结构化数据和非结构化数据;
14.基于预设规则将所述结构化数据和所述半结构化数据转换成第一抽取结果数据,以及基于预设医学知识自动抽取模型在所述非结构化数据中抽取第二抽取结果数据;所述第一抽取结果数据和所述第二抽取结果数据组成医疗知识抽取结果集;
15.将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱。
16.优选的,所述第一抽取结果数据的数据格式为rdf三元组或图数据;
17.所述第二抽取结果数据的数据格式为rdf三元组或图数据。
18.优选的,所述预设医学知识自动抽取模型通过如下模型训练方法得到:
19.获取初始训练语料数据集;
20.根据预设数据增强规则扩展所述初始训练语料数据集,得到最终训练语料数据集;
21.基于所述最终训练语料数据集,训练得到所述预设医学知识自动抽取模型;所述预设医学知识自动抽取模型为关于bert bilstm crf的模型。
22.优选的,本技术的基于医疗知识图谱的智能问答方法,还包括:用tinyalbert中文模型替代所述bert bilstm crf的模型中的bert的base模型。
23.优选的,所述将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱,包括:
24.基于所述医疗知识抽取结果集和所述预设开源知识库构建领域同义实体库;所述领域同义实体库包括医疗实体的同义词对;
25.根据所述领域同义实体库建立所述医疗知识抽取结果集和所述预设开源知识库之间的医疗实体映射关系;
26.根据所述医疗实体映射关系将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱。
27.优选的,所述根据所述医疗实体映射关系将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱之后,还包括:
28.将所述预设医疗知识图谱中的实体

关系数据存储至预设neo4j图数据库中,以及将所述预设医疗知识图谱中的实体

属性类数据存储至预设elasticsearch中。
29.优选的,所述预设咨询问答模型通过如下方法构建:
30.获取训练数据集;
31.搭建sentence transformers孪生bert模型;
32.基于所述sentence transformers孪生bert模型计算所述训练数据集中的句子语义相似度;
33.对所述sentence transformers孪生bert模型进行蒸馏压缩处理;
34.加载蒸馏压缩后的sentence transformers孪生bert模型,并选择tinyalbert;
35.根据所述句子语义相似度对所述sentence transformers孪生bert模型进行微调;
36.将微调后的sentence transformers孪生bert模型发送到预设智能问答系统;
37.通过微调后的所述sentence transformers孪生bert模型的预测接口,将所述预设智能问答系统中的问题样本转换成领域知识问答问句的句向量;
38.将所述领域知识问答问句的句向量存入预设向量存储引擎,并创建语义索引,得到所述预设咨询问答模型。
39.优选的,所述预设排序评分模型为l2r模型。
40.第二方面,本技术提供了一种基于医疗知识图谱的智能问答装置,包括:
41.咨询文本获取模块,用于获取患者咨询文本;
42.检索模块,用于根据所述患者咨询文本和预设咨询问答模型在预设医疗知识图谱中同时进行图搜索、文本检索和语义向量检索,对应得到三种召回结果;
43.评分模块,用于将所有所述召回结果输入至预设排序评分模型,得到所有所述召
回结果的评分数据;
44.目标召回结果确定模块,用于在所有所述召回结果中确定出评分最高的目标召回结果;
45.数据发送模块,用于将所述目标召回结果发送给预设终端。
46.本发明采用以上技术方案,一种基于医疗知识图谱的智能问答方法,包括:获取患者咨询文本;根据患者咨询文本和预设咨询问答模型在预设医疗知识图谱中同时进行图搜索、文本检索和语义向量检索,对应得到三种召回结果;将所有召回结果输入至预设排序评分模型,得到所有召回结果的评分数据;在所有召回结果中确定出评分最高的目标召回结果;将目标召回结果发送给预设终端。基于此,本技术通过图搜索、文本检索和语义向量检索这三种检索方式在预设医疗知识图谱中检索用户问题的答案,并在所有检索出的答案中确定出最符合用户问题的答案,使得本技术能够根据用户的问题给出针对性强的答案,答案准确度高。
附图说明
47.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
48.图1是本发明实施例提供的一种基于医疗知识图谱的智能问答方法的流程示意图。
49.图2是本技术实施例提供的一种预设医学知识自动抽取模型的结构示意图。
50.图3是本技术实施例提供的一种sentence transformer训练的模型。
51.图4是本技术实施例提供的一种利用句向量计算的两个句子之间的相似度表示。
52.图5是本技术实施例提供的一种基于医疗知识图谱的智能问答装置的结构示意图。
具体实施方式
53.为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
54.图1是本发明实施例提供的一种基于医疗知识图谱的智能问答方法的流程示意图。如图1所示,本实施例的基于医疗知识图谱的智能问答方法,包括:
55.s101、获取患者咨询文本;
56.s102、根据所述患者咨询文本和预设咨询问答模型在预设医疗知识图谱中同时进行图搜索、文本检索和语义向量检索,对应得到三种召回结果;
57.s103、将所有所述召回结果输入至预设排序评分模型,得到所有所述召回结果的评分数据;
58.s104、在所有所述召回结果中确定出评分最高的目标召回结果;
59.s105、将所述目标召回结果发送给预设终端。
60.具体的,获取患者咨询文本的方法有多种,例如可以是患者访问医疗平台时,根据平台指引填写并提交咨询文本,使得平台获取到患者咨询文本。
61.平台获取到患者咨询文本后,查询分析该咨询文本。具体的,对该咨询文本进行自动纠错、查询改写、分词、关键词抽取、术语归一化和查询命令转换生成处理,并基于bm25算法对咨询文本进行召回。咨询文本通过预设句向量表示模型转换成语义向量表示,并被映射到与相关领域问句句向量相同的一个语义向量空间。然后向预设咨询问答模型的milvus提交基于语义向量的检索,通过人工神经网络(artificial neuro network,ann)算法确定出与咨询文本匹配度高的k个答案,实现语义向量的召回。咨询文本还通过相应规则转换为neo4j图数据库的cypher查询语句,通过图搜索的方式在预设医疗知识图谱中检索答案,得到对应召回结果。咨询文本还通过elastic search(es)进行全文检索,得到对应召回结果。
62.得到三种召回结果后,将所有召回结果输入至预设排序评分模型,得到所有召回结果的评分数据。然后在所有召回结果中确定出评分最高的目标召回结果。最后,将目标召回结果发送给预设终端,以使患者根据预设终端显示的内容获知答案信息。
63.本实施例采用以上技术方案,一种基于医疗知识图谱的智能问答方法,包括:获取患者咨询文本;根据患者咨询文本和预设咨询问答模型在预设医疗知识图谱中同时进行图搜索、文本检索和语义向量检索,对应得到三种召回结果;将所有召回结果输入至预设排序评分模型,得到所有召回结果的评分数据;在所有召回结果中确定出评分最高的目标召回结果;将目标召回结果发送给预设终端。基于此,本技术通过图搜索、文本检索和语义向量检索这三种检索方式在预设医疗知识图谱中检索用户问题的答案,并在所有检索出的答案中确定出最符合用户问题的答案,使得本技术能够根据用户的问题给出针对性强的答案。
64.优选的,预设医疗知识图谱通过如下方法构建:
65.获取医疗知识数据;所述医疗知识数据包括结构化数据、半结构化数据和非结构化数据;
66.基于预设规则将所述结构化数据和所述半结构化数据转换成第一抽取结果数据,以及基于预设医学知识自动抽取模型在所述非结构化数据中抽取第二抽取结果数据;所述第一抽取结果数据和所述第二抽取结果数据组成医疗知识抽取结果集;
67.将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱。
68.详细的,结构化数据包括关系数据库中的数据、excel资源、专业分类和领域词典。半结构化数据数据包括垂直医疗领域的网络资源和百科数据。非结构化数据包括垂直医疗领域的网络资源、医学专业文献、专业教材和培训课程。
69.针对结构化数据和半结构化数据,本实施例通过预先人工定义的规则,将其转换成三元组数据,采用批处理任务快速高效地获取初始的领域知识表示数据。在具体的应用过程中,对于结构化数据,例如脱敏后的电子病历数据、中文症状知识库、心理健康诊断表、医疗行业标准与规范、专业分类体系和行业开源的数据,将二维表数据转换成属性图数据。针对半结构化数据,首先根据对话场景选择细分领域的内容数据,根据内容数据定制包装器。然后对包装器进行定义、生成、更新和维护。最后,通过包装器在相关数据库中抽取目标数据,并对目标数据进行结构化与规范化处理,转换成属性图数据库的表示。
70.在具体的应用过程中,首先,根据医疗领域术语及业务规则对医疗知识图谱的实体类型、实体关系及实体属性范围,定义图数据库schema。其中,实体类型包括疾病、药物和症状。实体关系包括疾病

症状、疾病

药品、疾病

饮食(适宜或禁忌)和疾病

疾病(并发症)。实体属性包括疾病属性、药物属性、辅助检查属性和手术属性。然后,选择医疗数据来源,并根据预先定义的实体类型、实体关系及实体属性构建有网络爬虫包装的包装器。其中,医疗数据来源包括结构化数据和半结构化数据。最后,应用医疗业务规则、网站元素规则、定制网络爬虫的包装器,通过包装器在结构化数据和半结构化数据中抽取目标数据和目标业务规则,并将所有目标数据表示为三元组形式,保存到医疗知识抽取结果属性图数据库。
71.在心理健康咨询等业务场景下,定义实体与关系进行联合标注的策略,该策略同时包含了实体信息和他们之间的关系。基于这种标注策略,实体和关系的联合抽取可以转换为自然语言处理中的序列标注问题。通过使用神经网络来完成一个端到端的建模任务,而不需要复杂的特征工程。本实施例基于采集筛选的心理健康咨询专业内容数据,构建出预设医学知识自动抽取模型的语料,根据该语料训练一个基于bert bilstm crf的模型,进行命名实体识别与关系抽取的联合学习模型。
72.预设医学知识自动抽取模型的构建方法包括如下步骤:
73.步骤一、通过采集裁剪专业文献和网站文本内容,获取初始的文本数据集。
74.步骤二、预定义实体关系。知识抽取任务是从非结构化文本数据中抽取实体以及实体之间的关系,组成形如(实体a、实体a与实体b的关系、实体b)的三元组。该关系是预先定义好的实体关系。经过对语料数据的分析和规则筛选,包括针对别名、疾病

症状和疾病

疾病(并发症)这三种实体关系进行预先定义。针对单实体1

1、单实体1

n和多实体多关系等类型构造数据样本。
75.步骤三、确定数据标注策略,并对初始的文本数据集进行标注。具体的,采用bioes标注规范,根据预先定义的实体关系进行实体和关系标注,同样对单实体1

1关系、单实体1

n关系和多实体多关系的数据进行标注,使得模型在复杂场景中能够有效的完成实体的识别和关系抽取。标注的内容包括实体词的位置信息、实体关系的类型信息、实体的角色信息和代表实体关系的方向。
76.步骤四、根据预设数据增强规则扩展所述初始训练语料数据集,得到最终训练语料数据集。具体的,利用有效语料的自然语言语义表达形式和句式,采用同类词不同实体项将其替换,同义表达替换和句式重构的方法来扩充标注数据集,具体包括别名、疾病

症状。疾病

疾病(并发症)。
77.其中,采用同类词不同实体项将其替换指的是将语句中具有相同实体类型的文本片段替换其他实体项的方法。这样通过实体实例替换的方式可以达到数据多样性和噪声数据的效果。同义表达替换指的是将语句中某些文本片段进行具有相同语义的不同表达替换的方法。句式重构指的是基于中文自然语言句式的不同表达规则对语句进行句式上的替换,不改变原句的语义信息。
78.需要说明的是,在以上不同方法的实施过程中,不能丢失文本的标注信息,即替换后的文本内容同样携带相对应的实体关系标签。最终输出的样本是携带标注信息的语料。
79.步骤五、携带标注信息的语料经过bert预训练语言模型获得相应的词向量。然后,
将词向量输入到bilstm模块中做进一步处理,得到处理后的词向量后,将处理后的词向量输入到crf模块,得到预测标注序列。然后对序列中各个实体进行提取分类,完成中文实体识别的整个流程。
80.本实施例的预设医学知识自动抽取模型不需要用户提前训练好字向量和词向量,只需要将序列直接输入到bert中,它就会自动提取出序列中丰富的词级特征、语法结构特征和语义特征。bert能够学习到语料的语义特征,bilstm能够学习到词之间较长的上下文关系,crf能够纠正bilstm预测的顺序错误。本实施例可以直接使用bert模型,直接使用bert模型的优点是准确率高,但是缺点是推理速度低。为了解决这一缺点,本实施例还可以使用压缩的使用bert模型替代bert的base模型,实现在不降低整体模型的精度的同时,提高整体模型的推理速度的目的。此外,通过预设医学知识自动抽取模型自动完成知识抽取,从而降低对医疗领域专家知识的依赖,减少人工标注的工作量,以及降低数据清洗的成本。
81.此外,本实施例针对人工标注的高质量训练数据有限的小样本模型训练的问题,应用数据增强策略,通过模板规则变换操作扩展基础训练数据,从而创建出更多的新的训练数据。通过数据增强的方式可以增加模型训练的数据量,并泛化出具有多样性的数据,提高模型的泛化能力,同样也可以增加噪声数据,提升模型的鲁棒性。
82.图2是本技术实施例提供的一种预设医学知识自动抽取模型的结构示意图。如图2所示,本实施例的预设医学知识自动抽取模型中,b表示一个语义块的开始,标注的是语义块中第一个字;i表示语义块的中间内容,o表示不属于语义块的内容,e表示语义块的结尾。
83.针对特定领域的问句,设计需要识别抽取的问句主题标签,特定领域可以是心理健康领域。用于nlp序列标注任务中训练数据的标注规范,实现模型抽取问句中的领域实体和实体关系,标签如下表所示:
[0084][0085]
优选的,基于预设规则将所述结构化数据和所述半结构化数据转换成第一抽取结果数据,以及基于预设医学知识自动抽取模型在所述非结构化数据中抽取第二抽取结果数据之后,本实施的预设医疗知识图谱构建方法还包括:人工审核第二抽取结果数据,审核通过后,将第二抽取结果数据划分至医疗知识抽取结果集。
[0086]
优选的,所述第一抽取结果数据的数据格式为rdf三元组或图数据;所述第二抽取结果数据的数据格式为rdf三元组或图数据。
[0087]
优选的,将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱,包括:
[0088]
基于所述医疗知识抽取结果集和所述预设开源知识库构建领域同义实体库;所述
领域同义实体库包括医疗实体的同义词对;
[0089]
根据所述领域同义实体库建立所述医疗知识抽取结果集和所述预设开源知识库之间的医疗实体映射关系;
[0090]
根据所述医疗实体映射关系将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱。
[0091]
详细的,首先,基于网络爬虫中基于页面内容dom模型的xpath数据抽取规则在相关网站上爬取同义词对。具体的,对疾病、症状、检查、预防措施和药品等医学实体类型构建网络爬虫包装器,通过包装器从相关网站获取医学概念的别名、英文名称和缩写等,输出词表作为领域同义实体库的基础。
[0092]
然后,利用在前述的医学知识抽取模型抽取领域实体和实体关系的阶段抽取的别名关系,将非结构化数据中获取的有效别名关系的领域实体对,加入到领域同义实体库。
[0093]
接下来,利用词向量语义相似性构建领域同义词库。具体的,抽取医学教材和网络文章中的文本,进行中文分词,然后将其作为语料训练word2vec词向量,利用词向量的语义相关性,计算其余弦相似度,查找出实体的top

n相似实体,通过筛选将有效实体对加入到领域同义实体库中。
[0094]
接下来,基于领域实体局部关系属性相似,进行实体对齐。具体的,以疾病实体为目标,选取疾病的重要关系和属性作为衡量实体相似度的影响因子,分别设置相应的权重,并通过加权求和计算总体的相似度。最终经过阈值筛选查找出不同来源知识库间的相似疾病实体,将有效的同义实体对加入到领域同义实体库中。
[0095]
接下来,根据所述领域同义实体库建立所述医疗知识抽取结果集和所述预设开源知识库之间的医疗实体映射关系。根据所述医疗实体映射关系将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱。具体的,通过领域同义实体库,建立知识库间实体的直接映射,找到同义实体对后,处理实体间的异同信息,对医疗实体的关系和属性进行合并,包括冗余处理,差值合并任务。在合并过程中,对属性类的知识合并时,需要考虑同一属性对应不同的属性值的问题,本实施例采用设置知识库来源置信度的方式,按照知识库的水平、可信度和权威性设置知识库的置信度,使得当多个知识库出现冲突时,保留置信度高的知识库的属性值。
[0096]
优选的,根据所述医疗实体映射关系将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱之后,还包括:
[0097]
将所述预设医疗知识图谱中的实体

关系数据存储至预设neo4j图数据库中,以及将所述预设医疗知识图谱中的实体

属性类数据存储至预设elasticsearch中。
[0098]
具体的,将所述预设医疗知识图谱中的实体

关系数据存储至预设neo4j图数据库中,对知识图谱中的实体与关系进行表示,使得前端应用可以以可视化的关联网络形式表现各类领域概念之间的关系。将所述预设医疗知识图谱中的实体

属性类数据存储至预设elasticsearch中,定义mapping,构建全文索引。本实施例使用图数据库和elasticsearch两种数据库融合的模式实现领域知识的存储,构建了多维度索引,使得本实施例在问答阶段,支持多种检索算法融合的智能搜索。
[0099]
优选的,预设咨询问答模型通过如下方法构建:
[0100]
获取训练数据集;
[0101]
搭建sentence transformers孪生bert模型;
[0102]
基于所述sentence transformers孪生bert模型计算所述训练数据集中的句子语义相似度;
[0103]
对所述sentence transformers孪生bert模型进行蒸馏压缩处理;
[0104]
加载蒸馏压缩后的sentence transformers孪生bert模型,并选择albert_chinese_tiny(tinyalbert);
[0105]
根据所述句子语义相似度对所述sentence transformers孪生bert模型进行微调;
[0106]
将微调后的sentence transformers孪生bert模型发送到预设智能问答系统;
[0107]
通过微调后的所述sentence transformers孪生bert模型的预测接口,将所述预设智能问答系统中的问题样本转换成领域知识问答问句的句向量;
[0108]
将所述领域知识问答问句的句向量存入预设向量存储引擎,并创建语义索引,得到所述预设咨询问答模型。
[0109]
详细的,利用冷启动和数据增强的方法从公开的心理咨询问答语料库中采集数据,然后进行人工标注,生成正负样本比例均衡的心理咨询问题相似句对训练数据集。
[0110]
接下来,基于预训练的bert模型,计算句子语义相似度,完成句向量的表示模型的领域迁移学习。图3是本技术实施例提供的一种sentence transformer训练的模型。图4是本技术实施例提供的一种利用句向量计算的两个句子之间的相似度表示。如图3和图4所示,u、v分别表示输入的两个句子的向量表示,|u

v|表示取两个向量的绝对值,(u,v,|u

v|)表示将三个向量在

1维度进行拼接,因此得到的向量的维度为3*d,其中,d表示隐层维度。
[0111]
接下来,加载蒸馏压缩后的sentence transformers孪生bert模型,并选择tinyalbert。训练sentence transformers模型,使用两个句向量的余弦值用来度量两个文本语义的相似度。对预训练模型进行微调。保存微调后的bert模型,打包发布到心理健康咨询智能问答系统的生产环境。使用微调后的bert的预测接口,将心理咨询领域问答数据集中的问题样本,转换成领域知识问答问句的句向量表示。将生成的句向量存入向量存储引擎milvus,创建语义索引,实现向量的高速检索。如此,使用专业领域语料对预训练的bert模型进行微调,实现领域迁移学习的目的,利用bert模型,实现问句的语义向量化表示的目的,提取出更丰富的语义特征,从而提升nlp下游任务的性能。
[0112]
优选的,预设排序评分模型为l2r模型。
[0113]
具体的,l2r模型通过如下方法构建:
[0114]
获取l2r模型的训练数据;l2r模型的训练数据可以是类似前述的召回结果的数据;
[0115]
确定两个问题的文本长度的相似度得分;基于skip

gram scorer确定目标数据的得分,得分计算公式如下:
[0116]
[0117][0118][0119]
其中,p
sb
和q
sb
表示问题的skip

gram集合;
[0120]
term match scorer,具体对每一个检索词计算匹配term的idf之和,以及问题中所有term的idf之和。由于不同词汇的重要性不一样,使用idf可以满足词汇的该要求;
[0121]
text alignment scorer,具体利用waterman

smith距离来计算对齐得分;和编辑距离或needleman

wunsch距离相比,此距离更偏重局部对齐,也就是最优的子序列的对齐;
[0122]
embedding scorer,具体利用词向量平均获得问题向量,计算两个问题向量的相似性,包括基于字和基于词的相似性;
[0123]
entity scorer:实体重合度得分;
[0124]
在获得基本特征后,利用gbdt训练得到最终的l2r模型。
[0125]
图5是本技术实施例提供的一种基于医疗知识图谱的智能问答装置的结构示意图。如图5所示,本实施例的基于医疗知识图谱的智能问答装置,包括:咨询文本获取模块41、检索模块42、评分模块43、目标召回结果确定模块44和数据发送模块45。
[0126]
其中,咨询文本获取模块41,用于获取患者咨询文本;检索模块42,用于根据所述患者咨询文本和预设咨询问答模型在预设医疗知识图谱中同时进行图搜索、文本检索和语义向量检索,对应得到三种召回结果;评分模块43,用于将所有所述召回结果输入至预设排序评分模型,得到所有所述召回结果的评分数据;目标召回结果确定模块44,用于在所有所述召回结果中确定出评分最高的目标召回结果;数据发送模块45,用于将所述目标召回结果发送给预设终端。
[0127]
优选的,检索模块42还用于构建预设医疗知识图谱,该预设医疗知识图谱的构建方法如下:
[0128]
获取医疗知识数据;所述医疗知识数据包括结构化数据、半结构化数据和非结构化数据;
[0129]
基于预设规则将所述结构化数据和所述半结构化数据转换成第一抽取结果数据,以及基于预设医学知识自动抽取模型在所述非结构化数据中抽取第二抽取结果数据;所述第一抽取结果数据和所述第二抽取结果数据组成医疗知识抽取结果集;
[0130]
将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱。
[0131]
优选的,检索模块42还用于构建预设医学知识自动抽取模型,该预设医学知识自动抽取模型通过如下方法构建:
[0132]
获取初始训练语料数据集;
[0133]
根据预设数据增强规则扩展所述初始训练语料数据集,得到最终训练语料数据集;
[0134]
基于所述最终训练语料数据集,训练得到所述预设医学知识自动抽取模型;所述
预设医学知识自动抽取模型为关于bert bilstm crf的模型。
[0135]
优选的,检索模块42还用于用tinyalbert中文模型替代所述bert的base模型。
[0136]
检索模块42具体用于实现如下方法:
[0137]
基于所述医疗知识抽取结果集和所述预设开源知识库构建领域同义实体库;所述领域同义实体库包括医疗实体的同义词对;
[0138]
根据所述领域同义实体库建立所述医疗知识抽取结果集和所述预设开源知识库之间的医疗实体映射关系;
[0139]
根据所述医疗实体映射关系将所述医疗知识抽取结果集与预设开源知识库融合,得到所述预设医疗知识图谱。
[0140]
检索模块42还用于将所述预设医疗知识图谱中的实体

关系数据存储至预设neo4j图数据库中,以及将所述预设医疗知识图谱中的实体

属性类数据存储至预设elasticsearch中。
[0141]
优选的,检索模块42还用于构建预设咨询问答模型,该预设咨询问答模型通过如下方法构建:
[0142]
获取训练数据集;
[0143]
搭建sentence transformers孪生bert模型;
[0144]
基于所述sentence transformers孪生bert模型计算所述训练数据集中的句子语义相似度;
[0145]
对所述sentence transformers孪生bert模型进行蒸馏压缩处理;
[0146]
加载蒸馏压缩后的sentence transformers孪生bert模型,并选择tinyalbert;
[0147]
根据所述句子语义相似度对所述sentence transformers孪生bert模型进行微调;
[0148]
将微调后的sentence transformers孪生bert模型发送到预设智能问答系统;
[0149]
通过微调后的所述sentence transformers孪生bert模型的预测接口,将所述预设智能问答系统中的问题样本转换成领域知识问答问句的句向量;
[0150]
将所述领域知识问答问句的句向量存入预设向量存储引擎,并创建语义索引,得到所述预设咨询问答模型。
[0151]
优选的,评分模块43,具体用于将所有所述召回结果输入至预设l2r模型,得到所有所述召回结果的评分数据。
[0152]
本实施例和上述实施例属于一个总得发明构思,具备相同或相应的执行过程和有益效果,在此不再赘述。
[0153]
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
[0154]
需要说明的是,在本发明的描述中,除非另有说明,“多个”的含义是指至少两个。
[0155]
流程示意图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
[0156]
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。
[0157]
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
[0158]
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
[0159]
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
[0160]
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0161]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
转载请注明原文地址: https://doc.8miu.com/read-1350262.html

最新回复(0)