本申请涉及数字医疗技术领域,具体而言,本申请涉及一种医学实体的概念识别方法、装置、设备及存储介质。
背景技术:
生物医学领域中非结构化文本的挖掘和分析任务为医学发展提供了巨大的机遇,然而,词汇和语法变化的多样性为自然语言处理(nlp)技术的发展提出了关键问题。例如,心脏病发作、心肌梗死、心肌梗塞和心血管卒这些医学实体都是指同一个概念,通过将它们与本体或知识库中相应的概念联系起来,消除这些术语的歧义是至关重要的,这一任务称为概念规范化。
传统的概念规范化方法通常是通过字符串匹配和字典查找实现,但这种实现方式对于未出现过的医学实体,则无法准确预测其概念。
技术实现要素:
本申请的主要目的为提供一种医学实体的概念识别方法、装置、设备及存储介质,以实现准确预测未出现过的医学实体的概念。
为了实现上述发明目的,本申请提供一种医学实体的概念识别方法,其包括以下步骤:
获取文本信息,从所述文本信息中提取出待识别医学实体;
将所述待识别医学实体输入预先训练好的bert模型中,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表;其中,所述候选生成器用于从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;
利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念,得到所述待识别医学实体的目标概念;其中,所述n为大于等于1的正整数,所述候选排序器用于根据预设排序规则对所述候选概念列表中的所有候选概念进行排序。
优选地,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表的步骤,包括:
利用所述候选生成器确定所述待识别医学实体对应的第一隐藏向量及预设的第一权重;
根据所述第一隐藏向量及第一权重计算所述知识库中所有概念分别描述所述待识别医学实体时的评分值;
获取所有概念的独热编码向量,根据所述独热编码向量及评分值计算所有概念的第一标准分类损失值,基于所述第一标准分类损失值确定所述待识别医学实体对应的候选概念列表。
优选地,所述基于所述第一标准分类损失值确定所述待识别医学实体对应的候选概念列表的步骤,包括:
利用所有概念的第一标准分类损失值计算各个概念的概念概率;其中,所述概念概率用于表征各个概念属于描述所述待识别医学实体的概念的可能性;
根据所述概念概率从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表。
优选地,利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念的步骤,包括:
利用所述bert模型的候选排序器确定所述待识别医学实体对应的第二隐藏向量及预设的第二权重;
将所述候选概念列表中所有候选概念的第二隐藏向量连接形成矩阵;
利用所述矩阵及预设的第二权重计算所述候选概念的第二标准分类损失值;
基于所述第二标准分类损失值的排列顺序,筛选出排在前n位的候选概念。
优选地,将所述候选概念列表中所有候选概念的第二隐藏向量连接形成矩阵的步骤,包括:
获取所述候选概念列表中所有候选概念的同义词;
确定所述同义词的隐藏向量,得到第二隐藏向量,将所有候选概念的第二隐藏向量连接形成矩阵。
进一步地,所述利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念的步骤之后,还包括:
确定排在前n位的候选概念的语义类型,并从排在前n位的候选概念中筛选出语义类型正确的第一候选概念及语义类型错误的第二候选概念;
根据所述语义类型错误的第二候选概念生成第三候选概念;其中,所述第三候选概念为第二候选概念的集合的补集;
计算第一候选概念在语义类型上的得分,得到第一分值;
计算第二候选概念在语义类型上的得分,得到第二分值;
计算第三候选概念在语义类型上的得分,得到第三分值;
根据第一分值及第三分值计算第一综合分值;
根据第二分值及第三分值计算第二综合分值;
利用第一综合分值和第二综合分值计算总损失值;
判断所述总损失值是否在预设阈值内;
若是,将排在前n位的候选概念作为所述待识别医学实体的目标概念。
优选地,所述根据第一分值及第三分值计算第一综合分值的步骤,包括如下公式:
所述根据第一分值及第三分值计算第二综合分值的步骤,包括如下公式:
所述利用第一综合分值和第二综合分值计算总损失值的步骤,包括:
其中,
本申请还提供一种医学实体的概念识别装置,其包括:
获取模块,用于获取文本信息,从所述文本信息中提取出待识别医学实体;
生成模块,用于将所述待识别医学实体输入预先训练好的bert模型中,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表;其中,所述候选生成器用于从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;
筛选模块,用于利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念,得到所述待识别医学实体的目标概念;其中,所述n为大于等于1的正整数,所述候选排序器用于根据预设排序规则对所述候选概念列表中的所有候选概念进行排序。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述方法的步骤。
本申请所提供的一种医学实体的概念识别方法、装置、设备及存储介质,首先获取文本信息,从文本信息中提取出待识别医学实体,将待识别医学实体输入预先训练好的bert模型中,利用bert模型的候选生成器生成待识别医学实体对应的候选概念列表;然后利用bert模型的候选排序器从候选概念列表中筛选出排在前n位的候选概念,得到待识别医学实体的目标概念,从而通过bert模型的候选生成器从现有知识库中筛选出合适的候选概念,并通过候选排序器进一步筛选出满足要求的目标概念,由于候选排序器对待识别医学实体和候选概念进行成对预测,因此能够准确预测出未出现过的医学实体的概念。
附图说明
图1为本申请一实施例的医学实体的概念识别方法的流程示意图;
图2为本申请一实施例的医学实体的概念识别装置的结构示意框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请提出一种医学实体的概念识别方法,以计算机设备为执行主体,用于解决传统的概念规范化方法通常是通过字符串匹配和字典查找实现,难以准确预测出未出现过的医学实体的概念,其中一个实施例中,该医学实体的概念识别方法包括如下步骤:
s11、获取文本信息,从所述文本信息中提取出待识别医学实体;
s12、将所述待识别医学实体输入预先训练好的bert模型中,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表;其中,所述候选生成器用于从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;
s13、利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念,得到所述待识别医学实体的目标概念;其中,所述n为大于等于1的正整数,所述候选排序器用于根据预设排序规则对所述候选概念列表中的所有候选概念进行排序。
如上述步骤s11所述,本发明的文本信息可以是简写,也可以是名词短语,还可以是一句简单的文本,文本信息中至少包括一个待识别医学实体。本发明的目标是确定待识别医学实体m所属的概念cm,该概念cm为解释该待识别医学实体m含义的一段文字。其中,待识别医学实体可以是指疾病的名称、器官、药物名称等等。
此外,本发明还可预先确定一个医学实体列表m={m1,m2,…,mn}和一个基于概念集合c={c1,c2,...,ct}的本体或知识库,医学实体列表中包括多个医学实体,本体或知识库中包括每个医学实体对应的已确定的概念。概念规范化的目标是找到一个映射函数cj=f(mi),它可将每个医学实体映射到其正确的概念。
在一实施例中,在获取文本信息之后,还可对文本信息进行去噪处理,以从文本信息中确定出冗余文字,并过滤冗余文字,得到目标文本信息,并从目标文本信息提取出待识别医学实体,从而通过对文本信息进行去噪处理,滤除文本信息中的冗余文字,以减少需要处理的文本信息的数据量,提高了数据处理的效率。
如上述步骤s12所述,bert模型是自然语音模型的一种,其可利用上下文信息预测被待识别的词。本发明的bert模型由候选生成器和候选排序器构成,该候选生成器用于从本体或知识库的现有概念中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;所述候选排序器用于根据预设排序规则对候选概念列表中的所有候选概念进行排序。
在对bert模型进行训练时,可从知识库中获取大量的医学实体及该医学实体已人工标注的标准概念,基于大量的医学实体及标准概念对bert模型进行多次训练,当bert模型收敛时,得到训练好的bert模型。
如上述步骤s13所述,候选生成器生成若干个候选概念之后,还需进一步从若干个候选概念中筛选出满足要求的目标概念。在筛选候选概念时,可根据相关性、偏好或重要性进行排序,从所述候选概念列表中筛选出排在前n位的候选概念。
本申请所提供的一种医学实体的概念识别方法,首先获取文本信息,从文本信息中提取出待识别医学实体,将待识别医学实体输入预先训练好的bert模型中,利用bert模型的候选生成器生成待识别医学实体对应的候选概念列表;然后利用bert模型的候选排序器从候选概念列表中筛选出排在前n位的候选概念,得到待识别医学实体的目标概念,从而通过bert模型的候选生成器从现有知识库中筛选出合适的候选概念,并通过候选排序器进一步筛选出满足要求的目标概念,由于候选排序器对待识别医学实体和候选概念进行成对预测,因此能够准确预测出未出现过的医学实体的概念。
在一实施例中,在步骤s12中,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表的步骤,可具体包括:
s121、利用所述候选生成器确定所述待识别医学实体对应的第一隐藏向量及预设的第一权重;
s122、根据所述第一隐藏向量及第一权重计算所述知识库中所有概念分别描述所述待识别医学实体时的评分值;
s123、获取所有概念的独热编码向量,根据所述独热编码向量及评分值计算所有概念的第一标准分类损失值,基于所述第一标准分类损失值确定所述待识别医学实体对应的候选概念列表。
如上述步骤s121所述,第一隐藏向量为待识别医学实体中在候选生成器中隐含含义所对应的向量,可使用bert模型的候选生成器产生的第一个输入token对应的隐藏向量vm∈rh作为第一隐藏向量,并从带有权值的分类层w∈r|c|×h中提取出预设的第一权重,该第一权重用于评估第一隐藏向量的重要等级。
如上述步骤s122所述,本步骤可根据第一隐藏向量及第一权重计算所述知识库中所有概念分别描述待识别医学实体时的评分值,具体可包括如下公式:
p(c)=softmax(vmwt);
其中,所述vm为第一隐藏向量,wt为第一权重。
如上述步骤s123所述,本步骤获取所有概念的独热编码向量,当概念有多个时,则该独热编码向量为所有概念的平均向量,然后根据独热编码向量及评分值计算所有概念的第一标准分类损失值,基于第一标准分类损失值确定所述待识别医学实体对应的候选概念列表,即选择最有可能的候选概念,将其输入候选排序器中,以提高待识别医学实体的概念的识别准确性。所述步骤s113具体可包括如下公式:
lg=y*log(softmax(vmwt));
其中,y是独热编码向量,|y|=|c|。
在一实施例中,在步骤s123中,所述基于所述第一标准分类损失值确定所述待识别医学实体对应的候选概念列表的步骤,可具体包括:
s1231、利用所有概念的第一标准分类损失值计算各个概念的概念概率;其中,所述概念概率用于表征各个概念属于描述所述待识别医学实体的概念的可能性;
s1232、根据所述概念概率从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表。
如上述步骤s1231所述,本步骤可按照预设换算规则将各个概念的第一标准分类损失值换算成相应的概念概率。其中,概念概率的数值与第一标准分类损失值成正比。
如上述步骤s1232所述,本步骤根据概念概率从知识库中筛选出概念概率排在前列的若干个候选概念,并基于候选概念生成候选概念列表,从而准确地选择出最有可能描述待识别医学实体的候选概念,将含有候选概念的候选概念列表输入候选排序器中,以进一步提高待识别医学实体的概念的识别准确性。
在一实施例中,在步骤s13中,所述利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念的步骤,可具体包括:
s131、利用所述bert模型的候选排序器确定所述待识别医学实体对应的第二隐藏向量及预设的第二权重;
s132、将所述候选概念列表中所有候选概念的第二隐藏向量连接形成矩阵;
s133、利用所述矩阵及预设的第二权重计算所述候选概念的第二标准分类损失值;
s134、基于所述第二标准分类损失值的排列顺序,筛选出排在前n位的候选概念。
如上述步骤s131所述,第二隐藏向量为待识别医学实体中在候选排序器中隐含含义所对应的向量,可使用bert模型的候选排序器产生的第一个输入token对应的隐藏向量v(m,cm)∈rh作为第二隐藏向量,该第二隐藏向量含有待识别医学实体和候选概念对应的向量,即待识别医学实体和候选概念成对出现。
如上述步骤s132所述,本步骤将所有候选概念的第二隐藏向量连接起来形成矩阵
如上述步骤s133所述,本步骤可利用矩阵及预设的第二权重计算候选概念的第二标准分类损失值,具体可包括如下公式:
其中,所述
如上述步骤s134所述,在得到第二标准分类损失值之后,基于第二标准分类损失值从高到低的顺序进行排序,根据排序结果筛选出排在前n位的候选概念,得到目标候选概念,实现对待识别医学实体和候选概念进行成对预测,综合考虑待识别医学实体与候选概念,以准确预测出未出现过的医学实体的概念。
在一实施例中,在步骤s132中,所述将所述候选概念列表中所有候选概念的第二隐藏向量连接形成矩阵的步骤,可具体包括:
s1321、获取所述候选概念列表中所有候选概念的同义词;
s1322、确定所述同义词的隐藏向量,得到第二隐藏向量,将所有候选概念的第二隐藏向量连接形成矩阵。
在本实施例中,本发明的候选排序器输入包括待识别医学实体m和候选概念cm的所有同义词,并采用[cls]m[sep]syn1(cm)[sep]…[sep]syns(cm)[sep]的形式,其中syni(cm)是概念cm的第i个同义词。然后确定同义词的隐藏向量v(m,cm)∈rh,得到第二隐藏向量,该第二隐藏向量是对应于bert模型的候选排序器中每个输入产生的第一个输入令牌([cls]),然后将所有候选概念的第二隐藏向量连接起来形成矩阵
其中,y是独热编码向量,|y|=|cm|。
在一实施例中,在步骤s13中,所述利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念的步骤之后,还可包括:
确定排在前n位的候选概念的语义类型,并从排在前n位的候选概念中筛选出语义类型正确的第一候选概念及语义类型错误的第二候选概念;
根据所述语义类型错误的第二候选概念生成第三候选概念;其中,所述第三候选概念为第二候选概念的集合的补集;
计算第一候选概念在语义类型上的得分,得到第一分值;
计算第二候选概念在语义类型上的得分,得到第二分值;
计算第三候选概念在语义类型上的得分,得到第三分值;
根据第一分值及第三分值计算第一综合分值;
根据第二分值及第三分值计算第二综合分值;
利用第一综合分值和第二综合分值计算总损失值;
判断所述总损失值是否在预设阈值内;
若是,将排在前n位的候选概念作为所述待识别医学实体的目标概念;
若否,则重新筛选候选概念。
在本实施例中,为了考虑更多有用的信息,本实施例提出了一个语义类型正则化器,当具有正确语义类型的候选概念排在具有不正确类型的候选概念之上时,该正则化器将得到优化。只有当候选概念的语义类型与实际概念的语义类型完全匹配时,候选概念的语义类型才被认为是正确的。本实施例的语义类型正则化器由
本实施例通过语义类型正则化器将概念的语义类型考虑进来,并将语义类型合并到预测中,综合了更多的信息,提升了医学实体的预测性能。
优选地,所述根据第一分值及第三分值计算第一综合分值的步骤,可包括如下公式:
所述根据第一分值及第三分值计算第二综合分值的步骤,包括如下公式:
所述利用第一综合分值和第二综合分值计算总损失值的步骤,包括:
其中,
本申请实施例的医学实体的概念识别方法还可以应用于区块链领域,如将上述bert模型存储于区块链上等。
上述区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理,包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情况、监控节点设备健康状态等。
参照图2,本申请实施例中还提供一种医学实体的概念识别装置,包括:
获取模块11,用于获取文本信息,从所述文本信息中提取出待识别医学实体;
生成模块12,用于将所述待识别医学实体输入预先训练好的bert模型中,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表;其中,所述候选生成器用于从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;
筛选模块13,用于利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念,得到所述待识别医学实体的目标概念;其中,所述n为大于等于1的正整数,所述候选排序器用于根据预设排序规则对所述候选概念列表中的所有候选概念进行排序。
本发明的文本信息可以是简写,也可以是名词短语,还可以是一句简单的文本,文本信息中至少包括一个待识别医学实体。本发明的目标是确定待识别医学实体m所属的概念cm,该概念cm为解释该待识别医学实体m含义的一段文字。其中,待识别医学实体可以是指疾病的名称、器官、药物名称等等。
此外,本发明还可预先确定一个医学实体列表m={m1,m2,…,mn}和一个基于概念集合c={c1,c2,...,ct}的本体或知识库,医学实体列表中包括多个医学实体,本体或知识库中包括每个医学实体对应的已确定的概念。概念规范化的目标是找到一个映射函数cj=f(mi),它可将每个医学实体映射到其正确的概念。
在一实施例中,在获取文本信息之后,还可对文本信息进行去噪处理,以从文本信息中确定出冗余文字,并过滤冗余文字,得到目标文本信息,并从目标文本信息提取出待识别医学实体,从而通过对文本信息进行去噪处理,滤除文本信息中的冗余文字,以减少需要处理的文本信息的数据量,提高了数据处理的效率。
其中,bert模型是自然语音模型的一种,其可利用上下文信息预测被待识别的词。本发明的bert模型由候选生成器和候选排序器构成,该候选生成器用于从本体或知识库的现有概念中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;所述候选排序器用于根据预设排序规则对候选概念列表中的所有候选概念进行排序。
在对bert模型进行训练时,可从知识库中获取大量的医学实体及该医学实体已人工标注的标准概念,基于大量的医学实体及标准概念对bert模型进行多次训练,当bert模型收敛时,得到训练好的bert模型。
候选生成器生成若干个候选概念之后,还需进一步从若干个候选概念中筛选出满足要求的目标概念。在筛选候选概念时,可根据相关性、偏好或重要性进行排序,从所述候选概念列表中筛选出排在前n位的候选概念。
如上所述,可以理解地,本申请中提出的所述医学实体的概念识别装置的各组成部分可以实现如上所述医学实体的概念识别方法任一项的功能,具体结构不再赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括存储介质、内存储器。该存储介质存储有操作系统、计算机程序和数据库。该内存器为存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于关系抽取模型、药物发现模型等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医学实体的概念识别方法。
上述处理器执行上述的医学实体的概念识别方法,包括:
获取文本信息,从所述文本信息中提取出待识别医学实体;
将所述待识别医学实体输入预先训练好的bert模型中,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表;其中,所述候选生成器用于从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;
利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念,得到所述待识别医学实体的目标概念;其中,所述n为大于等于1的正整数,所述候选排序器用于根据预设排序规则对所述候选概念列表中的所有候选概念进行排序。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种医学实体的概念识别方法,包括步骤:
获取文本信息,从所述文本信息中提取出待识别医学实体;
将所述待识别医学实体输入预先训练好的bert模型中,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表;其中,所述候选生成器用于从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;
利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念,得到所述待识别医学实体的目标概念;其中,所述n为大于等于1的正整数,所述候选排序器用于根据预设排序规则对所述候选概念列表中的所有候选概念进行排序。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双速据率sdram(ssrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
综上所述,本申请的最大有益效果在于:
本申请所提供的一种医学实体的概念识别方法、装置、设备及存储介质,首先获取文本信息,从文本信息中提取出待识别医学实体,将待识别医学实体输入预先训练好的bert模型中,利用bert模型的候选生成器生成待识别医学实体对应的候选概念列表;然后利用bert模型的候选排序器从候选概念列表中筛选出排在前n位的候选概念,得到待识别医学实体的目标概念,从而通过bert模型的候选生成器从现有知识库中筛选出合适的候选概念,并通过候选排序器进一步筛选出满足要求的目标概念,由于候选排序器对待识别医学实体和候选概念进行成对预测,因此能够准确预测出未出现过的医学实体的概念。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
1.一种医学实体的概念识别方法,其特征在于,包括以下步骤:
获取文本信息,从所述文本信息中提取出待识别医学实体;
将所述待识别医学实体输入预先训练好的bert模型中,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表;其中,所述候选生成器用于从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;
利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念,得到所述待识别医学实体的目标概念;其中,所述n为大于等于1的正整数,所述候选排序器用于根据预设排序规则对所述候选概念列表中的所有候选概念进行排序。
2.根据权利要求1所述的方法,其特征在于,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表的步骤,包括:
利用所述候选生成器确定所述待识别医学实体对应的第一隐藏向量及预设的第一权重;
根据所述第一隐藏向量及第一权重计算所述知识库中所有概念分别描述所述待识别医学实体时的评分值;
获取所有概念的独热编码向量,根据所述独热编码向量及评分值计算所有概念的第一标准分类损失值,基于所述第一标准分类损失值确定所述待识别医学实体对应的候选概念列表。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一标准分类损失值确定所述待识别医学实体对应的候选概念列表的步骤,包括:
利用所有概念的第一标准分类损失值计算各个概念的概念概率;其中,所述概念概率用于表征各个概念属于描述所述待识别医学实体的概念的可能性;
根据所述概念概率从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表。
4.根据权利要求1所述的方法,其特征在于,利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念的步骤,包括:
利用所述bert模型的候选排序器确定所述待识别医学实体对应的第二隐藏向量及预设的第二权重;
将所述候选概念列表中所有候选概念的第二隐藏向量连接形成矩阵;
利用所述矩阵及预设的第二权重计算所述候选概念的第二标准分类损失值;
基于所述第二标准分类损失值的排列顺序,筛选出排在前n位的候选概念。
5.根据权利要求4所述的方法,其特征在于,将所述候选概念列表中所有候选概念的第二隐藏向量连接形成矩阵的步骤,包括:
获取所述候选概念列表中所有候选概念的同义词;
确定所述同义词的隐藏向量,得到第二隐藏向量,将所有候选概念的第二隐藏向量连接形成矩阵。
6.根据权利要求1所述的方法,其特征在于,所述利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念的步骤之后,还包括:
确定排在前n位的候选概念的语义类型,并从排在前n位的候选概念中筛选出语义类型正确的第一候选概念及语义类型错误的第二候选概念;
根据所述语义类型错误的第二候选概念生成第三候选概念;其中,所述第三候选概念为第二候选概念的集合的补集;
计算第一候选概念在语义类型上的得分,得到第一分值;
计算第二候选概念在语义类型上的得分,得到第二分值;
计算第三候选概念在语义类型上的得分,得到第三分值;
根据第一分值及第三分值计算第一综合分值;
根据第二分值及第三分值计算第二综合分值;
利用第一综合分值和第二综合分值计算总损失值;
判断所述总损失值是否在预设阈值内;
若是,将排在前n位的候选概念作为所述待识别医学实体的目标概念。
7.根据权利要求6所述的方法,其特征在于,所述根据第一分值及第三分值计算第一综合分值的步骤,包括如下公式:
所述根据第一分值及第三分值计算第二综合分值的步骤,包括如下公式:
所述利用第一综合分值和第二综合分值计算总损失值的步骤,包括如下公式:
其中,
8.一种医学实体的概念识别装置,其特征在于,包括:
获取模块,用于获取文本信息,从所述文本信息中提取出待识别医学实体;
生成模块,用于将所述待识别医学实体输入预先训练好的bert模型中,利用所述bert模型的候选生成器生成所述待识别医学实体对应的候选概念列表;其中,所述候选生成器用于从知识库中筛选出若干个候选概念,并基于所述候选概念生成候选概念列表;
筛选模块,用于利用所述bert模型的候选排序器从所述候选概念列表中筛选出排在前n位的候选概念,得到所述待识别医学实体的目标概念;其中,所述n为大于等于1的正整数,所述候选排序器用于根据预设排序规则对所述候选概念列表中的所有候选概念进行排序。
9.一种计算机设备,其特征在于,包括:
处理器;
存储器;
计算机程序,其中所述计算机程序被存储在所述存储器中并被配置为由所述处理器执行,所述计算机程序配置用于执行根据权利要求1至7任一项所述的医学实体的概念识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现权利要求1-7任一项所述的医学实体的概念识别方法。
技术总结