1.本申请涉及智慧医疗技术领域,尤其涉及一种对抗样本生成方法、装置、设备及存储介质。
背景技术:
2.近几年,深度学习在医疗领域的研究和应用取得了较为显著的成果,其已经逐渐取代了许多传统的方法。尽管深度神经网络模型在现实世界中有着广泛的应用并且具有出色的表现,但其自身同样面临着诸多的安全威胁。最新研究表明,当面对恶意构造的对抗样例时,即便是表现最出色的深度神经网络模型也同样突显出了极大的脆弱性。
3.在疾病预测场景,通常会将与患者病情有关的医学数据输入深度神经网络模型,由深度神经网络模型根据输入的医学数据预测患者的疾病,目前的深度神经网络模型针对非对抗样本能够输出较为准确的预测结果,但是,当其面对对抗样例时,难以输出准确的预测结果。为了使深度神经网络模型针对对抗样例能够输出准确地预测的结果,需要利用对抗样本对其进行训练,而如何获得对抗样本是目前亟需解决的问题。
技术实现要素:
4.有鉴于此,本申请提供了一种对抗样本生成方法、装置、设备及存储介质,用以生成对抗样本,以便利用该对抗样本对深度神经网络模型进行训练,从而使深度神经网络模型针对对抗样例也能输出正确的预测结果,其技术方案如下:
5.一种对抗样本生成方法,包括:
6.获取与患者病情有关的原始医学数据,作为目标样本;
7.以所述目标样本为依据,生成能够表征对抗样本的语义的向量,作为所述目标样本对应的对抗样本语义向量;
8.基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本。
9.可选的,基于所述目标样本,生成所述目标样本对应的对抗样本语义向量,包括:
10.将所述目标样本输入预先建立的对抗样本语义向量生成模型,得到所述目标样本对应的对抗样本语义向量;
11.其中,所述对抗样本语义向量生成模型采用训练样本训练得到,所述对抗样本语义向量生成模型的训练目标包括:最小化所述训练样本对应的对抗样本与目标疾病对应的知识库的相关度,最大化所述训练样本对应的对抗样本与非目标疾病对应的知识库的相关度,所述目标疾病为所述训练样本对应的疾病。
12.可选的,所述对抗样本语义向量生成模型的训练目标还包括:
13.最大化所述训练样本与所述目标疾病对应的知识库的相关度,最小化所述训练样本与所述非目标疾病对应的知识库的相关度。
14.可选的,所述将所述目标样本输入预先建立的对抗样本语义向量生成模型,得到
所述目标样本对应的对抗样本语义向量,包括:
15.将所述目标样本输入所述对抗样本语义向量生成模型的第一编码模块进行编码,以得到所述目标样本的表征向量;
16.将所述目标样本的表征向量输入所述对抗样本语义向量生成模型的干扰向量融合模块,以得到融合有干扰向量的样本表征向量;
17.将所述融合有干扰向量的样本表征向量输入所述对抗样本语义向量生成模型的第二编码模块进行编码,得到所述目标样本对应的对抗样本语义向量。
18.可选的,所述基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本,包括:
19.从所述目标样本对应的对抗样本语义向量中获取干扰向量,作为目标干扰向量;
20.基于所述目标干扰向量,从候选干扰样本库中获取干扰样本;
21.将所述干扰样本插入所述目标样本中,得到所述目标样本对应的对抗样本。
22.可选的,所述基于所述目标干扰向量,从候选干扰样本库中获取干扰样本,包括:
23.计算所述目标干扰向量与所述候选干扰样本库中每个候选干扰样本的语义向量的相似度;
24.根据所述目标干扰向量与所述候选干扰样本库中每个候选干扰样本的语义向量的相似度,从所述候选干扰样本库中获取干扰样本。
25.可选的,建立所述对抗样本语义向量生成模型的过程包括:
26.将所述训练样本输入对抗样本语义向量生成模型,得到所述训练样本对应的对抗样本语义向量;
27.获取所述目标疾病对应的知识库的语义向量以及所述非目标疾病对应的知识库的语义向量;
28.基于所述训练样本对应的对抗样本语义向量、所述目标疾病对应的知识库的语义向量和所述非目标疾病对应的知识库的语义向量,确定所述训练样本对应的对抗样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度;
29.根据所述训练样本对应的对抗样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度,确定对抗样本语义向量生成模型的第一预测损失;
30.根据所述第一预测损失,更新对抗样本语义向量生成模型的参数。
31.可选的,建立所述对抗样本语义向量生成模型的过程还包括:
32.获取所述训练样本的语义向量;
33.基于所述训练样本语义向量、所述目标疾病对应的知识库的语义向量和所述非目标疾病对应的知识库的语义向量,确定所述训练样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度;
34.根据所述训练样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度,确定对抗样本语义向量生成模型的第二预测损失;
35.所述根据所述第一预测损失,更新对抗样本语义向量生成模型的参数,包括:
36.根据所述第一预测损失和所述第二预测损失,更新对抗样本语义向量生成模型的参数。
37.可选的,所述目标样本包括:原始病历文本和所述原始病历文本对应的结构化病
情标签,所述对抗样本语义向量生成模型包括:对抗病历语义向量生成模型和对抗标签语义向量生成模型;
38.所述将所述目标样本输入预先建立的对抗样本语义向量生成模型,得到所述目标样本对应的对抗样本语义向量,包括:
39.将所述原始病历文本输入所述对抗病历语义向量生成模型,得到对抗病历语义向量,并将所述结构化病情标签输入所述对抗标签语义向量生成模型,得到对抗病情标签语义向量;所述对抗病历语义向量和所述对抗病情标签语义向量作为所述目标样本对应的对抗样本语义向量;
40.所述基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本,包括:
41.基于所述对抗病历语义向量,生成对抗病历文本,并基于所述对抗病情标签语义向量,生成对抗结构化病情标签;所述对抗病历文本和所述对抗结构化病情标签作为所述目标样本对应的对抗样本。
42.一种对抗样本生成装置,包括:样本获取模块、对抗样本语义向量生成模块和对抗样本生成模块;
43.所述样本获取模块,用于获取与患者病情有关的原始医学数据,作为目标样本;
44.所述对抗样本语义向量生成模块,用于以所述目标样本为依据,生成能够表征对抗样本的语义的向量,作为所述目标样本对应的对抗样本语义向量;
45.所述对抗样本生成模块,用于基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本。
46.可选的,所述对抗样本语义向量生成模块,具体用于将将所述目标样本输入预先建立的对抗样本语义向量生成模型,得到所述目标样本对应的对抗样本语义向量;
47.其中,所述对抗样本语义向量生成模型采用训练样本训练得到,所述对抗样本语义向量生成模型的训练目标包括:最小化所述训练样本对应的对抗样本与目标疾病对应的知识库的相关度,最大化所述训练样本对应的对抗样本与非目标疾病对应的知识库的相关度,所述目标疾病为所述训练样本对应的疾病。
48.可选的,所述对抗样本生成模块包括:干扰向量获取子模块、干扰样本获取子模块和对抗样本生成子模块;
49.所述干扰向量获取子模块,用于从所述目标样本对应的对抗样本语义向量中获取干扰向量,作为目标干扰向量;
50.所述干扰样本获取子模块,用于基于所述目标干扰向量,从候选干扰样本库中获取干扰样本;
51.所述对抗样本生成子模块,用于将所述干扰样本插入所述目标样本中,得到所述目标样本对应的对抗样本。
52.一种对抗样本生成设备,包括:存储器和处理器;
53.所述存储器,用于存储程序;
54.所述处理器,用于执行所述程序,实现上述任一项所述的对抗样本生成方法的各个步骤。
55.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执
行时,实现上述任一项所述的对抗样本生成方法的各个步骤。
56.经由上述方案可知,本申请提供的对抗样本生成方法、装置、设备及存储介质,首先获取与患者病情有关的原始医学数据,作为目标样本,然后以目标样本为依据,生成能够表征对抗样本的语义的向量,作为目标样本对应的对抗样本语义向量,最后基于目标样本对应的对抗样本语义向量,生成目标样本对应的对抗样本。经由本申请提供的对抗样本生成方法可自动生成对抗样本,利用本申请提供的对抗样本生成方法生成的对抗样本对深度神经网络模型进行训练,可提高深度神经网络模型的鲁棒性,从而使得深度神经网络模型针对对抗样例也能输出正确的预测结果。
附图说明
57.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
58.图1为本申请实施例提供的对抗样本生成方法的流程示意图;
59.图2为本申请实施例提供的建立对抗样本语义向量生成模型的一种实现方式的流程示意图;
60.图3为本申请实施例提供的建立对抗样本语义向量生成模型的另一种实现方式的流程示意图;
61.图4为本申请实施例提供的基于目标样本对应的对抗样本语义向量,生成目标样本对应的对抗样本的流程示意图;
62.图5为本申请实施例提供的对抗样本生成装置的结构示意图;
63.图6为本申请实施例提供的对抗样本生成设备的结构示意图。
具体实施方式
64.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
65.目前,获取对抗样本的方式主要为人工编写方式,然而,人工编写方式耗时耗力,有鉴于此,本案发明人试图提出一种能够自动生成对抗样本的方案,并为此进行了研究,通过不断研究,最终提出了一种对抗样本生成方法,该方法的基本思路是:获取原始医学数据作为目标样本,生成能够表征目标样本对应的对抗样本语义的向量(即对抗样本语义向量),以生成的对抗样本语义向量为依据生成对抗样本。
66.本申请提供的对抗样本生成方法可应用于具有数据处理能力的电子设备,该电子设备可以为网络侧的服务器,也可以为用户侧使用的终端,比如pc、笔记本、智能手机等,网络侧的服务器或用户侧使用的终端可按本申请提供的对抗样本生成方法生成对抗样本。接下来通过下述实施例对本申请提供的对抗样本生成方法进行介绍。
67.第一实施例
68.请参阅图1,示出了本申请实施例提供的对抗样本生成方法的流程示意图,可以包括:
69.步骤s101:获取与患者病情有关的原始医学数据,作为目标样本;
70.可选的,目标样本可以包括原始病历文本以及原始病历文本对应的结构化病情标签。
71.其中,原始病历文本对应的结构化病情标签通过对原始病历文本进行结构化处理得到。需要说明的是,结构化病情标签包括多个信息项以及多个信息项分别对应的内容。
72.示例性的,原始病历文本为:
73."主诉":"眩晕2天,伴言语不清2天";"现病史:"2天前患者无明显诱因出现眩晕,持续性起病,伴言语不清2天。今为求进一步治疗,就诊我院";"既往史:"无";"体格检查":"无";"年龄":"58";"性别":"男";"辅助诊断:"未做";"诊断":"脑梗死"。
74.对上述原始病历文本进行结构化处理后,得到的结构化病情标签为:
75."症状":"眩晕,言语不清";"发病时间:"2天";"发病性质":"持续性起病";"体征":"";"年龄":"58";"性别":"男";"检查结果":"";检验结果":"";"诊断":"脑梗死"。
76.步骤s102:以目标样本为依据,生成能够表征对抗样本的语义的向量,作为目标样本对应的对抗样本语义向量。
77.在一种可能的实现方式中,以目标样本为依据,生成目标样本对应的对抗样本语义向量的过程可以包括:将目标样本输入预先建立的对抗样本语义向量生成模型,得到目标样本对应的对抗样本语义向量。
78.其中,对抗样本语义向量生成模型采用训练样本训练得到,对抗样本语义向量生成模型的训练目标包括:最小化训练样本对应的对抗样本与目标疾病对应的知识库的相关度,最大化训练样本对应的对抗样本与非目标疾病对应的知识库的相关度,目标疾病为训练样本对应的疾病。
79.优选的,为了后续能够生成质量更好的对抗样本,对抗样本语义向量生成模型的训练目标还可以包括:最大化训练样本与目标疾病对应的知识库的相关度,最小化训练样本与非目标疾病对应的知识库的相关度。
80.其中,一疾病对应的知识库中包括该疾病的相关医学知识,比如,疾病基本信息、疾病典型症状、疾病非典型症状、检查检验等信息。下表示出了疾病“脑梗死”对应的知识库中的部分信息:
81.表1
[0082][0083]
需要说明的是,在采用训练样本训练对抗样本语义向量生成模型时,会将训练样本输入对抗样本语义向量生成模型,以得到训练样本对应的对抗样本语义向量,在获得训练样本对应的对抗样本语义向量后,基于训练样本对应的对抗样本语义向量可生成上述训练目标中提及的“训练样本对应的对抗样本”。
[0084]
上述内容提到,目标样本可以包括原始病历文本以及原始病历文本对应的结构化病情标签,有鉴于此,对抗样本语义向量生成模型可以包括对抗病历语义向量生成模型和对抗标签语义向量生成模型,对抗样本语义向量生成模型的训练样本包括原始病历文本以及原始病历文本对应的结构化病情标签。
[0085]
对抗病历语义向量生成模型采用训练样本中的原始病历文本训练得到,对抗病历语义向量生成模型的训练目标包括:最小化训练样本中的原始病历文本对应的对抗病历文本与目标疾病对应的知识库的相关度,最大化训练样本中的原始病历文本对应的对抗病历文本与非目标疾病对应的知识库的相关度,优选的,对抗病历语义向量生成模型的训练目标还可以包括:最大化训练样本中的原始病历文本与目标疾病对应的知识库的相关度,最小化训练样本中的原始病历文本与非目标疾病对应的知识库的相关度。
[0086]
对抗标签语义向量生成模型采用训练样本中的结构化病情标签训练得到,对抗标签语义向量生成模型的训练目标包括:最小化训练样本中的结构化病情标签对应的对抗结构化病情标签与目标疾病对应的知识库的相关度,最大化训练样本中的结构化病情标签对应的对抗结构化病情标签与非目标疾病对应的知识库的相关度,优选的,对抗标签语义向
量生成模型的训练目标还可以包括:最大化训练样本中的对抗结构化病情标签与目标疾病对应的知识库的相关度,最小化训练样本中的对抗结构化病情标签与非目标疾病对应的知识库的相关度。
[0087]
上述将目标样本输入预先建立的对抗样本语义向量生成模型,得到目标样本对应的对抗样本语义向量的过程包括:将目标样本中的原始病历文本输入对建立的对抗病历语义向量生成模型,得到目标样本中的原始病历文本对应的对抗病历语义向量,并将目标样本中的结构化病情标签输入建立的对抗标签语义向量生成模型,得到目标样本中的结构化病情标签对应的对抗病情标签语义向量;目标样本中的原始病历文本对应的对抗病历语义向量,以及目标样本中的结构化病情标签对应的对抗病情标签语义向量作为目标样本对应的对抗样本语义向量。其中,对抗病历语义向量为能够表征对抗病历语义的向量,对抗标签语义向量为能够表征对抗结构化病情标签语义的向量。
[0088]
步骤s103:基于目标样本对应的对抗样本语义向量,生成目标样本对应的对抗样本。
[0089]
上述内容提到,目标样本可以包括原始病历文本以及原始病历文本对应的结构化病情标签,有鉴于此,基于目标样本对应的对抗样本语义向量,生成目标样本对应的对抗样本的过程可以包括:基于目标样本中的原始病历文本对应的对抗病历语义向量,生成对抗病历文本;基于目标样本中的结构化病情标签对应的对抗标签语义向量,生成对抗结构化病情标签;由生成的对抗病历文本和对抗结构化病情标签组成目标样本对应的对抗样本。
[0090]
在获得对抗样本后,可由标注人员对其进行疾病标注,然后利用标注后的对抗样本训练深度神经网络模型,以提高深度神经网络模型的鲁棒性。
[0091]
本申请实施例提供的对抗样本生成方法,首先获取与患者病情有关的原始医学数据作为目标样本,然后以目标样本为依据,生成能够表征对抗样本的语义的向量目标样本对应的对抗样本语义向量,最后基于目标样本对应的对抗样本语义向量,生成目标样本对应的对抗样本。经由本申请实施例提供的对抗样本生成方法可自动生成对抗样本,采用生成的对抗样本对深度神经网络模型进行训练,可提高深度神经网络模型的鲁棒性,从而使得深度神经网络模型即便针对对抗样例也能输出正确的预测结果。
[0092]
第二实施例
[0093]
本实施例对上述实施例中的“步骤s102:以目标样本为依据,生成能够表征对抗样本的语义的向量,作为目标样本对应的对抗样本语义向量”进行介绍。
[0094]
上述实施例提到,可将目标样本输入预先建立的对抗样本语义向量生成模型,基于对抗样本语义向量生成模型生成目标样本对应的对抗样本语义向量”本实施例首先对建立对抗样本语义向量生成模型的过程进行介绍。
[0095]
建立对抗样本语义向量生成模型的实现方式有多种,本实施例提供如下两种可选的实现方式:
[0096]
请参阅图2,示出了建立对抗样本语义向量生成模型的一种实现方式的流程示意图,可以包括:
[0097]
步骤s201a:将训练样本输入对抗样本语义向量生成模型,得到训练样本对应的对抗样本语义向量。
[0098]
在一种可能的实现方式中,对抗样本语义向量生成模型可以包括第一编码模块、
干扰向量添加模块和第二编码模块,则将训练样本输入对抗样本语义向量生成模型,得到训练样本对应的对抗样本语义向量的过程包括:将训练样本输入对抗样本语义向量生成模型的第一编码模块进行编码,以得到目标样本的表征向量;将训练样本的表征向量输入对抗样本语义向量生成模型的干扰向量融合模块,以得到融合有干扰向量的样本表征向量;将融合有干扰向量的样本表征向量输入对抗样本语义向量生成模型的第二编码模块进行编码,得到训练样本对应的对抗样本语义向量。
[0099]
上述实施例提到,对抗样本语义向量生成模型包括对抗病历语义向量生成模型和对抗标签语义向量生成模型,虽然二者为不同的模型(模型的结构不同,模型的输入和输出不同),但二者的训练方式相同,本实施例以对抗病历语义向量生成模型为例,对训练过程中的各个步骤进行进行说明。
[0100]
对于对抗病历语义向量生成模型的训练:将训练样本中的原始病历文本输入对抗病历语义向量生成模型,得到训练样本中的原始病历文本对应的对抗病历语义向量。具体的,首先将训练样本中的原始病历文本输入对抗病历语义向量生成模型的第一编码模块进行编码,得到训练样本中原始病历文本的表征向量,假设训练样本中原始病历文本的长度为m,则训练样本中原始病历文本的表征向量可表示为e
mr
=[e1,e2,...,e
i
,e
i 1
,...,e
m
];然后将训练样本中原始病历文本的表征向量输入对抗病历语义向量生成模型的干扰向量融合模块,得到融合有干扰向量的病历表征向量,假设干扰向量长度为l,其表示为[e
′1,e
′2,...,e
′
l
],则在emr中融入[e
′1,e
′2,...,e
′
l
]后,得到总长度为m l的向量e
mr
′
=[e1,e2,...,e
i
,e
′1,e
′2,...,e
′
l
,e
i 1
,...,e
m
],可选的,干扰向量[e
′1,e
′2,...,e
′
l
]通过大小为l的全连接层获得,该全连接层的参数随机初始化,训练过程中不断更新;最后将融合有干扰向量的病历表征向量输入对抗病历语义向量生成模型的第二编码模块进行编码,从而得到训练样本中的原始病历文本对应的对抗病历语义向量,可选的,第二编码模块可以为transformer,即,将e
mr
′
输入transformer,便可得到训练样本中的原始病历文本对应的对抗病历语义向量f
mr
′
。
[0101]
其中,transformer可按下式确定训练样本中的原始病历文本对应的对抗病历语义向量f
mr
′
:
[0102]
q=w
qi
e
mr
′
,k=w
ki
e
mr
′
,v=w
vi
e
mr
′
ꢀꢀ
(1)
[0103][0104][0105]
f
mr
′
=mulit
‑
head(q,k,v)=concat(head1,head2,...,head
h
)
ꢀꢀ
(4)
[0106]
其中,w
qi
、w
ki
和w
vi
表示3个不同的全连接层参数,用于将e
mr
′
映射到不同的空间中,h表示全连接层的参数有h(比如8)种,i从1~h,为缩放参数,根据需要动态调节。上式表示通过h个不同的线性变换对q,k,v进行投影,即进行h种不同维度的attention计算,最后将各维度的attention结果拼接起来作为对抗病历语义向量f
mr
′
。
[0107]
步骤s201b:获取目标疾病对应的知识库的语义向量以及非目标疾病对应的知识库的语义向量。
[0108]
具体的,可先获取目标疾病对应的知识库的embedding表示,即目标疾病对应的知识库的表征向量,然后对目标疾病对应的知识库的表征向量分别从标签层面、字符串层面、
字段类型层面(即症状、体征等类别)、支持性别、支持年龄等层面进行编码,将各个层面的编码结果融合,将融合后结果f
kb
作为目标疾病对应的知识库的语义向量:
[0109]
f
kb
=concat(e
token
,e
char
,e
type
,e
gender
,e
age
)
ꢀꢀ
(5)
[0110]
其中,e
token
表示标签层面的编码结果,e
char
表示字符串层面的编码结果,e
type
表示字段类型层面的编码结果,e
gender
表示支持性别层面的编码结果,e
age
表示支持年龄层面的编码结果。
[0111]
按上述同样的方式可获得非目标疾病对应的知识库的语义向量f
kb
‑
。
[0112]
步骤s202:基于训练样本对应的对抗样本语义向量、目标疾病对应的知识库的语义向量和非目标疾病对应的知识库的语义向量,确定训练样本对应的对抗样本分别与目标疾病对应的知识库和非目标疾病对应的知识库的相关度。
[0113]
对于对抗病历语义向量生成模型的训练:获得训练样本中原始病历文本对应的对抗病历语义向量f
mr
′
和目标疾病对应的知识库的语义向量f
kb
后,可基于cross attention(跨越注意力)计算方式计算训练样本中原始病历文本对应的对抗病历文本与目标疾病对应的知识库的相关度,计算公式如下:
[0114][0115]
α(t)=softmax(m(1,t),m(2,t),...,m(n,t))
ꢀꢀ
(7)
[0116]
β(t)=softmax(m(t,1),m(t,2),...,m(t,m l))
ꢀꢀ
(8)
[0117]
f
′
kb
=α*f
kb
ꢀꢀ
(9)
[0118]
f
′
mr
′
=β*f
mr
′
ꢀꢀ
(10)
[0119]
mr
′
=diff(f
′
mr
′
,f
mr
′
)=concat(f
mr
′
,f
′
mr
′
,f
mr
′
‑
f
′
mr
′
,f
mr
′
*f
′
mr
′
)
ꢀꢀ
(11)
[0120]
kb
=diff(f
′
kb
,f
kb
)
ꢀꢀ
(12)
[0121]
score(mr
′
,kb
)=concat(mr
′
,kb
)*w
ꢀꢀ
(13)
[0122]
其中,m为f
kb
与的点乘结果,t表示矩阵m的第t行或第t列,比如,t表示矩阵m的第t列,则m(1,t)表示矩阵m第1行第t列的元素,...,m(n,t)表示矩阵m第n行第t列的元素,m(t,1)表示矩阵m第t行第1列的元素,m(t,m l)表示矩阵m第t行第m l列的元素,α为f
kb
对应的权重,β为f
mr
′
对应的权重,score(mr
′
,kb
)表征的即为训练样本中原始病历文本对应的对抗病历文本与目标疾病对应的知识库的相关度。
[0123]
按类似的方式,可基于训练样本中原始病历文本对应的对抗病历语义向量f
mr
′
和非目标疾病对应的知识库的语义向量f
kb
‑
确定出表征训练样本中原始病历文本对应的对抗病历文本与非目标疾病对应的知识库的相关度的score(mr
′
,kb
‑
)。
[0124]
步骤s203:根据训练样本对应的对抗样本分别与目标疾病对应的知识库和非目标疾病对应的知识库的相关度,确定对抗样本语义向量生成模型的预测损失。
[0125]
对于对抗病历语义向量生成模型的训练:对抗病历语义向量生成模型的预测损失可以表示为:
[0126]
loss=min(0,1
‑
score(mr
′
,kb
) score(mr
′
,kb
‑
))
ꢀꢀ
(14)
[0127]
步骤s204:根据对抗样本语义向量生成模型的预测损失,更新对抗样本语义向量生成模型的参数。
[0128]
对于对抗病历语义向量生成模型的训练:根据对抗病历语义向量生成模型的预测
损失,更新对抗病历语义向量生成模型的参数。
[0129]
按上述方式对对抗样本语义向量生成模型进行多次迭代训练,直至满足训练结束条件,训练结束后得到的模型即为建立的对抗样本语义向量生成模型。
[0130]
请参阅图3,示出了建立对抗样本语义向量生成模型的另一种实现方式的流程示意图,可以包括:
[0131]
步骤s301a:将训练样本输入对抗样本语义向量生成模型,得到训练样本对应的对抗样本语义向量。
[0132]
步骤s301b:获取目标疾病对应的疾病知识库的语义向量以及非目标疾病对应的疾病知识库的语义向量。
[0133]
步骤s301c:获取训练样本的语义向量。
[0134]
可选的,可基于bert获取训练样本的语义向量。
[0135]
步骤s302a:基于训练样本对应的对抗样本语义向量、目标疾病对应的知识库的语义向量和非目标疾病对应的知识库的语义向量,确定训练样本对应的对抗样本分别与目标疾病对应的知识库和非目标疾病对应的知识库的相关度。
[0136]
步骤s302b:基于训练样本的语义向量、目标疾病对应的知识库的语义向量和非目标疾病对应的知识库的语义向量,确定训练样本分别与目标疾病对应的知识库和非目标疾病对应的知识库的相关度。
[0137]
对于对抗病历语义向量生成模型的训练:可采用获得score(mr
′
,kb
)的方式获取表征训练样本中的原始病历文本与目标疾病对应的知识库的相关度的score(mr,kb
‑
),以及表征训练样本中的原始病历文本与非目标疾病对应的知识库的相关度的score(mr,kb
)。
[0138]
步骤s303a:根据步骤s302a确定出的相关度,确定对抗样本语义向量生成模型的第一预测损失。
[0139]
对于对抗病历语义向量生成模型的训练:对抗病历语义向量生成模型的第一预测损失可以表示为:
[0140]
loss1=min(0,1
‑
score(mr
′
,kb
) score(mr
′
,kb
‑
))
ꢀꢀ
(15)
[0141]
步骤s301a、s301b、s303a、s304a的具体实现过程及相关解释可参见上述第一中实现方式中的相关部分,在此不做赘述。
[0142]
步骤s303b:根据步骤s302b确定出的相关度,确定对抗样本语义向量生成模型的第二预测损失。
[0143]
对于对抗病历语义向量生成模型的训练:对抗病历语义向量生成模型的预测损失可以表示为:
[0144]
loss2=max(0,1
‑
score(mr,kb
) score(mr,kb
‑
))
ꢀꢀ
(16)
[0145]
步骤s304:根据对抗样本语义向量生成模型的第一预测损失和第二预测损失,更新对抗样本语义向量生成模型的参数。
[0146]
对于对抗病历语义向量生成模型的训练:可将上述的loss1与loss2加权求和,加权求和结果作为对抗病历语义向量生成模型的预测损失loss,即:
[0147]
loss=γ*loss1 δ*loss2
ꢀꢀ
(17)
[0148]
其中,γ δ=1,γ和δ的值可根据具体情况设定。
[0149]
按上述方式对对抗样本语义向量生成模型进行多次迭代训练,直至满足训练结束条件,训练结束后得到的模型即为建立的对抗样本语义向量生成模型。
[0150]
在获得目标样本后,便可将目标样本输入建立的对抗样本语义向量生成模型,从而得到目标样本对应的对抗样本语义向量。具体的,将目标样本输入对抗样本语义向量生成模型的第一编码模块进行编码,以得到目标样本的表征向量;将目标样本的表征向量输入对抗样本语义向量生成模型的干扰向量融合模块,以得到融合有干扰向量的样本表征向量;将融合有干扰向量的样本表征向量输入对抗样本语义向量生成模型的第二编码模块进行编码,得到目标样本对应的对抗样本语义向量。
[0151]
更为具体的,可将目标样本中的原始病历文本输入对抗病历语义向量生成模型的第一编码模块进行编码,以得到目标样本中原始病历文本的表征向量;将目标样本中原始病历文本的表征向量输入对抗病历语义向量生成模型的干扰向量融合模块,以得到融合有干扰向量的病历表征向量;将融合有干扰向量的病历表征向量输入对抗病历语义向量生成模型的的第二编码模块进行编码,得到目标样本中原始病历文本对应的对抗病历语义向量。目标样本中结构化病情标签对应的对抗标签语义向量通过类似方式获得,本实施例在此不做赘述。
[0152]
第三实施例
[0153]
本实施例对上述实施例中的“步骤s103:基于目标样本对应的对抗样本语义向量,生成目标样本对应的对抗样本”进行介绍。
[0154]
基于目标样本对应的对抗样本语义向量,生成目标样本对应的对抗样本的实现方式有多种:
[0155]
在一种可能的实现方式,可直接将目标样本对应的对抗样本语义向量转换为自然语言描述的医学数据,作为目标样本对应的对抗样本。
[0156]
考虑到医学数据的特殊性,按上述实现方式获得的对抗样本可能质量不佳,为了获得质量较好的对抗样本,本实施例提供另一种较为优选的实现方式,请参阅图4,示出了该优选实现方式的流程示意图,可以包括:
[0157]
步骤s401:从目标样本对应的对抗样本语义向量中获取干扰向量,作为目标干扰向量。
[0158]
步骤s402:基于目标干扰向量,从候选干扰样本库中获取干扰样本。
[0159]
具体的,基于目标干扰向量,从候选干扰样本库中获取干扰样本的过程可以包括:
[0160]
步骤s4021、计算目标干扰向量与候选干扰样本库中每个候选干扰样本的语义向量的相似度。
[0161]
优选的,可从多个维度计算目标干扰向量与候选干扰样本库中每个候选干扰样本的语义向量的相似度,比如,可计算目标干扰向量与候选干扰样本库中每个候选干扰样本的语义向量的余弦相似度,计算目标干扰向量与候选干扰样本库中每个候选干扰样本的语义向量的欧式距离等。当然,也可从一个维度计算目标干扰向量与候选干扰样本库中每个候选干扰样本的语义向量的相似度,比如,只计算计算目标干扰向量与候选干扰样本库中每个候选干扰样本的语义向量的余弦相似度。
[0162]
其中,两个向量x和y的余弦相似度的计算式为:
[0163][0164]
其中,两个向量x和y的欧式距离的计算式为:
[0165][0166]
步骤s4022、根据目标干扰向量与候选干扰样本库中每个候选干扰样本的语义向量的相似度,从候选干扰样本库中获取干扰样本。
[0167]
针对候选干扰样本库中的每个候选干扰样本,若从多个维度计算目标干扰向量与该候选干扰样本的语义向量的相似度,则将多个维度的相似度融合,比如将多个维度的相似度求和,融合后相似度作为对应于该候选干扰样本的目标相似度,若从一个维度计算目标干扰向量与该候选干扰样本的语义向量的相似度,则将该相似度作为对应于该候选干扰样本的目标相似度,在获得分别对应于候选干扰样本库中各候选干扰样本的目标相似度后,可基于分别对应于候选干扰样本库中各候选干扰样本的目标相似度,从候选干扰样本库中获取干扰样本,优选的,可将对应于候选干扰样本库中各候选干扰样本的目标相似度中的最大目标相似度对应的候选干扰样本作为干扰样本。
[0168]
步骤s403:将干扰样本插入目标样本中,得到目标样本对应的对抗样本。
[0169]
上述实施例提到,目标样本可以包括原始病历文本和原始病历文本对应的结构化病情标签,针对目标样本中的原始病历文本:
[0170]
首先从目标样本中原始病历文本对应的对抗病历语义向量获取干扰向量,作为目标病例干扰向量;然后基于目标病例干扰向量从候选病历片段库中获取干扰病历片段;将干扰病历片段插入目标样本中的原始病历文本中,得到目标样本中原始病历文本对应的对抗病历文本。其中,基于目标病例干扰向量从候选病历片段库中获取干扰病历片段的过程包括:计算目标病例干扰向量与候选病历片段库中每个候选病历片段的语义向量的相似度,根据确定出的相似度,从候选病历片段库中获取干扰病历片段,更为具体的实现方式可参阅上述s4021~s4022的相关说明。
[0171]
针对目标样本中的结构化病情标签:
[0172]
首先从目标样本中结构化病情标签对应的对抗标签语义向量获取干扰向量,作为目标标签干扰向量;然后基于目标标签干扰向量从候选病情标签库中获取干扰病情标签;将干扰病情标签插入目标样本中的结构化病情标签,得到目标样本中结构化病情标签对应的对抗结构化病情标签。其中,基于目标标签干扰向量从候选病情标签库中获取干扰病情标签的过程包括:计算目标标签干扰向量与候选病情标签库中每个候选病情标签的语义向量的相似度,根据确定出的相似度,从候选病情标签库中获取干扰病情标签,更为具体的实现方式可参阅上述s4021~s4022的相关说明。
[0173]
第四实施例
[0174]
本申请实施例还提供了一种对抗样本生成装置,下面对本申请实施例提供的对抗样本生成装置进行描述,下文描述的对抗样本生成装置与上文描述的对抗样本生成方法可相互对应参照。
[0175]
请参阅图5,示出了本申请实施例提供的对抗样本生成装置的结构示意图,可以包括:样本获取模块501、对抗样本语义向量生成模块502和对抗样本生成模块503。
[0176]
样本获取模块501,用于获取与患者病情有关的原始医学数据,作为目标样本。
[0177]
对抗样本语义向量生成模块502,用于以所述目标样本为依据,生成能够表征对抗样本的语义的向量,作为所述目标样本对应的对抗样本语义向量。
[0178]
对抗样本生成模块503,用于基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本。
[0179]
可选的,所述对抗样本语义向量生成模块,具体用于将将所述目标样本输入预先建立的对抗样本语义向量生成模型,得到所述目标样本对应的对抗样本语义向量。
[0180]
其中,所述对抗样本语义向量生成模型采用训练样本训练得到,所述对抗样本语义向量生成模型的训练目标包括:最小化所述训练样本对应的对抗样本与目标疾病对应的知识库的相关度,最大化所述训练样本对应的对抗样本与非目标疾病对应的知识库的相关度,所述目标疾病为所述训练样本对应的疾病。
[0181]
可选的,所述对抗样本语义向量生成模型的训练目标还包括:最大化所述训练样本与所述目标疾病对应的知识库的相关度,最小化所述训练样本与所述非目标疾病对应的知识库的相关度。
[0182]
可选的,对抗样本语义向量生成模型可以包括第一编码模块、干扰向量融合模块和第二编码模块。第一编码模块,用于对目标样本进行进行编码,以得到所述目标样本的表征向量;干扰向量融合模块,用于生成干扰向量,将生成的干扰向量融入所述目标样本的表征向量中,以得到融合有干扰向量的样本表征向量;第二编码模块,用于对融合有干扰向量的样本表征向量进行编码,以得到所述目标样本对应的对抗样本语义向量。
[0183]
可选的,所述对抗样本生成模块包括:干扰向量获取子模块、干扰样本获取子模块和对抗样本生成子模块。
[0184]
所述干扰向量获取子模块,用于从所述目标样本对应的对抗样本语义向量中获取干扰向量,作为目标干扰向量。
[0185]
所述干扰样本获取子模块,用于基于所述目标干扰向量,从候选干扰样本库中获取干扰样本。
[0186]
所述对抗样本生成子模块,用于将所述干扰样本插入所述目标样本中,得到所述目标样本对应的对抗样本。
[0187]
可选的,干扰样本获取子模块,具体用于计算所述目标干扰向量与所述候选干扰样本库中每个候选干扰样本的语义向量的相似度,根据所述目标干扰向量与所述候选干扰样本库中每个候选干扰样本的语义向量的相似度,从所述候选干扰样本库中获取干扰样本。
[0188]
可选的,本申请实施例提供的对抗样本生成装置还包括:对抗样本语义向量生成模型构建模块。
[0189]
对抗样本语义向量生成模型构建模块包括:训练样本输入模块、知识库语义向量获取模块、第一相关度确定模块、第一预测损失确定模块和参数更新模块。
[0190]
所述训练样本输入模块,用于将所述训练样本输入对抗样本语义向量生成模型,得到所述训练样本对应的对抗样本语义向量;
[0191]
所述知识库语义向量获取模块,用于获取所述目标疾病对应的知识库的语义向量以及所述非目标疾病对应的知识库的语义向量。
[0192]
所述第一相关度确定模块,用于基于所述训练样本对应的对抗样本语义向量、所述目标疾病对应的知识库的语义向量和所述非目标疾病对应的知识库的语义向量,确定所述训练样本对应的对抗样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度。
[0193]
所述第一预测损失确定模块,用于根据所述训练样本对应的对抗样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度,确定对抗样本语义向量生成模型的第一预测损失。
[0194]
所述参数更新模块,用于根据所述第一预测损失,更新对抗样本语义向量生成模型的参数。
[0195]
可选的,对抗样本语义向量生成模型构建模块还包括:样本语义向量获取模块、第二相关度确定模块和第二预测损失确定模块。
[0196]
所述样本语义向量获取模块,用于获取所述训练样本的语义向量。
[0197]
所述第二相关度确定模块,用于基于所述训练样本语义向量、所述目标疾病对应的知识库的语义向量和所述非目标疾病对应的知识库的语义向量,确定所述训练样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度。
[0198]
所述第二预测损失确定模块,用于根据所述训练样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度,确定对抗样本语义向量生成模型的第二预测损失。
[0199]
所述所述参数更新模块,具体用于根据所述第一预测损失和所述第二预测损失,更新对抗样本语义向量生成模型的参数。
[0200]
可选的,所述目标样本包括:原始病历文本和所述原始病历文本对应的结构化病情标签,所述对抗样本语义向量生成模型包括:对抗病历语义向量生成模型和对抗标签语义向量生成模型。
[0201]
对抗样本语义向量生成模块502,具体用于将所述原始病历文本输入所述对抗病历语义向量生成模型,得到对抗病历语义向量,并将所述结构化病情标签输入所述对抗标签语义向量生成模型,得到对抗病情标签语义向量,所述对抗病历语义向量和所述对抗病情标签语义向量作为所述目标样本对应的对抗样本语义向量。
[0202]
对抗样本生成模块503,具体用于基于所述对抗病历语义向量,生成对抗病历文本,并基于所述对抗病情标签语义向量,生成对抗结构化病情标签,所述对抗病历文本和所述对抗结构化病情标签作为所述目标样本对应的对抗样本。
[0203]
本申请实施例提供的对抗样本生成装置,首先获取与患者病情有关的原始医学数据作为目标样本,然后以目标样本为依据,生成能够表征对抗样本的语义的向量目标样本对应的对抗样本语义向量,最后基于目标样本对应的对抗样本语义向量,生成目标样本对应的对抗样本。经由本申请实施例提供的对抗样本生成装置可自动生成对抗样本,采用生成的对抗样本对深度神经网络模型进行训练,可提高深度神经网络模型的鲁棒性,从而使得深度神经网络模型即便针对对抗样例也能输出正确的预测结果。
[0204]
第五实施例
[0205]
本申请实施例还提供了一种对抗样本生成设备,请参阅图6,示出了该对抗样本生成设备的结构示意图,该对抗样本生成设备可以包括:至少一个处理器601,至少一个通信
接口602,至少一个存储器603和至少一个通信总线604;
[0206]
在本申请实施例中,处理器601、通信接口602、存储器603、通信总线604的数量为至少一个,且处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信;
[0207]
处理器601可能是一个中央处理器cpu,或者是特定集成电路asic(application specific integrated circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
[0208]
存储器603可能包含高速ram存储器,也可能还包括非易失性存储器(non
‑
volatile memory)等,例如至少一个磁盘存储器;
[0209]
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
[0210]
获取与患者病情有关的原始医学数据,作为目标样本;
[0211]
以所述目标样本为依据,生成能够表征对抗样本的语义的向量,作为所述目标样本对应的对抗样本语义向量;
[0212]
基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本。
[0213]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0214]
第六实施例
[0215]
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
[0216]
获取与患者病情有关的原始医学数据,作为目标样本;
[0217]
以所述目标样本为依据,生成能够表征对抗样本的语义的向量,作为所述目标样本对应的对抗样本语义向量;
[0218]
基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本。
[0219]
可选的,所述程序的细化功能和扩展功能可参照上文描述。
[0220]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0221]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0222]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种对抗样本生成方法,其特征在于,包括:获取与患者病情有关的原始医学数据,作为目标样本;以所述目标样本为依据,生成能够表征对抗样本的语义的向量,作为所述目标样本对应的对抗样本语义向量;基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本。2.根据权利要求1所述的对抗样本生成方法,其特征在于,基于所述目标样本,生成所述目标样本对应的对抗样本语义向量,包括:将所述目标样本输入预先建立的对抗样本语义向量生成模型,得到所述目标样本对应的对抗样本语义向量;其中,所述对抗样本语义向量生成模型采用训练样本训练得到,所述对抗样本语义向量生成模型的训练目标包括:最小化所述训练样本对应的对抗样本与目标疾病对应的知识库的相关度,最大化所述训练样本对应的对抗样本与非目标疾病对应的知识库的相关度,所述目标疾病为所述训练样本对应的疾病。3.根据权利要求2所述的对抗样本生成方法,其特征在于,所述对抗样本语义向量生成模型的训练目标还包括:最大化所述训练样本与所述目标疾病对应的知识库的相关度,最小化所述训练样本与所述非目标疾病对应的知识库的相关度。4.根据权利要求2或3所述的对抗样本生成方法,其特征在于,所述将所述目标样本输入预先建立的对抗样本语义向量生成模型,得到所述目标样本对应的对抗样本语义向量,包括:将所述目标样本输入所述对抗样本语义向量生成模型的第一编码模块进行编码,以得到所述目标样本的表征向量;将所述目标样本的表征向量输入所述对抗样本语义向量生成模型的干扰向量融合模块,以得到融合有干扰向量的样本表征向量;将所述融合有干扰向量的样本表征向量输入所述对抗样本语义向量生成模型的第二编码模块进行编码,得到所述目标样本对应的对抗样本语义向量。5.根据权利要求1所述的对抗样本生成方法,其特征在于,所述基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本,包括:从所述目标样本对应的对抗样本语义向量中获取干扰向量,作为目标干扰向量;基于所述目标干扰向量,从候选干扰样本库中获取干扰样本;将所述干扰样本插入所述目标样本中,得到所述目标样本对应的对抗样本。6.根据权利要求5所述的对抗样本生成方法,其特征在于,所述基于所述目标干扰向量,从候选干扰样本库中获取干扰样本,包括:计算所述目标干扰向量与所述候选干扰样本库中每个候选干扰样本的语义向量的相似度;根据所述目标干扰向量与所述候选干扰样本库中每个候选干扰样本的语义向量的相似度,从所述候选干扰样本库中获取干扰样本。7.根据权利要求2所述的对抗样本生成方法,其特征在于,建立所述对抗样本语义向量生成模型的过程包括:
将所述训练样本输入对抗样本语义向量生成模型,得到所述训练样本对应的对抗样本语义向量;获取所述目标疾病对应的知识库的语义向量以及所述非目标疾病对应的知识库的语义向量;基于所述训练样本对应的对抗样本语义向量、所述目标疾病对应的知识库的语义向量和所述非目标疾病对应的知识库的语义向量,确定所述训练样本对应的对抗样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度;根据所述训练样本对应的对抗样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度,确定对抗样本语义向量生成模型的第一预测损失;根据所述第一预测损失,更新对抗样本语义向量生成模型的参数。8.根据权利要求7所述的对抗样本生成方法,其特征在于,建立所述对抗样本语义向量生成模型的过程还包括:获取所述训练样本的语义向量;基于所述训练样本语义向量、所述目标疾病对应的知识库的语义向量和所述非目标疾病对应的知识库的语义向量,确定所述训练样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度;根据所述训练样本分别与所述目标疾病对应的知识库和所述非目标疾病对应的知识库的相关度,确定对抗样本语义向量生成模型的第二预测损失;所述根据所述第一预测损失,更新对抗样本语义向量生成模型的参数,包括:根据所述第一预测损失和所述第二预测损失,更新对抗样本语义向量生成模型的参数。9.根据权利要求2所述的对抗样本生成方法,其特征在于,所述目标样本包括:原始病历文本和所述原始病历文本对应的结构化病情标签,所述对抗样本语义向量生成模型包括:对抗病历语义向量生成模型和对抗标签语义向量生成模型;所述将所述目标样本输入预先建立的对抗样本语义向量生成模型,得到所述目标样本对应的对抗样本语义向量,包括:将所述原始病历文本输入所述对抗病历语义向量生成模型,得到对抗病历语义向量,并将所述结构化病情标签输入所述对抗标签语义向量生成模型,得到对抗病情标签语义向量;所述对抗病历语义向量和所述对抗病情标签语义向量作为所述目标样本对应的对抗样本语义向量;所述基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本,包括:基于所述对抗病历语义向量,生成对抗病历文本,并基于所述对抗病情标签语义向量,生成对抗结构化病情标签;所述对抗病历文本和所述对抗结构化病情标签作为所述目标样本对应的对抗样本。10.一种对抗样本生成装置,其特征在于,包括:样本获取模块、对抗样本语义向量生成模块和对抗样本生成模块;所述样本获取模块,用于获取与患者病情有关的原始医学数据,作为目标样本;所述对抗样本语义向量生成模块,用于以所述目标样本为依据,生成能够表征对抗样
本的语义的向量,作为所述目标样本对应的对抗样本语义向量;所述对抗样本生成模块,用于基于所述目标样本对应的对抗样本语义向量,生成所述目标样本对应的对抗样本。11.根据权利要求10所述的对抗样本生成装置,其特征在于,所述对抗样本语义向量生成模块,具体用于将将所述目标样本输入预先建立的对抗样本语义向量生成模型,得到所述目标样本对应的对抗样本语义向量;其中,所述对抗样本语义向量生成模型采用训练样本训练得到,所述对抗样本语义向量生成模型的训练目标包括:最小化所述训练样本对应的对抗样本与目标疾病对应的知识库的相关度,最大化所述训练样本对应的对抗样本与非目标疾病对应的知识库的相关度,所述目标疾病为所述训练样本对应的疾病。12.根据权利要求10所述的对抗样本生成装置,其特征在于,所述对抗样本生成模块包括:干扰向量获取子模块、干扰样本获取子模块和对抗样本生成子模块;所述干扰向量获取子模块,用于从所述目标样本对应的对抗样本语义向量中获取干扰向量,作为目标干扰向量;所述干扰样本获取子模块,用于基于所述目标干扰向量,从候选干扰样本库中获取干扰样本;所述对抗样本生成子模块,用于将所述干扰样本插入所述目标样本中,得到所述目标样本对应的对抗样本。13.一种对抗样本生成设备,其特征在于,包括:存储器和处理器;所述存储器,用于存储程序;所述处理器,用于执行所述程序,实现如权利要求1~9中任一项所述的对抗样本生成方法的各个步骤。14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~9中任一项所述的对抗样本生成方法的各个步骤。
技术总结
本申请提供了一种对抗样本生成方法、装置、设备及存储介质,其中,方法包括:获取与患者病情有关的原始医学数据,作为目标样本;以目标样本为依据,生成能够表征对抗样本的语义的向量,作为目标样本对应的对抗样本语义向量;基于目标样本对应的对抗样本语义向量,生成目标样本对应的对抗样本。经由本申请提供的对抗样本生成方法可自动生成对抗样本,采用生成的对抗样本对深度神经网络模型进行训练,可提高深度神经网络模型的鲁棒性,从而使得深度神经网络模型即便针对对抗样例也能输出正确的预测结果。的预测结果。的预测结果。
技术研发人员:高丽蓉 赵景鹤 胡加学 贺志阳
受保护的技术使用者:安徽科大讯飞医疗信息技术有限公司
技术研发日:2021.03.26
技术公布日:2021/6/29
转载请注明原文地址:https://doc.8miu.com/read-976.html