本技术涉及病理检索,特别是涉及到一种基于多模态的相似病理检索方法、装置、设备及存储介质。
背景技术:
1、组织病理图像(whole slide image,wsi)分析是当前癌症诊断中重要的辅助诊断方法,被广泛认为是人类癌症诊断和预后的金标准。组织病理图像是指经过染色处理的病理切片在显微镜下成像后得到的数字图像,如图1所示。目前,数字病理图像辅助诊断最常见的任务有图像分割、图像分类和图像检索等。其中图像分割、分类可以提供直观的辅助诊断结果,但难以提供明确的诊断依据。相比之下,基于内容的图像检索(content-basedimage retrieval,cbir)可以在数据库中查找与目标患者相似的病理图像及其病例,为医生诊断提供更加丰富的辅助信息。cbir利用图像处理、模式识别方法提取数字病理图像的特征,依靠特征在病理数据库中检索出在图像内容上相似的历史病例,返回给医生作为诊断参考,帮助医生形成更加可靠的诊断意见,同时帮助医生积累诊断经验。病理学家面对疑难杂症或者特殊病例时,或者刚入行的病理学家进行有效训练时,cbir可以辅助询证医学决策。如谷歌开发出smily(similar image search for histopathology)系统,输入图像检索出特征相似的图像结果。该系统利用50亿张自然图像来对模型进行训练,将图像压缩成一种具有高度代表性的数值矢量—嵌入矢量。网络在学习的过程中将逐步学会通过计算并比较图像的嵌入矢量来区分相似和不同类别的图像。随后利用这一模型创建了癌症领域病理图像片与对应嵌入矢量的配对数据集。当一个检索图像片通过smily工具抽取出来,模型就会计算出对应的嵌入矢量并与数据集中的嵌入进行比较,随后检索出相似的图像返还给用户。
2、基于相似病理检索在数字病理图像辅助诊断中的询证医学决策意义,目前有很多方法基于病理图单模态的视觉检索,即将一张病理图映射成低维向量,然后用这一向量的相似度来衡量两张病理图的相似性。但是,由于病理图的超高分辨率(百万像素),在将其映射过程中,区分性的信息并不总是可以有效地编码到最后的特征向量中,这极大制约了检索精度。尽管目前深度学习在提取数字图像高阶语义特征上表现出强大的能力,但对超高病理图来说,这仍然是一个非常大的挑战。
技术实现思路
1、本技术的主要目的为提供一种基于多模态的相似病理检索方法、装置、设备及存储介质,旨在解决视觉单模态的语义区分性不足,导致检索精度不高的技术问题。
2、为了实现上述申请目的,本技术第一方面提供一种基于多模态的相似病理检索方法,所述方法包括:
3、获取目标患者的临床信息、基因序列以及数字病理图像;
4、对所述临床信息进行编码,得到临床信息特征向量;
5、对所述基因序列进行编码,得到基因序列特征向量;
6、对所述数字病理图像进行编码,得到病理图像视觉特征向量;
7、将所述病理图像视觉特征向量与病理数据库中每一样本对应的病理图像视觉特征向量进行相似度计算,确定相似度值从大到小排名前a的样本;其中,a为正整数;
8、将所述临床信息特征向量与所述排名前a的样本中的每一样本对应的临床信息特征向量进行相似度计算,确定相似度值从大到小排名前b的样本;其中,b为正整数;
9、将所述基因序列特征向量与所述排名前b的样本中的每一样本对应的基因序列特征向量进行相似度计算,确定相似度值从大到小排名前c的样本,将所述排名前c的样本对应的病理数据作为检索结果;其中,c为正整数;
10、进一步的,所述临床信息包括m个临床特征,其中,m为正整数,所述对所述临床信息进行编码,得到临床信息特征向量的步骤,包括:
11、根据m个所述临床特征之间的关系建立一个图;其中,图的点表示所述临床特征,图的边表示所述临床特征之间的相关性;
12、根据所述图建立所述图对应的特征矩阵、邻接矩阵以及度矩阵;
13、将所述特征矩阵、邻接矩阵以及度矩阵输入预先训练好的图卷积网络,通过所述图卷积网络将所述图映射为低维向量,得到第一低维向量;
14、将所述第一低维向量作为临床信息特征向量。
15、进一步的,所述对所述基因序列进行编码,得到基因序列特征向量的步骤包括:
16、将所述基因序列输入预先训练好的长期短期记忆网络进行编码,得到基因序列特征向量。
17、进一步的,所述对所述数字病理图像进行编码,得到病理图像视觉特征向量的步骤,包括:
18、对所述数字病理图像进行预处理,得到预处理后的图像;
19、将所述预处理后的图像拆分为多块图像;
20、将每块图像分别编码为低维向量,得到多个第二低维向量;
21、将多个所述第二低维向量聚类到k个簇,得到病理图像视觉特征向量。
22、进一步的,所述对所述数字病理图像进行预处理,得到预处理后的图像的步骤,包括:
23、去除所述数字病理图像的背景以及空洞,得到预处理后的图像。
24、进一步的,在获取目标患者的临床信息、基因序列以及数字病理图像的步骤之前,还包括:
25、获取n个样本对应的临床信息、基因序列以及数字病理图像;
26、根据所述n个样本对应的临床信息、基因序列以及数字病理图像构建得到所述病理数据库。
27、进一步的,在所述将所述排名前c的样本对应的病理数据作为检索结果的步骤之后,还包括:
28、将所述检索结果发送到医生端进行显示。
29、第二方面,本技术实施例提供一种基于多模态的相似病理检索装置,所述装置包括:
30、获取模块,用于获取目标患者的临床信息、基因序列以及数字病理图像;
31、第一编码模块,用于对所述临床信息进行编码,得到临床信息特征向量;
32、第二编码模块,用于对所述基因序列进行编码,得到基因序列特征向量;
33、第三编码模块,用于对所述数字病理图像进行编码,得到病理图像视觉特征向量;
34、第一相似度计算模块,用于将所述病理图像视觉特征向量与病理数据库中每一样本对应的病理图像视觉特征向量进行相似度计算,确定相似度值从大到小排名前a的样本;其中,a为正整数;
35、第二相似度计算模块,用于将所述临床信息特征向量与所述排名前a的样本中的每一样本对应的临床信息特征向量进行相似度计算,确定相似度值从大到小排名前b的样本;其中,b为正整数;
36、第三相似度计算模块,用于将所述基因序列特征向量与所述排名前b的样本中的每一样本对应的基因序列特征向量进行相似度计算,确定相似度值从大到小排名前c的样本,将所述排名前c的样本对应的病理数据作为检索结果;其中,c为正整数。
37、第三方面,本技术实施例提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
38、第四方面,本技术实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
39、本技术的基于多模态的相似病理检索方法、装置、设备及存储介质,通过不仅利用目标患者数字病理图像进行相似病理检索,还利用目标患者的临床信息和基因序列进行相似病理检索,从而规避了视觉单模态的语义区分性不足的问题,具体地,通过对所述临床信息、基因序列以及数字病理图像进行编码,得到临床信息特征向量、基因序列特征向量和病理图像视觉特征向量,然后,将所述病理图像视觉特征向量与病理数据库中每一样本对应的病理图像视觉特征向量进行相似度计算,确定相似度值从大到小排名前a的样本;将所述临床信息特征向量与所述排名前a的样本中的每一样本对应的临床信息特征向量进行相似度计算,确定相似度值从大到小排名前b的样本;将所述基因序列特征向量与所述排名前b的样本中的每一样本对应的基因序列特征向量进行相似度计算,确定相似度值从大到小排名前c的样本,将所述排名前c的样本对应的病理数据作为检索结果,如此,得到的检索结果的精度更高,即本技术提升了相似病理的检索精度。
1.一种基于多模态的相似病理检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的基于多模态的相似病理检索方法,其特征在于,所述临床信息包括m个临床特征,其中,m为正整数,所述对所述临床信息进行编码,得到临床信息特征向量的步骤,包括:
3.根据权利要求1所述的基于多模态的相似病理检索方法,其特征在于,所述对所述基因序列进行编码,得到基因序列特征向量的步骤包括:
4.根据权利要求1所述的基于多模态的相似病理检索方法,其特征在于,所述对所述数字病理图像进行编码,得到病理图像视觉特征向量的步骤,包括:
5.根据权利要求4所述的基于多模态的相似病理检索方法,其特征在于,所述对所述数字病理图像进行预处理,得到预处理后的图像的步骤,包括:
6.根据权利要求1所述的基于多模态的相似病理检索方法,其特征在于,在获取目标患者的临床信息、基因序列以及数字病理图像的步骤之前,还包括:
7.根据权利要求1所述的基于多模态的相似病理检索方法,其特征在于,在所述将所述排名前c的样本对应的病理数据作为检索结果的步骤之后,还包括:
8.一种基于多模态的相似病理检索装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。