本发明涉及图像处理,尤其涉及一种基于多维注意力机制的多模态图像融合与处理方法。
背景技术:
1、近年来,随着智能设备、社交媒体和网络平台等信息技术的迅猛发展,全球数据的产生量已经显著增长。在此背景下,计算机视觉和人工智能领域也迎来了飞速的发展,图像处理技术因此在人们的日常生活中扮演着越来越重要的角色。当今时代的图像处理和计算机视觉任务类型繁多,这些任务不仅种类丰富,而且依赖于大量的数据资源。因此,研究人员开始探索如何结合来自不同来源的图像数据,比如利用不同波长电磁波采集的近红外图像以及医学诊断中所需的t1/t2加权磁共振成像(nuclear magnetic resonance,mri)等。这些不同的图像类型提供了关于同一对象或场景的互补信息。通过有效地融合这些多模态图像,可以获得比单一图像更为全面和精确的信息,这对于自动驾驶、无人机技术、监控技术、农业监测以及医学诊断等众多领域具有重要的意义。
2、近年来,随着计算机视觉领域的迅速发展,人们的研究焦点关注于基于深度神经网络的多模态图像处理技术,并在不同视觉任务进行探索和应用。现有针对多模态图像的融合与处理算法,主要是通过设计多个子网络,对不同模态的图像分别进行特征提取,并将这些多模态特征融合起来,应用于各类下游任务。然而,这种方法主要依赖于隐式建模来提取图像特征,并在高维特征空间中进行跨模态信息的交互与融合。但是,此过程往往忽略了多模态图像中本身固有的关键信息。此外,现有的算法很少结合人类的先验知识,导致其可解释性较弱。这种黑盒特性使得这些算法在实际应用场景中的应用受到限制。因此,迫切需要设计一种具有主动可解释性的基于多维注意力机制的多模态图像融合与处理方法,以更好地满足实际应用需求。
技术实现思路
1、为了解决上述技术问题,本公开实施例提供了一种基于多维注意力机制的多模态图像融合与处理方法,能够全面考虑多模态图像在多个维度上的信息,同时显式地整合人类的先验知识,实现了可解释的多模态图像处理流程。
2、第一方面,本公开实施例提供了一种基于多维注意力机制的多模态图像融合与处理方法,包括:
3、获取目标对象待处理的多模态图像序列;
4、通过预先训练好的模态感知注意力模块预测所述多模态图像序列的关键区域以及不同模态图像的重要程度,得到预测结果,其中,所述关键区域是指解析所述多模态图像序列时所依据的视觉区域;
5、基于所述预测结果对所述多模态图像序列进行加权处理,得到增强图像序列;
6、将所述增强图像序列作为预先训练好的特征提取模块的输入,对所述增强图像序列进行多模态特征提取和融合处理,得到特征信息,所述特征信息用于基于所述多模态图像序列实现的下游任务。
7、第二方面,本公开实施例提供了一种基于多维注意力机制的多模态图像融合与处理装置,包括:
8、获取单元,用于获取目标对象待处理的多模态图像序列;
9、预测单元,用于通过预先训练好的模态感知注意力模块预测所述多模态图像序列的关键区域以及不同模态图像的重要程度,得到预测结果,其中,所述关键区域是指解析所述多模态图像序列时所依据的视觉区域;
10、加权单元,用于基于所述预测结果对所述多模态图像序列进行加权处理,得到增强图像序列;
11、提取单元,用于将所述增强图像序列作为预先训练好的特征提取模块的输入,对所述增强图像序列进行多模态特征提取和融合处理,得到特征信息,所述特征信息用于基于所述多模态图像序列实现的下游任务。
12、第三方面,本公开实施例提供了一种电子设备,包括:
13、存储器;
14、处理器;以及
15、计算机程序;
16、其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如上所述的基于多维注意力机制的多模态图像融合与处理方法。
17、第四方面,本公开实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的基于多维注意力机制的多模态图像融合与处理方法的步骤。
18、本申请提供的基于多维注意力机制的多模态图像融合与处理方法,包括:预先将人类的先验知识整合并建立具有多维注意力机制的多模态图像融合和处理模块,应用于多模态图像的特征提取,为后续基于多模态图像实现的下游任务提供输入特征,具体的,获取目标对象待处理的多模态图像序列;通过预先训练好的模态感知注意力模块采用多维度注意力机制模拟人类的视觉聚焦特性,在空间和通道等多个维度预测多模态图像序列的关键区域以及不同模态图像的重要程度,得到预测结果,其中,关键区域是指解析多模态图像时所依据的视觉区域,同时视觉区域的聚焦以及图像重要性的排序使得网络具备可解释性;基于预测结果对多模态图像序列进行加权处理,得到增强图像序列,以此提升特征表征的效果;对增强图像序列进行多模态特征提取和融合,得到特征信息,实现多模态图像间的全局信息交互,后续特征信息可用于不同的多模态图像处理任务等下游任务。
1.一种基于多维注意力机制的多模态图像融合与处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述模态感知注意力模块包括空间显著性预测器和通道显著性预测器,所述通过预先训练好的模态感知注意力模块预测所述多模态图像序列的关键区域以及不同模态图像的重要程度,得到预测结果,包括:
3.根据权利要求2所述的方法,其特征在于,所述空间显著性预测器呈u型结构,所述空间显著性预测器包括多个下采样块、过渡块和多个上采样块,每个下采样块存在对称的上采样块,
4.根据权利要求2所述的方法,其特征在于,所述通道显著性预测器包括多个残差块和多层连接层,所述多个残差块包括第一残差块和第二残差块,所述基于所述通道显著性预测器,预测所述多模态图像序列中不同模态图像的通道重要性顺序,生成用于表征所述每个模态图像通道重要性的通道显著值,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述预测结果对所述多模态图像序列进行加权处理,得到增强图像序列,包括:
6.根据权利要求1所述的方法,其特征在于,所述特征提取模块包括多个浅层特征提取模块、多个单模态自注意力模块和跨模态自注意力模块,每个浅层特征提取模块存在对应的单模态自注意力模块,所述将所述增强图像序列作为预先训练好的特征提取模块的输入,对所述增强图像序列进行多模态特征提取和融合处理,得到特征信息,包括:
7.根据权利要求1所述的方法,其特征在于,所述模态感知注意力模块和所述特征提取模块的训练过程包括:
8.根据权利要求7所述的方法,其特征在于,所述训练数据集包括多模态样本图像、每个模态样本图像的真实空间显著图和真实通道显著值,所述利用所述训练数据集对预先构建的模态感知注意力模块进行训练,得到训练好的模态感知注意力模块,包括:
9.根据权利要求8所述的方法,其特征在于,所述预测通道显著值包括第一个预测通道显著值和第二个预测通道显著值,所述真实通道显著值包括第一个真实通道显著值和第二个真实通道显著值,所述基于第三预设超参数计算所述预测通道显著值和所述真实通道显著值之间的相似性,得到第二损失,包括:
10.根据权利要求8所述的方法,其特征在于,所述训练数据集还包括每个模态样本图像的真实标签,所述真实标签是基于所述下游任务标注的,在所述下游任务为分类任务的情况下,所述利用所述训练数据集对预先构建的特征提取模块和用于实现下游任务的网络模块进行训练,得到训练好的特征提取模块和网络模块,包括: