本发明属于多模态处理,具体涉及一种针对多种融合策略的多模态全向伪装生成方法和装置。
背景技术:
1、随着深度学习和神经网络的飞速发展,研究人员开始在多模态领域不断深度学习模型的应用潜力。多模态融合方法涉及将来自不同传感器或信息源的多种数据模态整合在一起,以提高系统对复杂场景或问题的理解和处理能力,这种融合方式不仅丰富了数据的维度,还提高了系统的鲁棒性和准确性。
2、在实现多模态融合的过程中,研究人员提出了多种技术方法,包括特征融合、数据融合、决策融合、模型融合以及语义融合等,这些方法各具特色,适用于不同的应用场景。多模态融合在信息处理中采用不同的策略,其中早期融合、中期融合和后期融合是三种常见的策略。早期融合发生在信息处理的早期阶段,此时直接合并来自多个模态的信息,有助于捕捉不同模态之间的互补性;中期融合发生在信息处理的中期阶段,通常在各模态数据进行初步处理后,侧重于在特征层面融合,以提取更具代表性的特征;后期融合则发生在信息处理的后期阶段,即在各模态数据经过独立处理后再进行融合,更注重融合高级的决策或表示,以提高系统的准确性和可靠性。这些方法有助于充分利用多模态信息,提高系统对复杂场景或问题的理解和处理能力,选择何种融合方法通常取决于具体任务和数据特性。
3、然而,现有的多模态伪装方法是大多是针对于单个融合策略来实现的,这导致伪装方法在不同的融合模型上可能表现不佳。由于不同融合策略在数据处理和信息整合上存在差异,单一的伪装方法难以适应所有情况,这使得伪装方法需要在不同融合策略之间进行适应和测试,增加了伪装的难度和复杂性。
4、多模态伪装是一个复杂的领域,其效果受多种因素影响。首先,不同数据模态的特性差异可能导致伪装方法在不同模态之间的适应性不同;其次,融合策略的选择也直接影响伪装效果,不同的融合策略可能对伪装方法的性能产生显著影响;此外,模型的稳定性和一致性也是影响伪装效果的关键因素,多模态融合方法通常会涉及多个模型的输出信息的整合,不同模型的不一致性或者模型的不稳定性可能为隐身提供了利用的机会,如果融合过程中的某个模型对输入的微小扰动非常敏感,可以通过对抗性样本来引导整个系统产生错误的融合结果,从而绕过安全检测和入侵检测系统。因此,对抗性隐身和防御的不断演进需要对多模态伪装方法的强韧性和适应性进行深入研究。
技术实现思路
1、鉴于上述,本发明的目的是提供一种针对多种融合策略的多模态全向伪装生成方法和装置,利用神经渲染器生成不同环境和角度的全向对抗性覆盖并将其嵌入到图像中得到伪装样本实现对目标的伪装,使包括可见光检测模型和红外检测模型的多模态目标检测模型无法识别出伪装的目标,并结合红外模态融合、早期融合和中期融合的多种融合策略对伪装样本进行优化,使得伪装方法更具泛化性,增强隐身效果,提高伪装成功率,适用于安全检测和入侵检测系统中目标伪装的应用场景。
2、为实现上述发明目的,本发明提供的技术方案如下:
3、第一方面,本发明实施例提供的一种针对多种融合策略的多模态全向伪装生成方法,包括以下步骤:
4、构建用于目标检测任务的数据集,数据集中包括涵盖多种背景和环境的原始图像、以及涵盖目标位置和类别的标签;
5、利用神经渲染器对原始图像中的目标进行重建轮廓得到生成图像,基于生成图像构建包括内容损失、风格损失和颜色损失的神经渲染损失函数;
6、将生成图像输入多模态目标检测模型得到多模态目标检测结果后输入多融合策略后融合模型中得到融合检测结果,基于目标检测结果和融合检测结果构建包括多模态损失和多融合策略后融合损失的多模态融合损失函数,基于原始图像和标签利用神经渲染损失函数和多模态融合损失函数对生成图像进行纹理渲染得到伪装样本;
7、将伪装样本输入多模态目标检测模型得到多模态目标检测结果后输入多融合策略后融合模型中得到最终的融合检测结果,根据多模态目标检测结果和最终的融合检测结果对伪装样本中目标的隐身效果进行评估。
8、优选地,所述利用神经渲染器对原始图像中的目标进行重建轮廓得到生成图像,包括:
9、利用神经渲染器将原始图像转换划分为三维网格并更新像素颜色,基于三维网格中的顶点和面利用神经渲染器中的生成函数生成目标的重建轮廓;
10、根据重建轮廓和目标标签的真实轮廓构建轮廓损失,根据三维网格表面的平滑程度构建平滑损失,利用轮廓损失和平滑损失构建重建损失函数对生成函数进行训练,根据训练好的生成函数生成优化后的重建轮廓,基于优化后的重建轮廓得到生成图像。
11、优选地,所述根据重建轮廓和目标标签的真实轮廓构建轮廓损失,根据三维网格表面的平滑程度构建平滑损失,利用轮廓损失和平滑损失构建重建损失函数对生成函数进行训练,包括:
12、轮廓损失表示为:
13、
14、其中,x为原始图像,为原始图像中的第i个视点,si为第i个图像中目标的重建轮廓,为第i个图像中目标的真实轮廓,si和均为二元掩膜,⊙为元素积,‖·‖1为l1范数;
15、平滑损失lsm(x)表示为:
16、
17、其中,θl为包含生成函数g(x)中第l条边的两个面之间的夹角,ε为生成函数g(x)中所有边的集合;
18、构建的重建损失lrec为轮廓损失和平滑损失的加权和,表示为:
19、
20、其中,λsl和λsm分别为轮廓损失和平滑损失的权重;
21、最小化重建损失lrec对生成函数进行训练。
22、优选地,所述基于生成图像构建包括内容损失、风格损失和颜色损失的神经渲染损失函数,包括:
23、根据二维原始图像到三维生成图像的样式转换过程构建初始内容损失lc(x|xc)和初始风格损失ls(x|xs),表示为:
24、
25、
26、其中,x为二维原始图像,xc为三维内容生成图像,xs为三维风格生成图像,fc(·)为内容特征提取器提取的内容特征向量,fs(·)为风格特征提取器提取的风格特征向量,m(·)为将特征向量变换为格拉姆矩阵,‖·‖2为l2范数;
27、将由二维到三维样式转换中生成图像的内容指定为三维网格mc,三维网格包括顶点、面和纹理,为使生成图像的网格形状与三维网格mc一致,重新定义初始内容损失和初始风格损失得到内容损失lc(m|mc)和风格损失并引入颜色损失表示为:
28、
29、
30、
31、其中,m为二维原始图像的二维网格,vi为二维原始图像二维网格中第i个顶点,为指定的三维网格mc中的第i个顶点,为视点,即为x表示二维原始图像,p为二维原始图像中所有相邻像素对的颜色集合,pa和pb分别为二维原始图像中相邻像素对的颜色和三维生成图像中相邻像素对的颜色;
32、将上述内容损失、风格损失和颜色损失构建神经渲染损失函数lr,表示为:
33、
34、其中,λc、λs和λt分别为内容损失、风格损失和颜色损失的权重;
35、设定m的初解为mc,最小化神经渲染损失函数lr用于优化生成图像。
36、优选地,所述基于目标检测结果和融合检测结果构建包括多模态损失和多融合策略后融合损失的多模态融合损失函数,包括:
37、多模态损失包括红外模态的损失函数lossobj1和可见光模态的损失函数lossobj2,定义为:
38、lossobj1,lossobj2=lloc+lcls
39、其中,lloc为红外模态或可见光模态的位置损失,lcls为红外模态或可见光模态的类别损失,
40、
41、
42、其中,n为原始图像的样本总数量,i为原始图像的样本序号,xi和分别为目标位置的真实横坐标和预测横坐标,yi和分别为目标位置的真实纵坐标和预测纵坐标,wi和分别为目标轮廓的真实宽度和预测宽度,hi和分别为目标轮廓的真实高度和预测高度,nobj为原始图像的样本类别总数,j为类别索引,pi(·)和分别为目标预测类别概率和真实类别概率;
43、多融合策略后融合损失lossobj3包括仅红外模态的后融合损失lthermal、包括图像损失limage的早期融合损失learly、以及包括模态相关性损失lcorrelation和整体一致性损失lconsistency的中期融合损失lmiddle,定义为:
44、lthermal=lloc-thermal+lcls-thermal
45、
46、lmiddle=lcorrelation+lconsistency=‖fv-fi‖2+d(f′v,f′i)
47、lossobj3=argmax(lthermal,learly,lmiddle)
48、其中,lloc-thermal为仅红外模态的后融合位置损失,为仅红外模态的后融合类别损失,和分别第i个图像对应的真实值和后融合预测值,编码器将可见光图像v和红外图像i分别映射到特征空间中的特征表示fv和fi,fv′和fi′分别是可见光图像和红外图像经过编码器得到的特征表示,d(·)为距离度量函数,‖·‖为向量的模长,argmax(·)为参数最大值索引函数;
49、最终得到多模态融合损失函数loss为:
50、loss=lossobj1+lossobj2+lossobj3。
51、优选地,所述基于原始图像和标签利用神经渲染损失函数和多模态融合损失函数对生成图像进行纹理渲染得到伪装样本,为通过最小化神经渲染损失函数训练生成图像样式与原始图像样式的一致性,并基于最大化多模态融合损失函数并通过梯度反向传播对生成图像进行纹理渲染得到伪装样本。
52、优选地,所述根据多模态目标检测结果和最终的融合检测结果对伪装样本中目标的隐身效果进行评估,包括:
53、对于多模态目标检测结果,通过伪装样本的隐身成功率和目标检测的准确率下降值评估不同模态下伪装样本的隐身效果,对于最终的融合检测结果,通过后融合模型目标检测的准确率评估伪装样本的隐身效果;
54、通过图像相似性度量评估生成的伪装样本的质量,确保伪装样本在视觉上与原始图像的相似性;
55、通过记录伪装样本生成时间、目标检测模型推断时间和后融合模型响应时间评估整体计算效率。
56、第二方面,本发明实施例还提供了一种针对多种融合策略的多模态全向伪装生成装置,包括:数据集构建模块、目标轮廓重建模块、目标纹理渲染模块和伪装生成评估模块;
57、所述数据集构建模块用于构建用于目标检测任务的数据集,数据集中包括涵盖多种背景和环境的原始图像、以及涵盖目标位置和类别的标签;
58、所述目标轮廓重建模块用于利用神经渲染器对原始图像中的目标进行重建轮廓得到生成图像,基于生成图像构建包括内容损失、风格损失和颜色损失的神经渲染损失函数;
59、所述目标纹理渲染模块用于将生成图像输入多模态目标检测模型得到多模态目标检测结果后输入多融合策略后融合模型中得到融合检测结果,基于目标检测结果和融合检测结果构建包括多模态损失和多融合策略后融合损失的多模态融合损失函数,基于原始图像和标签利用神经渲染损失函数和多模态融合损失函数对生成图像进行纹理渲染得到伪装样本;
60、所述伪装生成评估模块用于将伪装样本输入多模态目标检测模型得到多模态目标检测结果后输入多融合策略后融合模型中得到最终的融合检测结果,根据多模态目标检测结果和最终的融合检测结果对伪装样本中目标的隐身效果进行评估。
61、第三方面,本发明实施例还提供了一种针对多种融合策略的多模态全向伪装生成设备,包括存储器和一种或多种处理器,所述存储器用于存储计算机程序,所述处理器用于当执行所述计算机程序时,实现上述的针对多种融合策略的多模态全向伪装生成方法。
62、第四方面,本发明实施例还提供了一种计算机可读的存储介质,所述存储介质上存储有计算机程序,所述计算机程序被计算机执行时,实现上述的针对多种融合策略的多模态全向伪装生成方法。
63、与现有技术相比,本发明具有的有益效果至少包括:
64、(1)本发明通过构建涵盖多背景多和环境原始图像的数据集能够有效模拟真实场景,反映出多样性和复杂性,使得生成的伪装样本更具挑战性和实用性,有助于提高伪装样本面向各种场景的隐身效果。
65、(2)本发明通过构建神经渲染损失函数对生成图像的样式进行优化,并通过构建多模态融合损失函数对生成图像进行纹理渲染得到伪装样本,既保证了伪装样本与原始图像在视觉上的相似性,又保证了经纹理渲染后得到的伪装样本具有隐身效果,提高了识别难度及伪装方法的有效性。
66、(3)本发明通过不同背景和环境以及各角度的全向伪装生成的伪装样本,对于单模态、早期融合和中期融合以及后融合的融合模型能够同时实现隐身效果,使得伪装方法更具有泛化性,隐身效果更强。
1.一种针对多种融合策略的多模态全向伪装生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的针对多种融合策略的多模态全向伪装生成方法,其特征在于,所述利用神经渲染器对原始图像中的目标进行重建轮廓得到生成图像,包括:
3.根据权利要求2所述的针对多种融合策略的多模态全向伪装生成方法,其特征在于,所述根据重建轮廓和目标标签的真实轮廓构建轮廓损失,根据三维网格表面的平滑程度构建平滑损失,利用轮廓损失和平滑损失构建重建损失函数对生成函数进行训练,包括:
4.根据权利要求1所述的针对多种融合策略的多模态全向伪装生成方法,其特征在于,所述基于生成图像构建包括内容损失、风格损失和颜色损失的神经渲染损失函数,包括:
5.根据权利要求1所述的针对多种融合策略的多模态全向伪装生成方法,其特征在于,所述基于目标检测结果和融合检测结果构建包括多模态损失和多融合策略后融合损失的多模态融合损失函数,包括:
6.根据权利要求1所述的针对多种融合策略的多模态全向伪装生成方法,其特征在于,所述基于原始图像和标签利用神经渲染损失函数和多模态融合损失函数对生成图像进行纹理渲染得到伪装样本,为通过最小化神经渲染损失函数训练生成图像样式与原始图像样式的一致性,并基于最大化多模态融合损失函数并通过梯度反向传播对生成图像进行纹理渲染得到伪装样本。
7.根据权利要求1所述的针对多种融合策略的多模态全向伪装生成方法,其特征在于,所述根据多模态目标检测结果和最终的融合检测结果对伪装样本中目标的隐身效果进行评估,包括:
8.一种针对多种融合策略的多模态全向伪装生成装置,其特征在于,包括:数据集构建模块、目标轮廓重建模块、目标纹理渲染模块和伪装生成评估模块;
9.一种针对多种融合策略的多模态全向伪装生成设备,包括存储器和一种或多种处理器,所述存储器用于存储计算机程序,其特征在于,所述处理器用于当执行所述计算机程序时,实现权利要求1-7任一项所述的针对多种融合策略的多模态全向伪装生成方法。
10.一种计算机可读的存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被计算机执行时,实现权利要求1-7任一项所述的针对多种融合策略的多模态全向伪装生成方法。