本发明涉及深度学习领域,更具体的说是涉及一种基于双向跨模态交互的机器人室内场景语义理解方法。
背景技术:
:作为计算机视觉中最具挑战性的任务之一,图像语义分割在虚拟现实、医学图像分析、自动驾驶等任务中发挥着重要作用。语义分割的目标是判断一张图片中的每个像素点属于哪一类,在本质上属于多分类问题。近年来,得益于全卷积神经网络的出现和发展,应用全卷积神经网络在语义分割中已经取得了突破性进展,但还存在多余信息,信息融合不充分,图像特征信息提取不充分等缺陷。因此,基于全卷积神经网络的图像语义分割模型还有很大的提升空间,结合多模态信息和生物上人眼视觉系统的运作原理等来提出和训练更优越的模型已成为图像语义分割领域当下及未来的发展目标。技术实现要素:有鉴于此,本发明提供了一种基于双向跨模态交互的机器人室内场景语义理解方法,其从图像特征提取的完整性,人眼视觉系统运作原理等方面获取模型设计方向和思路,提升了全卷积神经网络,有效提高了图像分割性能。为了实现上述目的,本发明采用如下技术方案:一种基于双向跨模态交互的机器人室内场景语义理解方法,包括以下步骤:选取原始的室内场景rgb彩色图像、深度图图像以及所述原始的室内场景rgb彩色图像对应的真实语义分割图像,构成训练集;根据人眼视觉系统运作原理和跨模态信息的全局信息互补性构建卷积神经网络;将所述训练集输入到卷积神经网络进行多次训练,得到卷积神经网络分类训练模型。优选的,所述卷积神经网络具体设置如下:包括集合块和模组,其中所述集合块包括第一集合块,第二集合块,第三集合块,第四集合块,第五集合块和第六集合块;所述模组包括第一模组,第二模组,第三模组和第四模组;所述第一集合块的输入作为卷积神经网络的输入端,所述第一集合块的输出分别输入到所述第二集合块、所述第三集合块和第七融合层;所述第二集合块的输出分别输入到所述第一集合块、所述第四集合块和所述第七融合层;所述第三集合块的输出分别输入所述第四集合块、所述第一模组和第一上采样层;所述第四集合块的输出分别输入所述第三集合块,所述第二模组和所述第一上采样层;所述第一模组的输出分别输入所述第二模组、所述第五集合块和第二上采样层;所述第二模组的输出分别输入所述第一模组、所述第六集合块和所述第二上采样层;所述第五集合块的输出分别输入所述第六集合块、第三模组和第三上采样层;所述第六集合块的输出分别输入所述第五集合块、第四模组和所述第三上采样层;所述第三模组的输出分别输入所述第四模组和第六融合层;所述第四模组的输出分别输入所述第三模组和所述第六融合层;所述第六融合层经第四上采样层输入到第八融合层;所述第七融合层、所述第一上采样层、所述第二上采样层、所述第三上采样层均输入到所述第八融合层;所述第八融合层作为所述神经网络的输出。优选的,所述集合块均镜像设置,具体设置如下:神经网络块的输出输入到遗漏信息筛选块,所述遗漏信息筛选块输入到融合层,所述神经网络块和所述遗漏信息筛选块的输出做像素加和分别输入到融合、注意力信息交换块;所述注意力信息交换块作为输出端一端输入到与所述集合块镜像设置集合块的融合层,另一端作为整个集合块的输出,同时,所述融合层也作为整个集合块的输出端。优选的,所述模组具体设置如下:在所述集合块的基础上增加交叉引导模块,所述交叉引导块作为输入端,与镜像设置的集合块的输出做像素加和作为所述模组的最终输出。优选的,所述遗漏信息筛选块输入端接收ri和di中的所有特征图,经过5个逐层连接的卷积标准化激活层得到rti和dti,用ri/di减去rti/dti得到初步筛选的遗漏信息,将该遗漏信息分别经过空间注意力机制块和通道注意力机制块并将其结果与遗漏信息相乘相加,得到细化后的遗漏信息rsi/dsi。优选的,所述注意力信息交换块的输入端接收ri和di,rti和dti中的所有特征图,输入端ri/di和rti/dti通过逐元素相加,将其构成的集合记为rci/dci,再将rci/dci通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与rci/dci相乘并相加得到输出rai/dai。优选的,所述交叉引导块的输入端接收rii和dii,通过一个3x3卷积层标准化层和激活层得到特征rei和dei,再依次经过全局平均池化层、全连接层和激活函数层得到rgi和dgi,将rei/dei与rgi/dgi进行逐元素相乘,得到结果rcgi/dcgi。经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于双向跨模态交互的机器人室内场景语义理解方法,具有以下有益效果:1)本发明方法从有效提取被卷积层遗漏的重要信息出发,并尽可能使梯度传播过程中减少信息损失,同时不显著增加模型参数数量的条件下,设计了一个叫做alif的模块。给定输入特征图,该模块首先采用两个1*1卷积与三个3*3膨胀卷积神经网络交错组合来扩大特征提取的感受野,再使用原给定特征图减去前述使用卷积组合得到的感受野得到扩大的特征,以得到初步的遗漏信息,再使用现有的空间注意力机制和通道注意力机制筛选出重要的遗漏信息并通过逐像素相乘和相加与原给定输入特征图结合。2)本发明方法从人眼视觉系统运作原理和跨模态信息的互补性出发,结合人眼视觉的注意力机制,设计了一个叫做aem的模块。该模块包括了基于通道和空间的注意力机制模块,给定输入卷积特征图,结合通道注意力机制和空间注意力机制进行特征筛选,最后将两部分筛选后的特征与输入卷积特征图相乘并相加,有效减少了冗余特征。3)本发明方法从人眼视觉系统运作原理和跨模态信息的全局信息互补性出发,结合人眼视觉的注意力机制,设计了一个叫做cgg的模块。该模块包括了一个3*3膨胀卷积神经网络及一个门机制,其中门机制包括一个全局池化层,两个全连接层及两种不同的激活函数。给定输入卷积特征图,先用3*3膨胀卷积神经网络来扩大特征感受野,再使用门机制筛选有效特征并将其与经扩大感受野后的卷积特征相乘,有效减少了冗余特征。4)本发明方法结合以上三个模块的设计,以mobilenetv2作为主框架,设计了一个叫做bcinet的网络模型。实验表明,本模型参数较少,速度较快,同时保持了较高精度,是一种适用于移动端的轻量级网络。附图说明为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1附图为本发明的整体结构示意图;图2附图为本发明的遗漏信息筛选块示意图;图3附图为本发明的注意力信息交换块示意图;图4附图为本发明是交叉引导块示意图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。本发明实施例公开了一种本发明提出的一种基于双向跨模态交互的机器人室内场景语义理解方法,其总体实现框图如图1所示,其包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:分别选取q对原始的室内场景rgb彩色图像和depth深度图图像及每对原始的室内场景图像对应的真实语义分割图像,并构成训练集,将训练集中的第q对原始的室内场景图像记为{rgbq(i,j),depthq(i,j)},将训练集中{rgbq(i,j),depthq(i,j)}与对应的真实语义分割图像记为然后采用现有的独热编码技术(one-hot)将训练集中的每对原始的室内场景图像对应的真实语义分割图像处理成41幅独热编码图像,将处理成的41幅独热编码图像构成的集合记为其中,室内场景图像包括rgb彩色图像和depth深度图,q为正整数,q≥200,如取q=794,q为正整数,1≤q≤q,1≤i≤w,1≤j≤h,w表示{rgbq(i,j),depthq(i,j)}中彩色图rgb和深度图depth的宽度,h表示{rgbq(i,j),depthq(i,j)}中彩色图rgb和深度图depth的高度,如取w=480、h=640,rgbq(i,j),depthq(i,j)分别表示{rgbq(i,j),depthq(i,j)}中坐标位置为(i,j)的像素点的像素值,表示中坐标位置为(i,j)的像素点的像素值;在此,原始的室内场景图像直接选用室内场景图像数据库nyuv2训练集中的1448幅图像,为了更方便训练,将每幅图像尺寸都缩减到宽度480,高度640。此外,为了有效缓解模型过拟合问题,采用了随机裁剪、随机水平翻转、随机缩放三种数据增强方法来扩充训练集中的数据。步骤1_2:构建卷积神经网络:卷积神经网络包括输入层、隐层和输出层;隐层包括依次设置的第1个神经网络块、第2个神经网络块、第3个神经网络块、第4个神经网络块、第5个神经网络块、第1个遗漏信息筛选块、第2个遗漏信息筛选块、第3个遗漏信息筛选块、第4个遗漏信息筛选块、第5个遗漏信息筛选块、第1个注意力信息交换块、第2个注意力信息交换块、第3个注意力信息交换块、第4个注意力信息交换块、第5个注意力信息交换块、第1个交叉引导块、第2个交叉引导块、第1个融合层、第2个融合层、第3个融合层、第4个融合层、第5个融合层、第6个融合层、第7个融合层、第8个融合层、第1个上采样层、第2个上采样层、第3个上采样层、第4个上采样层。对于输入层,本发明有两个输入,分别是彩色图rgb输入层及深度图depth输入层,输入层的彩色图rgb输入端接收一幅原始rgb输入图像的r通道分量、g通道分量、b通道分量,输入层的深度图depth输入端接收一幅原始depth输入图像的单通道分量,输入层的彩色图rgb输出端输出原始输入图像的r通道分量、g通道分量和b通道分量给隐层,输入层的深度图depth输出端输出原始输入图像的单通道分量给隐层;其中,要求输入层的输入端接收的原始输入图像的宽度为480、高度为640;此外输入是彩色图rgb的卷积神经网络结构与输入是深度图depth的卷积神经网络结构是对称的。对于第1个神经网络块,其采用现有卷积网络框架mobilenet中的第一至第三层,由卷积层(convolution,conv)、标准化层、激活层(activation,act)组成;第1个神经网络块的彩色图rgb输入端接收输入层的输出端输出的原始输入图像的r通道分量、g通道分量和b通道分量,深度图depth输入端接收输入层的输出端输出的原始输入图像的单通道分量,第1个神经网络块的彩色图rgb输出端输出24幅特征图,将其构成的集合记为r1,第1个神经网络块的深度图depth输出端输出24幅特征图,将其构成的集合记为d1;其中,所有卷积层、标准化层中的参数均参照现有卷积网络框架mobilenet,r1和d1中的每幅特征图的宽度为高度为其中,遗漏信息筛选块如图2所示:对于第1个遗漏信息筛选块,其由依次设置的第五十一卷积层、第五十一标准化层、第五十一激活层、第五十二卷积层、第五十二标准化层、第五十二激活层、第五十三卷积层、第五十三标准化层、第五十三激活层组成、第五十四卷积层、第五十四标准化层、第五十四激活层、第五十五卷积层、第五十五标准化层、第五十五激活层,通道注意力机制块、空间注意力机制块组成;第1个遗漏信息筛选块的输入端接收r1和d1中的所有特征图,第1个遗漏信息筛选块的彩色图rgb输入端首先经上述一系列卷积组合输出24幅特征图,将其构成的集合记为rt1,然后用输入端接收的特征图(r1)减去经卷积处理后的特征图(rt1)得到初步筛选的遗漏信息,将其构成的集合记为(rl1),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出24幅特征图,将其构成的集合记为rs1;同样,深度图depth输出端首先经上述一系列卷积组合输出24幅特征图,将其构成的集合记为dt1,然后用输入端接收的特征图(d1)减去经卷积处理后的特征图(dt1)得到初步筛选的遗漏信息,将其构成的集合记为(dl1),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出24幅特征图,将其构成的集合记为ds1;其中,第五十一卷积层的卷积核大小为3×3、卷积核个数为24、步长(stride)为1、膨胀因子(dilation)为1、补零(padding)参数为1,分组(groups)参数为24,第五十一层标准化参数为24;第五十二卷积层的卷积核大小为1x1、卷积核个数为12、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为12,第五十二层标准化参数为12;第五十三卷积层的卷积核大小为3×3、卷积核个数为24、步长(stride)为1、膨胀因子(dilation)为2、补零(padding)参数为2,分组(groups)参数为24,第五十三层标准化参数为24;第五十四卷积层的卷积核大小为1x1、卷积核个数为12、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为12,第五十四层标准化参数为24;第五十五卷积层的卷积核大小为3x3、卷积核个数为24、步长(stride)为1、膨胀因子(dilation)为4、补零(padding)参数为4,分组(groups)参数为24,第五十四层标准化参数为24。所有激活层的激活方式均为“relu6”,rs1和ds1中的每幅特征图的宽度为高度为其中,注意力信息交换块如图3所示:对于第一个注意力信息交换块,其由依次设置的通道注意力机制块和空间注意力机制块组成,第1个注意力信息交换块的输入端接收r1和d1,rt1和dt1中的所有特征图,第1个注意力信息交换块的彩色图rgb输入端首先r1和rt1通过逐元素相加,将其构成的集合记为rc1,再将相加后的结果(rc1)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与rc1相乘并相加,将其构成的集合记为ra1;同样,第1个注意力信息交换块的深度图depth输入端首先d1和dt1通过逐元素相加,将其构成的集合记为dc1,再将相加后的结果(dc1)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与dc1相乘并相加,将其构成的集合记为da1。对于第一个融合层,第1个融合层的彩色图rgb输入端接收rc1、rs1和ra1中的所有特征图,通过现有的add(逐元素相加)方式将rc1、rs1与ra1相加得到集合ri1,第1个融合层的彩色图rgb输出端输出ri1;第1个融合层的深度图depth输入端接收dc1、ds1和da1中的所有特征图,通过现有的add(逐元素相加)方式将dc1、ds1与da1相加得到集合di1,第1个融合层的深度图depth输出端输出di1;其中,ri1和di1中包含的特征图的总幅数均为24,ri1和di1中的每幅特征图的宽度均为高度均为对于第2个神经网络块,其采用现有卷积网络框架mobilenet中的第四至第六层,由卷积层(convolution,conv)、标准化层、激活层(activation,act)组成;第2个神经网络块的彩色图rgb输入端接收ri1中的所有特征图,第2个神经网络块的彩色图rgb输出端输出32幅特征图,其构成的集合记为r2;第2个神经网络块的深度图depth输入端接收di1中的所有特征图,第2个神经网络块的深度图depth输出端输出32幅特征图,其构成的集合记为d2;其中,所有卷积层、标准化层中的参数均参照现有卷积网络框架mobilenet,r2和d2中的每幅特征图的宽度均为高度均为对于第2个遗漏信息筛选块,其由依次设置的第五十六卷积层、第五十六标准化层、第五十六激活层、第五十七卷积层、第五十七标准化层、第五十七激活层、第五十八卷积层、第五十八标准化层、第五十八激活层组成、第五十九卷积层、第五十九标准化层、第五十九激活层、第六十卷积层、第六十标准化层、第六十激活层,通道注意力机制块、空间注意力机制块组成;第2个遗漏信息筛选块的输入端接收r2和d2中的所有特征图,第2个遗漏信息筛选块的彩色图rgb输入端首先经上述一系列卷积组合输出32幅特征图,将其构成的集合记为rt2,然后用输入端接收的特征图(r2)减去经卷积处理后的特征图(rt2)得到初步筛选的遗漏信息,将其构成的集合记为(rl2),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出32幅特征图,将其构成的集合记为rs2;同样,深度图depth输出端首先经上述一系列卷积组合输出32幅特征图,将其构成的集合记为dt2,然后用输入端接收的特征图(d2)减去经卷积处理后的特征图(dt2)得到初步筛选的遗漏信息,将其构成的集合记为(dl2),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出32幅特征图,将其构成的集合记为ds2;其中,第五十六卷积层的卷积核大小为3×3、卷积核个数为32、步长(stride)为1、膨胀因子(dilation)为1、补零(padding)参数为1,分组(groups)参数为32,第五十六层标准化参数为32;第五十七卷积层的卷积核大小为1x1、卷积核个数为16、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为16,第五十七层标准化参数为16;第五十八卷积层的卷积核大小为3×3、卷积核个数为32、步长(stride)为1、膨胀因子(dilation)为2、补零(padding)参数为2,分组(groups)参数为32,第五十八层标准化参数为32;第五十九卷积层的卷积核大小为1x1、卷积核个数为16、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为16,第五十九层标准化参数为16;第六十卷积层的卷积核大小为3x3、卷积核个数为32、步长(stride)为1、膨胀因子(dilation)为4、补零(padding)参数为4,分组(groups)参数为32,第六十标准化参数为32。所有激活层的激活方式均为“relu6”,rs2和ds2中的每幅特征图的宽度为高度为对于第二个注意力信息交换块,其由依次设置的通道注意力机制块和空间注意力机制块组成,第2个注意力信息交换块的输入端接收r2和d2,rt2和dt2中的所有特征图,第2个注意力信息交换块的彩色图rgb输入端首先将r2和rt2通过逐元素相加,将其构成的集合记为rc2,再将相加后的结果(rc2)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与rc2相乘并相加,将其构成的集合记为ra2;同样,第2个注意力信息交换块的深度图depth输入端首先d2和dt2通过逐元素相加,将其构成的集合记为dc2,再将相加后的结果(dc2)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与dc2相乘并相加,将其构成的集合记为da2。对于第二个融合层,第2个融合层的彩色图rgb输入端接收rc2、rs2和ra2中的所有特征图,通过现有的add(逐元素相加)方式将rc2、rs2与ra2相加得到集合ri2,第2个融合层的彩色图rgb输出端输出ri2;第2个融合层的深度图depth输入端接收dc2、ds2和da2中的所有特征图,通过现有的add(逐元素相加)方式将dc2、ds2与da2相加得到集合di2,第1个融合层的深度图depth输出端输出di2;其中,ri2和di2中包含的特征图的总幅数均为32,ri2和di2中的每幅特征图的宽度均为高度均为其中,交叉引导块如图4所示:对于第一个交叉引导块,其由依次设置的第六十一卷积层、第六十一标准化层、第六十一激活层,全局平均池化层,第一全连接层,第一激活层,第二全连接层,第二激活层组成,第1个交叉引导块的彩色图rgb输入端接收ri2中的所有特征图,先经第六十一卷积层得到扩张感受野后的特征图,将其构成的集合记为re2,再通过全局平均池化层,第一全连接层,第一激活层,第二全连接层,第二激活层得到筛选后的全局特征,将其构成的集合记为rg2,再将扩张感受野后的特征图(re2)与筛选后的全局特征(rg2)相乘得到加强后的全局特征,将其构成的集合记为rcg2;其中,第六十一卷积层的卷积核大小为3×3、卷积核个数为32、步长(stride)为1、膨胀因子(dilation)为1、补零(padding)参数为1,第六十一标准化参数为32,激活方式为“relu”,第一全连接层输入输出特征数量分别为32,16,第一激活层为“softmax”,第二全连接层输入输出特征数量分别为16,32,第二激活层为“relu”。类似地,第1个交叉引导块的深度图depth输入端接收di2中的所有特征图,先经第六十一卷积层得到扩张感受野后的特征图,将其构成的集合记为de2,再通过全局平均池化层,第一全连接层,第一激活层,第二全连接层,第二激活层得到筛选后的全局特征,将其构成的集合记为dg2,再将扩张感受野后的特征图(de2)与筛选后的全局特征(dg2)相乘得到加强后的全局特征,将其构成的集合记为dcg2;其中,第六十一卷积层的卷积核大小为3×3、卷积核个数为32、步长(stride)为1、膨胀因子(dilation)为1、补零(padding)参数为1,第六十一标准化参数为32,激活方式为“relu”,第一全连接层输入输出特征数量分别为32,16,第一激活层为“softmax”,第二全连接层输入输出特征数量分别为16,32,第二激活层为“relu”。对于第3个神经网络块,其采用现有卷积网络框架mobilenet中的第七至第十层,由卷积层(convolution,conv)、标准化层、激活层(activation,act)组成;第3个神经网络块的彩色图rgb输入端接收ri2中的所有特征图,第3个神经网络块的彩色图rgb输出端输出64幅特征图,将64幅特征图构成的集合记为r3;第3个神经网络块的深度图depth输入端接收di2中的所有特征图,第3个神经网络块的深度图depth输出端输出64幅特征图,将64幅特征图构成的集合记为d3;其中,所有卷积层、标准化层中的参数均参照现有卷积网络框架mobilenet,r3和d3中每幅特征图宽度均为高度均为对于第3个遗漏信息筛选块,其由依次设置的第六十二卷积层、第六十二标准化层、第六十二激活层、第六十三卷积层、第六十三标准化层、第六十三激活层、第六十四卷积层、第六十四标准化层、第六十四激活层组成、第六十五卷积层、第六十五标准化层、第六十五激活层、第六十六卷积层、第六十六标准化层、第六十六激活层,通道注意力机制块、空间注意力机制块组成;第3个遗漏信息筛选块的输入端接收r3和d3中的所有特征图,第3个遗漏信息筛选块的彩色图rgb输入端首先经上述一系列卷积组合输出64幅特征图,将其构成的集合记为rt3,然后用输入端接收的特征图(r3)减去经卷积处理后的特征图(rt3)得到初步筛选的遗漏信息,将其构成的集合记为(rl3),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出64幅特征图,将其构成的集合记为rs3;同样,深度图depth输出端首先经上述一系列卷积组合输出64幅特征图,将其构成的集合记为dt3,然后用输入端接收的特征图(d3)减去经卷积处理后的特征图(dt3)得到初步筛选的遗漏信息,将其构成的集合记为(dl3),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出64幅特征图,将其构成的集合记为ds3;其中,第五十六卷积层的卷积核大小为3×3、卷积核个数为64、步长(stride)为1、膨胀因子(dilation)为1、补零(padding)参数为1,分组(groups)参数为64,第五十六层标准化参数为64;第五十七卷积层的卷积核大小为1x1、卷积核个数为32、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为32,第五十七层标准化参数为32;第五十八卷积层的卷积核大小为3×3、卷积核个数为64、步长(stride)为1、膨胀因子(dilation)为2、补零(padding)参数为2,分组(groups)参数为64,第五十八层标准化参数为64;第五十九卷积层的卷积核大小为1x1、卷积核个数为32、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为32,第五十九层标准化参数为32;第六十卷积层的卷积核大小为3x3、卷积核个数为64、步长(stride)为1、膨胀因子(dilation)为4、补零(padding)参数为4,分组(groups)参数为64,第六十标准化参数为64。所有激活层的激活方式均为“relu6”,rs2和ds2中的每幅特征图的宽度为高度为对于第三个注意力信息交换块,其由依次设置的通道注意力机制块和空间注意力机制块组成,第3个注意力信息交换块的输入端接收r3和d3,rt3和dt3中的所有特征图,第3个注意力信息交换块的彩色图rgb输入端首先将r3和rt3通过逐元素相加,将其构成的集合记为rc3,再将相加后的结果(rc3)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与rc3相乘并相加,将其构成的集合记为ra3;同样,第3个注意力信息交换块的深度图depth输入端首先d3和dt3通过逐元素相加,将其构成的集合记为dc3,再将相加后的结果(dc3)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与dc3相乘并相加,将其构成的集合记为da3。对于第三个融合层,第3个融合层的彩色图rgb输入端接收rc3、rs3和ra3中的所有特征图,通过现有的add(逐元素相加)方式将rc3、rs3与ra3相加得到集合ri3,再与dcg2相加得到集合rh3,第3个融合层的彩色图rgb输出端输出rh3;第3个融合层的深度图depth输入端接收dc3、ds3和da3中的所有特征图,通过现有的add(逐元素相加)方式将dc3、ds3与da3相加得到集合di3,再与rcg2相加得到集合dh3,第3个融合层的深度图depth输出端输出dh3;其中,rh3和dh3中包含的特征图的总幅数均为64,rh3和dh3中的每幅特征图的宽度均为高度均为对于第4个神经网络块,其采用现有卷积网络框架mobilenet中的第十一至第十三层,由卷积层(convolution,conv)、标准化层、激活层(activation,act)组成;第4个神经网络块的彩色图rgb输入端接收rh3中的所有特征图,第4个神经网络块的彩色图rgb输出端输出96幅特征图,将96幅特征图构成的集合记为r4;第4个神经网络块的深度图depth输入端接收dh3中的所有特征图,第4个神经网络块的深度图depth输出端输出96幅特征图,将其构成的集合记为d4;其中,所有卷积层、标准化层中的参数均参照现有卷积网络框架mobilenet,r4和d4中的每幅特征图的宽度均为高度均为对于第4个遗漏信息筛选块,其由依次设置的第六十六卷积层、第六十六标准化层、第六十六激活层、第六十七卷积层、第六十七标准化层、第六十七激活层、第六十八卷积层、第六十八标准化层、第六十八激活层组成、第六十九卷积层、第六十九标准化层、第六十九激活层、第七十卷积层、第七十一标准化层、第七十一激活层,通道注意力机制块、空间注意力机制块组成;第4个遗漏信息筛选块的输入端接收r4和d4中的所有特征图,第4个遗漏信息筛选块的彩色图rgb输入端首先经上述一系列卷积组合输出96幅特征图,将其构成的集合记为rt4,然后用输入端接收的特征图(r4)减去经卷积处理后的特征图(rt4)得到初步筛选的遗漏信息,将其构成的集合记为(rl4),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出96幅特征图,将其构成的集合记为rs4;同样,深度图depth输出端首先经上述一系列卷积组合输出96幅特征图,将其构成的集合记为dt4,然后用输入端接收的特征图(d4)减去经卷积处理后的特征图(dt4)得到初步筛选的遗漏信息,将其构成的集合记为(dl4),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出96幅特征图,将其构成的集合记为ds4;其中,第五十六卷积层的卷积核大小为3×3、卷积核个数为96、步长(stride)为1、膨胀因子(dilation)为1、补零(padding)参数为1,分组(groups)参数为96,第五十六层标准化参数为96;第五十七卷积层的卷积核大小为1x1、卷积核个数为48、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为48,第五十七层标准化参数为48;第五十八卷积层的卷积核大小为3×3、卷积核个数为96、步长(stride)为1、膨胀因子(dilation)为2、补零(padding)参数为2,分组(groups)参数为96,第五十八层标准化参数为96;第五十九卷积层的卷积核大小为1x1、卷积核个数为48、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为48,第五十九层标准化参数为48;第六十卷积层的卷积核大小为3x3、卷积核个数为96、步长(stride)为1、膨胀因子(dilation)为4、补零(padding)参数为4,分组(groups)参数为96,第六十标准化参数为96。所有激活层的激活方式均为“relu6”,rs4和ds4中的每幅特征图的宽度为高度为对于第四个注意力信息交换块,其由依次设置的通道注意力机制块和空间注意力机制块组成,第4个注意力信息交换块的输入端接收r4和d4,rt4和dt4中的所有特征图,第4个注意力信息交换块的彩色图rgb输入端首先将r4和rt4通过逐元素相加,将其构成的集合记为rc4,再将相加后的结果(rc4)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与rc4相乘并相加,将其构成的集合记为ra4;同样,第4个注意力信息交换块的深度图depth输入端首先d4和dt4通过逐元素相加,将其构成的集合记为dc4,再将相加后的结果(dc4)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与dc4相乘并相加,将其构成的集合记为da4。对于第四个融合层,第4个融合层的彩色图rgb输入端接收rc4、rs4和ra4中的所有特征图,通过现有的add(逐元素相加)方式将rc4、rs4与ra4相加得到集合ri4,第4个融合层的彩色图rgb输出端输出ri4;第4个融合层的深度图depth输入端接收dc4、ds4和da4中的所有特征图,通过现有的add(逐元素相加)方式将dc4、ds4与da4相加得到集合di4,第4个融合层的深度图depth输出端输出di4;其中,ri4和di4中包含的特征图的总幅数均为96,ri4和di4中的每幅特征图的宽度均为高度均为对于第二个交叉引导块,其由依次设置的第七十二卷积层、第七十二标准化层、第七十二激活层,全局平均池化层,第三全连接层,第三激活层,第四全连接层,第四激活层组成,第2个交叉引导块的彩色图rgb输入端接收ri4中的所有特征图,先经第七十二卷积层得到扩张感受野后的特征图,将其构成的集合记为re4,再通过全局平均池化层,第三全连接层,第三激活层,第四全连接层,第四激活层得到筛选后的全局特征,将其构成的集合记为rg4,再将扩张感受野后的特征图(re4)与筛选后的全局特征(rg4)相乘得到加强后的全局特征,将其构成的集合记为rcg4;其中,第七十二卷积层的卷积核大小为3×3、卷积核个数为96、步长(stride)为1、膨胀因子(dilation)为1、补零(padding)参数为1,第七十二标准化参数为96,激活方式为“relu”,第三全连接层输入输出特征数量分别为96,48,第三激活层为“softmax”,第四全连接层输入输出特征数量分别为48,96,第四激活层为“relu”。类似地,第2个交叉引导块的深度图depth输入端接收di4中的所有特征图,先经第七十二卷积层得到扩张感受野后的特征图,将其构成的集合记为de4,再通过全局平均池化层,第三全连接层,第三激活层,第四全连接层,第四激活层得到筛选后的全局特征,将其构成的集合记为dg4,再将扩张感受野后的特征图(de4)与筛选后的全局特征(dg4)相乘得到加强后的全局特征,将其构成的集合记为dcg4;其中,第七十二卷积层的卷积核大小为3×3、卷积核个数为96、步长(stride)为1、膨胀因子(dilation)为1、补零(padding)参数为1,第六十一标准化参数为96,激活方式为“relu”,第三全连接层输入输出特征数量分别为96,48,第三激活层为“softmax”,第四全连接层输入输出特征数量分别为48,96,第四激活层为“relu”。对于第5个神经网络块,其采用现有卷积网络框架mobilenet中的第十四至第十六层,由卷积层(convolution,conv)、标准化层、激活层(activation,act)组成;第5个神经网络块的彩色图rgb输入端接收ri4中的所有特征图,第5个神经网络块的彩色图rgb输出端输出160幅特征图,将160幅特征图构成的集合记为r5;第5个神经网络块的深度图depth输入端接收di4中的所有特征图,第5个神经网络块的深度图depth输出端输出160幅特征图,将160幅特征图构成的集合记为d5;其中,所有卷积层、标准化层中的参数均参照现有卷积网络框架mobilenet,r5和d5中的每幅特征图的宽度为高度为对于第5个遗漏信息筛选块,其由依次设置的第七十三卷积层、第七十三标准化层、第七十三激活层、第七十四卷积层、第七十四标准化层、第七十四激活层、第七十五卷积层、第七十五标准化层、第七十五激活层组成、第七十六卷积层、第七十六标准化层、第七十六激活层、第七十七卷积层、第七十七标准化层、第七十七激活层,通道注意力机制块、空间注意力机制块组成;第5个遗漏信息筛选块的输入端接收r5和d5中的所有特征图,第5个遗漏信息筛选块的彩色图rgb输入端首先经上述一系列卷积组合输出160幅特征图,将其构成的集合记为rt5,然后用输入端接收的特征图(r5)减去经卷积处理后的特征图(rt5)得到初步筛选的遗漏信息,将其构成的集合记为(rl5),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出160幅特征图,将其构成的集合记为rs5;同样,深度图depth输出端首先经上述一系列卷积组合输出160幅特征图,将其构成的集合记为dt5,然后用输入端接收的特征图(d5)减去经卷积处理后的特征图(dt5)得到初步筛选的遗漏信息,将其构成的集合记为(dl5),再将初步筛选的遗漏信息经空间注意力机制块和通道注意力机制块得到细致筛选后的特征图,最后将其与初步筛选的遗漏信息相乘并相加,最后输出端输出160幅特征图,将其构成的集合记为ds5;其中,第五十六卷积层的卷积核大小为3×3、卷积核个数为160、步长(stride)为1、膨胀因子(dilation)为1、补零(padding)参数为1,分组(groups)参数为160,第五十六层标准化参数为160;第五十七卷积层的卷积核大小为1x1、卷积核个数为80、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为80,第五十七层标准化参数为80;第五十八卷积层的卷积核大小为3×3、卷积核个数为160、步长(stride)为1、膨胀因子(dilation)为2、补零(padding)参数为2,分组(groups)参数为160,第五十八层标准化参数为160;第五十九卷积层的卷积核大小为1x1、卷积核个数为80、步长(stride)为1、补零(padding)参数为0,分组(groups)参数为80,第五十九层标准化参数为80;第六十卷积层的卷积核大小为3x3、卷积核个数为160、步长(stride)为1、膨胀因子(dilation)为4、补零(padding)参数为4,分组(groups)参数为160,第六十标准化参数为160。所有激活层的激活方式均为“relu6”,rs5和ds5中的每幅特征图的宽度为高度为对于第五个注意力信息交换块,其由依次设置的通道注意力机制块和空间注意力机制块组成,第5个注意力信息交换块的输入端接收r5和d5,rt5和dt5中的所有特征图,第5个注意力信息交换块的彩色图rgb输入端首先将r5和rt5通过逐元素相加,将其构成的集合记为rc5,再将相加后的结果(rc5)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与rc5相乘并相加,将其构成的集合记为ra5;同样,第5个注意力信息交换块的深度图depth输入端首先d5和dt5通过逐元素相加,将其构成的集合记为dc5,再将相加后的结果(dc5)通过通道注意力机制块和空间注意力机制块筛选出有用的信息,再同时将其与dc5相乘并相加,将其构成的集合记为da5。对于第五个融合层,第5个融合层的彩色图rgb输入端接收rc5、rs5和ra5中的所有特征图,通过现有的add(逐元素相加)方式将rc5、rs5与ra5相加得到集合ri5,再与dcg4相加,将其构成的集合记为rh5,第5个融合层的彩色图rgb输出端输出rh5;第5个融合层的深度图depth输入端接收dc5、ds5和da5中的所有特征图,通过现有的add(逐元素相加)方式将dc5、ds5与da5相加得到集合di5,再与rcg4相加,将其构成的集合记为dh5,第5个融合层的深度图depth输出端输出dh5;其中,rh5和dh5中包含的特征图的总幅数均为160,rh5和dh5中的每幅特征图的宽度均为高度均为对于第六个融合层,第6个融合层的彩色图rgb输入端接收rh5中的所有特征图,第6个融合层的深度图depth输入端接收dh5中的所有特征图,第6个融合层通过现有的add(逐元素相加)方式融合rh5和dh5得到集合f5,第6个融合层输出端输出f5;其中,f5中包含的特征图的总幅数均为160,每幅特征图的宽度均为高度均为对于第七个融合层,第7个融合层的彩色图rgb输入端接收ri1中的所有特征图,第7个融合层的深度图depth输入端接收di1中的所有特征图,第7个融合层通过现有的add(逐元素相加)方式融合ri1和di1得到集合f1,第7个融合层输出端输出f1;其中,f1中包含的特征图的总幅数均为24,每幅特征图的宽度均为高度均为对于第一个上采样层,第一个上采样层输入端接收ri2中的所有特征图和di2中的所有特征图,先把ri2和di2通过现有的add(逐元素相加)方式融合得到集合f2,第一个上采样层通过pytorch中自带的upsamlingbilinear2d函数得到放大两倍后的f2特征图,将其构成的集合记为f2x2,第一个上采样层输出端输出f2x2;其中f2x2包含的特征图的总幅数为32,f2x2中的每幅特征图的宽度为高度为对于第二个上采样层,第二个上采样层输入端接收rh3中的所有特征图和dh3中的所有特征图,先把rh3和dh3通过现有的add(逐元素相加)方式融合得到集合f3,第二个上采样层通过pytorch中自带的upsamlingbilinear2d函数得到放大四倍后的f3特征图,将其构成的集合记为f3x4,第二个上采样层输出端输出f3x4;其中f3x4包含的特征图的总幅数为64,f3x4中的每幅特征图的宽度为高度为对于第三个上采样层,第三个上采样层输入端接收ri4中的所有特征图和di4中的所有特征图,先把ri4和di4通过现有的add(逐元素相加)方式融合得到集合f4,第三个上采样层通过pytorch中自带的upsamlingbilinear2d函数得到放大四倍后的f4特征图,将其构成的集合记为f4x4,第三个上采样层输出端输出f4x4;其中f4x4包含的特征图的总幅数为96,f4x4中的每幅特征图的宽度为高度为对于第四个上采样层,第四个上采样层输入端接收f5中的所有特征图,第四个上采样层通过pytorch中自带的upsamlingbilinear2d函数得到放大四倍后的f5特征图,将其构成的集合记为f5x4,第四个上采样层输出端输出f5x4;其中f5x4包含的特征图的总幅数为160,f5x4中的每幅特征图的宽度为高度为对于第八个融合层,第八个融合层输入端接收f1、f2x2、f3x4、f4x4和f5x4中的所有特征图,第八个融合层通过现有的concatence方式连接f1、f2x2、f3x4、f4x4和f5x4得到集合ft,第八个融合层输出端输出ft;其中,ft中包含的特征图的总幅数为376(24 32 64 96 160),ft中每幅特征图的宽度为对于输出层,其由第七十一卷积层和第五上采样层组成,其中,第七十一卷积层的卷积核大小为1×1、卷积核个数为41、步长(stride)为1、偏置项(bias)为false;第五上采样层通过pytorch中自带的upsamlingbilinear2d函数得到放大四倍后的特征图;输出层的输入端接收ft中的所有特征图,输出层的输出端输出41幅与原始输入图像对应的语义分割预测图。步骤1_3:将训练集中的每对原始的室内场景rgb图像和depth图像作为原始输入图像,输入到卷积神经网络中进行训练,得到训练集中的每对原始的室内场景图像对应的41幅语义分割预测图,将{rgbq(i,j),depthq(i,j)}对应的41幅语义分割预测图构成的集合记为步骤1_4:计算训练集中的每对原始的室内场景图像对应的41幅语义分割预测图构成的集合与对应的真实语义分割图像处理成的41幅独热编码图像构成的集合之间的损失函数值,将与之间的损失函数值记为采用分类交叉熵(categoricalcrossentropy)获得。步骤1_5:重复执行步骤1_3和步骤1_4共v次,得到卷积神经网络分类训练模型,并共得到q×v个损失函数值;然后从q×v个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络分类训练模型的最优权值矢量和最优偏置项,对应记为wbest和bbest;其中,v>1,在本实施例中取v=500。所述的测试阶段过程的具体步骤为:步骤2_1:从原始数据集中分离出p对彩色图和深度图作为测试集,其中p为正整数,本发明中p取699,令{rgbp(i',j'),depthp(i',j')}表示测试集中待语义分割的室内场景图像,1≤p≤p;其中,1≤i'≤w',1≤j'≤h',w'表示{rgbp(i',j'),depthp(i',j')}彩色图和深度图的宽度,h'表示{rgbp(i',j'),depthp(i',j')}彩色图和深度图的高度,rgbp(i',j'),depthp(i',j')分别表示{rgbp(i',j'),depthp(i',j')}中彩色图rgb和深度图depth坐标位置为(i,j)的像素点的像素值。步骤2_2:将{rgbp(i',j'),depthp(i',j')}中的彩色图rgb和深度图depth输入已经训练好的改进全卷积神经网络语义分割模型中,并利用训练中获得的卷积核最优权重wbest和最优偏置项bbest进行预测,得到{rgbp(i',j'),depthp(i',j')}对应的预测语义分割图像,记为其中,表示中坐标位置为(i',j')的像素点的像素值。为进一步验证本发明的效果,以下通过具体实验来进行验证。本发明使用基于python3.6的深度学习库pytorch1.1.0搭建的改进全卷积神经网络语义分割模型的架构。采用室内场景图像数据库nyuv2测试集来分析利用本发明方法预测得到的室内场景图像(取699对室内场景图像)的分割效果。这里,采用评估语义分割方法的3个常用客观参量作为评价指标,即类精确度(classacurracy)、平均像素准确率(meanpixelaccuracy,mpa)、分割图像与标签图像交集与并集的比值(meanintersectionoverunion,miou)来评价预测语义分割图像的分割性能。三类指标值越高,说明本发明中模型性能越好。利用本发明方法对室内场景图像数据库nyuv2测试集中的每对室内场景图像进行预测,得到每对室内图像对应的预测语义分割图像,反映本发明方法的语义分割效果的类精确度ca、平均像素准确率mpa、分割图像与标签图像交集与并集的比值miou如表1所列。从表1中的数据可以看出,利用本发明方法在类精确度ca、平均像素准确率mpa、分割图像与标签图像交集与并集的比值miou三类指标上都取得了不错的结果,说明本发明方法的有效性。表1利用本发明方法在测试集上的评测结果ca58.4%mpa80.7%miou55.3%对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页12
转载请注明原文地址:https://doc.8miu.com/read-250290.html