本发明涉及图像检测,特别涉及一种基于深度补偿的rgbd融合目标检测方法及装置。
背景技术:
1、基于视觉引导的机器人的操作流程分为识别、定位以及抓取。而当面临各种复杂环境时,机器人能够准确抓取物体的前提是精准识别。因此,迫切需要一种能够解决相似颜色纹理信息物体误识别的网络,同时不能够明显增加计算负担。
2、早期,基于rgbd的目标识别方法依赖于手工提取特征,然后进行双模态特征融合。现有的大多数基于深度学习的rgbd双模态数据融合的方法可分为两种:单流结构模型和双流结构模型。其中,单流结构模型为直接在数据输入处将rgb与深度信息进行拼接,然后馈送到所设计的编码器进行特征提取,考虑到rgb更多地是颜色、纹理这类外观信息,而深度信息表征的是物体的几何和轮廓信息,虽然使用单流结构可以节省计算开销,但是只是将两种模态的数据进行拼接,并没有起到模态间信息互补的作用。双流结构模型为考虑低质量的深度图对模型会带来影响,采用联合rgb、深度信息、细粒度和梯度先验信息以及边缘学习信息的多输入来进行特征补偿。上述双流网络模型虽然分别设计编码器独立进行rgb和深度信息的提取,并进行融合,但是模型的训练以及推理时间增加很多,很难满足工业上的实时性需求。
3、由上可知:现有基于rgbd融合的单流网络结构通常将rgb和深度数据进行拼接后馈送进行单流编码器进行融合特征提取,而这类方法使得编码器倾向于从每个模态数据中选择特征,而不是融合特征,会导致模态数据间的互补信息融合不够。基于rgbd融合的双流网络结构通常分别提取rgb和深度特征,这类方法不可避免地增加了模型的计算成本,也对工业场景下的实时性带来负面影响。
4、此外,现有基于rgbd的双模态融合方法直接采用对原始深度图进行融合,但并未考虑到低质量深度图中深度信息缺失或黑洞噪声带来的影响,因此也无法满足实际需求。
技术实现思路
1、本发明实施例的目的是提供一种基于深度补偿的rgbd融合目标检测方法及装置,通过结合高质量深度重建图,采用一种深度补偿后注入的解决思路,在做到精准识别的同时,实时性没有受到影响;基于深度估计网络,可以很好地即插即用,做到了重建精度高、速度快。
2、为解决上述技术问题,本发明实施例的第一方面提供了一种基于深度补偿的rgbd融合目标检测方法,包括如下步骤:
3、获取待检测目标的rgb图和深度图;
4、基于编码器-解码器网络,对所述rgb图进行处理,得到深度重建图;
5、基于所述rgb图和所述深度重建图,通过yolo_v8改进模型对所述待检测目标进行识别,得到所述待检测目标的识别图像。
6、进一步地,所述yolo_v8改进模型为对所述深度重建图进行层次化深度特征提取,提取的深度特征经深度引导融合后与yolo_v8模型的rgb主干部分进行逐像素相乘,再与所述rgb图进行结合。
7、进一步地,所述编码器包括resnet34网络,所述resnet34网络包括:依次连接的conv1模块、conv2_x模块、conv3_x模块、conv4_x模块和conv5_x模块;
8、所述conv1模块包括:64个7x7的卷积核、批归一化层、relu激活函数和2x2卷积大小的最大池化层;
9、所述conv2_x模块包括:3组64个3x3的卷积核+64个3x3的卷积核,每组输出与下一组的输入通过像素相加实现跳远连接;
10、所述conv3_x模块包括:4组128个3x3的卷积核+128个3x3的卷积核组成,每一组的输出与下一组的输入通过像素相加实现跳远连接;
11、所述conv4_x模块包括:6组256个3x3的卷积核+256个3x3的卷积核,每一组的输出与下一组的输入通过像素相加实现跳远连接;
12、所述conv5_x模块包括:3组256个3x3的卷积核+256个3x3的卷积核,每一组的输出与下一组的输入通过像素相加实现跳远连接。
13、进一步地,所述编码器-解码器网络的损失函数为berhu函数;
14、
15、
16、其中,ε=10-8为避免分母为0的常数项,mask为前景二值化mask,d'为深度重建图。
17、相应地,本发明实施例的第二方面提供了一种基于深度补偿的rgbd融合目标检测装置,包括:
18、图像获取模块,其用于获取待检测目标的rgb图和深度图;
19、图像重建模块,其用于基于编码器-解码器网络,对所述rgb图进行处理,得到深度重建图;
20、图像识别模块,其用于基于所述rgb图和所述深度重建图,通过yolo_v8改进模型对所述待检测目标进行识别,得到所述待检测目标的识别图像。
21、进一步地,所述yolo_v8改进模型为对所述深度重建图进行层次化深度特征提取,提取的深度特征经深度引导融合后与yolo_v8模型的rgb主干部分进行逐像素相乘,再与所述rgb图进行结合。
22、进一步地,所述编码器包括resnet34网络,所述resnet34网络包括:依次连接的conv1模块、conv2_x模块、conv3_x模块、conv4_x模块和conv5_x模块;
23、所述conv1模块包括:64个7x7的卷积核、批归一化层、relu激活函数和2x2卷积大小的最大池化层;
24、所述conv2_x模块包括:3组64个3x3的卷积核+64个3x3的卷积核,每组输出与下一组的输入通过像素相加实现跳远连接;
25、所述conv3_x模块包括:4组128个3x3的卷积核+128个3x3的卷积核组成,每一组的输出与下一组的输入通过像素相加实现跳远连接;
26、所述conv4_x模块包括:6组256个3x3的卷积核+256个3x3的卷积核,每一组的输出与下一组的输入通过像素相加实现跳远连接;
27、所述conv5_x模块包括:3组256个3x3的卷积核+256个3x3的卷积核,每一组的输出与下一组的输入通过像素相加实现跳远连接。
28、进一步地,所述编码器-解码器网络的损失函数为berhu函数;
29、
30、
31、其中,ε=10-8为避免分母为0的常数项,mask为前景二值化mask,d'为深度重建图。
32、相应地,本发明实施例的第三方面提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如上述基于深度补偿的rgbd融合目标检测方法。
33、相应地,本发明实施例的第四方面提供了一种计算机可读存储介质,其特征在于,其上存储有计算机指令,该指令被处理器执行时实现上述基于深度补偿的rgbd融合目标检测方法。
34、本发明实施例的上述技术方案具有如下有益的技术效果:
35、通过结合高质量深度重建图,采用一种深度补偿后注入的解决思路,在做到精准识别的同时,实时性没有受到影响;基于深度估计网络,可以很好地即插即用,做到了重建精度高、速度快。
1.一种基于深度补偿的rgbd融合目标检测方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于深度补偿的rgbd融合目标检测方法,其特征在于,
3.根据权利要求2所述的基于深度补偿的rgbd融合目标检测方法,其特征在于,
4.根据权利要求1-3任一所述的基于深度补偿的rgbd融合目标检测方法,其特征在于,
5.一种基于深度补偿的rgbd融合目标检测装置,其特征在于,包括:
6.根据权利要求5所述的基于深度补偿的rgbd融合目标检测装置,其特征在于,
7.根据权利要求5所述的基于深度补偿的rgbd融合目标检测装置,其特征在于,
8.根据权利要求5所述的基于深度补偿的rgbd融合目标检测装置,其特征在于,
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-4任一所述的基于深度补偿的rgbd融合目标检测方法。
10.一种计算机可读存储介质,其特征在于,其上存储有计算机指令,该指令被处理器执行时实现如权利要求1-4任一所述的基于深度补偿的rgbd融合目标检测方法。
