一种基于深度补偿的RGBD融合目标检测方法及装置与流程

专利2026-03-02 38

本发明涉及图像检测，特别涉及一种基于深度补偿的rgbd融合目标检测方法及装置。

背景技术：

1、基于视觉引导的机器人的操作流程分为识别、定位以及抓取。而当面临各种复杂环境时，机器人能够准确抓取物体的前提是精准识别。因此，迫切需要一种能够解决相似颜色纹理信息物体误识别的网络，同时不能够明显增加计算负担。

2、早期，基于rgbd的目标识别方法依赖于手工提取特征，然后进行双模态特征融合。现有的大多数基于深度学习的rgbd双模态数据融合的方法可分为两种：单流结构模型和双流结构模型。其中，单流结构模型为直接在数据输入处将rgb与深度信息进行拼接，然后馈送到所设计的编码器进行特征提取，考虑到rgb更多地是颜色、纹理这类外观信息，而深度信息表征的是物体的几何和轮廓信息，虽然使用单流结构可以节省计算开销，但是只是将两种模态的数据进行拼接，并没有起到模态间信息互补的作用。双流结构模型为考虑低质量的深度图对模型会带来影响，采用联合rgb、深度信息、细粒度和梯度先验信息以及边缘学习信息的多输入来进行特征补偿。上述双流网络模型虽然分别设计编码器独立进行rgb和深度信息的提取，并进行融合，但是模型的训练以及推理时间增加很多，很难满足工业上的实时性需求。

3、由上可知：现有基于rgbd融合的单流网络结构通常将rgb和深度数据进行拼接后馈送进行单流编码器进行融合特征提取，而这类方法使得编码器倾向于从每个模态数据中选择特征，而不是融合特征，会导致模态数据间的互补信息融合不够。基于rgbd融合的双流网络结构通常分别提取rgb和深度特征，这类方法不可避免地增加了模型的计算成本，也对工业场景下的实时性带来负面影响。

4、此外，现有基于rgbd的双模态融合方法直接采用对原始深度图进行融合，但并未考虑到低质量深度图中深度信息缺失或黑洞噪声带来的影响，因此也无法满足实际需求。

技术实现思路

1、本发明实施例的目的是提供一种基于深度补偿的rgbd融合目标检测方法及装置，通过结合高质量深度重建图，采用一种深度补偿后注入的解决思路，在做到精准识别的同时，实时性没有受到影响；基于深度估计网络，可以很好地即插即用，做到了重建精度高、速度快。

2、为解决上述技术问题，本发明实施例的第一方面提供了一种基于深度补偿的rgbd融合目标检测方法，包括如下步骤：

3、获取待检测目标的rgb图和深度图；

4、基于编码器-解码器网络，对所述rgb图进行处理，得到深度重建图；

5、基于所述rgb图和所述深度重建图，通过yolo_v8改进模型对所述待检测目标进行识别，得到所述待检测目标的识别图像。

6、进一步地，所述yolo_v8改进模型为对所述深度重建图进行层次化深度特征提取，提取的深度特征经深度引导融合后与yolo_v8模型的rgb主干部分进行逐像素相乘，再与所述rgb图进行结合。

7、进一步地，所述编码器包括resnet34网络，所述resnet34网络包括：依次连接的conv1模块、conv2_x模块、conv3_x模块、conv4_x模块和conv5_x模块；

8、所述conv1模块包括：64个7x7的卷积核、批归一化层、relu激活函数和2x2卷积大小的最大池化层；

9、所述conv2_x模块包括：3组64个3x3的卷积核+64个3x3的卷积核，每组输出与下一组的输入通过像素相加实现跳远连接；

10、所述conv3_x模块包括：4组128个3x3的卷积核+128个3x3的卷积核组成，每一组的输出与下一组的输入通过像素相加实现跳远连接；

11、所述conv4_x模块包括：6组256个3x3的卷积核+256个3x3的卷积核，每一组的输出与下一组的输入通过像素相加实现跳远连接；

12、所述conv5_x模块包括：3组256个3x3的卷积核+256个3x3的卷积核，每一组的输出与下一组的输入通过像素相加实现跳远连接。

13、进一步地，所述编码器-解码器网络的损失函数为berhu函数；

14、

15、

16、其中，ε＝10-8为避免分母为0的常数项，mask为前景二值化mask，d'为深度重建图。

17、相应地，本发明实施例的第二方面提供了一种基于深度补偿的rgbd融合目标检测装置，包括：

18、图像获取模块，其用于获取待检测目标的rgb图和深度图；

19、图像重建模块，其用于基于编码器-解码器网络，对所述rgb图进行处理，得到深度重建图；

20、图像识别模块，其用于基于所述rgb图和所述深度重建图，通过yolo_v8改进模型对所述待检测目标进行识别，得到所述待检测目标的识别图像。

21、进一步地，所述yolo_v8改进模型为对所述深度重建图进行层次化深度特征提取，提取的深度特征经深度引导融合后与yolo_v8模型的rgb主干部分进行逐像素相乘，再与所述rgb图进行结合。

22、进一步地，所述编码器包括resnet34网络，所述resnet34网络包括：依次连接的conv1模块、conv2_x模块、conv3_x模块、conv4_x模块和conv5_x模块；

23、所述conv1模块包括：64个7x7的卷积核、批归一化层、relu激活函数和2x2卷积大小的最大池化层；

24、所述conv2_x模块包括：3组64个3x3的卷积核+64个3x3的卷积核，每组输出与下一组的输入通过像素相加实现跳远连接；

25、所述conv3_x模块包括：4组128个3x3的卷积核+128个3x3的卷积核组成，每一组的输出与下一组的输入通过像素相加实现跳远连接；

26、所述conv4_x模块包括：6组256个3x3的卷积核+256个3x3的卷积核，每一组的输出与下一组的输入通过像素相加实现跳远连接；

27、所述conv5_x模块包括：3组256个3x3的卷积核+256个3x3的卷积核，每一组的输出与下一组的输入通过像素相加实现跳远连接。

28、进一步地，所述编码器-解码器网络的损失函数为berhu函数；

29、

30、

31、其中，ε＝10-8为避免分母为0的常数项，mask为前景二值化mask，d'为深度重建图。

32、相应地，本发明实施例的第三方面提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如上述基于深度补偿的rgbd融合目标检测方法。

33、相应地，本发明实施例的第四方面提供了一种计算机可读存储介质，其特征在于，其上存储有计算机指令，该指令被处理器执行时实现上述基于深度补偿的rgbd融合目标检测方法。

34、本发明实施例的上述技术方案具有如下有益的技术效果：

35、通过结合高质量深度重建图，采用一种深度补偿后注入的解决思路，在做到精准识别的同时，实时性没有受到影响；基于深度估计网络，可以很好地即插即用，做到了重建精度高、速度快。

技术特征：

1.一种基于深度补偿的rgbd融合目标检测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于深度补偿的rgbd融合目标检测方法，其特征在于，

3.根据权利要求2所述的基于深度补偿的rgbd融合目标检测方法，其特征在于，

4.根据权利要求1-3任一所述的基于深度补偿的rgbd融合目标检测方法，其特征在于，

5.一种基于深度补偿的rgbd融合目标检测装置，其特征在于，包括：

6.根据权利要求5所述的基于深度补偿的rgbd融合目标检测装置，其特征在于，

7.根据权利要求5所述的基于深度补偿的rgbd融合目标检测装置，其特征在于，

8.根据权利要求5所述的基于深度补偿的rgbd融合目标检测装置，其特征在于，

9.一种电子设备，其特征在于，包括：至少一个处理器；以及与所述至少一个处理器连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器执行如权利要求1-4任一所述的基于深度补偿的rgbd融合目标检测方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，该指令被处理器执行时实现如权利要求1-4任一所述的基于深度补偿的rgbd融合目标检测方法。

技术总结
本发明公开了一种基于深度补偿的RGBD融合目标检测方法及装置，其中方法包括如下步骤：获取待检测目标的RGB图和深度图；基于编码器‑解码器网络，对RGB图进行处理，得到深度重建图；基于RGB图和深度重建图，通过Yolo_V8改进模型对待检测目标进行识别，得到待检测目标的识别图像。通过结合高质量深度重建图，采用一种深度补偿后注入的解决思路，在做到精准识别的同时，实时性没有受到影响；基于深度估计网络，可以很好地即插即用，做到了重建精度高、速度快。

技术研发人员：吴波,战秋成,徐志伟,郑随兵
受保护的技术使用者：睿尔曼智能科技（北京）有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1828355.html

专利

最新回复(0)