本发明涉及智能驾驶,尤其涉及一种可适应多头任务的场景分类模型训练方法及场景分类方法。
背景技术:
1、汽车自动驾驶技术是通过视频摄像头、雷达以及激光测距器等传感器感知汽车周边环境,并通过分析汽车周边环境,得到前方道路状况以进行导航。因此,对驾驶场景的准确识别有利于自动驾驶汽车安全稳定地驾驶,而对驾驶场景的识别有赖于前期对驾驶场景的分类,因此,对驾驶场景的分类就显得尤为重要。
2、目前,驾驶场景的分类技术主要针对超市、体育场、咖啡馆等语义特征比较鲜明的生活场景,实现单一维度的场景分类,难以有效解决晴天/雨天、白天/黑夜等语义特征比较模糊、多维度的场景分类问题。
技术实现思路
1、本发明实施例提供一种可适应多头任务的场景分类模型训练方法及场景分类方法,能有效解决驾驶场景分类任务中场景多维度、特征模糊的问题,提高场景分类的精度。
2、第一方面,本发明实施例提供了一种可适应多头任务的场景分类模型训练方法,包括:
3、获取标签图像和无标签图像;其中,所述标签图像设有至少一个维度的场景分类标签;
4、对所述无标签图像进行增强处理,得到相应的第一增强图像和第二增强图像;
5、通过预先构建的场景分类模型依次对所述标签图像、所述第一增强图像和所述第二增强图像进行场景分类,得到相应的至少一个维度的场景分类结果;
6、根据所述标签图像的至少一个维度的场景分类标签及其至少一个维度的场景分类结果,计算标签损失;
7、根据所述第一增强图像的至少一个维度的场景分类结果和所述第二增强图像的至少一个维度的场景分类结果,计算场景分类结果的距离损失;
8、根据所述标签损失和所述距离损失,调节所述场景分类模型的损失,直至所述场景分类模型的损失收敛,以完成所述场景分类模型的训练。
9、作为上述方案的改进,所述场景分类模型包括:语义分割网络、与所述语义分割网络连接的第一主干网络、第二主干网络、多个基于自注意力机制和互注意力机制的特征融合网络、与多个所述特征融合网络一一对应连接的分类头;其中,每一个所述分类头对应输出一个维度的场景分类结果;对于所述标签图像,所述语义分割网络用于对输入的标签图像进行场景分割,得到相应的场景分割图;所述第一主干网络用于对所述场景分割图进行特征提取,得到多个第一特征;所述第二主干网络用于对所述标签图像进行特征提取,得到多个第二特征;各个所述特征融合网络用于对属于同一场景的所述第一特征和所述第二特征进行融合,得到融合特征;各个所述分类头用于对相应特征融合网络输出的融合特征进行预测,得到相应维度的场景分类结果。
10、作为上述方案的改进,所述特征融合网络包括:与所述第一主干网络连接的语义自注意力模块、与所述第二主干网络连接的rgb自注意力模块、与所述语义自注意力模块和所述rgb自注意力模块连接的互注意力模块、与所述互注意力模块、所述语义自注意力模块和所述rgb自注意力模块连接的特征融合模块;所述语义自注意力模块用于对所述第一主干网络输出的第一特征进行语义特征提取;所述rgb自注意力模块用对所述第二主干网络输出的相应的第二特征进行全局特征提取;所述互注意力模块用于对所述语义特征和所述全局特征进行特征交互,得到交互特征;所述特征融合模块用于对所述语义特征、所述全局特征和所述交互特征进行融合,得到融合特征。
11、作为上述方案的改进,所述对所述无标签图像进行增强处理,得到相应的第一增强图像和第二增强图像,包括:
12、对所述无标签图像进行弱数据增强,得到第一增强图像;
13、对所述无标签图像进行强数据增强,得到第二增强图像。
14、作为上述方案的改进,所述根据所述标签图像的至少一个维度的场景分类标签及其至少一个维度的场景分类结果,计算标签损失,包括:
15、根据公式(1),计算所述标签损失;
16、
17、其中,n表示维度数量,yi表示所述标签图像的第i个维度的场景分类标签,y′i-labeled表示所述标签图像的第i个维度的场景分类结果,h(yi,y′i-labeled)表示yi和y′i-labeled的交叉熵。
18、作为上述方案的改进,所述根据所述第一增强图像的至少一个维度的场景分类结果和所述第二增强图像的至少一个维度的场景分类结果,计算场景分类结果的距离损失,包括:
19、根据公式(2),计算所述距离损失;
20、
21、其中,n表示维度数量,y′i-unlabeled1表示所述无标签图像对应的第一增强图像的第i个维度的场景分类结果,y′i-unlabeled2表示所述无标签图像对应的第二增强图像的第i个维度的场景分类结果,h(y′i-unlabeled1,y′i-unlabeled2)表示yi′-unlabeled1和yi′-unlabeled2的交叉熵,δi表示第i个维度对应的设定阈值。
22、作为上述方案的改进,所述场景分类模型的损失的函数表达为:
23、l=a*ls+(1-a)*lu; (3)
24、其中,a表示设定的权重系数,ls表示标签损失,lu表示距离损失。
25、作为上述方案的改进,所述对所述无标签图像进行弱数据增强,得到第一增强图像,包括:
26、对所述无标签图像进行对比度调节、图像平滑、图像锐化、添加噪声中一种或多种操作,得到第一增强图像。
27、作为上述方案的改进,所述对所述无标签图像进行强数据增强,得到第二增强图像,包括:
28、对所述无标签图像进行旋转、裁剪、cutout中一种或多种操作,得到第二增强图像。
29、第二方面,本发明实施例提供了一种场景分类方法,包括:
30、获取车辆在驾驶过程中的前方图像;
31、对所述前方图像进行增强处理,得到所述前方图像对应的第一增强图像和第二增强图像;
32、根据所述前方图像对应的第一增强图像和第二增强图像,采用基于第一方面中任一项所述的可适应多头任务的场景分类模型训练方法训练得到的场景分类模型进行场景分类,得到所述前方图像对应的至少一个维度的场景分类结果。
33、相对于现有技术,本发明实施例通过获取设有至少一个维度的场景分类标签的标签图像和无标签图像;然后对所述无标签图像进行增强处理,得到相应的第一增强图像和第二增强图像;将所述标签图像、第一增强图像和第二增强图像依次输入到预先构建的场景分类模型中进行场景分类,分别得到所述标签图像、第一增强图像和第二增强图像对应的至少一个维度的场景分类结果;之后根据所述标签图像的至少一个维度的场景分类标签及其至少一个维度的场景分类结果,计算标签损失;根据所述第一增强图像的至少一个维度的场景分类结果和所述第二增强图像的至少一个维度的场景分类结果,计算场景分类结果的距离损失;根据所述标签损失和所述距离损失,调节所述场景分类模型的损失,直至所述场景分类模型的损失收敛,以完成所述场景分类模型的训练,相对于现有单一维度场景分类无法适用汽车驾驶场景的问题,本发明实施例中训练后的场景分类模型能够解决驾驶场景分类任务中场景多维度、特征模糊的问题,实现驾驶场景中多维度场景分类,提高场景分类的精度。
1.一种可适应多头任务的场景分类模型训练方法,其特征在于,包括:
2.如权利要求1所述的可适应多头任务的场景分类模型训练方法,其特征在于,所述场景分类模型包括:语义分割网络、与所述语义分割网络连接的第一主干网络、第二主干网络、多个基于自注意力机制和互注意力机制的特征融合网络、与多个所述特征融合网络一一对应连接的分类头;其中,每一个所述分类头对应输出一个维度的场景分类结果;对于所述标签图像,所述语义分割网络用于对输入的标签图像进行场景分割,得到相应的场景分割图;所述第一主干网络用于对所述场景分割图进行特征提取,得到多个第一特征;所述第二主干网络用于对所述标签图像进行特征提取,得到多个第二特征;各个所述特征融合网络用于对属于同一场景的所述第一特征和所述第二特征进行融合,得到融合特征;各个所述分类头用于对相应特征融合网络输出的融合特征进行预测,得到相应维度的场景分类结果。
3.如权利要求2所述的可适应多头任务的场景分类模型训练方法,其特征在于,所述特征融合网络包括:与所述第一主干网络连接的语义自注意力模块、与所述第二主干网络连接的rgb自注意力模块、与所述语义自注意力模块和所述rgb自注意力模块连接的互注意力模块、与所述互注意力模块、所述语义自注意力模块和所述rgb自注意力模块连接的特征融合模块;所述语义自注意力模块用于对所述第一主干网络输出的第一特征进行语义特征提取;所述rgb自注意力模块用对所述第二主干网络输出的相应的第二特征进行全局特征提取;所述互注意力模块用于对所述语义特征和所述全局特征进行特征交互,得到交互特征;所述特征融合模块用于对所述语义特征、所述全局特征和所述交互特征进行融合,得到融合特征。
4.如权利要求1所述的可适应多头任务的场景分类模型训练方法,其特征在于,所述对所述无标签图像进行增强处理,得到相应的第一增强图像和第二增强图像,包括:
5.如权利要求1所述的可适应多头任务的场景分类模型训练方法,其特征在于,所述根据所述标签图像的至少一个维度的场景分类标签及其至少一个维度的场景分类结果,计算标签损失,包括:
6.如权利要求5所述的可适应多头任务的场景分类模型训练方法,其特征在于,所述根据所述第一增强图像的至少一个维度的场景分类结果和所述第二增强图像的至少一个维度的场景分类结果,计算场景分类结果的距离损失,包括:
7.如权利要求6所述的可适应多头任务的场景分类模型训练方法,其特征在于,所述场景分类模型的损失的函数表达为:
8.如权利要求4所述的可适应多头任务的场景分类模型训练方法,其特征在于,所述对所述无标签图像进行弱数据增强,得到第一增强图像,包括:
9.如权利要求4所述的可适应多头任务的场景分类模型训练方法,其特征在于,所述对所述无标签图像进行强数据增强,得到第二增强图像,包括:
10.一种场景分类方法,其特征在于,包括: