本申请涉及车辆,尤其涉及一种基于驾驶员状态监测的模型训练方法及相关设备。
背景技术:
1、驾驶人员监测系统最开始的应用是监控驾驶员的状态,以防止驾驶员疲劳,分神等危害驾驶过程的行为发生。传统驾驶人员监测系统只需要具备疲劳检测和分心检测功能即可,但是当前驾驶人员监测系统基本涵盖了整个车载视觉解决方案,承载了很多新需求,如手势识别、根据人脸识别出不同的驾驶员调整座椅高度等个性化设置、系安全带提醒等功能,这对识别算法带来了新的挑战。
技术实现思路
1、有鉴于此,本申请提供一种基于驾驶员状态监测的模型训练方法及相关设备,能够在提升模型精确度的同时,降低模型训练的时间成本和人力成本。
2、本申请实施例提供一种基于驾驶员状态监测的模型训练方法,包括:获取用于表征驾驶员状态的第一训练样本数据和第二训练样本数据;其中,所述第一训练样本数据具有真实标签,所述第二训练样本数据无标签;将所述第二训练样本数据输入用于预测驾驶员状态的教师模型,得到具有伪标签的第三训练样本数据;根据所述第一训练样本数据、所述第二训练样本数据以及所述第三训练样本数据对学生模型进行训练,得到训练完成后的学生模型的权重;根据所述训练完成后的学生模型的权重更新所述教师模型的权重,得到新的教师模型;将所述第二训练样本数据输入所述新的教师模型,得到新的第三训练样本数据,并根据所述新的第三训练样本数据对训练完成后的学生模型进行再次训练,重复上述步骤直至所述训练完成后的学生模型收敛,得到目标学生模型;根据所述目标学生模型的权重更新所述新的教师模型的权重,得到目标教师模型。
3、与相关技术相比,本申请实施例至少具有以下优点:通过获取第一训练样本数据和第二训练样本数据,且第二训练样本数据无标签,能够避免耗费大量的人力成本与时间成本去制作有真实标签的数据,从而降低了后续模型训练的时间成本和人力成本;通过利用教师模型对第二训练样本数据进行识别,得到具有伪标签的第三训练样本数据,再基于第一训练样本数据、第二训练样本数据以及第三训练样本数据对学生模型进行训练,从而增加了样本数据的多样性,提升了学生模型的泛化性能,由于教师模型的权重是基于学生模型的权重更新得到,从而提高了教师模型的泛化性能。此外,通过教师模型与学生模型之间的交互,两个模型可以不断地联合进化,模型性能随之提高,而随着模型性能的不断提高,意味着教师模型可以生成更为准确和稳定的伪标签,实现了伪标签和训练过程相互增强的“飞轮效应”,进一步提高了最后得到的目标教师模型的精确度。
4、在一些可能的实现方式中,在将所述第二训练样本数据输入用于预测驾驶员状态的教师模型之前,还包括:对所述第二训练样本数据进行弱数据增强,得到教师模型目标训练数据;所述将所述第二训练样本数据输入用于预测驾驶员状态的教师模型,包括:将所述教师模型目标训练数据输入所述教师模型。
5、在一些可能的实现方式中,所述教师模型根据以下方式得到所述第三训练样本数据:对所述教师模型目标训练数据进行非极大值抑制推理,得到所述第三训练样本数据。
6、在一些可能的实现方式中,在所述根据所述第一训练样本数据、所述第二训练样本数据以及所述第三训练样本数据对学生模型进行训练之前,还包括:对所述第一训练样本数据进行数据增强,得到第一学生模型训练数据;对所述第二训练样本数据进行强数据增强,得到第二学生模型训练数据;所述根据所述第一训练样本数据、所述第二训练样本数据以及所述第三训练样本数据对学生模型进行训练,包括:根据所述第一学生模型训练数据、所述第二学生模型训练数据以及所述第三训练样本数据对所述学生模型进行训练。
7、在一些可能的实现方式中,所述学生模型根据以下方式训练:根据所述第一学生模型训练数据,计算所述学生模型的监督损失;根据所述第二学生模型训练数据和所述第三训练样本数据,计算所述学生模型的无监督损失;根据所述监督损失和所述无监督损失,计算所述学生模型的总损失,并根据所述总损失更新所述学生模型。
8、在一些可能的实现方式中,所述根据所述训练完成后的学生模型的权重更新所述教师模型的权重,包括:根据以下公式更新所述教师模型的权重:θt=αθt+(1-α)θs;其中,θt为所述教师模型的权重,θs为所述训练完成后的学生模型的权重,α为常数。
9、在一些可能的实现方式中,所述教师模型和所述学生模型均为两阶段目标检测模型,且所述教师模型的初始权重和所述学生模型的初始权重相同。
10、本申请第二方面公开了一种基于驾驶员状态监测的模型训练装置,包括:数据获取模块、数据更新模块、模型训练模块、模型更新模块以及模型确定模块;所述数据获取模块用于获取用于表征驾驶员状态的第一训练样本数据和第二训练样本数据;其中,所述第一训练样本数据具有真实标签,所述第二训练样本数据无标签;所述数据更新模块用于将所述第二训练样本数据输入用于预测驾驶员状态的教师模型,得到具有伪标签的第三训练样本数据;所述模型训练模块用于根据所述第一训练样本数据、所述第二训练样本数据以及所述第三训练样本数据对学生模型进行训练,得到训练完成后的学生模型的权重;所述模型更新模块用于根据所述训练完成后的学生模型的权重更新所述教师模型的权重,得到新的教师模型;所述模型确定模块用于控制所述数据更新模块再次将所述第二训练样本数据输入所述新的教师模型,得到新的第三训练样本数据;还用于控制所述模型训练模块根据所述新的第三训练样本数据对训练完成后的学生模型进行再次训练,重复上述步骤直至所述训练完成后的学生模型收敛,得到目标学生模型;还用于控制所述模型更新模块根据所述目标学生模型的权重更新所述新的教师模型的权重,得到目标教师模型。
11、本申请第三方面公开了一种电子设备,所述电子设备包括处理器和存储器,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行上述的基于驾驶员状态监测的模型训练方法。
12、本申请第四方面公开了一种存储介质,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行上述的基于驾驶员状态监测的模型训练方法。
13、可以理解地,上述提供的第二方面的装置,第三方面的电子设备以及第四方面的存储介质,均与上述第一方面的方法对应,因此,其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果,此处不再赘述。
1.一种基于驾驶员状态监测的模型训练方法,其特征在于,包括:
2.根据权利要求1所述的基于驾驶员状态监测的模型训练方法,其特征在于,在将所述第二训练样本数据输入用于预测驾驶员状态的教师模型之前,还包括:
3.根据权利要求2所述的基于驾驶员状态监测的模型训练方法,其特征在于,所述教师模型根据以下方式得到所述第三训练样本数据:
4.根据权利要求1所述的基于驾驶员状态监测的模型训练方法,其特征在于,在所述根据所述第一训练样本数据、所述第二训练样本数据以及所述第三训练样本数据对学生模型进行训练之前,还包括:
5.根据权利要求4所述的基于驾驶员状态监测的模型训练方法,其特征在于,所述学生模型根据以下方式训练:
6.根据权利要求1所述的基于驾驶员状态监测的模型训练方法,其特征在于,所述根据所述训练完成后的学生模型的权重更新所述教师模型的权重,包括:根据以下公式更新所述教师模型的权重:
7.根据权利要求1至6任一项所述的基于驾驶员状态监测的模型训练方法,其特征在于,所述教师模型和所述学生模型均为两阶段目标检测模型,且所述教师模型的初始权重和所述学生模型的初始权重相同。
8.一种基于驾驶员状态监测的模型训练装置,其特征在于,包括:数据获取模块、数据更新模块、模型训练模块、模型更新模块以及模型确定模块;
9.一种电子设备,其特征在于,所述电子设备包括处理器和存储器,所述存储器用于存储指令,所述处理器用于调用所述存储器中的指令,使得所述电子设备执行权利要求1至权利要求7中任一项所述的基于驾驶员状态监测的模型训练方法。
10.一种存储介质,其特征在于,包括计算机指令,当所述计算机指令在电子设备上运行时,使得所述电子设备执行如权利要求1至权利要求7中任一项所述的基于驾驶员状态监测的模型训练方法。
