神经网络模型训练方法及装置与流程

专利2025-02-26 39

本发明人工智能，尤其涉及一种神经网络模型训练方法及装置。

背景技术：

1、对于神经网络模型的训练，训练的代价非常高。如何对神经网络分类任务训练进行降本提速，提高神经网络模型的训练效率是目前的研究方向。

2、通过数据选择去掉样本集中已无训练价值、对分类任务训练无益处的冗余数据，从样本集中选择有训练价值的子集对神经网络模型进行训练，可以实现训练效率的提高。但如何选择出有训练价值的子集是需要解决的问题。

技术实现思路

1、本发明的第一个目的在于提出一种神经网络模型训练方法，以在采用样本集中的训练样本进行分类任务训练过程中，样本评分模型对样本集中的训练样本基于训练损失所预测的训练难度分值，以及分类任务训练过程中所述训练难度分值的变化量，对所述样本集中的训练样本进行筛选。

2、本发明的第二个目的在于提出一种神经网络模型训练装置。

3、本发明的第三个目的在于提出一种电子设备。

4、本发明的第四个目的在于提出一种存储有计算机指令的非瞬时计算机可读存储介质。

5、本发明的第五个目的在于提出一种计算机程序产品。

6、为达上述目的，本发明第一方面实施例提出了一种神经网络模型训练方法，包括：

7、获取样本集，其中，所述样本集内包括作为训练样本的图文信息，并标注有对应的标注类别；

8、基于待训练的神经网络模型，确定对应的样本评分模型；

9、采用所述样本集中的训练样本，对所述样本评分模型与所述神经网络模型同步进行多个轮次的分类任务训练，以得到各训练样本的预测类别；

10、根据多个轮次的分类任务训练过程中，所述样本评分模型对所述样本集中的训练样本基于训练损失所预测的训练难度分值，以及所述训练难度分值的变化量，对所述样本集中的训练样本进行筛选，其中，所述训练损失用于指示所述标注类别与所述预测类别之间的差异；

11、将筛选保留的训练样本用于所述神经网络模型在所述多个轮次之后的后续分类任务训练。

12、本发明实施例的神经网络模型训练方法，通过获取样本集，以及基于待训练的神经网络模型，确定对应的样本评分模型，进而采用所述样本集中的训练样本，对所述样本评分模型与所述神经网络模型同步进行多个轮次的分类任务训练。根据多个轮次的分类任务训练过程中，样本评分模型对样本集中的训练样本基于训练损失所预测的训练难度分值，以及训练难度分值的变化量，对样本集中的训练样本进行筛选，以便将筛选保留的训练样本用于该神经网络模型在多个轮次之后的后续分类任务训练。由于在进行样本筛选时，既参考了训练难度分值，也参考了训练难度分值的变化量，因此，在噪声样本自身所携带的噪声所导致训练难度分值较高的情况下，也可以通过多轮中训练难度分值的变化量较小将其筛选出去。

13、为达上述目的，本发明第二方面实施例提出了一种神经网络模型训练装置，包括：

14、获取模块，用于获取样本集，其中，所述样本集内包括作为训练样本的图文信息，并标注有对应的标注类别；

15、确定模块，用于基于待训练的神经网络模型，确定对应的样本评分模型；

16、第一训练模块，用于采用所述样本集中的训练样本，对所述样本评分模型与所述神经网络模型同步进行多个轮次的分类任务训练，以得到各训练样本的预测类别；

17、筛选模块，用于根据多个轮次的分类任务训练过程中，所述样本评分模型对所述样本集中的训练样本基于训练损失所预测的训练难度分值，以及所述训练难度分值的变化量，对所述样本集中的训练样本进行筛选，其中，所述训练损失用于指示所述标注类别与所述预测类别之间的差异；

18、第二训练模块，用于将筛选保留的训练样本用于所述神经网络模型在所述多个轮次之后的后续分类任务训练。

19、本发明实施例的神经网络模型训练装置，通过获取样本集，以及基于待训练的神经网络模型，确定对应的样本评分模型，进而采用所述样本集中的训练样本，对所述样本评分模型与所述神经网络模型同步进行多个轮次的分类任务训练。根据多个轮次的分类任务训练过程中，样本评分模型对样本集中的训练样本基于训练损失所预测的训练难度分值，以及训练难度分值的变化量，对样本集中的训练样本进行筛选，以便将筛选保留的训练样本用于该神经网络模型在多个轮次之后的后续分类任务训练。由于在进行样本筛选时，既参考了训练难度分值，也参考了训练难度分值的变化量，因此，在噪声样本自身所携带的噪声所导致训练难度分值较高的情况下，也可以通过多轮中训练难度分值的变化量较小将其筛选出去。

20、为达上述目的，本发明第三方面实施例提出了一种电子设备，包括：

21、至少一个处理器；以及

22、与所述至少一个处理器通信连接的存储器；其中，

23、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行前述第一方面所述的方法。

24、为了实现上述目的，本发明第四方面实施例提出了一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使所述计算机执行前述第一方面所述的方法。

25、为了实现上述目的，本发明第五方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据前述第一方面所述的方法。

26、本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.一种神经网络模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据多个轮次的分类任务训练过程中，所述样本评分模型对所述样本集中的训练样本基于训练损失所预测的训练难度分值，以及所述训练难度分值的变化量，对所述样本集中的训练样本进行筛选，包括：

3.根据权利要求2所述的方法，其特征在于，所述针对所述样本集中的任一训练样本，根据多个轮次的分类任务训练过程中基于训练损失所预测的训练难度分值，以及不同轮次之间所述训练难度分值的变化量，确定对应训练样本的总分值，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述基于待训练的神经网络模型，确定对应的样本评分模型，包括：

6.根据权利要求5所述的方法，其特征在于，所述神经网络模型包括多层，且各层包括多个神经元；

7.根据权利要求1-4任一项所述的方法，其特征在于，所述采用所述样本集中的训练样本，对所述样本评分模型与所述神经网络模型同步进行多个轮次的分类任务训练，包括：

8.一种神经网络模型训练装置，其特征在于，包括：

9.根据权利要求8所述的装置，其特征在于，所述筛选模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述确定单元，还用于：

11.根据权利要求9所述的装置，其特征在于，所述筛选单元，还用于：

12.根据权利要求8-11任一项所述的装置，其特征在于，所述确定模块，还用于：

13.根据权利要求12所述的方法，其特征在于，所述神经网络模型包括多层，且各层包括多个神经元；

14.根据权利要求8-11任一项所述的装置，其特征在于，所述第一训练模块，还用于：

15.一种电子设备，其特征在于，包括：

16.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行根据权利要求1-7中任一项所述的方法。

17.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-7中任一项所述的方法。

技术总结
本发明提出一种神经网络模型训练方法及装置，其中，方法包括：通过基于待训练的神经网络模型，确定对应的样本评分模型，进而采用样本集中的训练样本，对样本评分模型与神经网络模型同步进行多个轮次的分类任务训练。根据多个轮次的分类任务训练过程中，样本评分模型对样本集中的训练样本基于训练损失所预测的训练难度分值，以及训练难度分值的变化量，对样本集中的训练样本进行筛选，以便将筛选保留的训练样本用于该神经网络模型在多个轮次之后的后续分类任务训练。

技术研发人员：王家兴,李勇,宫礼星,刘朋樟,包勇军,颜伟鹏
受保护的技术使用者：北京沃东天骏信息技术有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1816570.html

专利

最新回复(0)