样本筛选方法、装置、设备、计算机可读介质和程序产品与流程

专利2026-06-04 23

本公开的实施例涉及超级深度学习，具体涉及样本筛选方法、装置、设备、计算机可读介质和程序产品。

背景技术：

1、以监督学习为主的深度学习算法，通常需要根据业务场景设立一个损失函数，依赖大量的有标签数据以及长时间训练，才能使模型达到目标性能。然而实际应用中，样本往往是无标注的，需要耗费大量的时间成本去标注样本。因此，为了减少标注成本，需要对样本进行筛选，以尽可能少的标注样本训练模型，使得模型达到目标性能。在对样本进行筛选时，通常采用的方式为：通过深度学习采样策略对样本进行筛选。例如，可以通过损失预测模块对样本进行筛选时。此时，损失预测模块需要与业务模型联合训练。

2、然而，发明人发现，当采用上述方式对样本进行筛选时，经常会存在如下技术问题：

3、损失预测模块需要与业务模型联合训练，造成深度学习采样策略依赖于业务模型的特征输出，导致样本筛选效率较低。

4、该背景技术部分中所公开的以上信息仅用于增强对本发明构思的背景的理解，并因此，其可包含并不形成本国的本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

2、本公开的一些实施例提出了样本筛选方法、装置、电子设备、计算机可读介质和程序产品，来解决以上背景技术部分提到的技术问题中的一项或多项。

3、第一方面，本公开的一些实施例提供了一种样本筛选方法，该方法包括：对未标注图像样本集中的每个未标注图像样本执行以下得分生成步骤：根据样本打分模型包括的图像分类子模型中的各个特征提取层，生成上述未标注图像样本对应的至少一个未标注图像样本特征信息，其中，上述样本打分模型是根据已标注图像样本集训练得到的；根据上述样本打分模型包括的得分生成子模型和上述至少一个未标注图像样本特征信息，生成对应上述未标注图像样本的得分；根据生成的各个对应未标注图像样本的得分，从上述未标注图像样本集中筛选出满足目标得分条件的各个未标注图像样本，以得到目标未标注图像样本集。

4、可选地，上述根据上述样本打分模型包括的得分生成子模型和上述至少一个未标注图像样本特征信息，生成对应上述未标注图像样本的得分，包括：对上述至少一个未标注图像样本特征信息中的每个未标注图像样本特征信息进行特征处理，得到对应上述未标注图像样本特征信息的未标注图像特征处理信息；对得到的各个未标注图像特征处理信息进行组合处理，得到未标注图像特征组合信息；确定上述未标注图像特征组合信息对应的得分，作为上述未标注图像样本对应的得分。

5、可选地，上述对上述至少一个未标注图像样本特征信息中的每个未标注图像样本特征信息进行特征处理，得到对应上述未标注图像样本特征信息的未标注图像特征处理信息，包括：对于上述至少一个未标注图像样本特征信息中的每个未标注图像样本特征信息，执行以下特征处理步骤：对上述未标注图像样本特征信息进行池化处理，得到未标注图像样本特征池化信息；对上述未标注图像样本特征池化信息进行全连接处理，得到未标注图像样本特征全连接信息；对上述未标注图像样本特征全连接信息进行激活处理，得到未标注图像样本特征激活信息，作为对应上述未标注图像样本特征信息的未标注图像特征处理信息。

6、可选地，上述方法还包括：确定初始业务模型和对应上述目标未标注图像样本集的完成标注图像样本集；对上述初始业务模型执行以下目标业务模型生成步骤：通过上述完成标注图像样本集对上述初始业务模型进行训练，得到训练后业务模型；响应于上述训练后业务模型满足预设精度条件，将上述训练后业务模型确定为目标业务模型。

7、可选地，上述确定初始业务模型和对应上述目标未标注图像样本集的完成标注图像样本集，包括：通过已标注图像样本集对预训练模型进行训练，得到上述初始业务模型。

8、可选地，上述目标业务模型生成步骤还包括：响应于上述训练后业务模型不满足上述预设精度条件，确定新增完成标注图像样本集；将新增完成标注图像样本集作为完成标注图像样本集，将上述训练后业务模型作为初始业务模型再次执行上述目标业务模型生成步骤。

9、第二方面，本公开的一些实施例提供了一种样本筛选装置，装置包括：得分生成单元，被配置成对未标注图像样本集中的每个未标注图像样本执行以下得分生成步骤：根据样本打分模型包括的图像分类子模型中的各个特征提取层，生成上述未标注图像样本对应的至少一个未标注图像样本特征信息，其中，上述样本打分模型是根据已标注图像样本集训练得到的；根据上述样本打分模型包括的得分生成子模型和上述至少一个未标注图像样本特征信息，生成对应上述未标注图像样本的得分；筛选单元，被配置成根据生成的各个对应未标注图像样本的得分，从上述未标注图像样本集中筛选出满足目标得分条件的各个未标注图像样本，以得到目标未标注图像样本集。

10、第三方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面任一实现方式所描述的方法。

11、第四方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述第一方面任一实现方式所描述的方法。

12、第五方面，本公开的一些实施例提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述第一方面任一实现方式所描述的方法。

13、本公开的上述各个实施例具有如下有益效果：通过本公开的一些实施例的样本筛选方法可以实现在不与业务模型交互的前提下，减少用于模型训练的样本的标注数量，提高了样本筛选效率。具体来说，造成相关的对样本进行筛选的方式样本筛选效率较低的原因在于：损失预测模块需要与业务模型联合训练，造成深度学习采样策略依赖于业务模型的特征输出。基于此，本公开的一些实施例的样本筛选方法，首先，对未标注图像样本集中的每个未标注图像样本执行以下得分生成步骤：根据样本打分模型包括的图像分类子模型中的各个特征提取层，生成上述未标注图像样本对应的至少一个未标注图像样本特征信息，其中，上述样本打分模型是根据已标注图像样本集训练得到的。根据上述样本打分模型包括的得分生成子模型和上述至少一个未标注图像样本特征信息，生成对应上述未标注图像样本的得分。由此，由于样本打分模型是根据已标注图像样本集训练得到的，所以样本打分模型包括的图像分类模型在训练过程中学习了已标注数据与未标注数据的分布特征，从而实现采样流程与业务算法模型的解绑，不再依赖于业务模型的特征输出。最后，根据生成的各个对应未标注图像样本的得分，从上述未标注图像样本集中筛选出满足目标得分条件的各个未标注图像样本，以得到目标未标注图像样本集。由此，可以根据各个未标注图像样本的打分，对各个未标注图像样本进行筛选，得到目标未标注图像样本，从而实现在经人工标注后推送给业务模型以进行训练。由此，本公开的一些实施例的样本筛选方法可以实现在不与业务模型交互的前提下，减少用于模型训练的样本的标注数量，提高了样本筛选效率。

技术特征：

1.一种样本筛选方法，包括：

2.根据权利要求1所述的方法，其中，所述根据所述样本打分模型包括的得分生成子模型和所述至少一个未标注图像样本特征信息，生成对应所述未标注图像样本的得分，包括：

3.根据权利要求2所述的方法，其中，所述对所述至少一个未标注图像样本特征信息中的每个未标注图像样本特征信息进行特征处理，得到对应所述未标注图像样本特征信息的未标注图像特征处理信息，包括：

4.根据权利要求1-3之一所述的方法，其中，所述方法还包括：

5.根据权利要求4所述的方法，其中，所述确定初始业务模型和对应所述目标未标注图像样本集的完成标注图像样本集，包括：

6.根据权利要求4所述的方法，其中，所述目标业务模型生成步骤还包括：

7.一种样本筛选装置，包括：

8.一种电子设备，包括：

9.一种计算机可读介质，其上存储有计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述的方法。

10.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。

技术总结
本公开的实施例公开了样本筛选方法、装置、设备、计算机可读介质和程序产品。该方法的一具体实施方式包括：对未标注图像样本集中的每个未标注图像样本执行以下得分生成步骤：根据样本打分模型包括的图像分类子模型中的各个特征提取层，生成未标注图像样本对应的至少一个未标注图像样本特征信息；根据样本打分模型包括的得分生成子模型和至少一个未标注图像样本特征信息，生成对应未标注图像样本的得分；从未标注图像样本集中筛选出满足目标得分条件的各个未标注图像样本，以得到目标未标注图像样本集。该实施方式与超级深度学习有关，实现了在不与业务模型交互的前提下，减少用于模型训练的样本的标注数量，提高了样本筛选效率。

技术研发人员：李娇阳,刘雅,宋子韬,朱小坤,包勇军
受保护的技术使用者：北京沃东天骏信息技术有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1829718.html

专利

最新回复(0)