目标对象的检测方法、装置和服务器与流程

专利2022-05-09  90



1.本说明书属于人工智能技术领域,尤其涉及目标对象的检测方法、装置和服务器。


背景技术:

2.在一些数据处理场景(例如,银行的相关业务办理场景)中,有时需要对在数据处理过程中所以采集到的图像数据进行分析识别,通过识别确定图像中是否包含有相关的目标对象,来确定数据处理是否符合相关要求。例如,识别确定办理具体业务时,用户是否提供了完整的证件、单据等材料。
3.由于所采集到的上述图像数据中所包含的真正要识别确定的目标对象的所占的区域范围往往较小,导致基于现有方法在对所采集到的上述图像数据进行具体识别确定时,很容易出现误差,识别精度较低。
4.针对上述问题,目前尚未提出有效的解决方案。


技术实现要素:

5.本说明书提供了一种目标对象的检测方法、装置和服务器,以精准地识别并确定出在目标场景采集得到的目标图像中目标对象的对象类别和位置信息,减少识别误差,提高识别精度。
6.本说明书提供了一种目标对象的检测方法,包括:
7.获取目标场景中待检测的目标图像;
8.调用预设的处理模型处理目标图像,得到对应的目标处理结果;其中,所述预设的处理模型为至少包含有改进的特征提取器的图像处理模型;所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;
9.根据所述目标处理结果,确定目标图像中是否包含有目标对象;并在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息。
10.在一个实施例中,所述预设的处理模型还包含有改进的定位结构;其中,所述改进的定位结构至少包含有依次相连的2层dbl模块、2层resnet unit单元。
11.在一个实施例中,所述预设的处理模型按照以下方式训练得到:
12.获取基于yolo v3结构的模型,作为第一初始模型;
13.在所述第一初始模型的特征提取器中增设第六卷积层,得到包含有改进的初始特征提取器的第二初始模型;
14.根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间模型;
15.对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型;
16.利用所述标注后的训练数据,训练所述第三初始模型,得到符合要求的预设的处理模型。
17.在一个实施例中,所述标注后的训练数据按照以下方式获取;
18.采集与目标场景相关的样本图像;
19.使用相匹配的标注框标注出所述样本图像中的目标对象、目标对象的对象类别,得到标注后的样本图像,作为所述标注后的训练数据。
20.在一个实施例中,获取基于yolo v3结构的模型,作为第一初始模型,包括:
21.构建基于yolo v3结构的网络模型,作为初始模型;
22.获取通用场景中采集的样本图像,并进行标注,得到标注后的初始训练数据;
23.利用所述标注后的初始训练数据,训练所述初始模型,以得到所述第一初始模型。
24.在一个实施例中,在得到所述第一初始模型之后,所述方法还包括:
25.根据所述标注后的训练数据,通过进行关于目标对象的边界框的长宽参数的聚类处理,得到不同类别的目标对象的边界框的长宽参数的聚类结果;
26.根据所述不同类别的目标对象的边界框的长宽参数的聚类结果,调整所述第一初始模型中的相关模型参数,得到调整后的第一初始模型。
27.在一个实施例中,所述改进的初始特征提取器还包含有第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层;
28.相应的,根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间模型,包括:
29.固定第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,利用标注后的训练数据,训练所述第二初始模型,以得到第一中间模型;
30.固定第一卷积层、第二卷积层、第三卷积层和第四卷积层,利用标注后的训练数据,训练所述第一中间模型,以得到第二中间模型;
31.固定第一卷积层、第二卷积层和第三卷积层,利用标注后的训练数据,训练所述第二中间模型,以得到第三中间模型;
32.固定第一卷积层和第二卷积层,利用标注后的训练数据,训练所述第三中间模型,以得到第四中间模型;
33.固定第一卷积层,利用标注后的训练数据,训练所述第四中间模型,以得到第五中间模型;
34.利用标注后的训练数据,训练所述第五中间模型,以得到所述中间模型。
35.在一个实施例中,对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型,包括:
36.删除所述中间模型中与所述第六卷积层相连的分类器;并增设包含有依次相连的2层dbl模块、2层resnet unit单元、1层卷积层和detection结构的改进的初始定位结构;
37.将中间模型的改进的特征提取器中的第六卷积层、第五卷积层、第四卷积层和第三卷积层与所述改进的初始定位结构相连,得到所述第三初始模型。
38.在一个实施例中,目标场景包括:基于远程授权的业务办理场景;相应的,所述目标对象的类别包括以下至少之一:用户的身份证件、用户的业务关联凭证、用户的业务单据。
39.在一个实施例中,在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息之后,所述方法还包括:
40.使用与目标对象的边界框相匹配的标注框,在目标图像中对应位置标注出目标对象,以及所述目标对象的对象类别,得到标注后的目标图像;
41.根据所述标注后的目标图像,检测是否满足预设的远程授权条件;
42.在确定满足预设的远程授权条件的情况下,响应用户要求,进行远程业务办理。
43.本说明书还提供了一种预设的处理模型的建立方法,包括:
44.获取基于yolo v3结构的模型,作为第一初始模型;
45.在所述第一初始模型的特征提取器中增设第六卷积层,得到包含有改进的初始特征提取器的第二初始模型;
46.根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间模型;
47.对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型;
48.利用所述标注后的训练数据,训练所述第三初始模型,得到符合要求的预设的处理模型。
49.在一个实施例中,对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型,包括:
50.删除所述中间模型中与所述第六卷积层相连的分类器;并增设包含有依次相连的2层dbl模块、2层resnet unit单元、1层卷积层和detection结构的改进的初始定位结构;
51.将中间模型的改进的特征提取器中的第六卷积层、第五卷积层、第四卷积层和第三卷积层与所述改进的初始定位结构相连,得到所述第三初始模型。
52.本说明书还提供了一种目标对象的检测装置,包括:
53.获取模块,用于获取目标场景中待检测的目标图像;
54.调用模块,用于调用预设的处理模型处理目标图像,得到对应的目标处理结果;其中,所述预设的处理模型为至少包含有改进的特征提取器的图像处理模型;所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;
55.确定模块,用于根据所述目标处理结果,确定目标图像中是否包含有目标对象;并在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息。
56.本说明书还提供了一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现所述目标对象的检测方法的步骤。
57.本说明书提供的一种目标对象的检测方法、装置和服务器,具体实施前,可以先构建并训练得到至少包含有的改进的特征提取器的,且适合处理目标图像中较小的目标对象的预设的处理模型,其中,上述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;具体实施时,在获取目标场景中待检测的目标图像之后,可以先调用上述预设的处理模型处理所述目标图像,得到对应目标处理结果;再根据目标处理结果,确定出目标图像中是否包含有目标对象,并在确定目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及目标对象在目标图像中的位置信息。通过调用上述包含有改进的特征提取器的预设的处理模型处理目标图像,能够有效
地提取得到针对目标图像中区域范围较小的目标对象的深层特征,进而可以利用上述深层特征,结合其他的浅层特征,更加精细、准确地对的目标对象的类别、位置等信息进行具体的识别和确定,从而可以精准地识别并确定出在目标场景采集得到的目标图像中目标对象的对象类别和位置信息,减少识别误差,提高识别精度。
附图说明
58.为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
59.图1是应用本说明书实施例提供的目标对象的检测方法的系统的结构组成的一个实施例的示意图;
60.图2是本说明书的一个实施例提供的目标对象的检测方法的流程示意图;
61.图3是在一个场景示例中,应用本说明书实施例提供的目标对象的检测方法的一种实施例的示意图;
62.图4是在一个场景示例中,应用本说明书实施例提供的目标对象的检测方法的一种实施例的示意图;
63.图5是在一个场景示例中,应用本说明书实施例提供的目标对象的检测方法的一种实施例的示意图;
64.图6是本说明书的一个实施例提供的预设的处理模型的建立方法的流程示意图;
65.图7是本说明书的一个实施例提供的服务器的结构组成示意图;
66.图8是本说明书的一个实施例提供的目标对象的检测装置的结构组成示意图;
67.图9是在一个场景示例中,应用本说明书实施例提供的目标对象的检测方法的一种实施例的示意图;
68.图10是在一个场景示例中,应用本说明书实施例提供的目标对象的检测方法的一种实施例的示意图;
69.图11是在一个场景示例中,应用本说明书实施例提供的目标对象的检测方法的一种实施例的示意图;
70.图12是在一个场景示例中,应用本说明书实施例提供的目标对象的检测方法的一种实施例的示意图;
71.图13是在一个场景示例中,应用本说明书实施例提供的目标对象的检测方法的一种实施例的示意图。
具体实施方式
72.为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
73.考虑到基于现有方法,往往是利用常规的图像处理模型来处理目标场景中采集的
待检测的目标图像。但是,由于在目标场景中所要识别确定的目标对象往往是诸如用户的证件等目标比较小的对象,即真正要识别确定的目标对象在目标图像中占的区域范围很小,而常规的图像处理模型往往不适用于处理上述较小的目标对象。因此,导致基于现有方法在利用常规的图像处理模型处理目标图像识别确定目标对象时,很容易出现误差,识别精度较低等问题。
74.针对产生上述问题的根本原因,本说明书考虑可以结合在目标图像中识别小目标的目标对象的识别特点,对模型结构进行针对性地改进,预先构建并训练出包含有6层卷积层的改进的特征提取器的图像处理模型,作为适用于处理目标图像中目标对象的预设的处理模型。进而在需要对目标场景中采集的目标图像进行识别处理时,可以调用上述预设的处理模型处理目标图像,以提取并利用目标图像中目标对象的深层特征,得到相对较为精细、准确的目标处理结果;再基于上述目标处理结果,较为精准地识别并确定出在目标场景采集得到的目标图像中目标对象的对象类别和位置信息。从而可以有效地减少识别误差,提高识别精度。
75.本说明书实施例提供一种目标对象的检测方法,所述方法具体可以应用于包含有服务器和终端设备的系统中。具体可以参阅图1所示,服务器和终端设备可以通过有线或无线的方式相连,以进行具体的数据交互。
76.在本实施例中,所述服务器具体可以包括一种应用于业务服务平台一侧,能够实现数据传输、数据处理等功能的后台服务器。具体的,所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,所述服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述服务器的数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
77.在本实施例中,所述终端设备具体可以包括一种应用于用户一侧,能够实现数据采集、数据传输等功能的前端。具体的,所述终端设备例如可以为台式电脑、平板电脑、笔记本电脑、智能手机等。或者,所述终端设备也可以为能够运行于上述电子设备中的软件应用。例如,可以是在智能手机上运行的某银行业务app等。
78.在本实施例中,用户可以使用安装有某银行业务app的手机作为终端设备。当前用户想要办理某银行的信用卡开卡业务,但是用户无法前往该银行进行现场办理。这时,用户可以根据某银行业务app的相关指示,利用所持有的终端设备与该银行的业务服务平台的服务器先进行远程授权,在授权通过后可以由服务器在线上远程为该用户办理相关的信用卡开卡业务。
79.具体实施时,用户可以先使用终端设备发起用于指示远程办理某银行信用卡开卡业务的服务请求。
80.相应的,服务器接收并响应上述服务请求,向终端设备反馈相关的引导信息。其中,上述引导信息具体包含有远程授权,以远程在线办理信用卡开卡业务时所需要准备并出示的相关证件材料(即目标对象),以及具体的操作流程。
81.终端设备接收并向该用户展示出上述引导信息。用户可以根据上述引导信息,先使用终端设备的摄像头拍摄自己手持身份证、信用卡等目标对象的照片作为目标图像,并通过手机网络将该目标图像发送至服务器。
82.服务器在接收得到目标图像之后,可以调用预先训练好的预设的处理模型,处理该目标图像,得到对应的目标处理结果。其中,上述预设的处理模型为至少包含有改进的特征提取器的图像处理模型,所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征。
83.服务器通过调用上述预设的处理模型处理目标图像,可以针对目标图像中的区域范围较小的目标对象,精细地提取得到相应的深层特征。其中,上述深层特征相对于基于常规的图像处理模型得到的普通特征,包含有与目标对象相关的更加丰富的特征信息。因此,通过上述预设的处理模型得到的目标处理结果相对于基于常规的图像处理模型所得到的处理结果,包含有更加丰富、全面的信息,具有更好的应用效果。
84.进而,服务器可以根据上述目标处理结果,先确定出该目标图像中是否包含有目标对象(例如,确定是否包含有远程授权时需要使用到的该用户的身份证、信用卡等证件材料)。
85.在确定目标图像中包含有目标对象之后,服务器可以进一步识别并确定出目标对象的对象类别,以及在目标图像中的位置信息;再在该目标图像中,使用相匹配的标注框在相应位置处标注出目标对象,同时标注出目标对象的对象类别,得到标注后的目标图像。
86.接着,服务器可以根据上述标注后的目标图像,检测目标图像所包含的目标对象的类别是否齐全、完整。
87.在确定目标图像所包含的目标对象的类别齐全、完整的情况下,服务器可以进一步标注出的对象类别,对各个标注框内的目标对象的图像区域进行信息提取和信息验证,得到相应的验证结果。
88.服务器根据上述验证结果,在确定对目标图像中的各个标注框内的目标对象验证通过的情况下,可以确定满足预设的远程授权条件,远程授权通过。
89.这时服务器可以根据该用户之前通过终端设备发起的服务请求,为该用户远程在线办理所请求的信用卡开卡业务。
90.通过上述实施例,服务器可以较为精准地识别并确定出目标图像中目标较小的目标对象的对象类别和位置信息;进而可以利用上述信息进行远程授权验证;在远程授权通过的情况下,再响应用户发起的服务请求,在线上为用户远程办理所请求的具体业务,从而可以保护用户的信息数据安全的同时,为用户提供更加便捷的业务办理方式,提高用户的使用体验。
91.参阅图2所示,本说明书实施例提供了一种目标对象的检测方法。其中,该方法具体应用于服务器一侧。具体实施时,该方法可以包括以下内容。
92.s201:获取目标场景中待检测的目标图像。
93.在一个实施例中,上述目标图像具体可以理解为在目标场景中采集的可能包含有目标对象的图像数据。
94.在一个实施例中,上述目标场景具体可以包括:基于远程授权的业务办理场景。具体的,例如,基于远程授权的信用卡开卡业务办理场景,或者基于远程授权的交易支付业务办理场景等。在上述目标场景中,用户可以不用前往现场,通过远程授权在线办理具体业务。
95.上述目标对象具体可以理解为基于远程授权的业务办理场景中需要使用到的数
据对象。具体的,上述数据对象可以包括多种不同类别的数据对象。
96.在目标场景包括基于远程授权的业务办理场景的情况下,上述所述目标对象的类别具体可以包括以下至少之一:用户的身份证件(例如,用户的身份证、用户的驾驶证等)、用户的业务关联凭证(例如,用户的信用卡、用户储蓄卡、用户的户口簿等)、用户的业务单据(例如,用户的自己上网下载并填写签名的业务办理申请单、用户的填写并签名的支票等)等。当然,上述所列举的类别只是一种示意性说明。具体实施时,根据具体情况和所针对的目标场景,上述目标对象还可以包括其他类别。例如,用户的卡片介质等其他相关材料等。对此,本说明书不作限定。
97.在上述基于远程授权的业务办理场景中,可以通过对目标场景中采集到的目标图像进行与目标对象相关的检测识别,以确定是否满足预设的授权条件,进而确定是否为用户远程在线办理具体业务。
98.通过上述实施例,可以将本说明书提供的目标对象的检测方法应用到基于远程授权的业务办理场景中,协助用户完成远程授权后,再为用户远程在线办理具体业务,使得用户办理业务的过程更加的方便、高效,提高了用户的使用体验。
99.在本实施例中,具体实施时,可以通过终端设备采集目标场景中目标图像;再由终端设备将上述目标图像发送至服务器。相应的,服务器可以获取待检测的目标图像。
100.s202:调用预设的处理模型处理目标图像,得到对应的目标处理结果;其中,所述预设的处理模型为至少包含有改进的特征提取器的图像处理模型;所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征。
101.在一个实施例中,上述预设的处理模型具体可以理解为一种基于改进的图像处理模型,训练得到的能够识别并确定出目标图像中目标对象的类别和位置的神经网络模型。关于上述预设的处理模型的构建和训练方式后续将另做说明。
102.具体的,上述预设的处理模型区别于常规的图像处理模型,所使用是改进的特征提取器。可以参阅图3所示。其中,改进的特征提取器至少包含有6层卷积层,分别记为:第一卷积层、第二卷积层、第三卷积层、第四卷积层、第五卷积层和第六卷积层。且上述6层卷积层中新增设的第六卷积层具体可以是一种4
×
res结构的卷积层,可以用于从目标图像中有针对性地提取目标对象的深层特征(例如,7
×
7的特征图)。上述深层特征具体可以理解为一种通过深层网络针对目标图像中小目标的目标对象所提取出的抽象特征。这类深层特征区别于浅层网络提取出的特征,包含有更加丰富、精细的针对目标对象的特征信息。而浅层特征往往相对会包含有较为丰富的关于目标对象相对目标图像的位置信息。在本实施例中,后续可以充分利用上述深层特征,并结合浅层特征,共同进行分析处理,以准确地识别确定出目标图像中小目标的目标对象的类别和位置。
103.在一个实施例中,所述预设的处理模型进一步还可以包含有改进的定位结构。具体可以参阅图4所示,所述改进的定位结构至少可以包含有依次相连的2层dbl模块、2层resnet unit单元。其中,参阅图10所示,上述dbl模块具体可以为神经网络中通过引入相应的卷积网络层(conv),结合其他的网络结构(例如,bn、leaky relu等)进行组合所得到的结构模块。
104.通过上述实施例,由于引入并使用改进的定位结构来代替常规的图像处理模型中使用的定位结构(通常包含有6层dbl模块),可以简化预设的处理模型在进行定位处理以确
定位置信息时的数据处理过程,从而可以更加高效地得到对应的目标处理结果。
105.在一个实施例中,具体实施时,首先,服务器可以将目标图像作为模型输入,输入至上述预设的处理模型。接着,运行预设的处理模型,通过利用模型中的上述改进的特征提取器中的第六层卷积层提取出包含有关于目标对象的丰富特征信息的深层特征(例如,7
×
7特征图);同时,还通过利用模型中的上述改进的特征提取器中的其他卷积层(例如,第五卷积层、第四卷积层和第三卷积层)分别提取出包含有关于目标对象的位置信息的浅层特征(例如,14
×
14特征图、28
×
28特征图、56
×
56特征图)。进而,可以同时综合利用上述深层特征和浅层特征,进行诸如分类和定位等具体的数据处理,以输出包含有与上述目标图像对应的对象类别和位置信息等参数作为模型输出,从而可以得到与目标图像对应的目标处理结果。
106.通过上述方式得到的目标处理结果由于是考虑并利用了上述深层特征,同时结合浅层特征所得到的,因此相对于基于常规的图像处理模型所得到的处理结果,更加的精细、准确,误差相对更小,也具有更高的参考应用价值。
107.s203:根据所述目标处理结果,确定目标图像中是否包含有目标对象;并在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息。
108.在一个实施例中,具体实施时,可以先根据所述目标处理结果,确定目标图像中是否包含有目标对象。
109.在确定目标图像中不包含有目标对象的情况下,可以停止后续的数据处理,生成并反馈目标图像中不包含目标对象的提示信息。
110.相反,在确定所述目标图像中包含有目标对象的情况下,可以根据目标处理结果继续后续的处理,以进一步确定出目标对象的对象类别,以及目标对象在目标图像中的位置信息。
111.在本实施例中,上述位置信息具体可以理解为目标对象的中心点在目标图像中的位置坐标。
112.在一个实施例中,在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息之后,所述方法具体实施时,还可以包括以下内容:使用与目标对象的边界框相匹配的标注框,在目标图像中对应位置标注出目标对象,以及所述目标对象的对象类别,得到标注后的目标图像;根据所述标注后的目标图像,检测是否满足预设的远程授权条件;在确定满足预设的远程授权条件的情况下,响应用户要求,进行远程业务办理。
113.通过上述实施例,在基于远程授权的业务办理场景中,服务器可以利用本说明书提供的目标对象的检测方法对目标图像进行与目标对象相关的检测与标注,得到准确度较高的标注后的目标图像;进而可以根据上述标注后的目标图像进行具体的远程授权验证,只有在远程授权验证通过的情况下,才会响应用户要求进行远程业务办理。从而可以在为用户办理业务提供便利的同时,有效地保护用户的数据安全。
114.在本实施例中,服务器可以先根据目标处理结果,在目标图像中的目标对象的位置信息所指示的位置处,生成并使用与目标对象匹配的标注框,框出该目标对象的图像区域;并在标注框的临近位置处,同时标注出该标注框中的目标对象的对象类别,从而可以得到标注后的目标图像。
115.在本实施例中,针对基于远程授权的业务办理场景,服务器可以根据标注后的目标图像,进行进一步的检测,以确定是否满足预设的远程授权条件。
116.具体的,服务器可以先通过检测标注后的目标图像,以确定目标图像所包含的目标对象的类别是否齐全、完整。在确定目标图像所包含的目标对象的类别齐全、完整的情况下,服务器可以进一步对各个标注框内的目标对象进行信息提取和信息验证,得到针对各个目标对象的验证结果。服务器根据上述验证结果,在确定对目标图像中的各个目标对象验证通过的情况下,可以确定满足预设的远程授权条件,远程授权通过。
117.相反,如果确定目标图像所包含的目标对象的类别不齐全、不完整、存在缺失;或者存在目标图像中至少一个目标对象验证未通过,可以确定不满足预设的远程授权条件,远程授权未通过。
118.在本实施例中,服务器在确定满足预设的远程授权条件,远程授权通过的情况下,才会响应用户要求(例如,用户发起的业务办理请求等),在线为用户进行相应的远程业务办理。
119.在本实施例中,具体实施时,可以调用预设的处理模型处理目标场景中的目标图像,得到对应的目标处理结果;根据目标处理结果,确定出目标图像中是否包含有目标对象,以及目标对象的对象类别、在目标图像中的位置信息。通过利用上述预设的处理模型处理目标图像,能够有效地提取得到针对目标图像中区域范围较小的目标对象的深层特征,进而可以利用上述深层特征,结合浅层特征,较为精准地识别出目标图像中目标对象的对象类别和位置信息。
120.在一个实施例中,具体实施前,可以按照以下方式构建并训练得到符合要求的预设的处理模型:获取基于yolo v3结构的模型,作为第一初始模型;在所述第一初始模型的特征提取器中增设第六卷积层,得到包含有改进的初始特征提取器的第二初始模型;根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间模型;对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型;利用所述标注后的训练数据,训练所述第三初始模型,得到符合要求的预设的处理模型。
121.在本实施例中,具体修改特征提取器时,可以在基于yolo v3结构的目标检测网络模型(例如,darknet53)基础上,将原本只包含有5层卷积层(分别记为:第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层)的特征提取器进行针对性的修改,在原本第五卷积层的后面连接一个新的4
×
res结构的卷积层,作为第六卷积层。这样可以在原有的特征提取器的基础上,通过利用上述新增设的第六卷积层提取得到关于目标对象的深层特征。
122.通过上述实施例具体实施前,可以构建并训练得到适用于目标场景的目标图像中小目标的目标对象的识别确定的预设的处理模型;进而后续具体实施时,可以利用上述预设的处理模型精准地识别并确定出目标图像中所包含的目标对象的对象类别,以及位置信息。
123.在本实施例中,上述yolo v3,也可以称为yolo(you only look once)系列目标检测算法中的第三版,具体可以理解为一种基于yolov1和yolov2调整了网络结构后得到的能够利用多尺度特征进行对象检测,利用logistic结构取代softmax结构进行回归分类的神经网络模型。
124.在一个实施例中,所述标注后的训练数据具体可以按照以下方式获取;采集与目标场景相关的样本图像(可以记为目标场景的样本数据);使用相匹配的标注框标注出所述样本图像中的目标对象、目标对象的对象类别,得到标注后的样本图像,作为所述标注后的训练数据。
125.通过上述实施例可以获取得到针对目标场景的、效果较好的,用于训练预设的处理模型的标注后的训练数据。
126.在一个实施例中,考虑到有时所能采集到的与目标场景相关的样本图像往往较为有限。为了能够训练得到效果相对较好的预设的处理模型,可以先基于所采集到的与目标场景相关的样本图像进行样本数据的扩充,以得到更加丰富、多样的样本图像。
127.在一个实施例中,具体实施时,可以通过对样本图像进行诸如旋转、折叠等操作,以对样本数据进行扩充。具体的,可以使用kreas函数对样本图像执行上述操作来扩充样本数据。
128.在一个实施例中,针对目标场景的样本数据相对有限的问题,进一步还可以引入并利用样本迁移学习,先利用其他通用场景的样本数据(例如,pascal voc coco数据集)来训练模型;在基于上述通用场景的样本数据训练得到的模型(例如,将该模型作为第一初始模型)的基础上,再利用目标场景的样本数据进行模型训练,以得到效果较好的预设的处理模型。
129.在一个实施例中,上述获取基于yolo v3结构的模型,作为第一初始模型,具体实施时,可以包括以下内容:构建基于yolo v3结构的网络模型,作为初始模型;获取通用场景中采集的样本图像,并进行标注,得到标注后的初始训练数据;利用所述标注后的初始训练数据,训练所述初始模型,以得到所述第一初始模型。
130.在本实施例中,上述通用场景具体可以理解为一种区别于目标场景,且所拥有数量较多的样本图像的应用场景。
131.通过上述实施例,可以有先利用其他通用场景的样本数据,通过样本迁移学习,训练得到已经具有一定模型结构的模型作为针对目标场景的第一初始模型;再利用目标场景的样本数据,在上述第一初始模型的基础上进行进一步的学习训练,从而可以利用基于其他通用场景的样本数据所得到的模型知识,来减少目标场景的样本数据不足对模型训练的影响,得到效果相对较好、针对目标场景的预设的处理模型。
132.在一个实施例中,在得到所述第一初始模型之后,所述方法具体实施时,还可以包括以下内容:根据所述标注后的训练数据,通过进行关于目标对象的边界框的长宽参数的聚类处理,得到不同类别的目标对象的边界框的长宽参数的聚类结果;根据所述不同类别的目标对象的边界框的长宽参数的聚类结果,调整所述第一初始模型中的相关模型参数,得到调整后的第一初始模型。
133.通过上述实施例,可以通过先对目标场景的标注后的训练数据进行聚类,以确定出对应不同类别的目标对象的长宽参数,以便后续具体实施时,可以根据目标对象的类别,在目标图像中使用与目标对象的边界框相匹配的标注框来标注出目标图像中的目标对象。
134.在一个实施例中,考虑到目标场景中目标对象的具体特点,可以有针对性地选择采用区别于常规yolo v3结构所使用的dimension priors算法的k

means聚类算法进行关于目标对象的边界框的长宽参数的聚类处理,得到更加适合目标场景的,效果更好的聚类
结果。当然,上述所列举的k

means聚类算法只是一种示意性说明。具体实施时,根据具体情况和处理需求还可以采用其他合适的算法来进行关于目标对象的边界框的长宽参数的聚类处理。
135.在一个实施例中,所述改进的初始特征提取器中除了包含有新增设的第六卷积层外,还包含有第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层。
136.相应的,上述根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间模型,具体实施实施,可以包括以下内容:固定第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,利用标注后的训练数据,训练所述第二初始模型,以得到第一中间模型;固定第一卷积层、第二卷积层、第三卷积层和第四卷积层,利用标注后的训练数据,训练所述第一中间模型,以得到第二中间模型;固定第一卷积层、第二卷积层和第三卷积层,利用标注后的训练数据,训练所述第二中间模型,以得到第三中间模型;固定第一卷积层和第二卷积层,利用标注后的训练数据,训练所述第三中间模型,以得到第四中间模型;固定第一卷积层,利用标注后的训练数据,训练所述第四中间模型,以得到第五中间模型;利用标注后的训练数据,训练所述第五中间模型,以得到所述中间模型。
137.通过上述实施例,可以根据特征提取器中不同卷积层的具体特点,分阶段地依次固定不同的卷积层,进行模型训练,从而可以更加快速地完成对上述特征提取器的训练,收敛得到能够识别确定目标对象的对象类别的中间模型,缩短了模型的整体训练耗时,提高模型的整体训练效率。
138.在一个实施例中,上述第二初始模型具体可以是一种包含有分类器的神经网络模型。其中,分类器与第二初始模型的特征提取器中的第六卷积层、第五卷积层、第四卷积层和第三卷积层相连。这样模型具体运行时,通过上述第六层卷积层、第五层卷积层、第四层卷积层和第三层卷积层分别输出的7
×
7的特征图、14
×
14的特征图、28
×
28的特征图和56
×
56的特征图多个不同尺度的特征图可以通过上述连接输入分类器中,进而分类器可以根据上述包含有目标对象的深层特征(即,7
×
7的特征图),和/或浅层特征(例如,14
×
14的特征图、28
×
28的特征图和56
×
56的特征图)的多个不同尺度的特征图,精准地确定对目标对象进行分类,以确定出目标对象的对象类别。
139.在一个实施例中,上述对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型,具体实施时,可以包括以下内容:删除所述中间模型中与所述第六卷积层相连的分类器;并增设包含有依次相连的2层dbl模块、2层resnet unit单元、1层卷积层和detection结构的改进的初始定位结构;将中间模型的改进的特征提取器中的第六卷积层、第五卷积层、第四卷积层和第三卷积层与所述改进的初始定位结构相连,得到所述第三初始模型。其中,上述detection结构具体可以理解为一种yolo v3中的目标检测结构。
140.在本实施例中,在具体连接中间模型的特征提取器与改进的初始定位结构时,可以参阅图5所示,从第六层卷积层起向上依次将第六层卷积层、第五层卷积层、第四层卷积层和第三层卷积层进行组合连接(例如,concat操作)后,再与改进的初始定位结构中第一层的dbl模块相连。这样模型具体运行时,通过上述第六层卷积层、第五层卷积层、第四层卷积层和第三层卷积层输出的7
×
7的特征图、14
×
14的特征图、28
×
28的特征图和56
×
56的特征图多个不同尺度的特征图可以通过上述连接输入改进的定位结构。进而改进的定位结
构可以根据上述包含有目标对象的深层特征(即7
×
7的特征图),同时集合浅层特征(例如,14
×
14的特征图、28
×
28的特征图和56
×
56的特征图)的多个不同尺度的特征图,精准地确定出目标对象在目标图像中的位置信息。
141.通过上述实施例,可以将之前训练得到的能够识别确定目标对象的对象类别的中间模型修改为同时能够支持识别确定目标对象在目标图像中的位置信息的,且包含有结构相对更加简洁的改进的初始定位结构的第三初始模型;进而后续可以再基于上述第三初始模型进行模型训练,以进一步缩短模型的整体训练耗时,提高模型的整体训练效率。
142.在一个实施例中,可以利用目标场景的标注后的训练数据,对上述第三初始模型进行具体的学习训练,直到得到模型精度符合预设的精度要求的模型,作为上述符合要求的能够同时识别并确定出目标图像中目标对象的对象类别和位置信息的预设的处理模型。
143.由上可见,本说明书实施例提供的目标对象的检测方法,具体实施前,可以先构建并训练得到至少包含有的改进的特征提取器的,且适合处理目标对象的预设的处理模型,其中,上述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;具体实施时,在获取目标场景中待检测的目标图像之后,可以调用上述预设的处理模型处理所述目标图像,得到对应目标处理结果;根据目标处理结果,确定出目标图像中是否包含有目标对象,并在确定包含有目标对象的情况下,确定出目标对象的类别,以及在目标图像中的位置信息。通过利用上述包含有改进的特征提取器的预设的处理模型处理目标图像,能够有效地提取得到针对目标图像中区域范围较小的目标对象的深层特征,进而可以利用上述深层特征,同时结合浅层特征,更加精细、准确地对的目标对象的类别、位置等信息进行识别和确定,从而可以精准地识别并确定出在目标场景采集得到的目标图像中目标对象的对象类别和位置信息,减少识别误差,提高识别精度。
144.参阅图6所示,本说明书实施例还提供了一种预设的处理模型的建立方法。其中,该方法具体实施时,可以包括以下内容。
145.s601:获取基于yolo v3结构的模型,作为第一初始模型。
146.s602:在所述第一初始模型的特征提取器中增设第六卷积层,得到包含有改进的初始特征提取器的第二初始模型。
147.s603:根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间模型。
148.s604:对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型。
149.s605:利用所述标注后的训练数据,训练所述第三初始模型,得到符合要求的预设的处理模型。
150.通过上述实施例,可以训练得到精度较高、效果较好,且适用于目标场景所采集到的目标图像中的目标对象的识别确定的预设处理模型。
151.在一个实施例中,上述对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型,具体实施时,可以包括以下内容:删除所述中间模型中与所述第六卷积层相连的分类器;并增设包含有依次相连的2层dbl模块、2层resnet unit单元、1层卷积层和detection结构的改进的初始定位结构;将中间模型的改进的特征提取器中的第六卷积层、第五卷积层、第四卷积层和第三卷积层与所述改进的初始定位结构相连,得到
所述第三初始模型。
152.通过上述实施例,可以得到包含有数据处理结构相对较为简洁的定位结构的第三初始模型,基于上述第三初始模型进行预设的处理模型的训练,可以有效地缩短模型训练耗时,提高模型训练效率。
153.由上可见,本说明书实施例提供的预设的处理模型的建立方法,可以较为高效地训练得到精度较高、效果较好,且适用于目标场景所采集到的目标图像中的目标对象的识别确定的预设处理模型。
154.本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取目标场景中待检测的目标图像;调用预设的处理模型处理目标图像,得到对应的目标处理结果;其中,所述预设的处理模型为至少包含有改进的特征提取器的图像处理模型;所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;根据所述目标处理结果,确定目标图像中是否包含有目标对象;并在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息。
155.为了能够更加准确地完成上述指令,参阅图7所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口701、处理器702以及存储器703,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
156.其中,所述网络通信端口701,具体可以用于获取目标场景中待检测的目标图像。
157.所述处理器702,具体可以用于调用预设的处理模型处理目标图像,得到对应的目标处理结果;其中,所述预设的处理模型为至少包含有改进的特征提取器的图像处理模型;所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;根据所述目标处理结果,确定目标图像中是否包含有目标对象;并在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息。
158.所述存储器703,具体可以用于存储相应的指令程序。
159.在本实施例中,所述网络通信端口701可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行ftp数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如gsm、cdma等;其还可以为wifi芯片;其还可以为蓝牙芯片。
160.在本实施例中,所述处理器702可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(application specific integrated circuit,asic)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
161.在本实施例中,所述存储器703可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如ram、fifo等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、tf卡等。
162.本说明书实施例还提供了一种基于上述目标对象的检测方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取目标场景中待检测的目标图像;调用预设的处理模型处理目标图像,得到对应的目标处理结果;其中,所述预设的处理模型为至少包含有改进的特征提取器的图像处理模型;所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;根据所述目标处理结果,确定目标图像中是否包含有目标对象;并在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息。
163.在本实施例中,上述存储介质包括但不限于随机存取存储器(random access memory,ram)、只读存储器(read

only memory,rom)、缓存(cache)、硬盘(hard disk drive,hdd)或者存储卡(memory card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
164.本说明书实施例还提供了一种基于上述预设的处理模型的建立方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取基于yolo v3结构的模型,作为第一初始模型;在所述第一初始模型的特征提取器中增设第六卷积层,得到包含有改进的初始特征提取器的第二初始模型;根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间模型;对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型;利用所述标注后的训练数据,训练所述第三初始模型,得到符合要求的预设的处理模型。
165.在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其他实施方式对照解释,在此不再赘述。
166.参阅图8所示,在软件层面上,本说明书实施例还提供了一种目标对象的检测装置,该装置具体可以包括以下的结构模块。
167.获取模块801,具体可以用于获取目标场景中待检测的目标图像;
168.调用模块802,具体可以用于调用预设的处理模型处理目标图像,得到对应的目标处理结果;其中,所述预设的处理模型为至少包含有改进的特征提取器的图像处理模型;所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;
169.确定模块803,具体可以用于根据所述目标处理结果,确定目标图像中是否包含有目标对象;并在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息。
170.需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其他的形式。
171.由上可见,本说明书实施例提供的目标对象的检测装置,通过利用上述包含有改进的特征提取器的预设的处理模型处理目标图像,能够有效地提取得到针对目标图像中区域范围较小的目标对象的深层特征,进而可以利用上述深层特征更加精细、准确地对的目标对象的类别、位置等信息进行识别和确定,从而可以精准地识别并确定出在目标场景采集得到的目标图像中目标对象的对象类别和位置信息,减少识别误差,提高识别精度。
172.在一个具体的场景示例中,可以应有本说明书提供的目标对象的检测方法构建并训练得到用于银行远程授权场景的客户身份证、卡片介质、交易凭证等资料(对应目标对象)的识别和检测的模型(对应预设的处理模型)。具体实施过程,可以参阅以下内容。
173.在本场景示例中,可以以yolo v3模型为基础,设计一种改进的卷积神经网络模型(例如,预设的处理模型)用于在银行远程授权场景中对客户身份证、卡片介质、交易凭证等资料的识别与检测。
174.具体的,可以在yolo v3中特征提取器darknet53的基础上增加了一个残差结构(例如,第六卷积层),在其中增加了4个残差单元来提取检测目标的深层特征信息。为了提高对身份证、卡片等目标对象的检测性能,还在网络模型中使用了四种尺度的特征图。其中,深层的特征图具有更加丰富的特征信息,而浅层网络的特征图具有更加丰富的位置信息,通过使用不同尺度特征图组合能将深层特征信息和浅层特征信息进行融合,以便更好地利用这些特征信息,以此来提高模型的准确率和召回率。
175.此外,原yolo v3模型在每一种尺度目标检测输出层中都使用了6层的dbl单元(也可以称为dbl模块)和1x1卷积的结构,而在本场景示例中将上述6层结构减少到了两层为2层,并额外添加了2层res_unit单元(也可以记为resnet unit单元)。
176.进一步,原始yolo v3中的anchor组合对于小目标检测不再适合,在本场景示例中先使用k

means聚类算法在针对目标检测数据集(例如,目标场景的标注后的训练数据)上对目标框的宽和高重新聚类,选择出最优的anchor boxes的个数。
177.在本场景示例中,参阅图9所示,具体处理过程可以包括以下多个步骤。
178.步骤1,采集客户身份证、卡片介质、交易凭证、存折、存单、护照、银行卡等资料以构建本发明远程授权场景所需数据集。该步骤具体可以包括以下多个内容。
179.步骤1.1)采集至少3000张且分辨率不低于608x608的图像(例如,样本图像),以保证样本均衡;采集时可以尽量采集光线充足,无强曝光或过于黑暗的情况的图像;此外,采集照片的主体(例如,目标对象)最好在图片中,且主体中排占整体的1/6以上;合适角度。
180.步骤1.2)使用图像标注工具对每一张图像中的客户身份证等待检测目标,人工标注出边界框并生生成对应的标注文件(得到标注后的训练数据)。
181.步骤1.3)将图像和标注文件组合成训练数据集和测试数数据集。
182.步骤2,构建并训练目标检测网络(对应于构建并训练得到预设的处理模型)。该步骤具体可以包括以下多个内容。
183.首先可以搭建基于yolov3的目标检测网络。即,搭建本发明目标检测网络。参阅图3所示,针对银行远程授权场景中对客户身份证、卡片介质、交易凭证等资料的识别与检测所搭建的目标检测网络可以包含目标特征提取层、特征图及目标特征输出层。其实现如下:
184.步骤2.1)搭建本场景的目标检测网络的目标特征提取层,可以参阅图3所示。
185.可以在darknet53的backbone网络的目标特征提取网络的基础上增加了一个残差
块,每一个残差块的基本单元是由dbl模块构成。对于一个dbl模块的结构,可以图10所示,卷积后进行批量归一化操作再通过leaky relu的激活函数。在yolov3原结构中,在最后一层卷积层上得到的是13
×
13大小的特征图,本文在原结构基础上增加了4
×
res结构(例如,第六卷积层)来提取深层客户身份证、卡片介质、交易凭证等资料的特征,使得最后一层卷积层输出的特征图大小为7
×
7,通过较深的网络结构能使得目标特征网络获取到更多的特征信息。其中,res结构可以参阅图11所示。resn代表res_block里含有多少个res_unit,由0padding后通过dbl结构再通过残差单元构成的,进而可以得到相应的res unit。
186.步骤2.2)搭建本场景的目标检测网络的特征图。
187.在本场景中,使用四种不同尺度的特征图来进行对象检测,可以参阅图12所示。本场景的目标检测网络有四种不同的特征图,分别为:56
×
56,28
×
28,14
×
14,7
×
7等大小如图3中后面四个卷积层的输出。将新加的残差块得到的特征图feature map进行上2倍的采样,将之与更早得到的特征图与经过上采样得到的特征图进行连接操作,使得深层的网络可以提取到更加细粒度的特征,实现多尺度预测。
188.步骤2.3)搭建场景的目标检测网络的目标特征输出层。
189.参阅图13所示,其中,原yolov3模型在每一种尺度目标检测输出层中都使用了6层的dbl单元和1
×
1卷积的结构。在本场景中,将这6层结构减少到了两层并额外添加了2层res_unit单元。具体可以参阅图4和图5所示的结构。
190.步骤3,对场景示的目标检测网络进行训练。该步骤具体可以包括以下多个内容。
191.步骤3.1)配置运行目标检测模型的软硬件环境。例如,可以配置cuda、cudnn、python、anaconda、spyder等环境。
192.步骤3.2)使用kreas中的数据增旋转、翻转等扩充本发明的数据集。对本发明数据集进行数据扩充。
193.具体的,可以使用keras.preprocessing.image函数对原来的图片进行水平或者垂直翻转、扭曲、变形、拉伸等方式扩充数据集。
194.步骤3.3)下载yolov3模型的预训练权重文件,用于模型训练。
195.步骤3.4)还对本场景所使用的数据集进行边界框聚类。
196.在本场景示例中,由于使用的数据集是客户身份证、卡片介质、交易凭证、存折、存单、护照、银行卡等资料检测的数据集,而yolov3原网络定义的dimension priors是在通用的目标检测数据上训练产生的,因此原网络定义的dimension priors对于场景验证时所使用的数据集不太适用。进而可以首先利用k

means聚类算法对数据集中待检测目标的高和宽进行聚类分类。
197.步骤3.5)使用迁移学习的方法对目标检测网络进行训练,包括:先在通用数据集mscoco、imagenet等对目标检测模型进行预训练(得到第一初始模型),再将初步训练的模型在本场景的训练集上进行训练。
198.一般情况下,在某个数据集上进行神经网络的训练时,需要从头开始训练神经网络中的各项参数,当训练完成后,需要保存神经网络模型各项权重参数的值。等到需要对某个目标进行预测时,则将待预测图像输入到神经网络模型中进行预测,得到预测值。若有另一个相关联的数据集也需要同样的训练时,则不需要重新从头开始训练一个新的神经网络模型。在此情况下可以使用迁移学习的思路,复用上一个神经网络模型,在第二个数据集上
对上一个神经网络模型进行参数的微调和权值的优化。
199.在完成上述训练,得到训练好的目标检测网络后,可以向目标检测网络输入待检测的图片。通过目标检测网络输出对应的目标检测结果。
200.在本场景示例中,借用迁移学习的思想,在imagenet、pascal voc数据集上训练预模型。再将此预训练模型的参数迁移到本场景的pupcr数据集中。
201.在场景示例中,可以将改进后的yolov3模型在pascal voc 2007及coco数据集上进行预训练,得到预训练模型。然后固定预训练模型的前部分(例如,中间模型),然后使用pucpr数据集进行模型的再次训练,最后解冻后部分,再次训练对模型进行全部参数调整(得到预设的处理模型)。
202.通过上述场景示例,可以在yolov3特征提取器darknet53的基础上增加了一个残差结构,在其中增加了4个残差单元来提取检测目标的深层特征信息;为了提高小目标的检测性能,在网络中使用了四种不同尺度的特征图,以便更好地获取不同尺度的特征信息,进而提高模型对多种尺度对象的查询效果。此外,对yolov3模型的每一种尺度目标检测输出层进行了改进。此外,还使用了k

means聚类算法在小目标检测数据集上对目标框的宽和高进行重新聚类,从中选出最优的维度聚类个数。从而提升对小目标的检测效果,提升在银行远程授权场景中客户身份证、卡片介质、交易凭证、存折、存单、护照、银行卡等资料的识别与检测的准确性,得到精度较高、效果较好的网络模型。
203.虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
204.本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
205.本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
206.通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可
借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
207.本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
208.虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。

技术特征:
1.一种目标对象的检测方法,其特征在于,包括:获取目标场景中待检测的目标图像;调用预设的处理模型处理目标图像,得到对应的目标处理结果;其中,所述预设的处理模型为至少包含有改进的特征提取器的图像处理模型;所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;根据所述目标处理结果,确定目标图像中是否包含有目标对象;并在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息。2.根据权利要求1所述的方法,其特征在于,所述预设的处理模型还包含有改进的定位结构;其中,所述改进的定位结构至少包含有依次相连的2层dbl模块、2层resnet unit单元。3.根据权利要求2所述的方法,其特征在于,所述预设的处理模型按照以下方式训练得到:获取基于yolo v3结构的模型,作为第一初始模型;在所述第一初始模型的特征提取器中增设第六卷积层,得到包含有改进的初始特征提取器的第二初始模型;根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间模型;对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型;利用所述标注后的训练数据,训练所述第三初始模型,得到符合要求的预设的处理模型。4.根据权利要求3所述的方法,其特征在于,所述标注后的训练数据按照以下方式获取;采集与目标场景相关的样本图像;使用相匹配的标注框标注出所述样本图像中的目标对象、目标对象的对象类别,得到标注后的样本图像,作为所述标注后的训练数据。5.根据权利要求4所述的方法,其特征在于,获取基于yolo v3结构的模型,作为第一初始模型,包括:构建基于yolo v3结构的网络模型,作为初始模型;获取通用场景中采集的样本图像,并进行标注,得到标注后的初始训练数据;利用所述标注后的初始训练数据,训练所述初始模型,以得到所述第一初始模型。6.根据权利要求5所述的方法,其特征在于,在得到所述第一初始模型之后,所述方法还包括:根据所述标注后的训练数据,通过进行关于目标对象的边界框的长宽参数的聚类处理,得到不同类别的目标对象的边界框的长宽参数的聚类结果;根据所述不同类别的目标对象的边界框的长宽参数的聚类结果,调整所述第一初始模型中的相关模型参数,得到调整后的第一初始模型。7.根据权利要求3所述的方法,其特征在于,所述改进的初始特征提取器还包含有第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层;相应的,根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间
模型,包括:固定第一卷积层、第二卷积层、第三卷积层、第四卷积层和第五卷积层,利用标注后的训练数据,训练所述第二初始模型,以得到第一中间模型;固定第一卷积层、第二卷积层、第三卷积层和第四卷积层,利用标注后的训练数据,训练所述第一中间模型,以得到第二中间模型;固定第一卷积层、第二卷积层和第三卷积层,利用标注后的训练数据,训练所述第二中间模型,以得到第三中间模型;固定第一卷积层和第二卷积层,利用标注后的训练数据,训练所述第三中间模型,以得到第四中间模型;固定第一卷积层,利用标注后的训练数据,训练所述第四中间模型,以得到第五中间模型;利用标注后的训练数据,训练所述第五中间模型,以得到所述中间模型。8.根据权利要求7所述的方法,其特征在于,对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型,包括:删除所述中间模型中与所述第六卷积层相连的分类器;并增设包含有依次相连的2层dbl模块、2层resnet unit单元、1层卷积层和detection结构的改进的初始定位结构;将中间模型的改进的特征提取器中的第六卷积层、第五卷积层、第四卷积层和第三卷积层与所述改进的初始定位结构相连,得到所述第三初始模型。9.根据权利要求1所述的方法,其特征在于,目标场景包括:基于远程授权的业务办理场景;相应的,所述目标对象的类别包括以下至少之一:用户的身份证件、用户的业务关联凭证、用户的业务单据。10.根据权利要求9所述的方法,其特征在于,在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息之后,所述方法还包括:使用与目标对象的边界框相匹配的标注框,在目标图像中对应位置标注出目标对象,以及所述目标对象的对象类别,得到标注后的目标图像;根据所述标注后的目标图像,检测是否满足预设的远程授权条件;在确定满足预设的远程授权条件的情况下,响应用户要求,进行远程业务办理。11.一种预设的处理模型的建立方法,其特征在于,包括:获取基于yolo v3结构的模型,作为第一初始模型;在所述第一初始模型的特征提取器中增设第六卷积层,得到包含有改进的初始特征提取器的第二初始模型;根据预设的训练规则,利用标注后的训练数据,训练第二初始模型,得到中间模型;对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型;利用所述标注后的训练数据,训练所述第三初始模型,得到符合要求的预设的处理模型。12.根据权利要求11所述的方法,其特征在于,对所述中间模型进行修改,得到包含有改进的初始定位结构的模型,作为第三初始模型,包括:删除所述中间模型中与所述第六卷积层相连的分类器;并增设包含有依次相连的2层
dbl模块、2层resnet unit单元、1层卷积层和detection结构的改进的初始定位结构;将中间模型的改进的特征提取器中的第六卷积层、第五卷积层、第四卷积层和第三卷积层与所述改进的初始定位结构相连,得到所述第三初始模型。13.一种目标对象的检测装置,其特征在于,包括:获取模块,用于获取目标场景中待检测的目标图像;调用模块,用于调用预设的处理模型处理目标图像,得到对应的目标处理结果;其中,所述预设的处理模型为至少包含有改进的特征提取器的图像处理模型;所述改进的特征提取器至少包含有6层卷积层,且所述6层卷积层中的第六卷积层用于提取目标对象的深层特征;确定模块,用于根据所述目标处理结果,确定目标图像中是否包含有目标对象;并在确定所述目标图像中包含有目标对象的情况下,确定出目标对象的对象类别,以及位置信息。14.一种服务器,其特征在于,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现权利要求1至10中任一项所述方法的步骤。
技术总结
本说明书提供了目标对象的检测方法、装置和服务器。基于该方法,具体实施前,构建并训练得到至少包含有的改进的特征提取器的预设的处理模型,其中,改进的特征提取器至少包含有6层卷积层,且6层卷积层中的第六卷积层用于提取目标对象的深层特征;具体实施时,可以调用预设的处理模型处理目标场景中的目标图像,得到对应的目标处理结果;根据目标处理结果,确定出目标图像中是否包含有目标对象,以及目标对象的对象类别和位置信息。通过调用上述预设的处理模型处理目标图像,能够有效地提取得到针对目标图像中区域范围较小的目标对象的深层特征,进而可以利用深层特征结合浅层特征,较为精准地识别出目标图像中目标对象的对象类别和位置信息。类别和位置信息。类别和位置信息。


技术研发人员:杨瑞迪
受保护的技术使用者:中国工商银行股份有限公司
技术研发日:2021.03.25
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-14365.html

最新回复(0)