价签识别方法、终端、存储装置与流程

专利2022-05-09  18


本发明涉及价签识别技术领域,尤其涉及一种价签识别方法、终端、存储装置。



背景技术:

价签识别作为文本识别的一个重要子任务,指的是在商品价格标签中正确识别出其所展示的价格的过程,是快速消费品行业利用图像识别技术感知分销、排面,获取竞品信息的重要一环。

目前,进行价签识别时需要人员手动识别各类价签,以及输入价签的价格信息,识别效率低,需要员工重复工作、强度大、人力成本高,而且,人的精力有限,通过人力统计也容易出现识别错误的现象,降低了价签识别的准确率。



技术实现要素:

为了克服现有技术的不足,本发明提出一种价签识别方法、终端、存储装置,利用价签的图像信息训练价签识别模型,并通过价签识别模型得到待识别价签的价签数据,根据价签数据中数字、数字区域的坐标信息和类别信息获取价签对应的价格,能够自动对价签进行识别以及获取价格信息,识别效率高,降低了员工的工作强度和人力成本,并且不容易出现识别错误的问题,提高了价签识别的准确率。

为解决上述问题,本发明采用的一种价签识别方法,所述价签识别方法包括:s101:采集价签的图像,并获取所述图像的图像信息,所述图像信息包括价格数据对应的数字和数字区域的坐标信息、类别信息;s102:将所述图像信息送入神经网络训练形成价签识别模型,通过所述价签识别模型获取待识别价签的图像中的价签数据,所述价签数据包括所述待识别价签的数字以及数字区域的坐标信息和类别信息;s103:获取所述待识别价签中的数字对应的数值,并根据所述数字区域的类别信息以及数值获取所述待识别价签对应的价格。

进一步地,所述采集价签的图像的步骤具体包括:通过拍照、数据抓取中的至少一种方式获取价签的图像。

进一步地,所述类别信息包括所述数字的数值类别以及所述数字区域对应的价格单位类别。

进一步地,所述将所述图像信息送入神经网络训练形成价签识别模型的步骤之前还包括:对所述图像信息进行预处理,所述预处理包括数据增强、归一化。

进一步地,所述将所述图像信息送入神经网络训练形成价签识别模型的步骤具体包括:将所述图像信息输入神经网络进行训练形成价签识别模型,并判断所述价签识别模型的损失函数、平均准确率是否满足预设条件;若是,则确定所述价签识别模型为最优模型;若否,则调整网络超参数,利用调整后的网络超参数训练所述价签识别模型。

进一步地,所述获取所述待识别价签中的数字对应的数值的步骤具体包括:根据所述数字的坐标对所述数字进行排序,并将排序后的数字由字符串类型转换为数值类型。

进一步地,所述根据所述数字区域的类别信息以及数值获取所述待识别价签对应的价格的步骤具体包括:根据所述数字区域的类别信息确定所述数字区域对应的数字的价格单位,通过所述数字的价格单位、排序以及数值确定所述待识别价签对应的价格。

进一步地,所述获取所述待识别价签中的数字对应的数值之前还包括:对所述数字、数字区域分别进行非极大值抑制处理。

基于相同的发明构思,本发明还提出一种智能终端,所述智能终端包括处理器、存储器,所述处理器与所述存储器通信连接,所述存储器存储有计算机程序,所述处理器根据所述计算机程序执行如上所述的价签识别方法。

基于相同的发明构思,本发明还提出一种存储装置,存储装置存储有程序数据,所述程序数据被用于执行如上所述的价签识别方法。

相比现有技术,本发明的有益效果在于:利用价签的图像信息训练价签识别模型,并通过价签识别模型得到待识别价签的价签数据,根据价签数据中数字、数字区域的坐标信息和类别信息获取价签对应的价格,能够自动对价签进行识别以及获取价格信息,识别效率高,降低了员工的工作强度和人力成本,并且不容易出现识别错误的问题,提高了价签识别的准确率。

附图说明

图1为本发明价签识别方法一实施例的流程图;

图2为本发明价签识别方法另一实施例的流程图;

图3为本发明智能终端一实施例的结构图;

图4为本发明存储装置一实施例的结构图。

具体实施方式

下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

请参阅图1-2,其中,图1为本发明价签识别方法一实施例的流程图;图2为本发明价签识别方法另一实施例的流程图。结合图1-2对本发明的价签识别方法进行说明。

在本实施例中,执行该价签识别方法的设备可以为电脑、服务器、控制平台以及其他能够训练价签识别模型,通过价签识别模型识别待识别价签的智能终端。其中,价签识别方法包括:

s101:采集价签的图像,并获取图像的图像信息,图像信息包括价格数据对应的数字和数字区域的坐标信息、类别信息。

在本实施例中,数字为价签中的价格数字,数字区域为价签所在的区域。采集价签的图像的步骤具体包括:通过拍照、数据抓取中的至少一种方式获取价签的图像。

在本实施例中,采集的图像可以为价签整体的图像,也可以为价签中价格数据所在区域的图像。

在一个具体的实施例中,通过拍摄价签的照片以及人工线上抓取的方式采集价签的图像数据。

在本实施例中,图像标注工具标注图像中的数字、数字区域的方式获取图像信息。其中,图像标注工具可以为labelme、labelimg以及其他图像标注工具。

在本实施例中,类别信息包括数字的数值类别以及数字区域对应的价格单位类别。

在本实施例中,类别信息为0,1,2,3,4,5,6,7,8,9,10,11,12,其中,0,1,2,3,4,5,6,7,8,9依次对应表示价签中价格数字0,1,2,3,4,5,6,7,8,9的数值类型,10,11,12分别表述数字区域中的价格单位元、角、分。

在其他实施例中,用于表示价格单位类型的类别信息还可以为价格单位的改变进行相应调整,并不限于人民币的价格单位。

在其他实施例中,获取的图像信息还可以包括数字的大小信息、颜色信息、形状信息以及其他能够使价签中的价格数字区别于价签中其他图像或文字的信息。

s102:将图像信息送入神经网络训练形成价签识别模型,通过价签识别模型获取待识别价签的图像中的价签数据,价签数据包括待识别价签的数字以及数字区域的坐标信息和类别信息。

在本实施例中,将图像信息送入神经网络训练形成价签识别模型的步骤之前还包括:对图像信息进行预处理,预处理包括数据增强、归一化。

在其他实施例中,预处理还可以包括二值化、图像分割以及其他能够提高价格识别准确率的处理方式。

在本实施例中,将图像信息送入神经网络训练形成价签识别模型的步骤具体包括:将图像信息输入神经网络进行训练形成价签识别模型,并判断价签识别模型的损失函数、平均准确率是否满足预设条件;若是,则确定价签识别模型为最优模型;若否,则调整网络超参数,利用调整后的网络超参数训练价签识别模型。

在本实施例中,预设条件为损失函数收敛且平均准确率位于95%附近,如大于95%或不低于90%。

在其他实施例中,平均准确率也可以为94%、96%以及其他数值,在此不作限定。

在本实施例中,参与训练的图像信息为coco、voc以及其他数据集格式,神经网络为fasterrcnn网络以及其他能够进行多任务学习的神经网络。

在一个具体的实施例中,形成价签识别模型的步骤包括:s1:使用卷积神经网络作为骨干网络(backbone)对输入图像信息中的价签图像进行特征提取,该骨干网络可以是zf、vgg、resnet等诸多性能优良的卷积神经网络结构,由采用的骨干网络得到相应维度的特征图(featuremap),该特征图被共享用于后续的区域生成网络层(regionproposalnetwork,rpn)层和全连接层。s2:训练区域生成网络,该网络由3×3×channels(channels的值由具体骨干网络决定)卷积分别接1×1×18卷积核和1×1×36卷积核,分别完成对事先生成好的anchors的分类和回归(特征图的每一个像素点都会分别按照8,16,32的尺度和2:1,1:1,1:2的宽高比生成9个anchors),对所有anchors进行位置修正,即回归后,取softmax分类概率为前景的最大的6000个候选框(proposals)进行nms(非极大值抑制处理),最后得到大约2000个修正位置后的候选框进入到下一阶段的训练。rpn网络的损失函数由分类损失和回归损失共同构成。s3将rpn生成的所有候选框对应回原featuremap进行maxpooling(最大值池化)操作,即进行roipooling(感兴趣区域池化),每个候选框得到7×7固定尺寸特征图。s4:该特征图进入到全连接层进行更加细致的分类和更加精确的回归,与rpn不同的是,全连接层会对rpn生成的候选框进行更加细致的分类,而rpn网络只进行前景和背景二分类。全连接层的损失函数与rpn网络的损失函数一致,两者相加则共同构成了fasterrcnn网络的损失函数。通过s1-s4得到图像信息中数字和价格区域的坐标信息、以及类别信息。其中,坐标信息为数字、数字区域对应的检测框的坐标信息。其中,通过公式获取损失函数,pi表示当前候选框为数字或者价格区域的概率,为对应的真实标签,取值为1表示候选框为正样本(数字或者价格区域),取值为0表示候选框为负样本(非数字或者价格区域)。ti表示预测框相对于候选框的偏移量或者伸缩量,表示真实框(groundtruth)相对于候选框的偏移量或者伸缩量。回归的目的就是让预测的偏移量或者伸缩量ti与真实的偏移量或者伸缩量一致,ncls为分类任务中的样本数量,nreg为回归任务中的样本数量,λ为分类损失和回归损失的平衡系数。针对分类任务,采用交叉熵损失函数:进行分类。针对回归任务,采用smoothl1损失函数:lreg(t,t*)=smoothl1(t-t*)计算。

在本实施例中,待识别价签的价签数据以数组的形式被价签识别模型输出以用于后续处理。

s103:获取待识别价签中的数字对应的数值,并根据数字区域的类别信息以及数值获取待识别价签对应的价格。

在本实施例中,获取所述待识别价签中的数字对应的数值的步骤具体包括:根据数字的坐标对数字进行排序,并将排序后的数字由字符串类型转换为数值类型。其中,数字对应的数字区域的类型相同时,根据数字的排序结果确定其数值。

在本实施例中,根据数字区域的类别信息以及数值获取待识别价签对应的价格的步骤具体包括:根据数字区域的类别信息确定数字区域对应的数字的价格单位,通过数字的价格单位、排序以及数值确定待识别价签对应的价格。在一个具体的实施例中,通过公式得到待识别价签对应的价格。其中,x为数字的数值,在数字对应的数字区域的价格单位为元时,采用公式(1)计算价格,数字对应的数字区域的价格单位为角时,采用公式(2)计算价格,数字对应的数字区域的价格单位为分时,采用公式(3)计算价格。并将所有数字计算的价格相加得到价格的价格数据。

在本实施例中,获取待识别价签中的数字对应的数值之前还包括:对数字、数字区域分别进行非极大值抑制处理。

在一个具体的实施例中,对所有数字和数字区域分别执行类间nms(非极大值抑制)操作,对nms后的数字按其在x轴上的坐标从左至右排序(以图像中价签数据水平排列时的水平方向作为x轴),并由字符串类型转换为数值类型,记为x,同时通过数字区域的类别标签获取相应价格单位并做换算得到当前价签中的价格。

本发明的有益效果在于:利用价签的图像信息训练价签识别模型,并通过价签识别模型得到待识别价签的价签数据,根据价签数据中数字、数字区域的坐标信息和类别信息获取价签对应的价格,能够自动对价签进行识别以及获取价格信息,识别效率高,降低了员工的工作强度和人力成本,并且不容易出现识别错误的问题,提高了价签识别的准确率。

基于相同的发明构思,本发明还提出一种智能终端,请参阅图3,图3为本发明智能终端一实施例的结构图,结合图3对本发明的智能终端进行说明。

在本实施例中,智能终端包括处理器、存储器,处理器与存储器通信连接,存储器存储有计算机程序,处理器根据该计算机程序实现如上述实施例所述的价签识别方法。

其中,处理器用于控制该智能终端的整体操作,以完成上述的价签识别方法中的全部或部分步骤。存储器用于存储各种类型的数据以支持在该智能终端的操作,这些数据例如可以包括用于在该智能终端上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器static方向直线random方向直线access方向直线memory,简称sram),电可擦除可编程只读存储器electrically方向直线erasable方向直线programmable方向直线read-only方向直线memory,简称eeprom),可擦除可编程只读存储器erasable方向直线programmable方向直线read-only方向直线memory,简称eprom),可编程只读存储器programmable方向直线read-only方向直线memory,简称prom),只读存储器read-only方向直线memory,简称rom),磁存储器,快闪存储器,磁盘或光盘。

基于相同的发明构思,本发明还提出一种存储装置,请参阅图4,图4为本发明存储装置一实施例的结构图,结合图4对本发明的存储装置进行说明。

在本实施例中,存储装置存储有程序数据,该程序数据被用于执行如上述实施例所述的价签识别方法。

其中,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其他实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

转载请注明原文地址:https://doc.8miu.com/read-350138.html

最新回复(0)