本说明书涉及计算机技术领域,尤其涉及一种图形码的风险检测方法、装置及设备。
背景技术:
图形码(如二维码等)作为一种普遍的信息存储和表现方式,在方便了网络信息传播的同时,也极易被黑产改造后用于欺诈等非法场景,尤其是在金融领域上,每天都发生着海量的基于图形码的交易,并充斥着各种各样的风险图形码,不仅造成了用户的资源损失,同时也使得金融领域的各个平台承担着极大的监管舆情风险。
通常,可以通过风险文字识别的方式确定图形码中是否存在风险,具体如可以先通过ocr(opticalcharacterrecognition,光学字符识别)模型识别图形码中的文字,然后,再通过将识别的文字与预先设定的高危关键词进行比对,从而识别存在风险的图形码。然而,上述方式会受到文字识别错误的影响,同时如果对高危关键词的更新不及时,也会导致风险覆盖率的下降,此外,ocr模型需要耗费的资源大,延迟时间长,从而影响整体的识别效能,为此,需要提供一种能够快速、有效且风险覆盖率更高的识别存在风险的图形码的技术方案。
技术实现要素:
本说明书实施例的目的是提供一种能够快速、有效且风险覆盖率更高的识别存在风险的图形码的技术方案。
为了实现上述技术方案,本说明书实施例是这样实现的:
本说明书实施例提供的一种图形码的风险检测方法,所述方法包括:获取待检测的目标图形码。对所述目标图形码进行特征提取,得到所述目标图形码对应的风险特征,所述风险特征中包括与所述目标图像码的图像或与所述图像中包含的信息相关的第一特征,以及与所述目标图形码的来源相关的第二特征。基于所述目标图形码对应的风险特征,分别确定所述目标图形码对应的风险特征中包含的每一种特征的风险分值。基于所述目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定所述目标图形码是否存在风险。
本说明书实施例提供的一种图形码的风险检测装置,所述装置包括:图形码获取模块,获取待检测的目标图形码。特征提取模块,对所述目标图形码进行特征提取,得到所述目标图形码对应的风险特征,所述风险特征中包括与所述目标图像码的图像或与所述图像中包含的信息相关的第一特征,以及与所述目标图形码的来源相关的第二特征。评分模块,基于所述目标图形码对应的风险特征,分别确定所述目标图形码对应的风险特征中包含的每一种特征的风险分值。风险识别模块,基于所述目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定所述目标图形码是否存在风险。
本说明书实施例提供的一种图形码的风险检测设备,包括:处理器;以及被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:获取待检测的目标图形码。对所述目标图形码进行特征提取,得到所述目标图形码对应的风险特征,所述风险特征中包括与所述目标图像码的图像或与所述图像中包含的信息相关的第一特征,以及与所述目标图形码的来源相关的第二特征。基于所述目标图形码对应的风险特征,分别确定所述目标图形码对应的风险特征中包含的每一种特征的风险分值。基于所述目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定所述目标图形码是否存在风险。
本说明书实施例还提供了一种存储介质,其中,所述存储介质用于存储计算机可执行指令,所述可执行指令在被执行时实现以下流程:获取待检测的目标图形码。对所述目标图形码进行特征提取,得到所述目标图形码对应的风险特征,所述风险特征中包括与所述目标图像码的图像或与所述图像中包含的信息相关的第一特征,以及与所述目标图形码的来源相关的第二特征。基于所述目标图形码对应的风险特征,分别确定所述目标图形码对应的风险特征中包含的每一种特征的风险分值。基于所述目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定所述目标图形码是否存在风险。
附图说明
为了更清楚地说明本说明书实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本说明书一种图形码的风险检测方法实施例;
图2为本说明书另一种图形码的风险检测方法实施例;
图3为本说明书一种图形码的风险检测装置实施例;
图4为本说明书一种图形码的风险检测设备实施例。
具体实施方式
本说明书实施例提供一种图形码的风险检测方法、装置及设备。
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
实施例一
如图1所示,本说明书实施例提供一种图形码的风险检测方法,该方法的执行主体可以为服务器,其中,该服务器可以是为某项业务(如进行交易的业务或金融业务等)具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等,或者,也可以是对图形码是否存在风险进行检测的服务器等。该方法具体可以包括以下步骤:
在步骤s102中,获取待检测的目标图形码。
其中,目标图形码可以是任意图形码,其中的图形码可以是通过某种特定的几何图形按照一定规律在二维平面或三维空间分布的、记录数据信息的图形,图形码在代码编制上可以巧妙地利用构成计算机内部逻辑基础的“0”、“1”比特流的概念,使用多个与二进制相对应的几何形体来表示文字数值信息,通过图象输入设备或光电扫描设备自动识读以实现信息的自动处理,图形码的每种码制具有特定的字符集,每个字符可以占有一定的宽度,具有一定的校验功能等。目标图形码可以包括多种,例如目标图形码可以为条形码,也可以是二维码等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,图形码(如二维码等)作为一种普遍的信息存储和表现方式,在方便了网络信息传播的同时,也极易被黑产改造后用于欺诈等非法场景,尤其是在金融领域上,每天都发生着海量的基于图形码的交易,并充斥着各种各样的风险图形码,不仅造成了用户的资源损失,同时也使得金融领域的各个平台承担着极大的监管舆情风险。如何快速、有效的识别存在风险的图形码成为需要解决的重要问题。
通常,可以通过风险文字识别的方式确定图形码中是否存在风险,具体如可以先通过ocr模型识别图形码中的文字,然后,再通过将识别的文字与预先设定的高危关键词进行比对,从而识别存在风险的图形码。然而,上述方式会受到文字识别错误的影响,同时如果对高危关键词的更新不及时,也会导致风险覆盖率的下降,此外,ocr模型需要耗费的资源大,延迟时间长,从而影响整体的识别效能,为此,需要提供一种能够快速、有效且风险覆盖率更高的识别存在风险的图形码的技术方案。
在实际应用中,可以通过多种不同的方式获取待检测的目标图形码,例如,可以预先设置对图形码检测的应用程序,该应用程序中可以设置有图形码的检测入口(例如,图形码检测的按键或超链接等)。当用户需要检测某图形码风否存在风险,则可以启动上述应用程序,并可以查找到图形码的检测入口。可以通过该检测入口上传待检测的目标图形码。
再例如,用户在第一次使用某图形码时,可以通过终端设备的摄像组件采集该图形码的图像,并可以将该图像发送给服务器,服务器可以接收该图像,并可以将该图像中的图形码作为待检测的目标图形码。
在实际应用中,除了可以通过上述方式获取待检测的目标图形码外,还可以通过其它多种方式获取待检测的目标图形码,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤s104中,对目标图形码进行特征提取,得到目标图形码对应的风险特征,该风险特征中包括与目标图像码的图像或与该图像中包含的信息相关的第一特征,以及与目标图形码的来源相关的第二特征。
在实施中,可以通过多种不同的方式对目标图形码进行特征提取,例如可以基于图形码的图像属性,预先设定图像识别相关的算法,可以通过该算法对目标图形码执行与目标图像码的图像相关的特征,具体如可以通过该算法确定该目标图形码中是否包含某指定的图像,如指定的头像或指定的欺诈类的图像等,或者,可以通过该算法确定该目标图形码中包含的纹理特征等。此外,还可以通过该算法对目标图形码执行与目标图像码的图像中包含的信息相关的特征,具体如可以通过该算法确定该目标图形码中包含的字符的颜色的数量、是否包括突出展示的字符等。通过上述方式得到的特征可以作为第一特征。
另外,可以基于图形码的来源,预先设定分类相关的算法,可以通过该算法对目标图形码执行目标图形码的来源相关的特征,具体如可以通过该算法确定该目标图形码中是否包含来源于终端设备的相册中,或者,可以通过该算法确定该目标图形码中是否包含来源于指定的高危的应用程序等,通过上述方式得到的特征可以作为第二特征。
此外,除了可以通过上述方式得到针对目标图形码的第一特征和第二特征外,还可以通过多种不同的方式获取目标图形码对应的风险特征,具体可以根据实际情况设定,本说明书实施例对此不做限定。
需要说明的是,对目标图形码进行特征提取的方法可以包括多种,例如可以通过指定的特征提取算法对目标图形码进行特征提取,或者,也可以通过预先训练的用于对图形码进行特征提取的模型对目标图形码进行特征提取等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在步骤s106中,基于目标图形码对应的风险特征,分别确定目标图形码对应的风险特征中包含的每一种特征的风险分值。
在实施中,可以根据实际情况预先设定不同风险特征对应的风险评分机制,例如可以设定目标图形码对应的风险特征中的第一特征的风险评分机制,以及设定目标图形码对应的风险特征中的第二特征的风险评分机制等。可以通过第一特征的风险评分机制对上述得到的第一特征进行风险评估,得到第一特征对应的风险分值。此外,还可以通过第二特征的风险评分机制对上述得到的第二特征进行风险评估,得到第二特征对应的风险分值。另外,还可以通过预先设定的其它特征的风险评分机制对上述得到的目标图形码对应的风险特征中的相应特征进行风险评估,得到该其它特征对应的风险分值。
例如,可以针对第一特征中的包含的特征类型设置不同的权重,并可以为不同的权重设定不同的风险分值,例如,对于第一特征中的该目标图形码中包含指定的欺诈类的图像设定最大的权重,并可以为其设定最高的风险分值,对于第一特征中的该目标图形码中包含一种字符颜色设定最小的权重,并可以为其设定最低的风险分值等。这样,可以基于第一特征中的包含的特征类型,分别确定第一特征对应的风险分值。可以采用相同的方式对第二特征以及其它特征中包含的内容设定相应的风险分值,最终可以得到目标图形码对应的风险特征中包含的每一种特征的风险分值。
在步骤s108中,基于目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定目标图形码是否存在风险。
其中,图形码风险识别策略可以是基于目标图形码对应的风险特征的风险分值确定目标图形码是否存在风险的策略,具体地,该图形码风险识别策略可以用于为不同的风险特征设定不同的权重等。
在实施中,可以根据实际情况,预先为不同的风险特征设定相应的权重,进而得到图形码风险识别策略。通过上述方式得到目标图形码对应的风险特征中包含的每一种特征的风险分值后,可以基于图形码风险识别策略,确定风险特征中包含的每一种特征对应的权重,然后,可以将风险特征中包含的每一种特征的风险分值与相应的权重相乘后再相加,最终得到相应的计算结果,可以将该计算结果与预先设定的阈值进行比较,如果该计算结果大于该阈值,则可以确定目标图形码存在风险,如果该计算结果小于该阈值,则可以确定目标图形码不存在风险。
具体如,风险特征中包含的每一种特征的风险分值分别为0.9,0.2,0.8,0.5,可以基于图形码风险识别策略,确定风险特征中包含的每一种特征对应的权重,可以分别为0.7,0.1,0.8,0.9,则最终得到的计算结果可以为(0.9x0.7 0.2x0.1 0.8x0.8 0.5x0.9)=1.74,如果预先设定的阈值为2,则可以将1.74与阈值2进行比较,从而可以确定目标图形码不存在风险。
本说明书实施例提供一种图形码的风险检测方法,通过对获取的待检测的目标图形码进行特征提取,得到目标图形码对应的风险特征,其中,该风险特征中包括与目标图像码的图像或与该图像中包含的信息相关的第一特征,以及与目标图形码的来源相关的第二特征,然后,可以基于目标图形码对应的风险特征,分别确定目标图形码对应的风险特征中包含的每一种特征的风险分值,最终,可以基于目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定目标图形码是否存在风险,这样,通过目标图形码中与目标图像码的图像或与该图像中包含的信息相关的特征,以及与目标图形码的来源相关的特征等多个角度对目标图形码进行风险识别,不仅提高了图形码风险识别的覆盖率,而且还增强了图形码风险识别的泛化能力,同时,还可以降低图形码风险识别过程的资源损耗,减少了图形码风险识别的延时。
实施例二
如图2所示,本说明书实施例提供一种图形码的风险检测方法,该方法的执行主体可以为服务器,其中,该服务器可以是为某项业务(如进行交易的业务或金融业务等)具体如,该服务器可以是支付业务的服务器,也可以是与金融或即时通讯等相关业务的服务器等,或者,也可以是对图形码是否存在风险进行检测的服务器等。该方法具体可以包括以下步骤:
在步骤s202中,基于预设的图像识别算法构建图像识别模型的模型架构。
其中,图像识别算法可以包括多种,例如,图像识别算法可以包括主动学习算法、fixmatch半监督学习算法、多任务学习算法、dynamicnas算法中的一种或多种,其中的主动学习算法可以通过一定的算法查询最有用的未标记样本,并交由专家进行标记,然后用查询到的样本训练主动学习模型,通过不断积累的信息修正主动学习模型。主动学习模型的处理过程需要学习者通过少量初始标记样本开始学习,通过一定的查询函数选择出一个或多个有效的样本,并向督导者询问相应的标签,然后利用获得的信息来训练主动学习模型和进行下一轮查询,主动学习模型的处理过程是一个循环的过程,直至达到某一停止准则为止。其中的查询函数的设计最常用的策略是不确定性准则和差异性准则,不确定性准则就是要找出不确定性高的样本数据,因为该样本数据所包含的丰富信息量,对训练模型来说就是有用的。fixmatch半监督学习算法可以使用一致性正则化和伪标签生成人工标签,并在执行一致性正则化时使用单独的弱增强和强增强。多任务学习算法可以将多个相关的任务同时并行学习,梯度同时反向传播,多个任务通过底层的共享表示(sharedrepresentation)来互相帮助学习,即多任务学习算法可以把多个相关的任务放在一起学习,学习过程中通过一个在浅层的共享(sharedrepresentation)表示来互相分享、互相补充学习到的领域相关的信息(domaininformation)。此外,在实际应用中,具体还可以包括如surf算法、brief算法、brisk(binaryrobustinvariantscalablekeypoints)算法、神经网络算法等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,图形识别模型可以基于预设的图像识别算法,通过图形码样本进行模型训练而构建,具体地,可以根据实际情况选取适当的图像识别算法,并可以通过选取的图像识别算法构建图像识别模型的模型架构,该模型架构中包括待确定的参数等。例如,可以选取卷积神经网络算法构建卷积神经网络模型的模型架构,该卷积神经网络模型中可以包括多个网络层,多个网络层中可以包括一个或多个不同的待确定的参数。
在步骤s204中,获取多个不同的图形码样本。
在实施中,可以通过多种不同的方式获取多个不同的图形码样本,例如可以通过购买的方式向不同的用户购买图形码,并可以将该图形码作为图形码样本,或者,可以通过邀请用户测试的方式请求用户提供图形码,并可以将该图形码作为图形码样本,或者,也可以通过预设的图形码生成机制生成多个不同的图形码,并可以将该图形码作为图形码样本等,具体可以根据实际情况设定,本说明书实施例对此不做限定。此外,还可以针对每个图形码样本标记相应的特征标签,以及每个特征对应的风险分值等,以便后续模型的训练。
在步骤s206中,对每个图像码样本进行特征提取,得到每个图像码样本的图像特征,该图像特征包括颜色特征、排版特征和图像特征中的一种或多种。
其中,颜色特征可以是与图像码样本中的颜色相关的特征,排版特征可以是与图像码样本中的排版、版式等相关的特征。颜色特征可以包括图像码样本中包含的字符颜色的数量、是否存在突出展示的颜色中的一种或多种。排版特征可以包括图像码样本是否为横排模式、图像码样本是否为竖排模式、图像码样本是否为混排模式中的一种或多种。图像特征可以包括图像码样本中是否包含头像、图像码样本中是否包含指定风险类型的图像中的一种或多种。
在步骤s208中,基于每个图像码样本的图像特征对图像识别模型进行模型训练,得到训练后的图形识别模型。
在步骤s210中,获取待检测的目标图形码。
在步骤s212中,对目标图形码进行特征提取,得到目标图形码对应的风险特征,该风险特征中包括与目标图像码的图像或与该图像中包含的信息相关的第一特征,以及与目标图形码的来源相关的第二特征。
其中,第一特征可以包括颜色特征、排版特征和图像特征中的一种或多种。此外,第一特征中也可以包括如纹理特征等。其中的颜色特征可以包括目标图形码中包含的字符颜色的数量、是否存在突出展示的颜色中的一种或多种;排版特征可以包括目标图形码是否为横排模式、目标图形码是否为竖排模式、目标图形码是否为混排模式中的一种或多种;图像特征可以包括目标图形码中是否包含头像、目标图形码中是否包含指定风险类型的图像中的一种或多种。第二特征可以包括目标图形码是否来源于指定的图像库、是否通过scheme方式拉起、是否来源于预先设定的具有指定风险的应用程序中的一种或多种,其中的scheme可以是一种页面内跳转协议,可以通过定义自身的scheme协议,方便的跳转应用程序中的各个页面,通过scheme方式,服务器可以定制化的指示应用程序跳转到哪个页面,可以通过h5页面跳转页面等,scheme方式可以实现通过url的形式进行跳转。
在步骤s214中,基于目标图形码对应的风险特征,获取目标图形码对应的风险特征中包含的每一种特征对应的风险评估模型。
其中,风险评估模型可以是对图形码中包含的多种不同的风险特征分别进行打分的模型,可以针对不同的风险特征,分别构建相应的风险评估模型,在实际应用中,可以是一种类型的风险特征对应一个风险评估模型,也可以是多种不同类型的风险特征对应一个风险评估模型等,具体可以根据实际情况设定,本说明书实施例对此不做限定。
在实施中,可以根据实际情况,针对图形码中可能存在的风险特征,预先构建相应的风险评估模型,例如,对于上述第一特征,可以预先训练图像识别模型,可以将训练后的图像识别模型作为风险评估模型,对于上述第二特征,可以预先训练分类模型,可以将训练后的分类模型作为风险评估模型等。然后,可以存储预先构建的风险评估模型,当确定目标图形码对应的风险特征后,可以从存储的风险评估模型中,获取目标图形码对应的风险特征中包含的每一种特征对应的风险评估模型,例如,针对第一特征,可以获取图像识别模型,对于第二特征,可以获取分类模型等。
在步骤s216中,将目标图形码对应的风险特征分别输入到相应的风险评估模型中,得到目标图形码对应的风险特征中包含的每一种特征的风险分值。
在实施中,基于上述步骤s214的相关内容,第一特征对应的风险评估模型可以为预先训练的图像识别模型,第二特征对应的风险评估模型可以为预先训练的分类模型,该分类模型可以基于预设的分类算法,通过图形码样本进行模型训练而构建,其中的分类算法可以包括如决策树算法、gbdt(gradientboostingdecisiontree,梯度提升决策树)算法、xgboost(extremegradientboosting,极端梯度提升)算法中的一种或多种,此外,分类算法除了上述算法外,还可以包括多种不同的分类算法,具体可以根据实际情况设定,本说明书实施例对此不做限定。本实施例中,该分类模型具体可以为二分类模型,二分类模型可以通过多种不同的方式构建,例如可以通过逻辑回归算法构建,也可以通过卷积神经网络模型构建等,具体可以根据实际情况设定,本说明书实施例对此不做限定。然后,可以将第一特征中的颜色特征输入到图像识别模型中,得到目标图形码对应的颜色特征的风险分值,可以将第一特征中的排版特征输入到图像识别模型中,得到目标图形码对应的排版特征的风险分值,可以将第一特征中的图像特征输入到图像识别模型中,得到目标图形码对应的图像特征的风险分值。可以将第二特征输入到二分类模型中,得到目标图形码对应的第二特征的风险分值。
在步骤s218中,基于预设的图形码风险识别策略构建并训练评分卡模型。
其中,评分卡模型可以是应用统计模型,它可基于对待检测的对象的各项信息进行评估并给出一个评分的分值,该评分的分值可以定量的对待检测的对象作出预判。其中的评分卡模型对应的评分卡可以由一系列特征项组成,每个特征项可以如上述具体特征的问题(如上所述的颜色特征中目标图形码中包含的字符颜色的数量、是否存在突出展示的颜色等问题),每一个特征项都有一系列可能的属性,即每一个问题的一系列可能答案(例如,对于目标图形码中包含的字符颜色的数量问题,其答案可以是1,也可以是5,还可以是7等)。在构建评分卡模型时,可以先确定属性与待检测的对象之间的相互关系,然后给属性分配适当的权重,分配的权重需要反映出上述的相互关系。一个待检测的对象的得分可以是其属性分值的简单求和。如果待检测的对象的得分大于等于预先设定的界限分数,此待检测的对象处于可接受的风险水平并将被批准,如果待检测的对象的得分低于上述界限分数,则待检测的对象将被拒绝使用或给予标示以便进一步审查。
在实施中,为了提高处理效率,可以基于预设的图形码风险识别策略中包含的内容,构建与其相对应的评分卡模型的模型架构(其中,该模型架构中可以包括待确定的参数),然后,可以获取多个不同的图形码样本,通过特征提取得到相应的风险特征,并确定不同风险特征对应的风险分值,并可以基于不同风险特征对应的风险分值对评分卡模型进行模型训练,最终得到训练后的评分卡模型。
在步骤s220中,将目标图形码对应的风险特征中包含的每一种特征的风险分值输入到评分卡模型中,得到目标图形码存在风险的分值。
在步骤s222中,基于目标图形码存在风险的分值,确定目标图形码是否存在风险。
在实施中,可以根据实际情况预先设定风险阈值,可以基于目标图形码存在风险的分值和该风险阈值,确定目标图形码是否存在风险,具体如,可以将目标图形码存在风险的分值与该风险阈值进行对比,如果目标图形码存在风险的分值小于该风险阈值,则可以确定目标图形码不存在风险,如果目标图形码存在风险的分值大于该风险阈值,则可以确定目标图形码存在风险。
本说明书实施例提供一种图形码的风险检测方法,通过对获取的待检测的目标图形码进行特征提取,得到目标图形码对应的风险特征,其中,该风险特征中包括与目标图像码的图像或与该图像中包含的信息相关的第一特征,以及与目标图形码的来源相关的第二特征,然后,可以基于目标图形码对应的风险特征,分别确定目标图形码对应的风险特征中包含的每一种特征的风险分值,最终,可以基于目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定目标图形码是否存在风险,这样,通过目标图形码中与目标图像码的图像或与该图像中包含的信息相关的特征,以及与目标图形码的来源相关的特征等多个角度对目标图形码进行风险识别,不仅提高了图形码风险识别的覆盖率,而且还增强了图形码风险识别的泛化能力,同时,还可以降低图形码风险识别过程的资源损耗,减少了图形码风险识别的延时。
实施例三
以上为本说明书实施例提供的图形码的风险检测方法,基于同样的思路,本说明书实施例还提供一种图形码的风险检测装置,如图3所示。
该图形码的风险检测装置包括:图形码获取模块301、特征提取模块302、评分模块303和风险识别模块304,其中:
图形码获取模块301,获取待检测的目标图形码;
特征提取模块302,对所述目标图形码进行特征提取,得到所述目标图形码对应的风险特征,所述风险特征中包括与所述目标图像码的图像或与所述图像中包含的信息相关的第一特征,以及与所述目标图形码的来源相关的第二特征;
评分模块303,基于所述目标图形码对应的风险特征,分别确定所述目标图形码对应的风险特征中包含的每一种特征的风险分值;
风险识别模块304,基于所述目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定所述目标图形码是否存在风险。
本说明书实施例中,所述第一特征包括颜色特征、排版特征和图像特征中的一种或多种。
本说明书实施例中,所述颜色特征包括所述目标图形码中包含的字符颜色的数量、是否存在突出展示的颜色中的一种或多种;所述排版特征包括所述目标图形码是否为横排模式、所述目标图形码是否为竖排模式、所述目标图形码是否为混排模式中的一种或多种;所述图像特征包括所述目标图形码中是否包含头像、所述目标图形码中是否包含指定风险类型的图像中的一种或多种。
本说明书实施例中,所述第二特征包括所述目标图形码是否来源于指定的图像库、是否通过scheme方式拉起、是否来源于预先设定的具有指定风险的应用程序中的一种或多种。
本说明书实施例中,所述评分模块303,包括:
评估模型确定单元,基于所述目标图形码对应的风险特征,获取所述目标图形码对应的风险特征中包含的每一种特征对应的风险评估模型;
评分单元,将所述目标图形码对应的风险特征分别输入到相应的风险评估模型中,得到所述目标图形码对应的风险特征中包含的每一种特征的风险分值。
本说明书实施例中,所述第一特征对应的风险评估模型为预先训练的图像识别模型,所述图形识别模型基于预设的图像识别算法,通过图形码样本进行模型训练而构建,所述图像识别算法包括主动学习算法、fixmatch半监督学习算法、多任务学习算法、dynamicnas算法中的一种或多种,所述第二特征对应的风险评估模型为预先训练的分类模型。
本说明书实施例中,所述装置还包括:
模型构建模块,基于预设的图像识别算法构建所述图像识别模型的模型架构;
样本获取模块,获取多个不同的图形码样本;
样本特征提取模块,对每个所述图像码样本进行特征提取,得到每个所述图像码样本的图像特征,所述图像特征包括颜色特征、排版特征和图像特征中的一种或多种;
训练模块,基于每个所述图像码样本的图像特征对所述图像识别模型进行模型训练,得到训练后的图形识别模型。
本说明书实施例中,所述风险识别模块304,包括:
评分卡构建单元,基于预设的图形码风险识别策略构建并训练评分卡模型;
风险分值确定单元,将所述目标图形码对应的风险特征中包含的每一种特征的风险分值输入到所述评分卡模型中,得到所述目标图形码存在风险的分值;
风险识别单元,基于所述目标图形码存在风险的分值,确定所述目标图形码是否存在风险。
本说明书实施例提供一种图形码的风险检测装置,通过对获取的待检测的目标图形码进行特征提取,得到目标图形码对应的风险特征,其中,该风险特征中包括与目标图像码的图像或与该图像中包含的信息相关的第一特征,以及与目标图形码的来源相关的第二特征,然后,可以基于目标图形码对应的风险特征,分别确定目标图形码对应的风险特征中包含的每一种特征的风险分值,最终,可以基于目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定目标图形码是否存在风险,这样,通过目标图形码中与目标图像码的图像或与该图像中包含的信息相关的特征,以及与目标图形码的来源相关的特征等多个角度对目标图形码进行风险识别,不仅提高了图形码风险识别的覆盖率,而且还增强了图形码风险识别的泛化能力,同时,还可以降低图形码风险识别过程的资源损耗,减少了图形码风险识别的延时。
实施例四
以上为本说明书实施例提供的图形码的风险检测装置,基于同样的思路,本说明书实施例还提供一种图形码的风险检测设备,如图4所示。
所述图形码的风险检测设备可以为上述实施例提供的服务器等。
图形码的风险检测设备可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上的处理器401和存储器402,存储器402中可以存储有一个或一个以上存储应用程序或数据。其中,存储器402可以是短暂存储或持久存储。存储在存储器402的应用程序可以包括一个或一个以上模块(图示未示出),每个模块可以包括对图形码的风险检测设备中的一系列计算机可执行指令。更进一步地,处理器401可以设置为与存储器402通信,在图形码的风险检测设备上执行存储器402中的一系列计算机可执行指令。图形码的风险检测设备还可以包括一个或一个以上电源403,一个或一个以上有线或无线网络接口404,一个或一个以上输入输出接口405,一个或一个以上键盘406。
具体在本实施例中,图形码的风险检测设备包括有存储器,以及一个或一个以上的程序,其中一个或者一个以上程序存储于存储器中,且一个或者一个以上程序可以包括一个或一个以上模块,且每个模块可以包括对图形码的风险检测设备中的一系列计算机可执行指令,且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令:
获取待检测的目标图形码;
对所述目标图形码进行特征提取,得到所述目标图形码对应的风险特征,所述风险特征中包括与所述目标图像码的图像或与所述图像中包含的信息相关的第一特征,以及与所述目标图形码的来源相关的第二特征;
基于所述目标图形码对应的风险特征,分别确定所述目标图形码对应的风险特征中包含的每一种特征的风险分值;
基于所述目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定所述目标图形码是否存在风险。
本说明书实施例中,所述第一特征包括颜色特征、排版特征和图像特征中的一种或多种。
本说明书实施例中,所述颜色特征包括所述目标图形码中包含的字符颜色的数量、是否存在突出展示的颜色中的一种或多种;所述排版特征包括所述目标图形码是否为横排模式、所述目标图形码是否为竖排模式、所述目标图形码是否为混排模式中的一种或多种;所述图像特征包括所述目标图形码中是否包含头像、所述目标图形码中是否包含指定风险类型的图像中的一种或多种。
本说明书实施例中,所述第二特征包括所述目标图形码是否来源于指定的图像库、是否通过scheme方式拉起、是否来源于预先设定的具有指定风险的应用程序中的一种或多种。
本说明书实施例中,所述基于所述目标图形码对应的风险特征,分别确定所述目标图形码对应的风险特征中包含的每一种特征的风险分值,包括:
基于所述目标图形码对应的风险特征,获取所述目标图形码对应的风险特征中包含的每一种特征对应的风险评估模型;
将所述目标图形码对应的风险特征分别输入到相应的风险评估模型中,得到所述目标图形码对应的风险特征中包含的每一种特征的风险分值。
本说明书实施例中,所述第一特征对应的风险评估模型为预先训练的图像识别模型,所述图形识别模型基于预设的图像识别算法,通过图形码样本进行模型训练而构建,所述图像识别算法包括主动学习算法、fixmatch半监督学习算法、多任务学习算法、dynamicnas算法中的一种或多种,所述第二特征对应的风险评估模型为预先训练的分类模型。
本说明书实施例中,还包括:
基于预设的图像识别算法构建所述图像识别模型的模型架构;
获取多个不同的图形码样本;
对每个所述图像码样本进行特征提取,得到每个所述图像码样本的图像特征,所述图像特征包括颜色特征、排版特征和图像特征中的一种或多种;
基于每个所述图像码样本的图像特征对所述图像识别模型进行模型训练,得到训练后的图形识别模型。
本说明书实施例中,所述基于所述目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定所述目标图形码是否存在风险,包括:
基于预设的图形码风险识别策略构建并训练评分卡模型;
将所述目标图形码对应的风险特征中包含的每一种特征的风险分值输入到所述评分卡模型中,得到所述目标图形码存在风险的分值;
基于所述目标图形码存在风险的分值,确定所述目标图形码是否存在风险。
本说明书实施例提供一种图形码的风险检测设备,通过对获取的待检测的目标图形码进行特征提取,得到目标图形码对应的风险特征,其中,该风险特征中包括与目标图像码的图像或与该图像中包含的信息相关的第一特征,以及与目标图形码的来源相关的第二特征,然后,可以基于目标图形码对应的风险特征,分别确定目标图形码对应的风险特征中包含的每一种特征的风险分值,最终,可以基于目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定目标图形码是否存在风险,这样,通过目标图形码中与目标图像码的图像或与该图像中包含的信息相关的特征,以及与目标图形码的来源相关的特征等多个角度对目标图形码进行风险识别,不仅提高了图形码风险识别的覆盖率,而且还增强了图形码风险识别的泛化能力,同时,还可以降低图形码风险识别过程的资源损耗,减少了图形码风险识别的延时。
实施例五
进一步地,基于上述图1和图2所示的方法,本说明书一个或多个实施例还提供了一种存储介质,用于存储计算机可执行指令信息,一种具体的实施例中,该存储介质可以为u盘、光盘、硬盘等,该存储介质存储的计算机可执行指令信息在被处理器执行时,能实现以下流程:
获取待检测的目标图形码;
对所述目标图形码进行特征提取,得到所述目标图形码对应的风险特征,所述风险特征中包括与所述目标图像码的图像或与所述图像中包含的信息相关的第一特征,以及与所述目标图形码的来源相关的第二特征;
基于所述目标图形码对应的风险特征,分别确定所述目标图形码对应的风险特征中包含的每一种特征的风险分值;
基于所述目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定所述目标图形码是否存在风险。
本说明书实施例中,所述第一特征包括颜色特征、排版特征和图像特征中的一种或多种。
本说明书实施例中,所述颜色特征包括所述目标图形码中包含的字符颜色的数量、是否存在突出展示的颜色中的一种或多种;所述排版特征包括所述目标图形码是否为横排模式、所述目标图形码是否为竖排模式、所述目标图形码是否为混排模式中的一种或多种;所述图像特征包括所述目标图形码中是否包含头像、所述目标图形码中是否包含指定风险类型的图像中的一种或多种。
本说明书实施例中,所述第二特征包括所述目标图形码是否来源于指定的图像库、是否通过scheme方式拉起、是否来源于预先设定的具有指定风险的应用程序中的一种或多种。
本说明书实施例中,所述基于所述目标图形码对应的风险特征,分别确定所述目标图形码对应的风险特征中包含的每一种特征的风险分值,包括:
基于所述目标图形码对应的风险特征,获取所述目标图形码对应的风险特征中包含的每一种特征对应的风险评估模型;
将所述目标图形码对应的风险特征分别输入到相应的风险评估模型中,得到所述目标图形码对应的风险特征中包含的每一种特征的风险分值。
本说明书实施例中,所述第一特征对应的风险评估模型为预先训练的图像识别模型,所述图形识别模型基于预设的图像识别算法,通过图形码样本进行模型训练而构建,所述图像识别算法包括主动学习算法、fixmatch半监督学习算法、多任务学习算法、dynamicnas算法中的一种或多种,所述第二特征对应的风险评估模型为预先训练的分类模型。
本说明书实施例中,还包括:
基于预设的图像识别算法构建所述图像识别模型的模型架构;
获取多个不同的图形码样本;
对每个所述图像码样本进行特征提取,得到每个所述图像码样本的图像特征,所述图像特征包括颜色特征、排版特征和图像特征中的一种或多种;
基于每个所述图像码样本的图像特征对所述图像识别模型进行模型训练,得到训练后的图形识别模型。
本说明书实施例中,所述基于所述目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定所述目标图形码是否存在风险,包括:
基于预设的图形码风险识别策略构建并训练评分卡模型;
将所述目标图形码对应的风险特征中包含的每一种特征的风险分值输入到所述评分卡模型中,得到所述目标图形码存在风险的分值;
基于所述目标图形码存在风险的分值,确定所述目标图形码是否存在风险。
本说明书实施例提供一种存储介质,通过对获取的待检测的目标图形码进行特征提取,得到目标图形码对应的风险特征,其中,该风险特征中包括与目标图像码的图像或与该图像中包含的信息相关的第一特征,以及与目标图形码的来源相关的第二特征,然后,可以基于目标图形码对应的风险特征,分别确定目标图形码对应的风险特征中包含的每一种特征的风险分值,最终,可以基于目标图形码对应的风险特征中包含的每一种特征的风险分值和预设的图形码风险识别策略,确定目标图形码是否存在风险,这样,通过目标图形码中与目标图像码的图像或与该图像中包含的信息相关的特征,以及与目标图形码的来源相关的特征等多个角度对目标图形码进行风险识别,不仅提高了图形码风险识别的覆盖率,而且还增强了图形码风险识别的泛化能力,同时,还可以降低图形码风险识别过程的资源损耗,减少了图形码风险识别的延时。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在20世纪90年代,对于一个技术的改进可以很明显地区分是硬件上的改进(例如,对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而,随着技术的发展,当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此,不能说一个方法流程的改进就不能用硬件实体模块来实现。例如,可编程逻辑器件(programmablelogicdevice,pld)(例如现场可编程门阵列(fieldprogrammablegatearray,fpga))就是这样一种集成电路,其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片pld上,而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且,如今,取代手工地制作集成电路芯片,这种编程也多半改用“逻辑编译器(logiccompiler)”软件来实现,它与程序开发撰写时所用的软件编译器相类似,而要编译之前的原始代码也得用特定的编程语言来撰写,此称之为硬件描述语言(hardwaredescriptionlanguage,hdl),而hdl也并非仅有一种,而是有许多种,如abel(advancedbooleanexpressionlanguage)、ahdl(alterahardwaredescriptionlanguage)、confluence、cupl(cornelluniversityprogramminglanguage)、hdcal、jhdl(javahardwaredescriptionlanguage)、lava、lola、myhdl、palasm、rhdl(rubyhardwaredescriptionlanguage)等,目前最普遍使用的是vhdl(very-high-speedintegratedcircuithardwaredescriptionlanguage)与verilog。本领域技术人员也应该清楚,只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中,就可以很容易得到实现该逻辑方法流程的硬件电路。
控制器可以按任何适当的方式实现,例如,控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式,控制器的例子包括但不限于以下微控制器:arc625d、atmelat91sam、microchippic18f26k20以及siliconelabsc8051f320,存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。
为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本说明书一个或多个实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。
本领域内的技术人员应明白,本说明书的实施例可提供为方法、系统、或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本说明书的实施例是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程欺诈案例的串并设备的处理器以产生一个机器,使得通过计算机或其他可编程欺诈案例的串并设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程欺诈案例的串并设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程欺诈案例的串并设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本说明书一个或多个实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本说明书一个或多个实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本说明书一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本说明书一个或多个实施例,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本说明书的实施例而已,并不用于限制本说明书。对于本领域技术人员来说,本说明书可以有各种更改和变化。凡在本说明书的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本说明书的权利要求范围之内。