本发明涉及图像识别领域,尤其涉及一种行为识别方法、装置及计算机设备。
背景技术:
为了提升营业厅工作人员的服务质量,维护企业的良好形象,需要加强对营业厅工作人员的工作状态和行为规范监督。员工在工作期间吸烟或玩手机十分影响其工作效率,造成到访客户的不满。另外,在公共场所吸烟不仅损害自身健康,其也严重污染室内空气,影响他人健康。随着ai(artificialintelligence,简称ai)技术的发展,图像识别被广泛应用到生活、生产的各个方面。应用先进的图像识别技术,对营业厅的工作人员吸烟玩手机行为进行管控,可以有效地提升工作人员的工作服务效率,为文明服务护航,提升客户满意度及企业自身的形象。
目前在行为识别领域,现有技术多集中在不区分对象的行为识别,而对特定人群特定行为的识别方案比较缺乏,并且多针对跳绳、挥手、跑步等具有显著肢体动作的行为。尤其,针对吸烟或玩手机这类非显著肢体行为的识别,目前的技术方案存在识别精度差、识别效率低的情况。
技术实现要素:
针对上述问题,本发明提出一种行为识别方法、装置及计算机设备。
具体方案如下:
第一方面,本公开实施例提供了一种行为识别方法,所述方法包括:
提取当前帧图像中各待测对象的骨骼关键点,其中,所述骨骼关键点至少包括手腕关键点、手肘关键点和肩部关键点;
根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象,其中,手臂夹角为手肘关键点和肩部关键点构成的向量与手肘关键点和手腕关键点构成的向量之间的夹角;
获取目标对象的手部区域图像,其中,手部区域图像为包含手腕关键点及邻接区域的图像;
利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果,其中,目标物体包括香烟和手机中的至少一种,行为识别结果包括存在异常行为和不存在异常行为,存在异常行为包括吸烟行为、玩手机行为中的至少一种。
根据本公开的一种具体实施方式,所述行为识别模型的获取方式包括:
获取手部区域图像样本,其中,手部区域图像样本分为手腕关键点周边区域包括目标物体的第一类图像样本和手腕关键点周边区域不包含目标物体的第二类图像样本;
将所有手部区域图像样本输入初始神经网络模型进行训练,并保留每次训练得到的深度学习网络模型;
对各深度学习网络模型进行指标评估,选取指标值最高的深度学习网络模型作为所述行为识别模型。
根据本公开的一种具体实施方式,所述利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果的步骤,包括:
若在目标对象的手部区域图像识别到香烟和/或手机,则确定所述目标对象存在异常行为;
若未在目标对象的手部区域图像识别到香烟和手机,则确定所述目标对象不存在异常行为。
根据本公开的一种具体实施方式,所述方法还包括:
统计待检测视频中预设数量的连续图像中行为识别结果为存在异常行为的帧数量,其中,预设数量的连续图像包括所述当前帧图像及与所述当前帧图像前向邻接的连续多帧图像;
若存在异常行为的帧数量与所述预设数量的比值大于或者等于预设阈值,则发出告警信号。
根据本公开的一种具体实施方式,所述根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象的步骤,包括:
从全部待测对象中提取完整的待测对象,其中,完整的待测对象为至少一侧手部完整包含手腕关键点、手肘关键点及肩部关键点且对象尺度大于尺度阈值的待测对象,对象尺度为待测对象的全部骨骼关键点的外接矩形的最大边长与图像帧宽度的比值;
从全部完整的待测对象中查找手臂夹角小于夹角阈值的目标对象。
根据本公开的一种具体实施方式,所述获取目标对象的手部区域图像的步骤,包括:
以目标对象的手腕关键点为中心,截取预设边长的正方形区域作为手部区域图像。
第二方面,本公开实施例还提供了一种行为识别装置,所述装置包括:
提取模块,用于提取当前帧图像中各待测对象的骨骼关键点,其中,所述骨骼关键点至少包括手腕关键点、手肘关键点和肩部关键点;
查找模块,用于根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象,其中,手臂夹角为手肘关键点和肩部关键点构成的向量与手肘关键点和手腕关键点构成的向量之间的夹角;
第一获取模块,用于获取目标对象的手部区域图像,其中,手部区域图像为包含手腕关键点及邻接区域的图像;
识别模块,用于利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果,其中,目标物体包括香烟和手机中的至少一种,行为识别结果包括存在异常行为和不存在异常行为,存在异常行为包括吸烟行为、玩手机行为中的至少一种。
根据本公开的一种具体实施方式,所述装置还包括:
第二获取模块,用于获取手部区域图像样本,其中,手部区域图像样本分为手腕关键点周边区域包括目标物体的第一类图像样本和手腕关键点周边区域不包含目标物体的第二类图像样本;
训练模块,用于将所有手部区域图像样本输入初始神经网络模型进行训练,并保留每次训练得到的深度学习网络模型;
选取模块,用于对各深度学习网络模型进行指标评估,选取指标值最高的深度学习网络模型作为所述行为识别模型。
第三方面,本公开实施例还提供了一种计算机设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行第一方面所述的行为识别方法。
第四方面,本公开实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面所述的行为识别方法。
本公开实施例提供的行为识别方法、装置及计算机设备,提取当前帧图像中各待测对象的骨骼关键点;根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象;获取目标对象的手部区域图像;利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果。通过结合骨骼关键点分析和手部区域图像目标识别,可实现对监控图像中的人员吸烟、玩手机行为的实时识别。通过对手部区域图像进行香烟手机识别,可以大大减少背景干扰,提高识别准确率。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对本发明保护范围的限定。在各个附图中,类似的构成部分采用类似的编号。
图1示出了本公开实施例提供的一种行为识别方法的流程示意图;
图2示出了本公开实施例提供的一种行为识别方法的整体框架图;
图3示出了本公开实施例提供的一种行为识别方法的骨骼关键点示意图;
图4示出了本公开实施例提供的一种行为识别方法的部分流程示意图;
图5示出了本公开实施例提供的一种行为识别方法的告警处理示意图;
图6示出了本公开实施例提供的一种行为识别装置的模块框图;
图7示出了本公开实施例提供的一种行为识别装置的部分模块框图。
具体实施方式
下面将结合本发明实施例中附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
在下文中,可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合,并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。
此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本发明的各种实施例中被清楚地限定。
实施例1
图1为本公开实施例提供的一种行为识别方法的流程示意图。如图1所示,所述行为识别方法主要包括以下步骤:
s101,提取当前帧图像中各待测对象的骨骼关键点,其中,所述骨骼关键点至少包括手腕关键点、手肘关键点和肩部关键点;
本方案主要是通过对图像中各待测对象进行行为识别,判断其是否存在抽烟行为或玩手机行为。例如,通过营业厅现场进行视频采集和图像视频,以分析该营业厅现场是否存在工作人员或者顾客有吸烟、玩手机等异常行为,这样可以实现对特定场景人员行为的自动监控。
如图2所示,具体地,获取监控图像的当前帧图像。当前帧图像是监控图像中采集到的最新的一帧图像,其中至少包含一个待测对象。待测对象是监控图像中采集到的人员。利用骨骼关键点检测算法提取图像中每个待测对象的骨骼关键点。提取的待测对象的骨骼关键点主要包括如图3所示的18个骨骼关键点,例如手腕关键点、手肘关键点、肩部关键点等,所提取的骨骼关键点主要是用于异常行为检测。在待测对象有吸烟行为或玩手机行为时,上臂和前臂在手肘出形成的夹角会有一个确定的角度范围,因此,本方案主要选取手腕关键点、手肘关键点及肩部关键点作为提取对象。当然,也可以根据不同的算法调整提取不同的骨骼关键点。
其中,骨骼关键点检测算法根据实际情况采用合适的算法,比如openpose或alphapose等,这里不作限定。
然后,利用尺度分析滤除无效关键点,其中,无效关键点是图像中对象尺度过小的人员对应的骨骼关键点。在监控图像中,人员总是具有一定的图像占比,在图像中占比过小的人员会导致行为识别结果的准确度降低,因此将其丢弃。利用对象尺度判据判断骨骼关键点是否满足要求。对象尺度为待测对象的全部骨骼关键点的外接矩形的最大边长与图像帧宽度的比值,当然,在本方案的其他实施方式中,对象尺度也可以根据需要自行定义。若待测对象的全部手腕关键点缺失,或者,待测对象的对象尺度过小,则将待测对象剔除。
s102,根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象,其中,手臂夹角为手肘关键点和肩部关键点构成的向量与手肘关键点和手腕关键点构成的向量之间的夹角;
本申请方案针对的检测对象是可能存在吸烟行为或玩手机行为的对象,此部分对象的手臂夹角一般呈较小锐角。所以会对待测对象的手臂夹角进行处理并筛选。
具体地,假定每个人员左手或右手的肩部关键点和手肘关键点构成的向量p代表大臂,手肘和手腕关键点构成的向量q代表小臂。则,pq夹角可以表示其手臂弯曲的角度。由于在连续视频帧中,人员玩手机和吸烟时均会形成较小的夹角,所以可以依此定义关键点语义,设定一个夹角阈值t,若人员任意一手臂形成夹角小于夹角阈值t,则认为该人员有疑似吸烟、玩手机行为,否则认为该人员行为正常。
s103,获取目标对象的手部区域图像,其中,手部区域图像为包含手腕关键点及邻接区域的图像;
对于手臂夹角小于夹角阈值的目标对象,进一步提取其手部区域图像进行行为识别,以判断其是否存在吸烟行为或玩手机行为。
具体实施时,若目标对象的左手手臂夹角小于夹角阈值t,则以左手手腕关键点为中心,截取矩形区域图像作为手部区域图像,进行后续识别;若目标对象的右手手臂夹角小于夹角阈值t,则以右手手腕关键点为中心,截取矩形区域图像作为手部区域图像,进行后续识别;若目标对象的左右手手臂夹角均小于阈值t,则分别以两手的手腕关键点为中心,截取两个矩形区域图像作为手部区域图像,进行后续识别。
s104,利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果,其中,目标物体包括香烟和手机中的至少一种,行为识别结果包括存在异常行为和不存在异常行为,存在异常行为包括吸烟行为、玩手机行为中的至少一种。
为了对手部区域图像进行识别,需要预先训练一个行为识别模型。模型的训练方法为首先获取手部区域图像样本,其中,手部区域图像样本包括包含目标物体的第一类样本图像和不包含目标物体的第二类样本图像。将手部区域样本图像输入到初始神经网络模型中进行训练。获得行为识别模型,用以对手部区域图像进行识别。
具体实施时,以手部区域图像作为输入图像,识别手部区域图像中是否含有手机、香烟,并获取目标的位置。根据目标对象的手部区域图像的香烟、手机识别结果,判断目标对象是否存在异常行为。
为了提高行为识别模型识别结果的可靠性,还可以对行为识别模型设置置信度阈值。在一个具体的实施方式中,置信度阈值设置为0.4。当然,置信度阈值可以是符合实际使用情况的任意数值,这里不作限定。
进一步地,若图像中所有目标对象均不存在异常行为,则认为当前帧图像的状态为正常;若存在任一目标对象存在吸烟行为、玩手机行为或同时存在吸烟行为和玩手机行为,则认为当前帧图像状态异常,将全部图像的状态保存。
本公开实施例提供的行为识别方法,首先提取当前帧图像中各待测对象的骨骼关键点,并将不满足要求的骨骼关键点过滤;根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象;获取目标对象的包含手腕关键点的手部区域图像;利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果。通过结合骨骼关键点分析和手部区域图像目标识别,可实现对监控图像中的人员吸烟、玩手机行为的实时识别。通过对手部区域图像进行香烟手机识别,可以大大减少背景干扰,提高识别准确率。
在上述实施例的基础上,本实施方式主要是对获取行为识别模型的过程作了进一步限定。如图4所示,所述行为识别模型的获取方式包括:
s401,获取手部区域图像样本,其中,手部区域图像样本分为手腕关键点周边区域包括目标物体的第一类图像样本和手腕关键点周边区域不包含目标物体的第二类图像样本;
为了获取行为识别模型,需要预先建立一个初始神经网络模型,并获取大量手部区域样本图像对初始神经网络模型进行训练优化。
具体地,采集营业厅监控图像,所采集的图像数据从人员数量上包括单人、多人和无人的情况,从人员行为上包括抽烟行为、玩手机行为、同时存在抽烟行为和玩手机行为、无异常行为的情况。
在一个具体的实施方式中,采集了996幅包括吸烟行为、玩手机行为的原始监控图像。其中,包含玩手机行为的监控图像样本数量为445幅,包含吸烟行为的监控图像样本数量为551幅。
如图2所示,利用骨骼关键点检测算法对所采集的监控图像进行分析,获取图像中每个人员的骨骼关键点。利用尺度判据判断骨骼关键点是否满足要求,剔除场景中尺度过小的人员。具体地,若人员的全部手腕关键点缺失,或者,人员的对象尺度过小,则将人员剔除。
骨骼关键点检测算法属于可替换组件,根据实际情况采用业界先进的算法,比如openpose、alphapose等,这里不作限定。
在一个具体的实施方式中,骨骼关键点检测算法采用在coco数据集上预训练的openpose算法,如图3所示。图3中,openpose算法会检测人体的18个骨骼关键点,其中主要使用的骨骼关键点有左手手腕关键点4以及右手手腕关键点7。获取关键点后,利用尺度分析对关键点进行过滤。
具体为:当提取到样本对象的骨骼关键点不包含关键点4并且不包含关键点7,视为该样本对象左右手部均未被检测到,此时,该人员的骨骼关键点无法为后续处理提供信息,将其丢弃;当样本对象的骨骼关键点的最小外接矩形的最大边长与图像宽度的比值小于给定阈值0.1时,认为此时样本对象骨骼关键点可能存在检测错误或者样本对象在图像中的尺度过小,将其丢弃。
根据获取的骨骼关键点,获取图像中每个人员左手和右手手腕关键点附近的图像区域作为手部区域图像样本,后续的行为识别以该图像作为输入图像。手部区域图像样本的大小根据监控图像的分辨率进行调整,区域的长宽比一般设置为1:1。当然,区域的长宽比也可以设置为其他,这里不作限定。进行这一步骤的目的是滤除图像中大部分的背景,从而提升香烟和手机的识别精度。
在一个具体的实施方式中,监控图像的分辨率为1366×768,如图3所示,以骨骼关键点4和7为中心,以边长150为边长截取正方形区域,作为手部区域图像样本。
进一步地,对提取的手部区域图像样本进行标注,标注目标为香烟和手机,标注内容包括香烟或手机的检测框以及对应的物体标签。完成标注后,将手部区域图像样本按照有无目标物体分为正负样本。将正负样本均按照8:2的比例划分为训练集和验证集。
采用数据增强方法,对训练集进行扩充,提升训练集的样本容量和丰富程度。数据增强方法可以包括图像亮度变化、图像翻转、图像旋转、图像缩放和mosaic增强方法等,这里不作限定。
在一个具体的实施方式中,采用hsv颜色阈值变换、图像翻转和mosaic变换方法对样本进行扩充,将训练集扩充4倍。
s402,将所有手部区域图像样本输入初始神经网络模型进行训练,并保留每次训练得到的深度学习网络模型;
具体地,基于深度学习算法构建初始神经网络模型,模型识别类别包括香烟、手机两类。具体算法可根据实际情况采用业界先进的目标检测算法,包括但不限于yolo、faster-rcnn、ssd,以及基于transformer的检测算法等。
基于手部区域图像,训练构建好的模型。具体地,选用适当的模型训练优化方法,设计目标检测的损失函数及初始学习率、批大小、迭代次数等超参数。其中,批大小为每次调整学习参数进行一次迭代前选取的样本数量。若构建模型的算法涉及预设框,设置预设框anchors的尺寸。开始模型训练,并保存每次迭代过程生成的权重文件以及权重文件对应的深度学习网络模型。
s403,对各深度学习网络模型进行指标评估,选取指标值最高的深度学习网络模型作为所述行为识别模型。
具体实施时,首先排除训练初期损失值较高的模型,然后对剩余的模型的权重文件利用map0.5指标来进行评价,选取最优的权重文件对应的深度学习网络模型作为行为识别模型。通过对各个深度学习网络模型进行指标评估,选取其中识别准确率最高的深度学习网络模型作为行为识别模型,提高行为识别模型识别结果的准确性。
在一个具体的实施方式中,采用yolov4作为初始神经网络模型,骨干网络采用csp-darknet53。yolov4训练采用9组预设框,尺寸分别为(12,16),(19,36),(40,28),(36,75),(76,55),(72,146),(142,140),(192,243),(459,401)。
模型检测框回归部分的损失函数采用diou,如下所示:
其中,ldiou为diou损失函数,b为检测框,bgt为标注框,ρ表示检测框与标注框中心的欧氏距离。
模型类别判断部分的损失函数采用softmax交叉熵损失函数,如下所示:
其中,s为softmax函数,yi为类别i的输出,由于本方法涉及类别为香烟和手机两类,所以n为2;h(p,q)为交叉熵损失函数,其中p(x)为图像x的期望分类输出,即类别标签的one-hot向量,向量q(x)为网络对图像x的输出的,经过softmax计算后的向量。
模型的训练优化方法采用adam函数,动量设置为0.9。训练采用冻结后解冻训练的方式,首先冻结骨干网络训练50个周期,批大小设置为32,初始学习率为0.001;然后在此基础上解冻骨干网络,训练150周期,批大小设置为8,初始学习率设置为0.0001。从解冻训练开始,保存每个周期的模型权重文件。
最后进行模型评估。具体为:首先通过权重文件对应的loss值筛选出loss最低的5个权重文件;然后,利用map0.5指标评估模型,选取指标值最高的权重文件对应的深度学习网络模型作为行为识别模型。
根据本公开的一种具体实施方式,所述利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果的步骤,包括:
若在目标对象的手部区域图像识别到香烟和/或手机,则确定所述目标对象存在异常行为;若未在目标对象的手部区域图像识别到香烟和手机,则确定所述目标对象不存在异常行为。
具体地,若在目标对象的手部区域图像识别到香烟,则确定所述目标对象存在吸烟行为;若在目标对象的手部区域图像识别到手机,则确定所述目标对象存在玩手机行为;若在目标对象的手部区域图像同时识别到香烟和手机,则确定所述目标对象同时存在吸烟行为和玩手机行为;若未在目标对象的手部区域图像识别到香烟和手机,则确定所述目标对象不存在异常行为。
参见图5,为本公开实施例提供的一种行为识别方法的告警处理示意图。如图5所示,所述方法还包括:
统计待检测视频中预设数量的连续图像中行为识别结果为存在异常行为的帧数量,其中,预设数量的连续图像包括所述当前帧图像及与所述当前帧图像前向邻接的连续多帧图像;
为了提高行为识别模型识别结果的鲁棒性,本方案对连续预设数量的图像进行行为识别,然后根据存在异常行为的帧数量与预设数量的比值,确定是否进行告警处理。
具体地,首先输入待检测视频,对视频的当前帧图像进行行为识别,获取当前帧图像的行为识别结果,并将行为识别结果保存。若当前帧图像中的目标对象存在吸烟行为、玩手机行为或同时存在吸烟行为和玩手机行为,则该帧图像中存在异常行为;否则不存在异常行为。统计截至当前帧图像的n帧图像的行为识别结果。
在一个具体的实施方式中,n的数值设置为100,也可以根据实际灵活设置n的数值,这里不作限定。
若存在异常行为的帧数量与所述预设数量的比值大于或者等于预设阈值,则发出告警信号。
具体地,若存在异常行为的帧数与n的比值大于阈值α,则发出告警信号;否则不告警。采用统计的方法进行告警处理可以提高行为识别方法的鲁棒性。
根据本公开的一种具体实施方式,所述根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象的步骤,包括:
从全部待测对象中提取完整的待测对象,其中,完整的待测对象为至少一侧手部完整包含手腕关键点、手肘关键点及肩部关键点且对象尺度大于尺度阈值的待测对象,对象尺度为待测对象的全部骨骼关键点的外接矩形的最大边长与图像帧宽度的比值;
为了提高行为识别模型的识别精度,需要将无法提供骨骼关键点信息及在图像帧中尺寸过小的待测对象删除,保留尺寸适合、骨骼关键点完备的待测对象。
在一个具体的实施方式中,待测对象的骨骼关键点缺少右手的手腕关键点、手肘关键点及肩部关键点中的任意一点,并且缺少左手手腕关键点、手肘关键点及肩部关键点中的任意一点,则不对该待测对象进行处理。
对保留的待测对象计算其骨骼关键点的外接矩形最大边长与图像帧宽度的比例,并以其为该待测对象在图像帧中的对象尺度。计算并统计所有待测对象的对象尺度,设定距最小对象尺度5%的尺度对应数值作为尺度阈值。筛选实际对象尺度大于或等于尺度阈值的待测对象作为完整的待测对象。
从全部完整的待测对象中查找手臂夹角小于夹角阈值的目标对象。
在一个具体的实施方式中,首先统计采集的图像数据中存在吸烟行为、玩手机行为的待测对象动作的最大手臂夹角,将夹角阈值设置为该手臂夹角的约1.2倍,在本实施方式中夹角阈值为60度。当然,在其他的实施方式中,也可以设置为其他角度,这里不作限定。若待测对象左手或右手手臂夹角小于夹角阈值,则判定该待测对象为目标对象,并获取该待测对象对应的手部区域图像进行后续处理;否则视该待测对象不存在异常行为。
根据本公开的一种具体实施方式,所述获取目标对象的手部区域图像的步骤,包括:
以目标对象的手腕关键点为中心,截取预设边长的正方形区域作为手部区域图像。
一般情况下,目标对象存在玩手机行为或吸烟行为时,对应的手机或香烟会出现在手腕关键点附近区域的图像中,因此截取以手腕关键点为中心的正方形区域图像作为手部区域图像,输入到行为识别模型中进行识别。
在一个具体的实施方式中,或取的监控图像的分辨率为1366×768,手部区域图像的边长设置为150。当然,在具体实施时,可以根据具体情况设置不同的预设边长,这里不作限定。
通过结合骨骼关键点分析和手部区域图像目标识别,可实现对监控图像中的人员吸烟、玩手机行为的实时识别。通过对手部区域图像进行香烟手机识别,可以大大减少背景干扰,提高识别准确率。
实施例2
参见图6,为本公开实施例提供的一种行为识别装置的模块框图。如图6所示,所述行为识别装置600包括:
提取模块601,用于提取当前帧图像中各待测对象的骨骼关键点,其中,所述骨骼关键点至少包括手腕关键点、手肘关键点和肩部关键点;
查找模块602,用于根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象,其中,手臂夹角为手肘关键点和肩部关键点构成的向量与手肘关键点和手腕关键点构成的向量之间的夹角;
第一获取模块603,用于获取目标对象的手部区域图像,其中,手部区域图像为包含手腕关键点及邻接区域的图像;
识别模块604,用于利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果,其中,目标物体包括香烟和手机中的至少一种,行为识别结果包括存在异常行为和不存在异常行为,存在异常行为包括吸烟行为、玩手机行为中的至少一种。
在上述实施例的基础上,本公开一种实施方式还提供一种行为识别装置的部分模块框图。如图7所示,所述行为识别装置600还包括:
第二获取模块605,用于获取手部区域图像样本,其中,手部区域图像样本分为手腕关键点周边区域包括目标物体的第一类图像样本和手腕关键点周边区域不包含目标物体的第二类图像样本;
训练模块606,用于将所有手部区域图像样本输入初始神经网络模型进行训练,并保留每次训练得到的深度学习网络模型;
选取模块607,用于对各深度学习网络模型进行指标评估,选取指标值最高的深度学习网络模型作为所述行为识别模型。
综上所述,本公开实施例提供的行为识别装置,通过结合骨骼关键点分析和手部区域图像目标识别,可实现对监控图像中的人员吸烟、玩手机行为的实时识别;通过对手部区域图像进行香烟手机识别,可以大大减少背景干扰,提高识别准确率。所提供的行为识别装置的具体实施过程可以参见上述图1、图2及图4所示的实施例提供的行为识别方法的具体实施过程,在此不再一一赘述。
此外,本公开实施例还提供了一种计算机设备,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行图1和图2所示的行为识别方法。
另外,本公开实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行图1和图2所示的行为识别方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或更多个模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
1.一种行为识别方法,其特征在于,所述方法包括:
提取当前帧图像中各待测对象的骨骼关键点,其中,所述骨骼关键点至少包括手腕关键点、手肘关键点和肩部关键点;
根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象,其中,手臂夹角为手肘关键点和肩部关键点构成的向量与手肘关键点和手腕关键点构成的向量之间的夹角;
获取目标对象的手部区域图像,其中,手部区域图像为包含手腕关键点及邻接区域的图像;
利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果,其中,目标物体包括香烟和手机中的至少一种,行为识别结果包括存在异常行为和不存在异常行为,存在异常行为包括吸烟行为、玩手机行为中的至少一种。
2.根据权利要求1所述的行为识别方法,其特征在于,所述行为识别模型的获取方式包括:
获取手部区域图像样本,其中,手部区域图像样本分为手腕关键点周边区域包括目标物体的第一类图像样本和手腕关键点周边区域不包含目标物体的第二类图像样本;
将所有手部区域图像样本输入初始神经网络模型进行训练,并保留每次训练得到的深度学习网络模型;
对各深度学习网络模型进行指标评估,选取指标值最高的深度学习网络模型作为所述行为识别模型。
3.根据权利要求1所述的行为识别方法,其特征在于,所述利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果的步骤,包括:
若在目标对象的手部区域图像识别到香烟和/或手机,则确定所述目标对象存在异常行为;
若未在目标对象的手部区域图像识别到香烟和手机,则确定所述目标对象不存在异常行为。
4.根据权利要求3所述的行为识别方法,其特征在于,所述方法还包括:
统计待检测视频中预设数量的连续图像中行为识别结果为存在异常行为的帧数量,其中,预设数量的连续图像包括所述当前帧图像及与所述当前帧图像前向邻接的连续多帧图像;
若存在异常行为的帧数量与所述预设数量的比值大于或者等于预设阈值,则发出告警信号。
5.根据权利要求1所述的行为识别方法,其特征在于,所述根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象的步骤,包括:
从全部待测对象中提取完整的待测对象,其中,完整的待测对象为至少一侧手部完整包含手腕关键点、手肘关键点及肩部关键点且对象尺度大于尺度阈值的待测对象,对象尺度为待测对象的全部骨骼关键点的外接矩形的最大边长与图像帧宽度的比值;
从全部完整的待测对象中查找手臂夹角小于夹角阈值的目标对象。
6.根据权利要求1所述的行为识别方法,其特征在于,所述获取目标对象的手部区域图像的步骤,包括:
以目标对象的手腕关键点为中心,截取预设边长的正方形区域作为手部区域图像。
7.一种行为识别装置,其特征在于,所述装置包括:
提取模块,用于提取当前帧图像中各待测对象的骨骼关键点,其中,所述骨骼关键点至少包括手腕关键点、手肘关键点和肩部关键点;
查找模块,用于根据骨骼关键点,从全部待测对象中查找手臂夹角小于夹角阈值的目标对象,其中,手臂夹角为手肘关键点和肩部关键点构成的向量与手肘关键点和手腕关键点构成的向量之间的夹角;
第一获取模块,用于获取目标对象的手部区域图像,其中,手部区域图像为包含手腕关键点及邻接区域的图像;
识别模块,用于利用预先训练的行为识别模型识别每个目标对象的手部区域图像是否包含目标物体,并输出对应所述当前帧图像中每个目标对象的行为识别结果,其中,目标物体包括香烟和手机中的至少一种,行为识别结果包括存在异常行为和不存在异常行为,存在异常行为包括吸烟行为、玩手机行为中的至少一种。
8.根据权利要求7所述的行为识别装置,其特征在于,所述装置还包括:
第二获取模块,用于获取手部区域图像样本,其中,手部区域样本图像分为手腕关键点周边区域包含目标物体的第一类图像样本和手腕关键点周边区域不包含目标物体的第二类图像样本;
训练模块,用于将所有手部区域图像样本输入初始神经网络模型进行训练,并保留每次训练得到的深度学习网络模型;
选取模块,用于对各深度学习网络模型进行指标评估,选取指标值最高的深度学习网络模型作为所述行为识别模型。
9.一种计算机设备,其特征在于,包括存储器以及处理器,所述存储器存储有计算机程序,所述计算机程序在所述处理器上运行时执行权利要求1至6中任一项所述的行为识别方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序在处理器上运行时执行权利要求1至6中任一项所述的行为识别方法。
技术总结