一种行为检测的方法、装置、可读存储介质和电子设备与流程

专利2022-05-09  19


本发明涉及计算机技术领域,具体涉及一种行为检测的方法、装置、可读存储介质和电子设备。



背景技术:

随着互联网应用的发展,在线教学和视频会议的出现,改变了人们的传统的教学方式以及工作方式,在人们的日常生活使用越来越广泛,以在线教学为例,在线教学平台有大量的学生用户,因此需要大量的教师对学生进行教学,但是在线教学过程中,教师的上课环境比较随意、上课时间会根据学生的时间调整,比较分散,例如,晚上8、9点学生放学回家之后可能会需要在线教学进行强化学习,但是教师的上课状态存在很大的波动性,容易出现困倦、精神不集中等情况,导致课程质量不佳,影响学生的学习效率和学习兴趣;在线教学平台的员工可以对教师的教学过程进行人工检测,检测教师在教学过程中是否出现违规行为,例如,瞌睡闭眼、打哈欠等,然后对多次出现上述情况的教师进行提醒,保证在线教学的质量和效果。但是由于在线教学平台的教师众多,通过人工监控会造成大量的人力消耗,且效率较低。

综上所述,如何既能对教学过程中教师的违规行为进行检测,又能减少人力消耗,提高检测效率,是目前需要解决的问题。



技术实现要素:

有鉴于此,本发明实施例提供了一种行为检测的方法、装置、可读存储介质和电子设备,对教学过程中教师的违规行为进行自动检测,减少了人力消耗,提高了检测效率。

第一方面,本发明实施例提供了一种行为检测的方法,该方法包括:获取视频流;按照设定频率在所述视频流中抽取多张图像;通过预先训练的分类模型,确定所述多张图像中的违规图像;响应于所述多张图像中包括至少一组连续违规图像,确定所述至少一组连续违规图像对应的至少一组视频片段,其中,所述连续违规图像的图像数量大于或等于设定数值;确定所述至少一组视频片段中至少一组候选视频片段,其中,所述候选视频片段为无发音的视频片段;通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段。

优选地,所述确定所述至少一组视频片段中至少一组候选视频片段,具体包括:

确定所述视频流中的有发音语音片段;

在所述至少一组视频片段中去除与所述有发音语音片段存在交集的视频片段,确定所述至少一组视频片段中无发音的至少一组候选视频片段。

优选地,所述确定所述视频流中的有发音语音片段,具体包括:

确定所述视频流对应的音频流;

通过语音端点检测在所述音频流中确定所述音频流中的有发音语音片段。

优选地,该方法还包括:

通过预先训练的人脸检测模型,确定所述至少一组候选视频片段中至少一组人脸区域视频片段,其中,所述人脸检测模型用于获取候选视频片段的人脸区域,所述人脸区域视频片段是通过在候选视频片段中截取的人脸区域组成的视频片段。

优选地,该方法还包括:所述通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段,具体包括:

所述通过预先训练的行为识别模型,确定所述至少一组人脸区域视频片段中存在违规行为的视频片段。

优选地,所述分类模型为第一分类模型或者第二分类模型,其中,所述第一分类模型用于判断所述图像中的人物是否闭眼;所述第二分类模型用于判断所述图像中的人物是否张嘴。

优选地,所述行为识别模型为第一行为识别模型或者第二行为识别模型,其中,所述第一行为识别模型用于识别所述候选视频片段中是否存在闭眼瞌睡的违规行为;所述第二行为识别模型用于识别所述候选视频片段中是否存在张嘴打哈欠的违规行为。

优选地,所述分类模型的训练过程包括:

获取历史违规行为图像与历史合规行为图像;

根据所述历史违规行为图像与所述历史合规行为图像训练所述分类模型,其中,所述分类模型为二分类模型。

优选地,所述行为识别模型的训练过程包括:

获取历史违规行为片段与历史合规行为片段;

根据所述历史违规行为片段与所述历史合规行为片段训练所述分类模型,其中,所述分类模型为深度学习神经网络模型。

优选地,所述人脸检测模型为根据历史人脸数据训练的深度学习神经网络模型。

第二方面,本发明实施例提供了一种行为检测的装置,该装置包括:

获取单元,用于获取视频流;

处理单元,用于按照设定频率在所述视频流中抽取多张图像;

确定单元,用于通过预先训练的分类模型,确定所述多张图像中的违规图像;

所述确定单元还用于,响应于所述多张图像中包括至少一组连续违规图像,确定所述至少一组连续违规图像对应的至少一组视频片段,其中,所述连续违规图像的图像数量大于或等于设定数值;

所述确定单元还用于,确定所述至少一组视频片段中至少一组候选视频片段,其中,所述候选视频片段为无发音的视频片段;

所述确定单元还用于,通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段。

优选地,所述确定单元具体用于:

确定所述视频流中的有发音语音片段;

在所述至少一组视频片段中去除与所述有发音语音片段存在交集的视频片段,确定所述至少一组视频片段中无发音的至少一组候选视频片段。

优选地,所述确定单元具体用于:

确定所述视频流对应的音频流;

通过语音端点检测在所述音频流中确定所述音频流中的有发音语音片段。

优选地,所述确定单元还用于:

通过预先训练的人脸检测模型,确定所述至少一组候选视频片段中至少一组人脸区域视频片段,其中,所述人脸检测模型用于获取候选视频片段的人脸区域,所述人脸区域视频片段是通过在候选视频片段中截取的人脸区域组成的视频片段。

优选地,所述确定单元具体用于:所述通过预先训练的行为识别模型,确定所述至少一组人脸区域视频片段中存在违规行为的视频片段。

优选地,所述分类模型为第一分类模型或者第二分类模型,其中,所述第一分类模型用于判断所述图像中的人物是否闭眼;所述第二分类模型用于判断所述图像中的人物是否张嘴。

优选地,所述行为识别模型为第一行为识别模型或者第二行为识别模型,其中,所述第一行为识别模型用于识别所述候选视频片段中是否存在闭眼瞌睡的违规行为;所述第二行为识别模型用于识别所述候选视频片段中是否存在张嘴打哈欠的违规行为。

优选地,所述获取单元还用于:获取历史违规行为图像与历史合规行为图像;

所述处理单元还用于:根据所述历史违规行为图像与所述历史合规行为图像训练所述分类模型,其中,所述分类模型为二分类模型。

优选地,所述获取单元还用于:获取历史违规行为片段与历史合规行为片段;

所述处理单元还用于:根据所述历史违规行为片段与所述历史合规行为片段训练所述分类模型,其中,所述分类模型为深度学习神经网络模型。

优选地,所述人脸检测模型为根据历史人脸数据训练的深度学习神经网络模型。

第三方面,本发明实施例提供了一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令在被处理器执行时实现如第一方面或第一方面任一种可能中任一项所述的方法。

第四方面,本发明实施例提供了一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如第一方面或第一方面任一种可能中任一项所述的方法。

本发明实施例通过获取视频流;按照设定频率在所述视频流中抽取多张图像;通过预先训练的分类模型,确定所述多张图像中的违规图像;响应于所述多张图像中包括至少一组连续违规图像,确定所述至少一组连续违规图像对应的至少一组视频片段,其中,所述连续违规图像的图像数量大于或等于设定数值;确定所述至少一组视频片段中至少一组候选视频片段,其中,所述候选视频片段为无发音的视频片段;通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段。通过上述方法,通过图像抽取、违规图像检测、生成候选视频片段、以及通过违规行为检测在候选视频片段中确定存在违规行为的视频片段,可以对视频流中的违规行为进行自动检测,减少了人力消耗,提高了检测效率。

附图说明

通过以下参照附图对本发明实施例的描述,本发明的上述以及其它目的、特征和优点将更为清楚,在附图中:

图1是本发明实施例的一种行为检测的方法流程图;

图2是本发明实施例的一种行为检测的方法流程图;

图3是本发明实施例的一种行为检测的方法流程图;

图4是本发明实施例的一种行为检测的方法流程图;

图5是本发明实施例的一种图像示意图;

图6是本发明实施例的一种图像示意图;

图7是本发明实施例的一种行为检测的方法流程图;

图8是本发明实施例的一种行为检测的方法流程图;

图9是本发明实施例的一种行为检测的装置示意图;

图10是本发明实施例的电子设备的示意图。

具体实施方式

以下基于实施例对本发明公开进行描述,但是本发明公开并不仅仅限于这些实施例。在下文对本发明公开的细节描述中,详尽描述了一些特定的细节部分。对本领域技术人员来说没有这些细节部分的描述也可以完全理解本发明公开。为了避免混淆本发明公开的实质,公知的方法、过程、流程、元件和电路并没有详细叙述。

此外,本领域普通技术人员应当理解,在此提供的附图都是为了说明的目的,并且附图不一定是按比例绘制的。

除非上下文明确要求,否则整个申请文件中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。

在本发明公开的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明公开的描述中,除非另有说明,“多个”的含义是两个或两个以上。

在线教学平台有大量的学生用户,需要大量的教师对学生进行教学,但是在线教学过程中,教师的上课环境比较随意、上课时间会根据学生的时间调整,比较分散,例如,晚上8、9点学生放学回家之后可能会需要在线教学进行强化学习,但是教师的上课状态存在很大的波动性,容易出现困倦、精神不集中等情况,导致课程质量不佳,影响学生的学习效率和学习兴趣;或者,在线会议时,会有多人同时在线视频,但是在线会议过程中,参会人员所处的环境比较随意,若会议时间较长,参会人员容易出现精神不集中等情况,导致会议质量不佳,影响工作效率针对在线教学,在线教学平台的员工可以对教师的教学过程进行人工检测,检测教师在教学过程中是否出现违规行为;或者,针对在线会议,公司可以安排专门的员工对参会人员的参会过程进行人工检测,检测参会人员在参会过程中是否出现违规行为,例如,瞌睡闭眼、打哈欠等,然后对多次出现上述情况的教师或参会人员进行提醒,保证在线教学或在线会议的质量和效果;但是由于在线教学平台的教师或者参会人员众多,通过人工监控会造成大量的人力消耗,且效率较低。

本发明实施例中,通过一种行为检测的方法,对教学过程中教师的违规行为进行检测,或者,对会议过程中参会人员的违规行为进行检测,减少了人力消耗,提高了检测效率;上述行为检测的方法,还可以应用于在线直播等场景,本发明实施例对不做限定。

本发明实施例中,图1是本发明实施例的一种行为检测的方法流程图。如图1所示,具体包括如下步骤:

步骤s100、获取视频流。

具体的,在线课程结束后,获取教师的教学回放视频流;或者,在线会议后,获取参会人员的回放视频流;在一种可能的实现方式中,也可以即时的获取视频流。

举例说明,假设一节在线课程教师的回放视频流的时长为45分钟,本发明实施例中,上述时长仅仅为示例性说明。

步骤s101、按照设定频率在所述视频流中抽取多张图像。

具体的,按照设定频率在所述视频流中抽帧,每帧表示一张图像,假设,所述设定频率为每秒抽1帧图像,则45分钟的视频,一共需要抽取45*60=2700张图像;可选的,所述设定频率还可以为每秒抽2帧图像、或者,每2秒抽1帧图像,本发明实施例对其不做限定,具体根据实际情况确定。

步骤s102、通过预先训练的分类模型,确定所述多张图像中的违规图像。

具体的,所述分类模型为第一分类模型或者第二分类模型,其中,所述第一分类模型用于判断所述图像中的人物是否闭眼;所述第二分类模型用于判断所述图像中的人物是否张嘴。

在一种可能的实现方式中,所述分类模型的训练过程如图2所示,具体包括:

步骤s200、获取历史违规行为图像与历史合规行为图像。

具体的,假设所述分类模型为第一分类模型时,所述历史违规行为图像中人物是闭眼的,所述历史合规行为图像中人物是睁眼的;假设所述分类模型为第二分类模型时,所述历史违规行为图像中人物是张嘴的,所述历史合规行为图像中人物是闭嘴的。

本发明实施例中,所述分类模型除了对闭眼、睁眼、张嘴或者闭嘴进行分类之外,还可以对其它违规行为和合规行为进行分类,具体的,根据实际使用情况确定,本发明实施例对其不做限定。

步骤s201、根据所述历史违规行为图像与所述历史合规行为图像训练所述分类模型,其中,所述分类模型为二分类模型。

本发明实施例中,通过上述方式生成用于对图像进行分类的第一分类模型或第二分类模型,进而用于确定所述多张图像中的违规图像,即人物闭眼的图像或者人物张嘴的图像,提高了在多张图像中确定违规图像的效率和准确性。

步骤s103、响应于所述多张图像中包括至少一组连续违规图像,确定所述至少一组连续违规图像对应的至少一组视频片段,其中,所述连续违规图像的图像数量大于或等于设定数值。

具体的,假设所述设定数值为3,当设定频率为每秒抽1帧图像,45分钟的视频一共需要抽取的2700张图像中有3张或3张以上的图像为连续违规图像时,确定所述连续违规图像对应的视频片段。

举例说明,假设所述2700张图像的第7张、第8张和第9张,上述三张图像为违规图像,由于设定频率为每秒抽1帧图像,则所述第7张、第8张和第9张对应的第7秒、第8秒和第9秒组成所述视频片段;或者,假设所述2700张图像的第21张、第22张、第23张、第24张和第25张,上述5张图像为违规图像,由于设定频率为每秒抽1帧图像,则所述第21张、第22张、第23张、第24张和第25张对应的第21秒、第22秒、第23秒、第24秒和第25秒组成所述视频片段;此处仅仅为示例性说明,具体数量根据实际情况确定,本发明对此不做限定。

步骤s104、确定所述至少一组视频片段中至少一组候选视频片段,其中,所述候选视频片段为无发音的视频片段。

具体的,假设通过步骤s104确定出20组视频片段,在所述20组视频片段中确定中10组无发音的视频片段作为候选片段。

本发明实施例中,所述确定所述至少一组视频片段中至少一组候选视频片段的具体过程如图3所示,具体包括如下步骤:

步骤s300、确定所述视频流对应的音频流。

具体的,假设所述视频流为45分钟,在所述视频流中抽取45分钟的音频流。

步骤s301、通过语音端点检测在所述音频流中确定所述音频流中的有发音语音片段。

具体的,通过语音端点检测(voiceactivitydetection,vad)在所述45分钟的音频流中确定所述音频流中的有发音语音片段,即确定出有发音语音片段的起始时间点和结束时间点。

本发明实施例中,语音端点检测一般用于鉴别音频信号当中的语音出现和语音消,语音是否出现或者在背景噪声上是否平坦决定了vad方法的检测是否稳,在纯净背景噪声环境下),即使简单的能量检测方法也能够得到较好的语音检测效果,然而,一般情况下,音频信号均会存在背景噪声,因此,所述vad方法对噪声具有较好的鲁棒性;所述vad方法的具体处理步骤包括:将音频信号进行分帧处理;从每一帧数据当中提取特征;在一个已知语音和静默信号区域的数据帧集合上训练一个分类器;对未知的分帧数据进行分类,判断其属于语音信号还是静默信号。

步骤s302、在所述至少一组视频片段中去除与所述有发音语音片段存在交集的视频片段,确定所述至少一组视频片段中无发音的至少一组候选视频片段。

具体的,假设所述第7张、第8张和第9张这三张违规图像对应的第7秒、第8秒和第9秒组成所述视频片段与有发音语音片段存在交集,假设某一有发音语音片段的起始时间点为第8秒,结束时间点为第11秒,与所述第7秒、第8秒和第9秒组成所述视频片段存在交集,则说明所述第7秒、第8秒和第9秒组成所述视频片段是有发音的视频片段,即教师在此视频片段中没有打瞌睡或打哈欠,进而,在步骤s104中确定中的20组视频片段去除所述第7秒、第8秒和第9秒组成所述视频片段,据此,假设在所述20组视频片段中有10组与有发音语音片段存在交集,则将剩余的10组无发音的视频片段作为候选片段。

步骤s105、通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段。

具体的,所述行为识别模型为第一行为识别模型或者第二行为识别模型,其中,所述第一行为识别模型用于识别所述候选视频片段中是否存在闭眼瞌睡的违规行为;所述第二行为识别模型用于识别所述候选视频片段中是否存在张嘴打哈欠的违规行为。

在一种可能的实现方式中,所述行为识别模型的训练过程如图4所示,具体包括:

步骤s400、获取历史违规行为片段与历史合规行为片段。

具体的,假设所述行为识别模型为第一行为识别模型时,所述历史违规行为片段中人物是闭眼瞌睡的,所述历史合规行为片段中人物是睁眼无瞌睡的;假设所述行为识别为第二行为识别模型时,所述历史违规行为片段中人物是张嘴打哈欠的,所述历史合规行为片段中人物是闭嘴未打哈欠的。

本发明实施例中,所述行为识别模型除了对闭眼瞌睡、睁眼无瞌睡、张嘴打哈欠或者闭嘴未打哈欠进行分类之外,还可以对其它违规行为和合规行为进行分类,具体的,根据实际使用情况确定,本发明实施例对其不做限定。

步骤s401、根据所述历史违规行为片段与所述历史合规行为片段训练所述分类模型,其中,所述分类模型为深度学习神经网络模型。

本发明实施例中,通过上述方式生成用于对候选视频片段进行识别的第一行为识别模型或第二行为识别模型,进而用于确定所述候选视频片段中的违规行为,即人物闭眼瞌睡或者张嘴打哈欠的视频片段,提高了在多个候选视频片段中确定存在违规行为的视频片段的效率和准确性。

在一种可能的实现方式中,在步骤s105之前,还包括:通过预先训练的人脸检测模型,确定所述至少一组候选视频片段中至少一组人脸区域视频片段,其中,所述人脸检测模型用于获取候选视频片段的人脸区域,所述人脸区域视频片段是通过在候选视频片段中截取的人脸区域组成的视频片段。

具体的,所述人脸检测模型为根据历史人脸数据训练的深度学习神经网络模型。

本发明实施例中,假设所述候选视频片段中任一张图像,如图5所示,若所述候选视频片段中任一张图像中包括2个人物的人脸,其中一个的人脸区域较大,另一个人脸且区域较小,为了明确区分,人脸区域较大的人脸为图5中的人脸1,人脸区域较小的人脸为图5中的人脸2,根据人脸检测模型在所述候选视频片段中的每一张图像中确定出最大的人脸区域,并对图像进行截取,截取的图像如图6所示,只包括人脸1;将每张截取后的图像重新组合,生成新的人脸区域视频片段。

本发明实施例中,当需要生成新的人脸区域视频片段时,所述一种行为检测的方法,如图7所述,具体包括如下步骤:

步骤s700、获取视频流。

步骤s701、按照设定频率在所述视频流中抽取多张图像。

步骤s702、通过预先训练的分类模型,确定所述多张图像中的违规图像。

步骤s703、响应于所述多张图像中包括至少一组连续违规图像,确定所述至少一组连续违规图像对应的至少一组视频片段,其中,所述连续违规图像的图像数量大于或等于设定数值。

步骤s704、确定所述至少一组视频片段中至少一组候选视频片段,其中,所述候选视频片段为无发音的视频片段。

步骤s705、通过预先训练的人脸检测模型,确定所述至少一组候选视频片段中至少一组人脸区域视频片段。

步骤s706、通过预先训练的行为识别模型,确定所述至少一组人脸区域视频片段中存在违规行为的视频片段。

本发明实施例中,通过上述方法,在人脸区域视频片段中确定存在违规行为的视频片段,由于进行了图像截取,人脸区域更加清晰,检测效果更加准确。

在一种可能的实现方式中,一种行为检测的方法对应的完整的数据流向图,如图8所示,具体如下:以在线教学为例,在线教学结束后,执行s801获取教师的课程回放视频流,然后同时执行s8021对视频流进行抽帧和s8022提取所述视频流对应的音频流,在s8021之后执行s8031通过分类模型对每帧图像进行判断,确定违规图像;在s8022之后执行s8032通过vad对音频流进行分析,确定有发音语音片段;在s8031之后执行s804确定至少一组连续违规图像对应的至少一组视频片段;根据s804与s8032,执行s805确定至少一组无发音的视频片段,然后执行s806通过人脸检测模型确定至少一组人脸区域视频片段,接着执行s807通过行为识别模型确定所述至少一组人脸区域视频片段中存在违规行为的视频片段。

本发明实施例中,假设每节课教师出现违规行为的视频片段大于设定数值,或者,多节课教师出现的违规行为的视频片段的平均数大于设定数值,则对教师进行行为提醒,提醒其注意自身的教学行为,有助于教师的行为归规和矫正;同样的,也可以对参会人员进行提醒。

图9是本发明实施例的一种行为检测的装置示意图。如图9所示,本实施例的装置包括获取单元901、处理单元902和确定单元903。

其中,所述获取单元901,用于获取视频流;所述处理单元902,用于按照设定频率在所述视频流中抽取多张图像;所述确定单元903,用于通过预先训练的分类模型,确定所述多张图像中的违规图像;所述确定单元903还用于,响应于所述多张图像中包括至少一组连续违规图像,确定所述至少一组连续违规图像对应的至少一组视频片段,其中,所述连续违规图像的图像数量大于或等于设定数值;所述确定单元903还用于,确定所述至少一组视频片段中至少一组候选视频片段,其中,所述候选视频片段为无发音的视频片段;所述确定单元903还用于,通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段。

本发明实施例中,通过图像抽取、违规图像检测、生成候选视频片段、以及通过违规行为检测在候选视频片段中确定存在违规行为的视频片段,可以对视频流中的违规行为进行自动检测,减少了人力消耗,提高了检测效率。

图10是本发明实施例的电子设备的示意图。图10所示的电子设备为通用行为检测装置,其包括通用的计算机硬件结构,其至少包括处理器1001和存储器1002。处理器1001和存储器1002通过总线1003连接。存储器1002适于存储处理器1001可执行的指令或程序。处理器1001可以是独立的微处理器,也可以是一个或者多个微处理器集合。由此,处理器1001通过执行存储器1002所存储的指令,从而执行如上所述的本发明实施例的方法流程实现对于数据的处理和对于其它装置的控制。总线1003将上述多个组件连接在一起,同时将上述组件连接到显示控制器1004和显示装置以及输入/输出(i/o)装置1005。输入/输出(i/o)装置1005可以是鼠标、键盘、调制解调器、网络接口、触控输入装置、体感输入装置、打印机以及本领域公知的其他装置。典型地,输入/输出装置1005通过输入/输出(i/o)控制器1006与系统相连。

如本领域技术人员将意识到的,本发明实施例的各个方面可以被实现为系统、方法或计算机程序产品。因此,本发明实施例的各个方面可以采取如下形式:完全硬件实施方式、完全软件实施方式(包括固件、常驻软件、微代码等)或者在本文中通常可以都称为“电路”、“模块”或“系统”的将软件方面与硬件方面相结合的实施方式。此外,本发明实施例的各个方面可以采取如下形式:在一个或多个计算机可读介质中实现的计算机程序产品,计算机可读介质具有在其上实现的计算机可读程序代码。

可以利用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是如(但不限于)电子的、磁的、光学的、电磁的、红外的或半导体系统、设备或装置,或者前述的任意适当的组合。计算机可读存储介质的更具体的示例(非穷尽列举)将包括以下各项:具有一根或多根电线的电气连接、便携式计算机软盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或闪速存储器)、光纤、便携式光盘只读存储器(cd-rom)、光存储装置、磁存储装置或前述的任意适当的组合。在本发明实施例的上下文中,计算机可读存储介质可以为能够包含或存储由指令执行系统、设备或装置使用的程序或结合指令执行系统、设备或装置使用的程序的任意有形介质。

计算机可读信号介质可以包括传播的数据信号,所述传播的数据信号具有在其中如在基带中或作为载波的一部分实现的计算机可读程序代码。这样的传播的信号可以采用多种形式中的任何形式,包括但不限于:电磁的、光学的或其任何适当的组合。计算机可读信号介质可以是以下任意计算机可读介质:不是计算机可读存储介质,并且可以对由指令执行系统、设备或装置使用的或结合指令执行系统、设备或装置使用的程序进行通信、传播或传输。

可以使用包括但不限于无线、有线、光纤电缆、rf等或前述的任意适当组合的任意合适的介质来传送实现在计算机可读介质上的程序代码。

用于执行针对本发明实施例各方面的操作的计算机程序代码可以以一种或多种编程语言的任意组合来编写,所述编程语言包括:面向对象的编程语言如java、smalltalk、c 等;以及常规过程编程语言如“c”编程语言或类似的编程语言。程序代码可以作为独立软件包完全地在用户计算机上、部分地在用户计算机上执行;部分地在用户计算机上且部分地在远程计算机上执行;或者完全地在远程计算机或服务器上执行。在后一种情况下,可以将远程计算机通过包括局域网(lan)或广域网(wan)的任意类型的网络连接至用户计算机,或者可以与外部计算机进行连接(例如通过使用因特网服务供应商的因特网)。

上述根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图图例和/或框图描述了本发明实施例的各个方面。将要理解的是,流程图图例和/或框图的每个块以及流程图图例和/或框图中的块的组合可以由计算机程序指令来实现。这些计算机程序指令可以被提供至通用计算机、专用计算机或其它可编程数据处理设备的处理器,以产生机器,使得(经由计算机或其它可编程数据处理设备的处理器执行的)指令创建用于实现流程图和/或框图块或块中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在可以指导计算机、其它可编程数据处理设备或其它装置以特定方式运行的计算机可读介质中,使得在计算机可读介质中存储的指令产生包括实现在流程图和/或框图块或块中指定的功能/动作的指令的制品。

计算机程序指令还可以被加载至计算机、其它可编程数据处理设备或其它装置上,以使在计算机、其它可编程设备或其它装置上执行一系列可操作步骤来产生计算机实现的过程,使得在计算机或其它可编程设备上执行的指令提供用于实现在流程图和/或框图块或块中指定的功能/动作的过程。

以上所述仅为本发明的优选实施例,并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


技术特征:

1.一种行为检测的方法,其特征在于,该方法包括:

获取视频流;

按照设定频率在所述视频流中抽取多张图像;

通过预先训练的分类模型,确定所述多张图像中的违规图像;

响应于所述多张图像中包括至少一组连续违规图像,确定所述至少一组连续违规图像对应的至少一组视频片段,其中,所述连续违规图像的图像数量大于或等于设定数值;

确定所述至少一组视频片段中至少一组候选视频片段,其中,所述候选视频片段为无发音的视频片段;

通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段。

2.如权利要求1所述的方法,其特征在于,所述确定所述至少一组视频片段中至少一组候选视频片段,具体包括:

确定所述视频流中的有发音语音片段;

在所述至少一组视频片段中去除与所述有发音语音片段存在交集的视频片段,确定所述至少一组视频片段中无发音的至少一组候选视频片段。

3.如权利要求2所述的方法,其特征在于,所述确定所述视频流中的有发音语音片段,具体包括:

确定所述视频流对应的音频流;

通过语音端点检测在所述音频流中确定所述音频流中的有发音语音片段。

4.如权利要求1所述的方法,其特征在于,该方法还包括:

通过预先训练的人脸检测模型,确定所述至少一组候选视频片段中至少一组人脸区域视频片段,其中,所述人脸检测模型用于获取候选视频片段的人脸区域,所述人脸区域视频片段是通过在候选视频片段中截取的人脸区域组成的视频片段。

5.如权利要求4所述的方法,其特征在于,所述通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段,具体包括:

所述通过预先训练的行为识别模型,确定所述至少一组人脸区域视频片段中存在违规行为的视频片段。

6.如权利要求1所述的方法,其特征在于,所述分类模型为第一分类模型或者第二分类模型,其中,所述第一分类模型用于判断所述图像中的人物是否闭眼;所述第二分类模型用于判断所述图像中的人物是否张嘴。

7.如权利要求1所述的方法,其特征在于,所述行为识别模型为第一行为识别模型或者第二行为识别模型,其中,所述第一行为识别模型用于识别所述候选视频片段中是否存在闭眼瞌睡的违规行为;所述第二行为识别模型用于识别所述候选视频片段中是否存在张嘴打哈欠的违规行为。

8.如权利要求1所述的方法,其特征在于,所述分类模型的训练过程包括:

获取历史违规行为图像与历史合规行为图像;

根据所述历史违规行为图像与所述历史合规行为图像训练所述分类模型,其中,所述分类模型为二分类模型。

9.如权利要求1所述的方法,其特征在于,所述行为识别模型的训练过程包括:

获取历史违规行为片段与历史合规行为片段;

根据所述历史违规行为片段与所述历史合规行为片段训练所述分类模型,其中,所述分类模型为深度学习神经网络模型。

10.如权利要求4所述的方法,其特征在于,所述人脸检测模型为根据历史人脸数据训练的深度学习神经网络模型。

11.一种行为检测的装置,其特征在于,该装置包括:

获取单元,用于获取视频流;

处理单元,用于按照设定频率在所述视频流中抽取多张图像;

确定单元,用于通过预先训练的分类模型,确定所述多张图像中的违规图像;

所述确定单元还用于,响应于所述多张图像中包括至少一组连续违规图像,确定所述至少一组连续违规图像对应的至少一组视频片段,其中,所述连续违规图像的图像数量大于或等于设定数值;

所述确定单元还用于,确定所述至少一组视频片段中至少一组候选视频片段,其中,所述候选视频片段为无发音的视频片段;

所述确定单元还用于,通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段。

12.一种计算机可读存储介质,其上存储计算机程序指令,其特征在于,所述计算机程序指令在被处理器执行时实现如权利要求1-10中任一项所述的方法。

13.一种电子设备,包括存储器和处理器,其特征在于,所述存储器用于存储一条或多条计算机程序指令,其中,所述一条或多条计算机程序指令被所述处理器执行以实现如权利要求1-10任一项所述的方法。

技术总结
本发明实施例公开了一种行为检测的方法、装置、可读存储介质和电子设备。本发明实施例通过获取视频流,按照设定频率在所述视频流中抽取多张图像;通过预先训练的分类模型,确定所述多张图像中的违规图像;当所述多张图像中包括至少一组图像数量大于或等于设定数值的连续违规图像时,确定所述至少一组连续违规图像对应的至少一组视频片段;然后确定所述至少一组视频片段中至少一组候选视频片段,通过预先训练的行为识别模型,确定所述至少一组候选视频片段中存在违规行为的视频片段。通过上述方法,通过图像抽取、违规图像检测、以及违规行为检测,可以对视频流中的违规行为进行自动检测,减少了人力消耗,提高了检测效率。

技术研发人员:程驰;周佳;包英泽
受保护的技术使用者:北京大米科技有限公司
技术研发日:2021.03.26
技术公布日:2021.07.02

转载请注明原文地址:https://doc.8miu.com/read-350346.html

最新回复(0)