一种业务录制的视频数据质检方法及装置与流程

专利2022-05-09 134

本发明涉及云计算技术领域，具体涉及一种业务录制的视频数据质检方法及装置。

背景技术：

为保护消费者权益，根据监管机构要求，金融机构销售理财、基金、保险等产品时，需对销售过程同步录音录像(简称：数据录制)，防范误导销售、私售“飞单”等情况。金融机构根据自身业务流程，制定产品销售时的数据录制步骤及每一步的标准话术模板，并在数据录制完成后，逐一检查数据录制视频是否符合要求。

为了减少了质检人力投入、统一质检标准并提升时效性，部分机构利用人工智能技术对数据录制进行实时质检，即在数据录制时额外获取一路实时音视频流进行自动化质检，尽量在客户离开营业场所前完成，避免因数据录制不合规需客户再次返回补录，从而提升客户体验及营业效率。

不同机构的数据录制步骤及标准话术模板存在差异，语音、视频各存在多个质检点，例如：(1)语音质检：确认客户身份、客户经理自我介绍、客户经理介绍产品发行主体、保本属性、收益水平、风险情况、手续费等；(2)视频质检：客户经理展示证件、展示产品资料、关键环节客户有签字等。

数据录制质检需要从录音录像中一一检查相关质检点是否合规，目前通用数据录制实时质检系统存在下述不足：

视频质检一般是根据分段结果，对质检点所在的时间段进行抽帧成图片，再对图片质检的方式。为了保证质检准确率，抽帧频率不能过低，因此针对某一质检点，可能需要对几分钟甚至十几分钟的视频进行抽帧，此时抽帧的图片可能达到数百张，传输到质检服务端时对网络压力较大，且对计算资源消耗大，质检耗时长。

技术实现要素：

针对现有技术中的问题，本发明提供一种业务录制的视频数据质检方法及装置，通过对视频数据进行抽帧，。

为解决上述技术问题，本发明提供以下技术方案：

第一方面，本发明提供一种业务录制的视频数据质检方法，包括：

获取正在进行业务的录制视频数据；

根据业务的业务分段信息确定所述录制视频数据的所处分段；

针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；

将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；

对置信度高于设定阈值的所述视频图像进行质检操作。

在优选的实施例中，所述业务录制的视频数据质检方法还包括：

根据所述业务规则和业务特征确定每个业务的业务分段信息。

在优选的实施例中，所述根据业务的业务分段信息确定所述录制视频数据的所处分段，包括：

根据所述录制视频数据对应的音频数据以及所述业务分段信息确定所述录制视频数据的所处分段。

在优选的实施例中，所述业务分段信息包括：确认客户身份分段、自我介绍分段、产品类型说明分段、保本及收益说明分段、投资范围说明分段、风险说明分段、产品期限说明分段、手续费说明分段、风险提示分段。

在优选的实施例中，所述业务分段信息包括每个业务分段音频生产者的身份信息和音色信息，所述根据所述录制视频数据对应的音频数据以及所述业务分段信息确定所述录制视频数据的所处分段，包括：

比对当前录制视频数据对应的音频数据的音色信息与所述业务分段信息中的音色信息，确定当前音频生产者的身份信息；

根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段。

在优选的实施例中，所述根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段，包括：

根据所述身份信息确定所处的业务分段范围；

根据该音色的持续时长以及所述业务分段范围内各业务分段的业务持续时长，剔除匹配度低于设定阈值的业务分段，得到更新业务分段范围；

根据当前业务进行时长以及所有业务分段的业务持续时长，对所述更新业务分段范围内的业务分段进行匹配，并将匹配度最高的所述业务分段确定为当前所处的业务分段。

在优选的实施例中，若当前已抽帧的所有视频图像对应的置信度均低于设定阈值，或者当前对象检测结果为无目标对象，所述方法还包括：

执行迭代操作，重新对所述录制视频数据进行抽帧，得到多个视频图像，将所述多个视频图像和当前所述分段输入至预设的对象检测模型，直至所述对象检测模型输出的置信度高于设定阈值。

在优选的实施例中，还包括：

建立所述对象检测模型；

利用已标注置信度和对象的多个历史视频图像训练所述对象检测模型。

第二方面，本发明提供一种业务录制的视频数据质检装置，包括：

获取模块，获取正在进行业务的录制视频数据；

分段确定模块，根据业务的业务分段信息确定所述录制视频数据的所处分段；

抽帧模块，针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；

输入模块，将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；

质检模块，对置信度高于设定阈值的所述视频图像进行质检操作。

在优选的实施例中，还包括：

分段信息确定模块，根据所述业务规则和业务特征确定每个业务的业务分段信息。

在优选的实施例中，所述分段确定模块具体用于根据所述录制视频数据对应的音频数据以及所述业务分段信息确定所述录制视频数据的所处分段。

在优选的实施例中，所述业务分段信息包括每个业务分段音频生产者的身份信息和音色信息，所述分段确定模块，包括：

身份信息确定单元，比对当前录制视频数据对应的音频数据的音色信息与所述业务分段信息中的音色信息，确定当前音频生产者的身份信息；

业务分段确定单元，根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段。

在优选的实施例中，所述根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段，包括：

根据所述身份信息确定所处的业务分段范围；

根据该音色的持续时长以及所述业务分段范围内各业务分段的业务持续时长，剔除匹配度低于设定阈值的业务分段，得到更新业务分段范围；

在优选的实施例中，还包括：迭代操作模块，若当前已抽帧的所有视频图像对应的置信度均低于设定阈值，或者当前对象检测结果为无目标对象，执行迭代操作，重新对所述录制视频数据进行抽帧，得到多个视频图像，将所述多个视频图像和当前所述分段输入至预设的对象检测模型，直至所述对象检测模型输出的置信度高于设定阈值。

在优选的实施例中，还包括：

模型建立模块，建立所述对象检测模型；

模型训练模块，利用已标注置信度和对象的多个历史视频图像训练所述对象检测模型。

第三方面，本发明提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述的业务录制的视频数据质检方法。

第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述的业务录制的视频数据质检方法。

由上述技术方案可知，本发明提供的一种业务录制的视频数据质检方法及装置，首先根据业务的业务分段信息确定所述录制视频数据的所处分段；然后针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；之后将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；最后对置信度高于设定阈值的所述视频图像进行质检操作，本发明通过针对当前所处的分段内的视频数据进行抽帧，然后利用对象检测模型进行轻量化质检，相对于通用的针对整个话术分段内视频进行抽帧的做法，本发明通过轻量对象检测算法先进一步精确定位质检对象出现的时间点，并仅抽取数张图片进行后续质检，大大减少了需传输、检测的图片数量，从而降低图片传输压力，以及质检计算资源消耗及质检耗时，进一步提升质检时效性。另一方面，轻量级对象检测算法对算力要求低，避免对数据录制终端资源占用过大导致影响数据录制操作。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例中的业务录制的视频数据质检方法的流程示意图。

图2是本发明实施例中业务录制的视频数据质检装置的具体实施例流程示意图。

图3是本发明实施例中的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，本发明公开的业务录制的视频数据质检方法及装置可用于云计算技术领域，也可用于除云计算技术领域之外的任意领域，本发明公开的业务录制的视频数据质检方法及装置的应用领域不做限定。

在本发明的一个或多个实施例中，录制数据一般包括音频数据和视频数据。音、视频数据流的质检内容包括客户经理有确认客户身份并自我介绍、有介绍产品情况(如：发行主体、保本属性、收益水平、风险情况、手续费等)、客户经理与客户位于同一画面、关键环节有客户签字、客户经理是否说了违禁语等。

基于上述内容，本发明首先提供一种用于实现本发明一个或多个实施例中提供的业务录制的视频数据质检方法的业务录制的视频数据质检装置，该业务录制的视频数据质检装置可以与前端录制设备之间通信连接，所述前端录制设备可以设有多个，业务录制的视频数据质检装置具体可以通过专用网络访问所述前端录制设备。

其中，所述业务录制的视频数据质检装置获取正在进行业务的录制视频数据；根据业务的业务分段信息确定所述录制视频数据的所处分段；针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；对置信度高于设定阈值的所述视频图像进行质检操作。

可以理解的是，所述前端录制设备可以包括智能手机、平板电子设备、便携式计算机、台式电脑、个人数字助理(pda)等具有录制和处理能力的设备，也可以仅仅包括录音机等仅具备录音功能的设备，本发明不限于此。

在另一实际应用情形中，进行录制数据分段质检的部分可以在如上述内容所述的质检装置执行，也可以部分操作在所述前端录制设备中完成。具体可以根据所述前端录制设备的处理能力，以及用户使用场景的限制等进行选择。本发明对此不作限定。

上述的前端录制设备可以具有通信模块(即通信单元)，可以与质检装置进行通信连接，实现与所述服务器的数据传输。例如，通信单元可以将录制数据分段质检指令发送至质检装置，以便质检装置根据录制数据分段质检指令进行录制数据分段质检。通信单元还可以接收质检装置返回的质检结果。

上述质检装置与所述前端录制设备之间可以使用任何合适的网络协议进行通信，包括在本发明提交日尚未开发出的网络协议。所述网络协议例如可以包括tcp/ip协议、udp/ip协议、http协议、https协议等。当然，所述网络协议例如还可以包括在上述协议之上使用的rpc协议(remoteprocedurecallprotocol，远程过程调用协议)、rest协议(representationalstatetransfer，表述性状态转移协议)等。

本发明提供的业务录制的视频数据质检方法业务录制的视频数据质检装置、电子设备和计算机可读存储介质，通过针对当前所处的分段内的视频数据进行抽帧，然后利用对象检测模型进行轻量化质检，相对于通用的针对整个话术分段内视频进行抽帧的做法，本发明通过轻量对象检测算法先进一步精确定位质检对象出现的时间点，并仅抽取数张图片进行后续质检，大大减少了需传输、检测的图片数量，从而降低图片传输压力，以及质检计算资源消耗及质检耗时，进一步提升质检时效性。另一方面，轻量级对象检测算法对算力要求低，避免对数据录制终端资源占用过大导致影响数据录制操作。

具体通过下述多个实施例及应用实例分别进行说明。

为了解决现有技术中为了保证质检准确率，抽帧频率不能过低，因此针对某一质检点，可能需要对几分钟甚至十几分钟的视频进行抽帧，此时抽帧的图片可能达到数百张，传输到质检服务端时对网络压力较大，且对计算资源消耗大，质检耗时长的问题，本发明提供一种业务录制的视频数据质检方法的实施例，参见图1，所述业务录制的视频数据质检方法具体包含有如下内容：

步骤s100：获取正在进行业务的录制视频数据。

步骤s200：根据业务的业务分段信息确定所述录制视频数据的所处分段。

步骤s300：根据所述业务分段与质检点的预设对应关系以及所述所处分段，对已录制数据进行质检。

步骤s400：将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度。

步骤s500：对置信度高于设定阈值的所述视频图像进行质检操作。

可以理解的是，业务分段信息可以根据业务流程、业务特征来进行确定和划分。

从上述描述可知，本发明实施例提供的业务录制的视频数据质检方法，首先根据业务的业务分段信息确定所述录制视频数据的所处分段；然后针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；之后将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；最后对置信度高于设定阈值的所述视频图像进行质检操作，本发明通过针对当前所处的分段内的视频数据进行抽帧，然后利用对象检测模型进行轻量化质检，相对于通用的针对整个话术分段内视频进行抽帧的做法，本发明通过轻量对象检测算法先进一步精确定位质检对象出现的时间点，并仅抽取数张图片进行后续质检，大大减少了需传输、检测的图片数量，从而降低图片传输压力，以及质检计算资源消耗及质检耗时，进一步提升质检时效性。另一方面，轻量级对象检测算法对算力要求低，避免对数据录制终端资源占用过大导致影响数据录制操作。

在本发明中，业务分段信息可以预先生成，也可以在线生成，本发明不做限制，在一个实施例中，本发明的步骤包括业务分段信息的生成过程，即：

所述业务录制的视频数据质检方法还包括：

根据所述业务规则和业务特征确定每个业务的业务分段信息。

可以理解，本发明的业务可以包括银行业务，在银行业务中，所述业务分段信息包括：确认客户身份分段、自我介绍分段、产品类型说明分段、保本及收益说明分段、投资范围说明分段、风险说明分段、产品期限说明分段、手续费说明分段、风险提示分段。

为了提供一种具体的如何确定业务分段的方法，在本发明提供的业务录制的视频数据质检方法的一个实施例中，提供一种录制数据分段的优选方式，在录制时，视频数据与音频数据相对应，所述根据业务的业务分段信息确定所述录制视频数据的所处分段，包括：

根据所述录制视频数据对应的音频数据以及所述业务分段信息确定所述录制视频数据的所处分段。

进一步的，在本发明提供的业务录制的视频数据质检方法的一个实施例中，所述业务分段信息包括每个业务分段音频生产者的身份信息和音色信息，所述根据所述录制视频数据对应的音频数据以及所述业务分段信息确定所述录制视频数据的所处分段，包括：

比对当前录制视频数据对应的音频数据的音色信息与所述业务分段信息中的音色信息，确定当前音频生产者的身份信息；

根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段。

该实施例中，由于每个业务分段中的音频生产者是客户或者客户经理或者系统提示声等，本发明根据上述音频生产者的音色不同来进行确定身份，并基于业务进行时长和音色持续时长等信息来进一步确定出当前所处的分段。

为了进一步说明上述步骤中的如何确定当前所处的业务分段的具体方案，在本发明提供的业务录制的视频数据质检方法的一个实施例中，提供一种数据质检的优选方式，所述根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段，包括：

根据所述身份信息确定所处的业务分段范围；

根据该音色的持续时长以及所述业务分段范围内各业务分段的业务持续时长，剔除匹配度低于设定阈值的业务分段，得到更新业务分段范围；

该实施例中，通过身份信息确定出初步范围，然后根据音色持续时长和各业务分段的持续时长进行匹配，如果匹配度低于设定阈值，则表示两者时间差别过大，之后将当前业务进行的时长和业务分段信息中的持续时长进行匹配，选取匹配度最高的业务分段，这时得到的业务分段准确，无需人工进行业务分段。

进一步的，在一些实施例中，若当前已抽帧的所有视频图像对应的置信度均低于设定阈值，或者当前对象检测结果为无目标对象，所述方法还包括：

该实施例中，由于可以根据置信度进行判断，因此可以大大提高抽帧数据的准确性，在首次抽帧不合格的情况下，可以进行多次抽帧，从而选出合格的抽帧图像。

在一些实施例中，本发明的步骤还包括：

建立所述对象检测模型；

利用已标注置信度和对象的多个历史视频图像训练所述对象检测模型。

本实施例中，对象检测模型是机器学习模型，基于轻量级对象检测算法(比如：yolo-tiny、nanodet等)，对视频质检点涉及的检测对象(比如：证件)进行训练，得到检查相关对象是否存在的检测模型。针对某一话术分段下的视频数据，先抽帧为图片(抽帧频率可参数控制)，然后将图片送入已训练好的轻量级对象检测模型，检测质检点所涉及的检测对象是否存在且置信度超过一定阈值。当符合要求的图片数量大于一定数量时(具体数量可设置)，不再继续检测，而是对相关图片进行详细质检，比如：针对证件是否清晰的质检点，轻量级对象检测模型仅检测是否存在证件，并挑选出置信度高于阈值的数张图片发送到视频质检单元，由其进一步实施清晰度检测，判断是否符合质检点要求。相对于通用的针对整个话术分段内视频进行抽帧的做法，本发明通过轻量对象检测算法先进一步精确定位质检对象出现的时间点，并仅抽取数张图片进行后续质检，大大减少了需传输、检测的图片数量，从而降低图片传输压力，以及质检计算资源消耗及质检耗时，进一步提升质检时效性。另一方面，轻量级对象检测算法对算力要求低，避免对双录终端资源占用过大导致影响双录操作。

针对抽帧所得的图片，对该分段下的视频质检点(比如：是否展示证件、证件内容是否清晰)，采取基于深度学习的目标检测算法(如：yolo、ssd等)、行为识别算法(如cnn lstm、two-stream等)进行质检。

从上述分析可以看出，本发明实施例提供的业务录制的视频数据质检方法，首先根据业务的业务分段信息确定所述录制视频数据的所处分段；然后针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；之后将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；最后对置信度高于设定阈值的所述视频图像进行质检操作，本发明通过针对当前所处的分段内的视频数据进行抽帧，然后利用对象检测模型进行轻量化质检，相对于通用的针对整个话术分段内视频进行抽帧的做法，本发明通过轻量对象检测算法先进一步精确定位质检对象出现的时间点，并仅抽取数张图片进行后续质检，大大减少了需传输、检测的图片数量，从而降低图片传输压力，以及质检计算资源消耗及质检耗时，进一步提升质检时效性。另一方面，轻量级对象检测算法对算力要求低，避免对数据录制终端资源占用过大导致影响数据录制操作。

从软件层面来说，为了解决现有技术中为了保证质检准确率，抽帧频率不能过低，因此针对某一质检点，可能需要对几分钟甚至十几分钟的视频进行抽帧，此时抽帧的图片可能达到数百张，传输到质检服务端时对网络压力较大，且对计算资源消耗大，质检耗时长的问题，本发明提供一种用于执行所述业务录制的视频数据质检方法中全部或部分内容的业务录制的视频数据质检装置的实施例，参见图2，所述业务录制的视频数据质检装置具体包含有如下内容：

获取模块10，获取正在进行业务的录制视频数据；

分段确定模块20，根据业务的业务分段信息确定所述录制视频数据的所处分段；

抽帧模块30，针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；

输入模块40，将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；

质检模块50，对置信度高于设定阈值的所述视频图像进行质检操作。

本发明提供的业务录制的视频数据质检装置的实施例具体可以用于执行上述实施例中的业务录制的视频数据质检装置的实施例的处理流程，其功能在此不再赘述，可以参照上述装置实施例的详细描述。

从上述描述可知，本发明实施例提供的业务录制的视频数据质检装置，首先根据业务的业务分段信息确定所述录制视频数据的所处分段；然后针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；之后将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；最后对置信度高于设定阈值的所述视频图像进行质检操作，本发明通过针对当前所处的分段内的视频数据进行抽帧，然后利用对象检测模型进行轻量化质检，相对于通用的针对整个话术分段内视频进行抽帧的做法，本发明通过轻量对象检测算法先进一步精确定位质检对象出现的时间点，并仅抽取数张图片进行后续质检，大大减少了需传输、检测的图片数量，从而降低图片传输压力，以及质检计算资源消耗及质检耗时，进一步提升质检时效性。另一方面，轻量级对象检测算法对算力要求低，避免对数据录制终端资源占用过大导致影响数据录制操作。

在优选的实施例中，还包括：

分段信息确定模块，根据所述业务规则和业务特征确定每个业务的业务分段信息。

在优选的实施例中，所述分段确定模块具体用于根据所述录制视频数据对应的音频数据以及所述业务分段信息确定所述录制视频数据的所处分段。

在优选的实施例中，所述业务分段信息包括每个业务分段音频生产者的身份信息和音色信息，所述分段确定模块，包括：

身份信息确定单元，比对当前录制视频数据对应的音频数据的音色信息与所述业务分段信息中的音色信息，确定当前音频生产者的身份信息；

业务分段确定单元，根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段。

在优选的实施例中，所述根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段，包括：

根据所述身份信息确定所处的业务分段范围；

根据该音色的持续时长以及所述业务分段范围内各业务分段的业务持续时长，剔除匹配度低于设定阈值的业务分段，得到更新业务分段范围；

在优选的实施例中，还包括：

模型建立模块，建立所述对象检测模型；

模型训练模块，利用已标注置信度和对象的多个历史视频图像训练所述对象检测模型。

从硬件层面来说，为了解决现有技术中为了保证质检准确率，抽帧频率不能过低，因此针对某一质检点，可能需要对几分钟甚至十几分钟的视频进行抽帧，此时抽帧的图片可能达到数百张，传输到质检服务端时对网络压力较大，且对计算资源消耗大，质检耗时长的问题，本发明提供一种用于实现所述业务录制的视频数据质检方法中的全部或部分内容的电子设备的实施例，所述电子设备具体包含有如下内容：

图3为本发明实施例的电子设备9600的系统构成的示意框图。如图3所示，该电子设备9600可以包括中央处理器9100和存储器9140；存储器9140耦合到中央处理器9100。值得注意的是，该图3是示例性的；还可以使用其他类型的结构，来补充或代替该结构，以实现电信功能或其他功能。

在一实施例中，录制数据分段质检功能可以被集成到中央处理器中。其中，中央处理器可以被配置为进行如下控制：

步骤s100：获取正在进行业务的录制视频数据。

步骤s200：根据业务的业务分段信息确定所述录制视频数据的所处分段。

步骤s300：根据所述业务分段与质检点的预设对应关系以及所述所处分段，对已录制数据进行质检。

步骤s400：将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度。

步骤s500：对置信度高于设定阈值的所述视频图像进行质检操作。

从上述描述可知，本发明实施例提供的电子设备，首先根据业务的业务分段信息确定所述录制视频数据的所处分段；然后针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；之后将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；最后对置信度高于设定阈值的所述视频图像进行质检操作，本发明通过针对当前所处的分段内的视频数据进行抽帧，然后利用对象检测模型进行轻量化质检，相对于通用的针对整个话术分段内视频进行抽帧的做法，本发明通过轻量对象检测算法先进一步精确定位质检对象出现的时间点，并仅抽取数张图片进行后续质检，大大减少了需传输、检测的图片数量，从而降低图片传输压力，以及质检计算资源消耗及质检耗时，进一步提升质检时效性。另一方面，轻量级对象检测算法对算力要求低，避免对数据录制终端资源占用过大导致影响数据录制操作。

在另一个实施方式中，业务录制的视频数据质检装置可以与中央处理器9100分开配置，例如可以将业务录制的视频数据质检装置配置为与中央处理器9100连接的芯片，通过中央处理器的控制来实现录制数据分段质检功能。

如图3所示，该电子设备9600还可以包括：通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是，电子设备9600也并不是必须要包括图3中所示的所有部件；此外，电子设备9600还可以包括图3中没有示出的部件，可以参考现有技术。

如图3所示，中央处理器9100有时也称为控制器或操作控件，可以包括微处理器或其他处理器装置和/或逻辑装置，该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。

其中，存储器9140，例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息，此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序，以实现信息存储或处理等。

输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为lcd显示器，但并不限于此。

该存储器9140可以是固态存储器，例如，只读存储器(rom)、随机存取存储器(ram)、sim卡等。还可以是这样的存储器，其即使在断电时也保存信息，可被选择性地擦除且设有更多数据，该存储器的示例有时被称为eprom等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142，该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。

存储器9140还可以包括数据存储部9143，该数据存储部9143用于存储数据，例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。

通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100，以提供输入信号和接收输出信号，这可以和常规移动通信终端的情况相同。

基于不同的通信技术，在同一电子设备中，可以设置有多个通信模块9110，如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132，以经由扬声器9131提供音频输出，并接收来自麦克风9132的音频输入，从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外，音频处理器9130还耦合到中央处理器9100，从而使得可以通过麦克风9132能够在本机上录音，且使得可以通过扬声器9131来播放本机上存储的声音。

本发明的实施例还提供能够实现上述实施例中的业务录制的视频数据质检方法中全部步骤的一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的业务录制的视频数据质检方法的全部步骤，例如，所述处理器执行所述计算机程序时实现下述步骤：

步骤s100：获取正在进行业务的录制视频数据。

步骤s200：根据业务的业务分段信息确定所述录制视频数据的所处分段。

步骤s300：根据所述业务分段与质检点的预设对应关系以及所述所处分段，对已录制数据进行质检。

步骤s400：将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度。

步骤s500：对置信度高于设定阈值的所述视频图像进行质检操作。

本领域内的技术人员应明白，本发明的实施例可提供为方法、装置、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

技术特征：

1.一种业务录制的视频数据质检方法，其特征在于，包括：

获取正在进行业务的录制视频数据；

根据业务的业务分段信息确定所述录制视频数据的所处分段；

针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；

将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；

对置信度高于设定阈值的所述视频图像进行质检操作。

2.根据权利要求1所述的业务录制的视频数据质检方法，其特征在于，所述业务录制的视频数据质检方法还包括：

根据所述业务规则和业务特征确定每个业务的业务分段信息。

3.根据权利要求1所述的业务录制的视频数据质检方法，其特征在于，所述根据业务的业务分段信息确定所述录制视频数据的所处分段，包括：

根据所述录制视频数据对应的音频数据以及所述业务分段信息确定所述录制视频数据的所处分段。

4.根据权利要求1所述的业务录制的视频数据质检方法，其特征在于，所述业务分段信息包括：确认客户身份分段、自我介绍分段、产品类型说明分段、保本及收益说明分段、投资范围说明分段、风险说明分段、产品期限说明分段、手续费说明分段、风险提示分段。

5.根据权利要求3所述的业务录制的视频数据质检方法，其特征在于，所述业务分段信息包括每个业务分段音频生产者的身份信息和音色信息，所述根据所述录制视频数据对应的音频数据以及所述业务分段信息确定所述录制视频数据的所处分段，包括：

比对当前录制视频数据对应的音频数据的音色信息与所述业务分段信息中的音色信息，确定当前音频生产者的身份信息；

根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段。

6.根据权利要求5所述的业务录制的视频数据质检方法，其特征在于，所述根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段，包括：

根据所述身份信息确定所处的业务分段范围；

根据该音色的持续时长以及所述业务分段范围内各业务分段的业务持续时长，剔除匹配度低于设定阈值的业务分段，得到更新业务分段范围；

7.根据权利要求1所述的业务录制的视频数据质检方法，其特征在于，若当前已抽帧的所有视频图像对应的置信度均低于设定阈值，或者当前对象检测结果为无目标对象，所述方法还包括：

8.根据权利要求1所述的业务录制的视频数据质检方法，其特征在于，还包括：

建立所述对象检测模型；

利用已标注置信度和对象的多个历史视频图像训练所述对象检测模型。

9.一种业务录制的视频数据质检装置，其特征在于，包括：

获取模块，获取正在进行业务的录制视频数据；

分段确定模块，根据业务的业务分段信息确定所述录制视频数据的所处分段；

抽帧模块，针对当前所处分段，对所述录制视频数据进行抽帧，得到多个视频图像；

输入模块，将所述多个视频图像和当前所述分段输入至预设的对象检测模型，所述对象检测模型输出每个视频图像的对象检测结果和对应的置信度；

质检模块，对置信度高于设定阈值的所述视频图像进行质检操作。

10.根据权利要求9所述的业务录制的视频数据质检装置，其特征在于，还包括：

分段信息确定模块，根据所述业务规则和业务特征确定每个业务的业务分段信息。

11.根据权利要求9所述的业务录制的视频数据质检装置，其特征在于，所述分段确定模块具体用于根据所述录制视频数据对应的音频数据以及所述业务分段信息确定所述录制视频数据的所处分段。

12.根据权利要求9所述的业务录制的视频数据质检装置，其特征在于，所述业务分段信息包括：确认客户身份分段、自我介绍分段、产品类型说明分段、保本及收益说明分段、投资范围说明分段、风险说明分段、产品期限说明分段、手续费说明分段、风险提示分段。

13.根据权利要求11所述的业务录制的视频数据质检装置，其特征在于，所述业务分段信息包括每个业务分段音频生产者的身份信息和音色信息，所述分段确定模块，包括：

身份信息确定单元，比对当前录制视频数据对应的音频数据的音色信息与所述业务分段信息中的音色信息，确定当前音频生产者的身份信息；

业务分段确定单元，根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段。

14.根据权利要求13所述的业务录制的视频数据质检装置，其特征在于，所述根据所述身份信息、当前业务进行时长以及该音色的持续时长，确定当前所处的业务分段，包括：

根据所述身份信息确定所处的业务分段范围；

根据该音色的持续时长以及所述业务分段范围内各业务分段的业务持续时长，剔除匹配度低于设定阈值的业务分段，得到更新业务分段范围；

15.根据权利要求9所述的业务录制的视频数据质检装置，其特征在于，还包括：迭代操作模块，若当前已抽帧的所有视频图像对应的置信度均低于设定阈值，或者当前对象检测结果为无目标对象，执行迭代操作，重新对所述录制视频数据进行抽帧，得到多个视频图像，将所述多个视频图像和当前所述分段输入至预设的对象检测模型，直至所述对象检测模型输出的置信度高于设定阈值。

16.根据权利要求9所述的业务录制的视频数据质检装置，其特征在于，还包括：

模型建立模块，建立所述对象检测模型；

模型训练模块，利用已标注置信度和对象的多个历史视频图像训练所述对象检测模型。

17.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求1至8任一项所述的业务录制的视频数据质检方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1至8任一项所述的业务录制的视频数据质检方法。

技术总结
本发明提供的一种业务录制的视频数据质检方法及装置，可用于云计算技术领域或其他领域，本发明通过针对当前所处的分段内的视频数据进行抽帧，然后利用对象检测模型进行轻量化质检，相对于通用的针对整个话术分段内视频进行抽帧的做法，本发明通过轻量对象检测算法先进一步精确定位质检对象出现的时间点，并仅抽取数张图片进行后续质检，大大减少了需传输、检测的图片数量，从而降低图片传输压力，以及质检计算资源消耗及质检耗时，进一步提升质检时效性。另一方面，轻量级对象检测算法对算力要求低，避免对数据录制终端资源占用过大导致影响数据录制操作。

技术研发人员：沈超建;魏薇郦;刘金山;江文乐
受保护的技术使用者：中国工商银行股份有限公司
技术研发日：2021.04.30
技术公布日：2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-1794.html

专利

最新回复(0)