音视频交互系统音画失步的测试方法、装置及系统与流程

专利2022-05-09 244

本发明涉及实时音视频通信技术及金融领域，具体地涉及一种音视频交互系统音画失步的测试方法、装置及系统。

背景技术：

随着银行业务办理向线上化迁移，实时音视频通信技术越来越多用于银行信贷、风控领域的业务办理当中。研究表明，实时音视频通讯过程中，当音频与视频不同步，且失步时长超过80毫秒时，通信参与方就会感受到失步。失步时长超过120毫秒时，通信参与方会感到明显不适。因此，实时音视频交互系统中的音画失步的测试是十分必要的。

同时，由于实时音视频通讯系统的通信效果易受网络带宽、网络丢包率以及视频分辨率、视频码率等因素的影响，因此不同网络环境对音画失步的影响，也是评估音视频交互系统的质量的重要指标。

而现有技术中并没有考虑网络环境的音画失步测试系统及测试方法。

技术实现要素：

为了解决现有技术中存在的问题，本申请提供一种音视频交互系统音画失步的测试方法，涉及实时音视频通信技术及金融领域。该音视频交互系统音画失步的测试方法包括：

根据预设的网络配置参数对待测音视频交互系统的发送终端和接收终端的网络状态进行配置；

向设置于所述发送终端处的音视频播放终端发送测试开始指令，以使所述音视频播放终端合成并播放测试音视频片段；

接收设置于所述接收终端处的音视频采集终端发送的通过所述待测音视频交互系统传输的测试音视频片段的失步时长；所述失步时长由所述音视频采集终端基于所述待测音视频交互系统传输的测试音视频片段的视频帧和音频匹配得到；

根据所述失步时长以及当前网络状态生成音画失步报表。

在一实施例中，所述音视频交互系统音画失步的测试方法还包括：

接收所述音视频采集终端发送的测试停止指令；

将所述测试停止指令发送至所述音视频播放终端。

本申请还提供另一种音视频交互系统音画失步的测试方法，包括：

根据总控服务器的测试开始指令合成测试音视频片段；

在待测音视频交互系统的发送终端处播放所述测试音视频片段，使所述测试音视频片段通过所述待测音视频交互系统的发送终端、会议服务器及接收终端进行传输，供设置于所述接收终端处的音视频采集终端进行解析得到所述待测音视频交互系统传输的测试音视频片段的失步时长；

其中，所述发送终端和所述接收终端的网络状态相同且保持不变。

在一实施例中，所述根据总控服务器的测试开始指令合成得到测试音视频片段，包括：

为预先存储的频率值不同的多个音频分别生成唯一对应的视频帧帧号；

分别将各音频的频率值与对应的视频帧帧号进行编码，得到多个视频帧；

分别将各音频与对应的视频帧进行编码，得到多个测试音视频片段。

本申请还提供另一种音视频交互系统音画失步的测试方法，包括：

采集待测音视频交互系统的接收终端接收到的多个测试音视频片段的视频帧和音频；其中，所述测试音视频片段由音视频播放终端生成并通过所述待测音视频交互系统的发送终端及会议服务器传输至所述接收终端；

根据采集到的音频的频率值匹配该音频对应的视频帧；

根据与所述音频匹配的视频帧对应的帧号以及与所述音频同时采集到的视频帧的帧号得到待测音视频交互系统传输的测试音视频片段的失步时长。

在一实施例中，所述音视频交互系统音画失步的测试方法还包括：

对每个视频帧进行解析，得到各视频帧对应的帧号和频率值及采集时间戳；

对每个音频进行解析，得到各音频的频率值及采集时间戳。

在一实施例中，所述根据与所述音频匹配的视频帧对应的帧号以及与所述音频同时采集到的视频帧的帧号得到待测音视频交互系统传输的测试音视频片段的失步时长，包括：

根据所述音频的采集时间戳匹配采集时间戳相同的视频帧；

获取采集时间戳与所述音频匹配的视频帧的帧号；

获取频率值与所述音频匹配的视频帧的帧号；

根据频率值与所述音频匹配的视频帧的帧号、采集时间戳与所述音频匹配的视频帧的帧号，以及待测音视频交互系统传输的测试音视频片段的视频帧率计算得到所述失步时长。

本发明还提供一种音视频交互系统音画失步的测试装置，包括：

网络配置模块，用于根据预设的网络配置参数对待测音视频交互系统的发送终端和接收终端的网络状态进行配置；

启停控制模块，用于向设置于所述发送终端处的音视频播放终端发送测试开始指令，以使所述音视频播放终端合成并播放测试音视频片段；

数据接收模块，用于接收设置于所述接收终端处的音视频采集终端发送的通过所述待测音视频交互系统传输的测试音视频片段的失步时长；

其中，所述失步时长由音视频采集终端基于所述待测音视频交互系统传输的测试音视频片段的视频帧和音频匹配得到；

报表生成模块，用于根据所述失步时长以及当前网络状态生成音画失步报表。

在一实施例中，所述启停控制模块还用于：

接收所述音视频采集终端发送的测试停止指令；以及

将所述测试停止指令发送至所述音视频播放终端。

本发明还提供另一种音视频交互系统音画失步的测试装置，包括：

音视频合成模块，用于根据总控服务器的测试开始指令合成测试音视频片段；

音视频播放模块，用于在待测音视频交互系统的发送终端处播放所述测试音视频片段，使所述测试音视频片段通过所述待测音视频交互系统的发送终端、会议服务器及接收终端进行传输，供设置于所述接收终端处的音视频采集终端进行解析得到通过所述待测音视频交互系统传输的测试音视频片段的失步时长；

其中，所述发送终端和所述接收终端的网络状态相同且保持不变。

在一实施例中，所述音视频合成模块包括：

视频帧帧号生成单元，用于为预先存储的频率值不同的多个音频分别生成唯一对应的视频帧帧号；

视频帧合成单元，用于分别将各音频的频率值与对应的视频帧帧号进行编码，得到多个视频帧；

音视频合成单元，用于分别将各音频与对应的视频帧进行编码，得到多个测试音视频片段。

本发明还提供另一种音视频交互系统音画失步的测试装置，包括：

音视频采集模块，用于采集待测音视频交互系统的接收终端接收到的多个测试音视频片段的视频帧和音频；其中，所述测试音视频片段由音视频播放终端生成并通过所述待测音视频交互系统的发送终端及会议服务器传输至所述接收终端；

音视频匹配模块，用于根据采集到的音频的频率值匹配该音频对应的视频帧；

失步时长计算模块，用于根据与所述音频匹配的视频帧对应的帧号以及与所述音频同时采集到的视频帧的帧号得到待测音视频交互系统传输的测试音视频片段的失步时长。

在一实施例中，所述音视频交互系统音画失步的测试装置还包括：

视频解析模块，用于对每个视频帧进行解析，得到各视频帧对应的帧号和频率值及采集时间戳；

音频解析模块，用于对每个音频进行解析，得到各音频的频率值及采集时间戳。

在一实施例中，所述失步时长计算模块包括：

视频帧确定单元，用于根据所述音频的采集时间戳匹配采集时间戳相同的视频帧；

视频帧帧号确定单元，用于获取采集时间戳与所述音频匹配的视频帧的帧号；以及获取频率值与所述音频匹配的视频帧的帧号；

失步时长计算单元，用于根据频率值与所述音频匹配的视频帧的帧号、采集时间戳与所述音频匹配的视频帧的帧号，以及待测音视频交互系统传输的测试音视频片段的视频帧率计算得到所述失步时长。

本发明还提供一种音视频交互系统音画失步的测试系统，包括音画失步测试系统以及待测音视频交互系统；

所述待测音视频交互系统包括：发送终端、接收终端以及与所述发送终端和接收终端分别连接的会议服务器；

所述音画失步测试系统包括本发明的三种音视频交互系统音画失步的测试装置。

本发明提供的音视频交互系统音画失步的测试方法、装置及系统，通过合成专用的测试音视频片段，实现对音视频交互系统音画失步的精确测量；通过同步参与会议的终端的网络状态，生成网络状态与音画失步的结果报表，有助于开发人员查找会议系统缺陷及进行自动化回归测试。本发明的音视频交互系统音画失步的测试装置及系统不受物理距离的限制，可分别在参与会议的终端前模拟与会人员的真实感受。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为音视频交互系统音画失步的测试方法的应用场景示意图。

图2为第一种音视频交互系统音画失步的测试方法的示意图。

图3为第一种音视频交互系统音画失步的测试方法的另一种示意图。

图4为第二种音视频交互系统音画失步的测试方法的示意图。

图5为测试音视频片段的合成方法的示意图。

图6为第三种音视频交互系统音画失步的测试方法的示意图。

图7为失步时长的解析方法示意图。

图8为一种音视频交互系统音画失步的测试装置的示意图。

图9为另一种音视频交互系统音画失步的测试装置的示意图。

图10为另一种音视频交互系统音画失步的测试装置的示意图。

图11为另一种音视频交互系统音画失步的测试装置的示意图。

图12为另一种音视频交互系统音画失步的测试装置的示意图。

图13为另一种音视频交互系统音画失步的测试装置的示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供的音视频交互系统音画失步的测试方法适用于进行音视频交互的系统，例如会议系统等。图1为本申请给出的音视频交互系统音画失步的测试方法的一种应用场景示意图。如图1所示，该应用场景中包含待测音视频交互系统以及音画失步测试系统。

其中，待测音视频交互系统以会议系统为例，具体地，该待测音视频交互系统包括与会人员使用的至少两个会议终端以及分别与各会议终端连接的会议服务器，图1中以包含两个会议终端为例。会议进行时，任一终端都既可作为发送终端，也可作为接收终端。由于测量音视频交互系统音画失步时，主要是测量接收终端接收到的音视频信息的音画失步状态，因此，在本应用场景下，可假设将其中一个会议终端作为发送终端11，将另一个会议终端作为接收终端12，发送终端11和接收终端12通过会议服务器13进行数据交互，以此来对本申请的音视频交互系统音画失步的测试方法进行说明。

如图1所示，音画失步测试系统包括设置在发送终端11处的音视频播放终端21、设置在接收终端12处的音视频采集终端22以及与音视频发送终端21和音视频采集终端22连接的总控服务器23，该总控服务器23还分别与待测音视频交互系统的发送终端11和接收终端12连接。

其中，音视频播放终端21用于在发送终端11前播放音视频片段，模拟会议进行时发言人的声音和画面，发送终端11采集音视频播放终端21播放的音视频片段，模拟采集发言人的声音和画面。例如，发送终端11可以通过摄像头拍摄音视频播放终端播放的音视频片段的视频画面，通过麦克风采集音视频播放终端播放的音视频片段的音频。发送终端11将采集到的视频画面和音频通过对应的传输通道经会议服务器13传输至接收终端12。实际应用中，音视频播放终端可以为移动终端或pc端等装置或设备。

接收终端12可通过扬声器播放接收到的音频，以及通过显示屏播放接收到的视频画面，模拟向本端与会人员展示当前发言人的声音和画面；音视频采集终端22采集接收终端12播放的视频画面和音频，模拟本端与会人员观看视频画面和聆听音频。音视频采集终端22采集到的视频画面和音频即为通过待测音视频交互系统传输的音视频片段，该音视频片段可能已经存在失步问题。实际应用中，音视频采集终端可以为移动终端或pc端等装置或设备。

总控服务器23用于与音视频播放终端和音视频采集终端进行数据交互，例如下发控制指令等。实际应用中，可通过另一终端远程访问该总控服务器，设置音视频交互系统音画失步的测试数据以及查看音视频交互系统音画失步的测试结果等。该总控服务器还可以由能实现总控服务器的全部功能的其他终端、装置或电子设备代替。总控服务器仅为便于描述本申请的技术方案给出的一种示例，并非用以限定本申请。

基于图1的应用场景，本申请提供音视频交互系统音画失步的测试方法，以下将分别从总控服务器、音视频播放终端以及音视频采集终端三者的角度进行说明。

图2为本申请提供的第一种音视频交互系统音画失步的测试方法的示意图，从总控服务器的角度进行描述。如图2所示，第一种音视频交互系统音画失步的测试方法包括以下步骤：

步骤s201，根据预设的网络配置参数对待测音视频交互系统的发送终端和接收终端的网络状态进行配置。

具体地，请同时参见图1，总控服务器23与发送终端11和接收终端12连接，发送终端11和接收终端12上分别安装有网络控制软件。总控服务器23将一组网络配置参数同时下发至发送终端11和接收终端12上，以使发送终端11和接收终端12上的网络控制软件按照接收到的网络配置参数配置网络状态。该步骤保证了待测音视频交互系统的会议终端的网络状态相同，进而可以测试该网络状态下该待测音视频交互系统传输的音视频片段的音画失步情况。

其中，网络配置参数包括但不限于网络带宽、网络丢包率及网络延迟等参数。

由于各会议终端的网络状态可配置，总控服务器通过下发不同的网络配置参数可测量不同的网络状态下，待测音视频交互系统传输的音视频片段的音画失步情况，进而便于会议系统开发人员查找会议系统缺陷及进行自动化回归测试，提高会议质量。

步骤s202，向设置于所述发送终端处的音视频播放终端发送测试开始指令，以使所述音视频播放终端合成并播放测试音视频片段。

具体地，请同时参见图1，总控服务器23同时向音视频播放终端21和音视频采集终端22发送测试开始指令，使音视频播放终端21开始合成并播放测试音视频片段，以及使音视频采集终端22开始采集待测音视频交互系统传输的测试音视频片段。

其中，本申请的测试音视频片段由音视频播放终端21按照预设的合成规则进行合成。播放时，音视频播放终端同步播放测试音视频片段的视频帧和对应频率的音频。例如，假设有多个不同频率的单音音频s1，s2，…，sn，每个音频各自对应有一个视频帧p1，p2，…，pn，且每个视频帧均不重复。将音频与视频组合合成一段测试音视频片段，该测试音视频片段的第一帧视频帧即为p1，对应的音频为s1，该测试音视频片段的第二帧视频帧即为p2，对应的音频为s2，以此类推，该测试音视频片段包括n个视频帧以及n段音频。具体的测试音视频片段的合成过程在后续实施例中详述。

可以理解的是，音视频播放终端21可按照一定的帧率播放测试音视频片段，例如30帧每秒。其中，帧率可以是通过总控服务器预设设置的。

步骤s203，接收设置于所述接收终端处的音视频采集终端发送的当前网络状态下的失步时长，其中失步时长指的是通过所述待测音视频交互系统传输的测试音视频片段的失步时长；所述失步时长由所述音视频采集终端基于所述待测音视频交互系统传输的测试音视频片段的视频帧和音频匹配得到。

具体地，音视频采集终端22接收到总控服务器23的测试开始指令后，开始采集接收终端12接收到的待测音视频片段。尽管音视频播放终端21同步播放视频帧和对应的音频，且发送终端也接收到了同步的视频帧和音频，但由于在待测音视频交互系统中，测试音视频片段的视频帧和音频是通过不同的信号通道传输的，因此，接收终端22接收通过不同的信号通道接收到的视频帧和音频可能会出出现失步，例如，接收终端22接收到视频帧p1时，还未接收到音频帧，当接收到视频帧p2的同时，接收到了音频s1，这时，通过待测音视频交互系统传输的待测音视频片段的视频帧和音频产生了失步。

为了准确模拟用户的真实体验，音视频采集终端22通过摄像头实时采集接收终端12的显示屏的画面，通过麦克风实时采集接收终端12的喇叭播放的音频。音视频采集终端22分别对采集到的音频和视频帧进行分析，即可得到通过待测音视频交互系统传输的待测音视频片段的失步时长，进而发送至总控服务器23进行下一步操作。具体的失步时长的计算方法在后续实施例中详述，该方法与测试音视频片段的合成过程相关。

步骤s204，根据所述失步时长以及当前网络状态生成音画失步报表。

具体地，总控服务器23接收到失步时长数据后，将失步时长以及对应的网络配置参数一并记录下来，生成音画失步报表。工作人员可通过另一终端访问总控服务器23，查看该音画失步报表。

步骤s204之后，总控服务器23还可按照下一组网络配置参数配置发送终端11和接收终端12的网络状态，并重复执行上述各个步骤，以得到待测音视频交互系统在不同网络状态下的失步时长。

在一实施例中，如图3所示，所述音视频交互系统音画失步的测试方法还包括：

步骤s205，接收所述音视频采集终端发送的测试停止指令。

音视频采集终端22得到失步时长时，表示本次测试过程结束，因此音视频采集终端22的操作执行完毕后即可向总控服务器发出测试停止指令，以通知总控服务器结束测试。其中，该测试停止指令可以是音视频采集终端22单独向总控服务器23发送已测试完毕的信息，也可以是将向总控服务器23发送的失步时长同时作为一个测试停止指令，总控服务器23接收到失步时长数据即可获取到测试完毕的信息。

步骤s206，将所述测试停止指令发送至所述音视频播放终端。

这里总控服务器23向音视频播放终端21发送测试停止指令，使音视频播放终端21停止播放测试音视频片段。

根据从总控服务器的角度对本申请的音视频交互系统音画失步的测试方法进行的说明可知，本申请在测试通过待测音视频交互系统传输的待测音视频片段的失步时长时，考虑到了网络状态对待测音视频交互系统的数据传输性能的影响。通过设定和改变待测音视频交互系统中的各会议终端的网络状态，得到不同网络状态下传输的音视频片段的失步时长，并生成音画失步报表，有助于开发人员查找会议系统缺陷及进行自动化回归测试，进而在一定程度上解决网络状态对数据传输性能的影响。

图4为本申请提供的第二种音视频交互系统音画失步的测试方法的示意图，从音视频播放终端的角度进行描述。如图4所示，第二种音视频交互系统音画失步的测试方法包括以下步骤：

步骤s401，根据总控服务器的测试开始指令合成测试音视频片段。

具体地，请同时参见图1，音视频播放终端21接收到总控服务器23的测试开始指令后，开始合成测试音视频片段，并将合成的测试音视频片段在发送终端11处播放。

具体地，本申请使用的测试音视频片段是由音视频播放终端21按照特定的音视频合成方法合成的，本申请选择按照特定的方法合成测试音视频片段也是为了便于音视频采集终端22分析通过待测音视频交互系统传输的待测音视频片段的失步时长。其中，本申请的测试音视频片段的合成方法如图5所示，步骤s401具体包括以下步骤：

步骤s4011，为预先存储的频率值不同的多个音频分别生成唯一对应的视频帧帧号。

其中，音频均为单音音频，各单音音频的频率均不相同且相差较大，便于区分。例如，音频s1的频率为100hz，音频s2的频率为200hz，音频sn的频率为(n-1)100hz。实际中，还可以选用其他频率值的单音音频，只要易于区分各音频即可，本申请不以此为限。

为每个单音音频生成唯一对应的视频帧帧号，例如，音频s1对应的视频帧帧号为1，音频s2对应的视频帧帧号为2，音频sn对应的视频帧帧号为n。

步骤s4012，分别将各音频的频率值与对应的视频帧帧号进行编码，得到多个视频帧。

具体地，将单音音频的频率值f与对应的视频帧帧号进行组合并进行编码，得到多个视频帧。例如音频s1的频率值f1与对应的视频帧帧号1组合并编码，得到一个二维码图像，将该图像作为第一个视频帧v1，将音频s2的频率值f2与对应的视频帧帧号2组合并编码得到的二维码图像作为第二个视频帧v2，将音频sn的频率值fn与对应的视频帧帧号n组合并编码得到的二维码图像作为第n个视频帧vn。后续音视频采集终端22可通过识别视频帧的二维码图像得到该视频帧的帧号以及对应的音频的频率值。

步骤s4013，分别将各音频与对应的视频帧进行编码，得到多个测试音视频片段。

具体地，音频s1与视频帧v1编码、音频s2与视频帧v2、…、音频sn与视频帧vn编码，并依次排序，即可得到测试音视频片段。

步骤s402，在待测音视频交互系统的发送终端处播放所述测试音视频片段，使所述测试音视频片段通过所述待测音视频交互系统的发送终端、会议服务器及接收终端进行传输，供设置于所述接收终端处的音视频采集终端进行解析得到通过所述待测音视频交互系统传输的测试音视频片段的失步时长。其中，所述发送终端和所述接收终端的网络状态相同且保持不变。

具体地，音视频播放终端21按照图5所示的方法合成并播放测试音视频片段后，使接收终端11通过摄像头采集测试音视频片段的视频帧，通过麦克风采集测试音视频片段的音频。可以理解的是，接收终端11是同时采集到测试音视频片段的视频帧和音频的，此时并未产生失步问题。

随后，接收终端11通过会议服务器13将测试音视频片段传输至接收终端。由于在音视频交互系统中，音频和视频帧是经过不同的信号通道进行传输的，因此可能无法保证音频和对应的视频帧完全同步，故通过所述待测音视频交互系统传输的测试音视频片段可能出现失步问题。音视频采集终端22通过摄像头实时采集接收终端12的显示屏的画面，通过麦克风实时采集接收终端12的喇叭播放的音频。音视频采集终端22分别对在采集到的音频的频率和视频帧对应的帧号和频率值进行分析，即可得到通过待测音视频交互系统传输的待测音视频片段的失步时长。

根据从音视频播放终端的角度对本申请的音视频交互系统音画失步的测试方法进行的说明可知，本申请使用通过特定的音视频合成方法合成的测试音视频片段作为测试音画失步的数据，使音视频采集终端基于音视频合成方法的原理得到各音频和视频帧的对应关系，并确定通过待测音视频交互系统传输的待测音视频片段的失步时长。本申请降低了音画失步的分析难度和干扰，提高了音画失步测试结果的准确性。

图6为本申请提供的第三种音视频交互系统音画失步的测试方法的示意图，从音视频采集终端的角度进行描述。如图6所示，第三种音视频交互系统音画失步的测试方法包括以下步骤：

步骤s601，采集待测音视频交互系统的接收终端接收到的多个测试音视频片段的视频帧和音频；其中，所述测试音视频片段由音视频播放终端生成并通过所述待测音视频交互系统的发送终端及会议服务器传输至所述接收终端。

具体地，请同时参见图1，音视频采集终端22接收到总控服务器23的测试开始指令后，开始采集通过待测音视频交互系统传输的待测音视频片段，例如，音视频采集终端22通过摄像头拍摄接收终端12的显示屏的画面，即可采集到测试音视频片段的各视频帧；音视频采集终端22通过麦克风采集接收终端12的扬声器播放的音频信号。例如，音视频采集终端22通过摄像头采集视频帧p1、p2、…、pn，通过麦克风采集音频s1，s2，…，sn。

为了便于后续步骤的进行，在步骤s601结束之后，音视频采集终端22还可以对采集到的视频帧和音频做预处理。具体地，对于视频帧而言，音视频采集终端22对采集到的每一个视频帧进行解析，得到各视频帧对应的帧号和频率值及采集时间戳，这里主要是对每个视频帧的二维码图像进行识别，由于每个视频帧的二维码图像都是由该视频帧的帧号以及对应的音频的频率值编码得到的，因此识别二维码图像后即可得到视频帧对应的帧号和频率值。例如，对视频帧p1的二维码图像进行识别，即可得到帧号1以及频率值f1。同时，音视频采集终端22对采集到的每一个音频进行解析，得到各音频的频率值及采集时间戳。例如，对音频s1进行解析，即可得到频率值f1。此时，可将每个视频帧和音频的解析结果和采集时间戳存储。

可以理解的是，这里同时记录了各视频帧和音频的采集时间戳，其目的是为了保留各视频帧和音频的采集时间，以便后续可以判断通过待测音视频交互系统传输的待测音视频片段的视频帧和音频的对应关系，这里的对应关系的判断依据为时间戳相同，而在音视频播放终端21中合成测试音视频片段时确定视频帧与音频的对应关系的依据为音频的频率值与视频帧的二维码图像中包含的频率值相同。

步骤s602，根据采集到的音频的频率值匹配该音频对应的视频帧。

在步骤s602中，以频率值为判断依据匹配音频和视频帧，因此，步骤s602中匹配的结果为未失步时各音频对应的视频帧。具体地，对于每一个音频，匹配到包含有与该音频相同频率值的视频帧。

该步骤实际上是还原音视频播放终端合成的测试音视频片段的视频帧和音频在未传输前的对应关系，即同步时的对应关系。例如，根据音频s1的频率值f1，即可匹配到包含频率值f1的视频帧p1，而在同步时的对应关系中，音频s1对应的就是视频帧p1。

步骤s603，根据与所述音频匹配的视频帧对应的帧号以及与所述音频同时采集到的视频帧的帧号得到待测音视频交互系统传输的测试音视频片段的失步时长。

具体地，如图7所示，步骤s603得到失步时长的具体步骤包括：

步骤s6031，根据所述音频的采集时间戳匹配采集时间戳相同的视频帧。

该步骤为根据通过待测音视频交互系统传输的测试音视频片段的视频帧和音频的对应关系匹配与各音频对应的视频帧。例如，假设在t时刻，音视频采集终端22采集到了视频帧p2以及音频s1，在v(v>t)时刻，音视频采集终端22采集到了视频帧p6以及音频s5，则与音频s5同在v时刻采集到的视频帧p6即为采集时间戳与音频s5相同的视频帧，视频帧p6的帧号为6。

步骤s6032，获取采集时间戳与所述音频匹配的视频帧的帧号。

如步骤s6031所述，采集时间戳与所述音频匹配的视频帧p6的帧号为6。

步骤s6033，获取频率值与所述音频匹配的视频帧的帧号；

该步骤为根据音视频播放终端21合成的测试音视频片段的视频帧和音频的对应关系匹配与各音频对应的视频帧。例如，要匹配与频率值为f5的音频s5对应的视频帧，找到二维码图像包含的频率值为f5的视频帧p5即可，视频帧p5的帧号为5。

步骤s6034，根据频率值与所述音频匹配的视频帧的帧号、采集时间戳与所述音频匹配的视频帧的帧号，以及待测音视频交互系统传输的测试音视频片段的视频帧率计算得到所述失步时长。

具体地，失步时长＝|采集时间戳与所述音频匹配的视频帧的帧号-频率值与所述音频匹配的视频帧的帧号|÷帧率。

例如，当视频帧率为30时，上述示例中通过待测音视频交互系统传输的测试音视频片段的失步时长＝|6-5|÷30≈33ms。

上述示例仅以其中一个音频为例进行说明，实际应用中，音视频采集终端可针对多个不同的音频进行失步时长的计算，只有当相邻两次得到的失步时长的差值在于预设误差阈值范围内或多个失步时长的方差满足预设条件时，音视频采集终端才会向总控服务器反馈失步时长。其中，误差阈值可以是通过总控服务器预设设置的。

最后举一个完整的示例对本申请的音视频交互系统音画失步的测试方法进行说明：

1)总控服务器23将预设的网络配置参数下发至发送终端11和接收终端12，以配置发送终端11和接收终端12的网络状态；例如，第一组网络配置参数为：

网络带宽为500kbps，会议终端的丢包率为20％，网络延迟500ms；第二组网络配置参数为：网络带宽为5mbps，会议终端的丢包率为0％，网络延迟10ms。

2)总控服务器23向音视频播放终端21和音视频采集终端22发送测试开始指令；

3)音视频播放终端21根据测试开始指令将单音音频的频率值初始化为100hz

(本示例中，以包含100hz、200hz、300hz等频率差为100hz的单音音频为例)，帧号初始化为1；将“100hz”与“1”进行编码得到二维码图片，即视频帧p1，将视频帧p1与频率值为100hz的单音音频s1进行编码；然后令频率值加1，帧号加1，重复上述步骤并依次排序，即可合成一段测试音视频片段。这里可以为帧号设置一最大值，当帧号到达最大值(如1000)时，不再继续重复步骤3)，循环播放合成的测试音视频片段即可。

4)音视频播放终端21通过显示屏和扬声器播放该测试音视频片段。

5)音视频采集终端22通过摄像头和麦克风分别采集发送终端12接收到的测试音视频片段的视频帧和音频。

6)音视频采集终端22解码视频帧的二维码图片，得到视频帧对应的频率值和帧号；解码音频得到频率值。并记录解码得到的数据以及各视频帧和音频的采集时间戳。

7)对于一个音频，根据该音频的采集时间戳匹配采集时间戳相同的视频帧，并获取视频帧的帧号，假设为n；

8)对于步骤7)中的同一音频，根据该音频的频率值匹配包含相同频率值的视频帧，并获取视频帧的帧号，假设为n0；

9)根据预设的失步时长计算公式计算失步时长t＝|n-n0|÷帧率

10)音视频采集终端22针对另一个音频重复步骤7)、8)、9)，当相邻两次得到的失步时长的差值在于预设误差阈值范围(如10ms)内或多个失步时长的方差满足预设条件时，音视频采集终端才会向总控服务器反馈失步时长；

11)总控服务器23根据接收到的失步时长以及对应的网络配置参数生成音画失步报告，并存储至总控服务器的存储空间中。

基于同一发明构思，本申请实施例还提供音视频交互系统音画失步的测试装置和音视频交互系统音画失步的测试系统，可以用于实现上述实施例所描述的方法，如下面的实施例所述。由于音视频交互系统音画失步的测试装置和音视频交互系统音画失步的测试系统解决问题的原理与音视频交互系统音画失步的测试方法相似，因此音视频交互系统音画失步的测试装置和音视频交互系统音画失步的测试系统的实施可以参见分布式短序列号生成方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的系统较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

本发明提供一种音视频交互系统音画失步的测试装置，该装置的各功能模块实现的功能与本申请提供的第一种音视频交互系统音画失步的测试方法的步骤对应，如图8所示，该装置包括：

网络配置模块801，用于根据预设的网络配置参数对待测音视频交互系统的发送终端和接收终端的网络状态进行配置；

启停控制模块802，用于向设置于所述发送终端处的音视频播放终端发送测试开始指令，以使所述音视频播放终端合成并播放测试音视频片段；

数据接收模块803，用于接收设置于所述接收终端处的音视频采集终端发送的通过所述待测音视频交互系统传输的测试音视频片段的失步时长；

其中，所述失步时长由音视频采集终端基于所述待测音视频交互系统传输的测试音视频片段的视频帧和音频匹配得到；

报表生成模块804，用于根据所述失步时长以及当前网络状态生成音画失步报表。

在一实施例中，所述启停控制模块还用于：

接收所述音视频采集终端发送的测试停止指令；以及

将所述测试停止指令发送至所述音视频播放终端。

本发明提供的另一种音视频交互系统音画失步的测试装置，该装置的各功能模块实现的功能与本申请提供的第二种音视频交互系统音画失步的测试方法的步骤对应，如图9所示，该装置包括：

音视频合成模块901，用于根据总控服务器的测试开始指令合成测试音视频片段；

音视频播放模块902，用于在待测音视频交互系统的发送终端处播放所述测试音视频片段，使所述测试音视频片段通过所述待测音视频交互系统的发送终端、会议服务器及接收终端进行传输，供设置于所述接收终端处的音视频采集终端进行解析得到通过所述待测音视频交互系统传输的测试音视频片段的失步时长；

其中，所述发送终端和所述接收终端的网络状态相同且保持不变。

在一实施例中，如图10所示，所述音视频合成模块902包括：

视频帧帧号生成单元9021，用于为预先存储的频率值不同的多个音频分别生成唯一对应的视频帧帧号；

视频帧合成单元9022，用于分别将各音频的频率值与对应的视频帧帧号进行编码，得到多个视频帧；

音视频合成单元9023，用于分别将各音频与对应的视频帧进行编码，得到多个测试音视频片段。

本发明提供的另一种音视频交互系统音画失步的测试装置，该装置的各功能模块实现的功能与本申请提供的第三种音视频交互系统音画失步的测试方法的步骤对应，如图11所示，该装置包括：

音视频采集模块111，用于采集待测音视频交互系统的接收终端接收到的多个测试音视频片段的视频帧和音频；其中，所述测试音视频片段由音视频播放终端生成并通过所述待测音视频交互系统的发送终端及会议服务器传输至所述接收终端；

音视频匹配模块112，用于根据采集到的音频的频率值匹配该音频对应的视频帧；

失步时长计算模块113，用于根据与所述音频匹配的视频帧对应的帧号以及与所述音频同时采集到的视频帧的帧号得到待测音视频交互系统传输的测试音视频片段的失步时长。

在一实施例中，如图12所示，所述音视频交互系统音画失步的测试装置还包括：

视频解析模块114，用于对每个视频帧进行解析，得到各视频帧对应的帧号和频率值及采集时间戳；

音频解析模块115，用于对每个音频进行解析，得到各音频的频率值及采集时间戳。

在一实施例中，如图13所示，所述失步时长计算模块113包括：

视频帧确定单元1131，用于根据所述音频的采集时间戳匹配采集时间戳相同的视频帧；

视频帧帧号确定单元1132，用于获取采集时间戳与所述音频匹配的视频帧的帧号；以及获取频率值与所述音频匹配的视频帧的帧号；

失步时长计算单元1133，用于根据频率值与所述音频匹配的视频帧的帧号、采集时间戳与所述音频匹配的视频帧的帧号，以及待测音视频交互系统传输的测试音视频片段的视频帧率计算得到所述失步时长。

本发明提供的音视频交互系统音画失步的测试装置，通过合成专用的测试音视频片段，实现对音视频交互系统音画失步的精确测量；通过同步参与会议的终端的网络状态，生成网络状态与音画失步的结果报表，有助于开发人员查找会议系统缺陷及进行自动化回归测试。本发明的音视频交互系统音画失步的测试装置及系统不受物理距离的限制，可分别在参与会议的终端前模拟与会人员的真实感受。

本申请还提供一种音视频交互系统音画失步的测试系统，包含本申请提供的各音视频交互系统音画失步的测试装置，如图1所示，该系统包括：

设置于所述发送终端11处的音视频播放终端21、设置于所述接收终端12处的音视频采集终端22以及与所述音视频播放终端21、所述音视频采集终端22、所述发送终端11以及所述接收终端12分别连接的总控服务器23；

所述总控服务器23包括：

网络配置模块，用于根据预设的网络配置参数对待测音视频交互系统的发送终端和接收终端的网络状态进行配置；

启停控制模块，用于向设置于所述音视频播放终端发送测试开始指令；

数据接收模块，用于接收所述音视频采集终端发送的通过所述待测音视频交互系统传输的测试音视频片段的失步时长；以及

报表生成模块，用于根据所述失步时长以及当前网络状态生成音画失步报表；

所述音视频播放终端21包括：

音视频合成模块，用于根据总控服务器的测试开始指令合成测试音视频片段；

音视频播放模块，用于在待测音视频交互系统的发送终端处播放所述测试音视频片段，使所述测试音视频片段通过所述待测音视频交互系统的发送终端、会议服务器及接收终端进行传输；

所述音视频采集终端22包括：

音视频采集模块，用于采集通过所述待测音视频交互系统传输的测试音视频片段的视频帧和音频；

音视频匹配模块，用于根据采集到的音频的频率值匹配该音频对应的视频帧；

本发明提供的音视频交互系统音画失步的测试系统，通过合成专用的测试音视频片段，实现对音视频交互系统音画失步的精确测量；通过同步参与会议的终端的网络状态，生成网络状态与音画失步的结果报表，有助于开发人员查找会议系统缺陷及进行自动化回归测试。本发明的音视频交互系统音画失步的测试装置及系统不受物理距离的限制，可分别在参与会议的终端前模拟与会人员的真实感受。

本领域技术人员应明白，本说明书的实施例可提供为方法、系统或计算机程序产品。因此，本说明书实施例可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本说明书实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本说明书实施例的至少一个实施例或示例中。

在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。以上所述仅为本说明书实施例的实施例而已，并不用于限制本说明书实施例。对于本领域技术人员来说，本说明书实施例可以有各种更改和变化。凡在本说明书实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书实施例的权利要求范围之内。

技术特征：

1.一种音视频交互系统音画失步的测试方法，其特征在于，包括：

根据预设的网络配置参数对待测音视频交互系统的发送终端和接收终端的网络状态进行配置；

向设置于所述发送终端处的音视频播放终端发送测试开始指令，以使所述音视频播放终端合成并播放测试音视频片段；

根据所述失步时长以及当前网络状态生成音画失步报表。

2.根据权利要求1所述的音视频交互系统音画失步的测试方法，其特征在于，还包括：

接收所述音视频采集终端发送的测试停止指令；

将所述测试停止指令发送至所述音视频播放终端。

3.一种音视频交互系统音画失步的测试方法，其特征在于，包括：

根据总控服务器的测试开始指令合成测试音视频片段；

其中，所述发送终端和所述接收终端的网络状态相同且保持不变。

4.根据权利要求3所述的音视频交互系统音画失步的测试方法，其特征在于，所述根据总控服务器的测试开始指令合成得到测试音视频片段，包括：

为预先存储的频率值不同的多个音频分别生成唯一对应的视频帧帧号；

分别将各音频的频率值与对应的视频帧帧号进行编码，得到多个视频帧；

分别将各音频与对应的视频帧进行编码，得到多个测试音视频片段。

5.一种音视频交互系统音画失步的测试方法，其特征在于，包括：

根据采集到的音频的频率值匹配该音频对应的视频帧；

根据与所述音频匹配的视频帧对应的帧号以及与所述音频同时采集到的视频帧的帧号得到待测音视频交互系统传输的测试音视频片段的失步时长。

6.根据权利要求5所述的音视频交互系统音画失步的测试方法，其特征在于，还包括：

对每个视频帧进行解析，得到各视频帧对应的帧号和频率值及采集时间戳；

对每个音频进行解析，得到各音频的频率值及采集时间戳。

7.根据权利要求6所述的音视频交互系统音画失步的测试方法，其特征在于，所述根据与所述音频匹配的视频帧对应的帧号以及与所述音频同时采集到的视频帧的帧号得到待测音视频交互系统传输的测试音视频片段的失步时长，包括：

根据所述音频的采集时间戳匹配采集时间戳相同的视频帧；

获取采集时间戳与所述音频匹配的视频帧的帧号；

获取频率值与所述音频匹配的视频帧的帧号；

8.一种音视频交互系统音画失步的测试装置，其特征在于，包括：

网络配置模块，用于根据预设的网络配置参数对待测音视频交互系统的发送终端和接收终端的网络状态进行配置；

启停控制模块，用于向设置于所述发送终端处的音视频播放终端发送测试开始指令，以使所述音视频播放终端合成并播放测试音视频片段；

数据接收模块，用于接收设置于所述接收终端处的音视频采集终端发送的通过所述待测音视频交互系统传输的测试音视频片段的失步时长；

其中，所述失步时长由音视频采集终端基于所述待测音视频交互系统传输的测试音视频片段的视频帧和音频匹配得到；

报表生成模块，用于根据所述失步时长以及当前网络状态生成音画失步报表。

9.根据权利要求8所述的音视频交互系统音画失步的测试装置，其特征在于，所述启停控制模块还用于：

接收所述音视频采集终端发送的测试停止指令；以及

将所述测试停止指令发送至所述音视频播放终端。

10.一种音视频交互系统音画失步的测试装置，其特征在于，包括：

音视频合成模块，用于根据总控服务器的测试开始指令合成测试音视频片段；

其中，所述发送终端和所述接收终端的网络状态相同且保持不变。

11.根据权利要求10所述的音视频交互系统音画失步的测试装置，其特征在于，所述音视频合成模块包括：

视频帧帧号生成单元，用于为预先存储的频率值不同的多个音频分别生成唯一对应的视频帧帧号；

视频帧合成单元，用于分别将各音频的频率值与对应的视频帧帧号进行编码，得到多个视频帧；

音视频合成单元，用于分别将各音频与对应的视频帧进行编码，得到多个测试音视频片段。

12.一种音视频交互系统音画失步的测试装置，其特征在于，包括：

音视频匹配模块，用于根据采集到的音频的频率值匹配该音频对应的视频帧；

13.根据权利要求12所述的音视频交互系统音画失步的测试装置，其特征在于，还包括：

视频解析模块，用于对每个视频帧进行解析，得到各视频帧对应的帧号和频率值及采集时间戳；

音频解析模块，用于对每个音频进行解析，得到各音频的频率值及采集时间戳。

14.根据权利要求13所述的音视频交互系统音画失步的测试装置，其特征在于，所述失步时长计算模块包括：

视频帧确定单元，用于根据所述音频的采集时间戳匹配采集时间戳相同的视频帧；

视频帧帧号确定单元，用于获取采集时间戳与所述音频匹配的视频帧的帧号；以及获取频率值与所述音频匹配的视频帧的帧号；

15.一种音视频交互系统音画失步的测试系统，其特征在于，包括：

设置于待测音视频交互系统的发送终端处的音视频播放终端、设置于待测音视频交互系统的接收终端处的音视频采集终端以及与所述音视频播放终端、所述音视频采集终端、所述发送终端以及所述接收终端分别连接的总控服务器；

所述总控服务器包括：

网络配置模块，用于根据预设的网络配置参数对待测音视频交互系统的发送终端和接收终端的网络状态进行配置；

启停控制模块，用于向设置于所述音视频播放终端发送测试开始指令；

数据接收模块，用于接收所述音视频采集终端发送的通过所述待测音视频交互系统传输的测试音视频片段的失步时长；以及

报表生成模块，用于根据所述失步时长以及当前网络状态生成音画失步报表；

所述音视频播放终端包括：

音视频合成模块，用于根据总控服务器的测试开始指令合成测试音视频片段；

所述音视频采集终端包括：

音视频采集模块，用于采集通过所述待测音视频交互系统传输的测试音视频片段的视频帧和音频；

音视频匹配模块，用于根据采集到的音频的频率值匹配该音频对应的视频帧；

技术总结
本发明提供一种音视频交互系统音画失步的测试方法、装置及系统，涉及实时音视频通信技术及金融领域。该方法包括：根据预设的网络配置参数对待测音视频交互系统的发送终端和接收终端的网络状态进行配置；向设置于所述发送终端处的音视频播放终端发送测试开始指令，以使所述音视频播放终端合成并播放测试音视频片段；接收设置于所述接收终端处的音视频采集终端发送的通过所述待测音视频交互系统传输的测试音视频片段的失步时长；根据所述失步时长以及当前网络状态生成音画失步报表。本发明通过同步会议终端的网络状态，合成专用的测试音视频片段，实现对音视频交互系统音画失步的精确测量，有助于开发人员查找会议系统缺陷。

技术研发人员：金潇泽;高伟;罗亚明;陈堃
受保护的技术使用者：中国工商银行股份有限公司
技术研发日：2021.05.11
技术公布日：2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-1782.html

专利

最新回复(0)