视频会议场景下基于ROI区域的后处理加速方法与流程

专利2022-05-09 66

本发明涉及视频编解码与深度学习技术领域，特别涉及一种视频会议场景下基于roi区域的后处理加速方法。

背景技术：

在工作中常常会应用到视频会议，视频会议场景下，一般会包含背景和与会人员两种内容，前者的信息通常并不被重视，因此单独获取与会人员信息并进行质量增强提高其表现是非常重要的，相关技术中对于与会人员的视频质量增强的方法常常都是算法复杂度较高，且图像质量增强的效果也不是很好，并没有得到很好地应用。

技术实现要素：

本发明旨在至少解决现有技术中存在的技术问题。为此，本发明提出一种视频会议场景下基于roi区域的后处理加速方法，能够降低视频后处理算法复杂度，减少视频后处理质量增强技术的运算时间，提升数据处理的速度。

本发明还提出一种具有上述视频会议场景下基于roi区域的后处理加速方法的视频会议场景下基于roi区域的后处理加速系统。

本发明还提出一种计算机可读存储介质。

第一方面，本实施例提供了一种视频会议场景下基于roi区域的后处理加速方法，包括以下步骤：

若当前帧为第一帧，对视频的第一帧进行人脸识别处理得到人脸区域；

将所述人脸区域进行扩展以得到roi区域，对所述roi区域进行图像质量增强；

若当前帧不为第一帧，获取所述当前帧在前一帧的所述roi区域内的运动矢量信息，根据所述运动矢量信息在所述当前帧对所述roi区域进行位移，对位移后的所述roi区域进行图像质量增强。

根据本发明实施例的视频会议场景下基于roi区域的后处理加速方法，至少具有如下有益效果：

本实施例针对视频会议场景的特点，借助人脸识别网络与视频编解码过程得到的运动矢量信息获取roi区域(regionofinterest，感兴趣区域)，然后对此roi区域进行后处理，输入质量增强网络就可以实现视频的部分增强，提升了后处理的运算效率，从而减少后处理的算法耗时。

首先对视频当前帧进行判断，若当前帧为视频的第一帧，借助人脸识别网络对第一帧进行人脸识别处理，获得人脸区域，人脸区域的数量可以是一个、两个或者多个，但是会有一个主要的人脸区域，再将人脸区域进行扩展以得到roi区域，再对roi区域进行图像质量增强处理；若当前帧不是视频的第一帧，可以是第2帧、第3帧或者其它帧，获取所述当前帧的所述roi区域内的全部运动矢量信息，根据运动矢量信息对roi区域进行位移，在对位移后的roi区域进行图像质量增强处理，直到处理到视频的最后一帧。

常规的h.265/hevc标准发布不久，算法复杂度较高，目前网络直播，电视点播等实时应用技术普遍采用h.264/avc标准，而卷积神经网络模型又十分复杂，计算复杂度高，所以基于深度学习网络的hevc视频编解码及后处理的实时需求研究存在空白。

本实施例提供的视频会议场景下基于roi区域的后处理加速方法，能够有效降低算法复杂度，提升视频会议场景中与会人员信息的图像质量，减少视频后处理的算法耗时，具有很好的实用价值。

根据本发明的一些实施例，在所述视频每间隔设定数量的视频帧之间设置一个校正帧，对所述校正帧进行人脸识别处理得到所述人脸区域，将所述人脸区域进行扩展以得到roi区域，以对所述roi区域进行校正。对视频每n帧使用一次人脸识别的人脸区域进行校正，后续n-1帧使用基于运动矢量计算位移得到的roi区域。

根据本发明的一些实施例，所述对视频第一帧进行人脸识别处理得到人脸区域，包括步骤：对所述视频所述第一帧使用yolo网络进行人脸识别处理得到所述人脸区域。yolo(youonlylookonce)是一种基于深度神经网络的目标定位与识别算法，可以判断输入图像中的物体位置与其种类，输出此物体所在的方框坐标与具体类别。

根据本发明的一些实施例，所述将所述人脸区域进行扩展以得到roi区域，包括步骤：将所述人脸区域向左右分别扩展一个所述人脸区域的宽度，向上扩展半个所述人脸区域的长度，向下扩展至图像下沿，以得到所述roi区域。针对每一个yolo网络所识别出的区域，对其向左右两侧各扩充一个识别框的大小，向上方扩充半个识别框的大小，向下则取至图像下沿，因为考虑到视频会议通常仅包含人员半身；然后将所有区域合并为一个，取能包含全部区域的公共最大区域为最终roi区域。

根据本发明的一些实施例，所述roi区域大小为8的整数倍。由于stdf网络对输入图像尺寸的要求，需要增加区域大小判断机制，使roi区域的大小为8的整数倍。

根据本发明的一些实施例，在所述对所述校正帧进行人脸识别处理得到所述人脸区域之前，包括步骤：根据所述校正帧的前一帧的所述roi区域，获取所述校正帧在所述roi区域内的运动矢量信息，根据所述校正帧的运动矢量信息获得所述校正帧的粗略roi区域。

根据本发明的一些实施例，所述根据所述校正帧的运动矢量信息获得所述校正帧的所述粗略roi区域，包括步骤：计算所述校正帧的运动矢量信息的每一列和；对所述校正帧从左到右判断，当此列和大于阈值且当前列位置距离图像左边沿超过四分之一图像宽度，设置当前位置为所述粗略roi区域左边界；对所述校正帧从右到左判断，当此列和大于所述阈值且当前列位置距离所述图像右边沿超过四分之一图像宽度，设置当前位置为所述粗略roi区域右边界。

第二方面，本实施例提供了一种视频会议场景下基于roi区域的后处理加速系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如第一方面所述的视频会议场景下基于roi区域的后处理加速方法。

根据本发明实施例的视频会议场景下基于roi区域的后处理加速系统，至少具有如下有益效果：视频会议场景下基于roi区域的后处理加速系统应用了如第一方面所述的视频会议场景下基于roi区域的后处理加速方法，针对视频会议场景的特点，借助人脸识别网络与视频编解码过程得到的运动矢量信息获取roi区域(regionofinterest，感兴趣区域)，然后对此roi区域进行后处理，输入质量增强网络就可以实现视频的部分增强，提升了后处理的运算效率，从而减少后处理的算法耗时。

第三方面，本实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的视频会议场景下基于roi区域的后处理加速方法。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解，其中摘要附图要与说明书附图的其中一幅完全一致：

图1是本发明一个实施例提供的视频会议场景下基于roi区域的后处理加速方法的流程图；

图2本发明另一个实施例提供的基于运动矢量信息的roi区域判断准确率图；

图3是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法获取的人脸区域图；

图4是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法扩展得到的roi区域图；

图5是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法运动矢量数值大小示意图；

图6是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法的流程图；

图7是本发明另一个实施例提供的实验配置信息图；

图8是本发明另一个实施例提供的测试序列图，图9是本发明另一个实施例提供的测试结果图；

图9是本发明另一个实施例提供的测试结果图；

图10是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法的原始图像；

图11是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法的部分增强后图像。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在系统示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于系统中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

相关技术中对图像质量增强的技术有stdf技术，stdf模型由时空变形卷积模块stdc和质量增强模块qe两个模块构成，在stdc模块中，首先对图像进行3次下采样，使得在相同的搜索步长条件下，实际搜索范围更大，提高卷积偏移量的精度，再进行3次上采样把所得偏移量恢复到原始图片大小，得到前后各3个相邻帧和当前帧共(2×3 1)个帧的偏移量，这些偏移量用于时空可变卷积的计算。通过时空可变卷积的计算，将当前帧空间和时间上的信息融合得到时空特征图，再经过qe模块，其中包含输入、输出、隐藏层共8层网络，每一层网络的维度为48-64层不等，用以提取恢复更深层次的细节特征，最终得到残差图，将此残差图与原始帧相加得到质量增强后的新图像，该网络计算复杂度高，耗时较大。

本发明提供了一种视频会议场景下基于roi区域的后处理加速方法，针对视频会议场景的特点，减少视频后处理质量增强技术的运算时间，能够满足实时应用的需求。

下面结合附图，对本发明实施例作进一步阐述。

参照图1和图2，图1是本发明一个实施例提供的视频会议场景下基于roi区域的后处理加速方法的流程图，图2本发明另一个实施例提供的基于运动矢量信息的roi区域判断准确率图。

视频会议场景下基于roi区域的后处理加速方法包括但不仅限于步骤s110至步骤s130。

步骤s110，若当前帧为第一帧，对视频的第一帧进行人脸识别处理得到人脸区域；

步骤s120，将人脸区域进行扩展以得到roi区域，对roi区域进行图像质量增强；

步骤s130，若当前帧不为第一帧，获取当前帧在前一帧的roi区域内的运动矢量信息，根据运动矢量信息在当前帧对roi区域进行位移，对位移后的roi区域进行图像质量增强。

在一实施例中，获取待处理的视频会议场景下的视频，将视频分为一帧一帧的图片进行处理，对视频的第一帧进行人脸识别处理得到人脸区域，容易想到的是，在视频会议中，识别出来的人脸数据可以是有多个人脸的，也会有多个人脸区域的识别框，在对人脸区域进行扩展以得到roi区域，由于是视频会议的场景，主要是包括背景和与会人员的信息，而在视频会议中背景信息通常都是固定的，主要的信息则是与会人员的图像信息，包括人物的脸部动作和身体的图片信息，而roi区域主要就是包括与会人员的图像信息，对roi区域进行图像质量增强即可满足视频会议的图像质量需求，相较于全图图像质量增强的方式，本实施例大幅减少了数据计算量，降低了视频后处理复杂度，缩短了数据处理的时间，具有很好的实用性。

当视频处理的当前帧不是第一帧的情况下，获取当前帧的roi区域内的运动矢量信息，根据roi区域内的运动矢量信息，分别计算出其水平与垂直方向的运动矢量数值和，以这两个数值对roi区域进行位移，视为当前帧的roi区域，再对当前帧的roi区域进行图像质量增强。根据上述的视频会议场景下基于roi区域的后处理加速方法包括即可对视频的所有帧进行图像质量增强处理，相较于常规的图像质量增强方法，本实施例具有计算量少、数据处理简单的特点。

在一实施例中，在视频每间隔设定数量的视频帧设置一个校正帧，对校正帧进行人脸识别处理得到所述人脸区域，将人脸区域进行扩展以得到roi区域，以对roi区域进行校正。对视频每n帧使用一次人脸识别人脸区域进行校正，后续n-1帧使用基于运动矢量计算位移得到的roi区域。

在一实施例中，对视频第一帧使用yolo网络进行人脸识别处理得到所述人脸区域，yolo(youonlylookonce)是一种基于深度神经网络的目标定位与识别算法，可以判断输入图像中的物体位置与其种类，输出此物体所在的方框坐标与具体类别。

在视频会议场景下，可以视为包含背景和与会人员两种内容，前者的信息通常并不被重视，因此单独获取与会人员信息并进行质量增强提高其表现是一种可以利用的后处理加速方法。借由使用yolo网络进行人脸识别，可以得到当前会议中与会人员的位置信息，将此区域扩大并作为roi区域，输入质量增强网络就可以实现视频的部分增强，提升了后处理的运算效率。但对视频每一帧使用yolo网络仍需要大量的计算，首先提出一种基于mv的粗略roi区域选择算法，减少yolo网络的输入大小，然后使用编解码过程中得到的运动矢量信息来代替部分帧的yolo网络判断。具体来说，对视频每隔n帧使用一次yolo网络进行区域校正，其余n-1帧则依据运动矢量信息计算区域的位移，节省yolo网络耗时。

参照图3和图4，图3是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法获取的人脸区域图，图4是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法扩展得到的roi区域图。

在一实施例中，将人脸区域进行扩展以得到roi区域，包括步骤：将人脸区域向左右分别扩展一个人脸区域的宽度，向上扩展半个人脸区域的长度，向下扩展至图像下沿，以得到roi区域。针对每一个yolo网络所识别出的区域，对其向左右两侧各扩充一个识别框的大小，向上方扩充半个识别框的大小，向下则取至图像下沿，因为考虑到视频会议通常仅包含人员半身；然后将所有区域合并为一个，取能包含全部区域的公共最大区域为最终roi区域。

需要说明的是，本实施例提到的将人脸区域扩展以得到roi区域的方式仅是一个示例，目的是增强与会人员上半身的图像质量，roi区域扩展的方式也可以与本实施例有一些区别，如将人脸区域向左右分别扩展半个识别框，向上扩展半个识别框，向下扩展到图像下沿，本实施例对roi区域的扩展方式不构成限制，能实现对与会人员的图像质量增强即可。

在一实施例中，roi区域大小为8的整数倍。由于stdf网络对输入图像尺寸的要求，需要增加区域大小判断机制，使roi区域的大小为8的整数倍。

参考图5，图5是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法运动矢量数值大小示意图。

在一实施例中，完成第一帧的roi区域获取并增强之后，考虑到yolo网络的耗时，对后续数帧依靠mv信息进行roi区域的动态判断。获取校正帧的roi区域内的运动矢量信息，根据校正帧的运动矢量信息获得校正帧的粗略roi区域。

可以理解的是，计算所述校正帧的运动矢量信息的每一列和；对所述校正帧从左到右判断，当此列和大于阈值且当前列位置距离图像左边沿超过四分之一图像宽度，设置当前位置为所述粗略roi区域左边界；对所述校正帧从右到左判断，当此列和大于所述阈值且当前列位置距离所述图像右边沿超过四分之一图像宽度，设置当前位置为所述粗略roi区域右边界。

基于mv信息的粗略roi区域获取算法包含以下步骤：

1.首先统计输入mv信息(wxh)的每一列和；

2.自左至右判断此列和是否大于阈值t或当前列位置已经超过1/4图像宽，若是，则当前位置视为roi区域左边界；

3.自右至左判断此列和是否大于阈值t或当前列位置已经小于3/4图像宽，若是，则当前位置视为roi区域右边界；以此获得一个粗略的roi区域用于yolo网络的识别。

本发明还提供了一种视频会议场景下基于roi区域的后处理加速系统，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述的视频会议场景下基于roi区域的后处理加速方法。

视频会议场景下基于roi区域的后处理加速系统应用了上述的视频会议场景下基于roi区域的后处理加速方法，针对视频会议场景的特点，借助人脸识别网络与视频编解码过程得到的运动矢量信息获取roi区域(regionofinterest，感兴趣区域)，然后对此roi区域进行后处理，输入质量增强网络就可以实现视频的部分增强，提升了后处理的运算效率，从而减少后处理的算法耗时。

参考图6，图6是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法的流程图。

在一实施例中，首先对视频帧进行判断，当视频帧为视频的第一帧，对第一帧使用yolo网络识别出人脸区域，在对人脸区域进行扩展以得到roi区域，对roi区域内的图像进行图像质量增强；处理后续的视频帧，当视频帧不是第一帧，对当前帧进行判断，若当前帧是校正帧，基于运动矢量信息选取粗略的roi区域，再对当前帧使用yolo网络识别出人脸区域，在对人脸区域进行扩展以得到roi区域，对roi区域内的图像进行图像质量增强；若视频帧不是校正帧，获取当前帧的roi区域内的运动矢量信息，根据roi区域内的运动矢量信息，分别计算出其水平与垂直方向的运动矢量数值和，以这两个数值对roi区域进行位移，视为当前帧的roi区域，再对当前帧的roi区域进行图像质量增强。直到视频的所有帧处理完毕，本视频的基于roi区域的后处理结束。

参考图7和图8和图9，图7是本发明另一个实施例提供的实验配置信息图，图8是本发明另一个实施例提供的测试序列图，图9是本发明另一个实施例提供的测试结果图。

参考图10和图11，图10是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法的原始图像，图11是本发明另一个实施例提供的视频会议场景下基于roi区域的后处理加速方法的部分增强后图像。

(1)实验环境

本发明实施例整个模型的训练和测试平台的软硬件具体配置如图7所示。

本实验基于“spatio-temporaldeformableconvolutionforcompressedvideoqualityenhancement”中给出的公开未压缩的130个原始视频序列数据与hm测试序列集，选取其中的16个类视频会议场景序列作为测试视频序列集。这些测试序列包括了352x288、640x360、1280x720等多种分辨率。本实验用h.265/hevc的参考编码器hm-16.18 scm-8.7在lowdelayp(ldp)的配置下，量化参数(qp)设置为37。

(2)实验结果

dpsnrall是指对原始图像取roi区域并部分增强后整张图像psnr(peaksignaltonoiseratio，峰值信噪比的增加值)，dpsnrpar是指对原始图像取roi区域并部分增强后此区域psnr的增加值，n＝0代表不使用本算法，直接对整帧进行质量增强，ts是指使用本文方法所得的运算时间相对于不使用本算法的运算时间节省的百分比。

由此表可以看出本文方法在全帧psnr增益减少0.3db的基础上，获得了约45％的时间节省。并且，在所选的roi区域，保留了原始增强效果，其实际效果如图10和图11所示。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个控制处理器执行，例如，控制处理器能够执行图1中的方法步骤s110至步骤s130。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于ram、rom、eeprom、闪存或其他存储器技术、cd-rom、数字多功能盘(dvd)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示意性实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，本领域的普通技术人员可以理解：在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由权利要求及其等同物限定。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

转载请注明原文地址:https://doc.8miu.com/read-150025.html

专利

最新回复(0)