一种基于帧间自注意力机制的人像分割系统及方法

专利2026-02-19 28

本发明属于图像分割，具体涉及一种基于帧间自注意力机制的人像分割系统及方法。

背景技术：

1、随着深度学习和计算机视觉技术的飞速发展，人像分割已经成为视频处理和分析领域的一个重要研究方向。人像分割技术的目的是从视频帧中准确地分割出人物形象，将人物从背景中分离出来，这对于视频监控、人机交互、增强现实等应用场景至关重要。

2、早期的人像分割技术主要依赖于图像处理方法，如阈值分割、边缘检测、区域生长等。这些方法往往依赖于图像的颜色、纹理等低级特征，对于复杂背景的分割效果有限。随着机器学习技术的发展，人像分割开始采用更为高级的特征表示和分类器。这一时期的方法包括使用支持向量机(svm)、随机森林等机器学习算法，通过手工设计的特征来提高分割的准确度。深度学习特别是卷积神经网络(cnn)在图像识别领域的成功应用，为人像分割提供了强有力的工具。深度学习方法能够自动从大量数据中学习复杂的特征表示，极大地提高了分割的准确性和鲁棒性。代表性的深度学习模型包括fcn(全卷积网络)、u-net、deeplab、mask r-cnn等。随着技术的进步，研究者们不仅追求分割的准确性，也越来越关注算法的实时性和优化。通过网络结构的改进、模型压缩和加速技术，使得人像分割能够在移动设备和实时应用中得到更广泛的应用。

3、在视频序列中实现高精度的人像分割面临着众多挑战，包括但不限于复杂的背景、快速变化的光照条件、行人之间的遮挡以及行人与背景之间的相似性。此外，视频中的人物可能会进行快速移动，导致外观特征的剧烈变化，这些因素都给人像分割带来了不小的困难。

4、随着技术的不断进步，帧间关系以及注意力机制结合深度学习模型在计算机视觉领域展现出了巨大的潜力。然而，设计高效的帧间注意力模型以适应实时视频处理的需求，以及如何在计算资源有限的情况下实现高准确度的分割，仍然是当前研究中需要解决的关键问题。如何克服上述技术挑战，满足复杂场景下的实际需求，实现实时的高精度人像分割，有必要进一步研究和开发这项技术，并提出相应的解决方案。

技术实现思路

1、针对现有技术的不足，本发明提出一种基于帧间自注意力机制的人像分割系统及方法，通过多层次分阶段提取图像特征获得不同的粗粒度和细粒度特征，添加注意力机制并分阶段融合得到特征图像中更重要的信息，聚合时间信息，逐步融合编码过程中不同特征，恢复时空信息，按照本方法对人像进行分割，具有准确、高效的优点。

2、一种基于帧间注意力机制的人像分割系统，包括特征提取的编码器模块、语义分割模块以及包含注意力计算和上采样的特征融合解码器模块；

3、所述特征提取的编码器模块采用resnet50共有4个阶段stage；语义分割模块采用预训练好的lite reduced atrous spatial pyramid pooling，lr-aspp模型；

4、其中，图像经过特征提取的编码器模块，依次提取得到1/2、1/4、1/8以及1/16规模的特征图像；语义分割模块以1/8和1/16规模上的特征图像为输入，得到包含语义的特征图像；在解码器模块中对相邻帧以及不同规模上的特征进行融合，获得包含时间和空间信息的特征图像，并在这个解码器模块中添加了注意力计算，使其自适应的聚焦于视频帧中对人像分割任务的关键区域，最后在原图规模大小上将特征图投影输出，完成视频人像分割；

5、一种基于帧间自注意力机制的人像分割方法，基于上述一种基于帧间注意力机制的人像分割系统实现，具体包括以下步骤：

6、步骤1：在包含人像的视频流中提取连续图像帧fi(i＝1,2,3,…,n)，i为图像帧在视频流中的时间顺序；将图像帧fi进行预处理后送入预训练好的特征提取的编码器模块中输出不同规模大小的特征图像vij(i＝1,2,3,…,n，j＝1/2,1/4,1/8,1/16)，i为不同时间顺序的图像帧编号，j为图像的规模大小编号；其中1/8、1/16规模大小的特征送入语义分割模块，1/2、1/4、1/8规模大小的特征送入解码器；

7、所述预处理包括调整图像的大小以及进行归一化；

8、输出不同规模大小的特征图像具体为：

9、经过预处理的图像帧fi被输入到特征提取的编码器中；使用resnet50网络作为主干网络，提取并输出1/2、1/4、1/8、1/16规模大小的特征图像vij；resnet50共有4个stage，每经过一个stage图像帧fi尺寸就会减半，第一个stage是通过步长为2的池化层下采样，第二、三、四个stage通过一个步长为2的卷积层执行下采样，使用resnet50网络提取特征，在其第一个stage后输出1/2规模的特征图像，第二个stage后输出1/4规模的特征图像，第三个stage后输出1/8规模大小的特征图像，第四个stage后输出1/16规模大小的特征图像；

10、步骤2：将1/8、1/16规模大小的特征图像，输入语义分割模型即预训练好的lr-aspp模型进行语义分割，得到包含语义信息的特征图像vij’；并将vij’送入解码器模块；

11、所述步骤2中利用lr-aspp模块进行语义分割，具体操作为：将原图下采样8倍和16倍的特征图vij(j＝1/8,1/16)传入lr-aspp模块，其中下采样16倍后输入分为两个分支，其中一个分支经过一个1*1的卷积进行降维后得到oij(j＝1/16)；另外一个分支经过一个全局的平均池化，得到一个一维的向量pij(j＝1/16)；将结果oij和pij进行相乘后得到sij(j＝1/16)，再经过双线性插值将特征sij的高和宽上采样两倍，之后经过一个1*1的卷积核得到rij(j＝1/16)，这里卷积核的个数等于n，也就是需要预测的标签数量；而下采样8倍的分支即特征图像vij(j＝1/8)经过1*1的卷积层后得到rij(j＝1/8)，它的卷积核个数也等于n，将下采样8倍和16倍的输出结果rij(j＝1/16)和rij(j＝1/8)相加后进行双线性插值还原回原图的规模大小得到vij’(j＝1/16)；

12、步骤3：对于送入解码器模块的特征，进行帧间融合聚合时间信息：在1/16规模上，将当前帧vij’和其相邻的两帧vi-1j’、vi+1j’共三帧特征连接在一起，对合并后的特征执行卷积操作，输出新的特征vij”(j＝1/16)，在1/8、1/4、1/2规模上，将当前帧vij和其相邻两帧vi-1j、vi+1j共三帧特征连接在一起，对合并后的特征执行卷积操作，输出新的特征vij”(j＝1/2,1/4,1/8)；

13、步骤4：进行帧间融合后的特征，已经聚合了时间上的信息，之后解码器模块利用上采样逐步恢复其空间的维度，并在这个过程中进行自注意力计算以及融合；将经过自注意力计算、层层融合后得到的特征vout投影到输出，输出包括一个alpha预测、三通道前景预测和一通道分割预测，自此完成人像分割；

14、所述自注意力计算具体为：特征图像vij”(j＝1/2,1/4,1/8,1/16)通过卷积层生成查询、键和值矩阵，然后通过查询矩阵和键矩阵的批矩阵-矩阵积生成一个注意力分数矩阵，并使用softmax函数进行归一化，之后通过加权求和的方式将归一化后的注意力分数应用到值矩阵上，最后将这个加权的特征与原始输入特征vij”(j＝1/2,1/4,1/8,1/16)相加，完成注意力计算；输出tij(i＝1,2,3,…,n，j＝1/2、1/4、1/8、1/16)，i为不同时间顺序的图像帧编号，j为图像的规模大小编号；

15、所述层层融合后得到的特征vout投影到输出具体为：在1/16规模特征图上进行分割后传入解码器模块，1/16规模大小的特征图在解码器模块首先进行帧间特征融合得到vij”(j＝1/16)，之后进行注意力计算后输出tij(i＝1,2,3,…,n，j＝1/16)；tij进行双线性插值的上采样后与1/8规模上的特征vij”(i＝1,2,3,…,n，j＝1/8)合并，vij”(i＝1,2,3,…,n，j＝1/8)为特征提取模块输出的1/8规模上相邻三帧融合后的特征；对合并后的特征进行卷积、批量归一化和激活；

16、之后在1/8规模vij”(i＝1,2,3,…,n，j＝1/8)上继续进行注意力计算得到tij(i＝1,2,3,…,n，j＝1/8)；tij(i＝1,2,3,…,n，j＝1/8)进行双线性插值的上采样后与vij”(i＝1,2,3,…,n，j＝1/4)进行合并操作；vij”(i＝1,2,3,…,n，j＝1/4)为特征提取模块输出的1/4规模上相邻三帧融合后的特征；对合并后的特征进行卷积、批量归一化和激活；

17、之后1/4规模上进行注意力计算得到tij(i＝1,2,3,…,n，j＝1/4)；tij(i＝1,2,3,…,n，j＝1/4)进行双线性插值的上采样后与vij”(i＝1,2,3,…,n，j＝1/2)进行合并操作；vij”(i＝1,2,3,…,n，j＝1/2)为特征提取模块输出的1/2规模上相邻三帧融合后的特征；对合并后的特征进行卷积、批量归一化和激活；之后1/2规模上继续进行注意力计算得到tij(i＝1,2,3,…,n，j＝1/2)，上采样操作之后图像规模恢复为原图大小；

18、利用上述上采样操作逐步恢复空间的维度，并在这个过程中进行注意力计算融合不同规模的特征图像，直到规模达到原图大小；将恢复为原图规模的特征图重复卷积，归一和激活两次，最后再经过一个卷积层将特征图投影到输出，输出包括一通道的alpha预测，三通道前景预测和一通道分割预测，自此完成人像分割。

19、本发明有益技术效果：

20、在视频处理中，尤其是在视频流或实时处理应用中，帧与帧之间的细微变化可能导致模型输出的剧烈波动，即时间抖动。本发明提出了一种基于帧间自注意力机制的人像分割系统及方法；通过考虑前后帧，能够利用时间上的信息，提高对动态场景的理解，减少时间抖动，输出更平滑、更稳定的分割结果。另外由于某些帧可能因为拍摄条件不佳(如模糊、遮挡等)而难以准确分割；本发明通过结合前后帧的特征，可以在某帧特征不明显或受损的情况下，通过分析连续帧之间的变化，更好地理解物体的运动轨迹和速度，借助邻近帧的信息来提高分割的鲁棒性；本发明采用的自注意力机制赋予动态关注能力，使其能够自适应地调整其对不同输入数据部分的关注程度，自适应地学习特征和相似性，而不需要依赖预定义的规则或特定领域的知识，并且能够同时提取细粒度特征和粗粒度特征并进行特征融合，提高特征提取的准确性；本方法具有较强的泛化能力，可以适应不同环境和场景下的人像分割任务。

21、本发明通过考虑视频流相邻帧，利用时间和空间上的信息并加入注意力计算，赋予动态关注能力，自适应地调整其对不同输入数据部分的关注程度，不仅能提高人像分割的准确率，还能在复杂的环境中实现高效、稳定的性能。

技术特征：

1.一种基于帧间自注意力机制的人像分割系统，其特征在于，包括特征提取的编码器模块、语义分割模块以及包含注意力计算和上采样的特征融合解码器模块；

2.根据权利要求1所述的一种基于帧间自注意力机制的人像分割系统，其特征在于，所述特征提取的编码器模块采用resnet50共有4个阶段stage；语义分割模块采用预训练好的lite reduced atrous spatial pyramid pooling，lr-aspp模型。

3.一种基于帧间自注意力机制的人像分割方法，基于上述权利要求1一种基于帧间注意力机制的人像分割系统实现，其特征在于，具体包括以下步骤：

4.根据权利要求3所述的一种基于帧间自注意力机制的人像分割方法，其特征在于，步骤1所述预处理包括调整图像的大小以及进行归一化。

5.根据权利要求3所述的一种基于帧间自注意力机制的人像分割方法，其特征在于，步骤1输出不同规模大小的特征图像具体为：

6.根据权利要求3所述的一种基于帧间自注意力机制的人像分割方法，其特征在于，所述步骤2中利用lr-aspp模块进行语义分割，具体操作为：

7.根据权利要求3所述的一种基于帧间自注意力机制的人像分割方法，其特征在于，步骤4所述自注意力计算具体为：特征图像vij”(j＝1/2,1/4,1/8,1/16)通过卷积层生成查询、键和值矩阵，然后通过查询矩阵和键矩阵的批矩阵-矩阵积生成一个注意力分数矩阵，并使用softmax函数进行归一化，之后通过加权求和的方式将归一化后的注意力分数应用到值矩阵上，最后将这个加权的特征与原始输入特征vij”(j＝1/2,1/4,1/8,1/16)相加，完成注意力计算；输出tij(i＝1,2,3,…,n，j＝1/2、1/4、1/8、1/16)，i为不同时间顺序的图像帧编号，j为图像的规模大小编号。

8.根据权利要求3所述的一种基于帧间自注意力机制的人像分割方法，其特征在于，步骤4所述层层融合后得到的特征vout投影到输出具体为：在1/16规模特征图上进行分割后传入解码器模块，1/16规模大小的特征图在解码器模块首先进行帧间特征融合得到vij”(j＝1/16)，之后进行注意力计算后输出tij(i＝1,2,3,…,n，j＝1/16)；tij进行双线性插值的上采样后与1/8规模上的特征vij”(i＝1,2,3,…,n，j＝1/8)合并，vij”(i＝1,2,3,…,n，j＝1/8)为特征提取模块输出的1/8规模上相邻三帧融合后的特征；对合并后的特征进行卷积、批量归一化和激活；

技术总结
本发明设计一种基于帧间自注意力机制的人像分割系统及方法，包括特征提取的编码器模块、语义分割模块以及包含注意力计算和上采样的特征融合解码器模块；首先图像经过编码器模块提取特征，充分利用中间层输出的结构，充分融合图像所有的结构特征；在特定规模上将提取得到的特征送入分割模块；在汇总时间信息的解码器中利用上采样逐步恢复空间的维度，同时融合编码过程提取到的特征；考虑帧与帧之间的时空关系，融合相邻帧之间的特征，并引入注意力机制，自适应的聚焦于对人像分割任务最关键的区域，最后在原图规模大小上将特征图投影到输出，完成视频人像分割；本发明不仅能提高人像分割的准确率，还能在复杂的环境中实现高效、稳定的性能。

技术研发人员：雷为民,尹刚,王晓非,张伟,吕洪龙,舒延昊
受保护的技术使用者：东北大学
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1827836.html

专利

最新回复(0)