基于大视觉模型的步态识别方法、装置、设备及存储介质

专利2026-05-08 31

本发明属于计算机，尤其涉及一种基于大视觉模型的步态识别方法、装置、设备及存储介质。

背景技术：

1、步态识别是一种通过分析人的行走姿态来进行身份识别和监控的技术。近年来，随着人工智能和计算机视觉技术的快速发展，步态识别技术也取得了显著的进步。目前，步态识别技术已经应用于多个领域，如安全监控、智能交通、机器人等领域。在安全监控领域，步态识别技术被用于自动识别特定人员的行踪，以实现预警和防范潜在危险。在智能交通领域，步态识别技术被用于识别行人和车辆的移动轨迹，以实现智能交通管理和优化。在机器人领域，步态识别技术被用于实现机器人的自主导航和人机交互。

2、现有的步态识别方法都是基于专用的上游模型来获得单一的中间步态表征，比如，对行人视频使用分割模型获得人体剪影序列，使用人体骨架预测模型获得人体的2d或3d骨架，使用人体蒙皮预测模型获得3d蒙皮，等等。然而，使用专门的上游模型会导致对中间步态表征的人为标签过于依赖，具体体现在每个专门的上游模型都需要在人为标记的数据集上进行充分且大量的训练，比如，分割模型需要在人体剪影数据集上进行预先训练，才能放入到识别流程中(对于其他的中间步态表征，骨架、3d蒙皮等等都同理)。这些中间步态表征数据的标注成本很高，很难大批量采集，同时也会引入累计误差(人为错误标记的脏数据等)。而现有的行人重识别(re-id)技术不依赖于中间步态表征，但基于此原因也导致其对人体步态特征的提取较差，对行人身份无关的颜色和纹理信息是敏感的。比如，行人更换着装后，行人重识别技术可能就无法分别其身份。

技术实现思路

1、本发明的目的在于提供一种基于大视觉模型的步态识别方法、装置、设备及存储介质，旨在解决由于现有技术对人为手工标记的中间步态表征过度依赖的问题，无法提供一种有效的步态识别方法，导致步态识别方法可用性、精确度不高的问题。

2、第一方面，本发明提供了一种基于大视觉模型的步态识别方法，所述方法包括下述步骤：

3、从输入的彩色行人视频获取待处理的视频帧图像，使用大视觉模型提取所述视频帧图像的不同粒度的多个第一通用特征图；

4、将所述多个第一通用特征图中最粗粒度的通用特征图设置为第二通用特征图，并对所述多个第一通用特征图进行特征拼接，得到第三通用特征图，使用自编码器将所述第二通用特征图中的行人和背景分离，得到行人掩码图；

5、基于所述行人掩码图和所述第三通用特征图，获取通用行人特征图，对所述通用行人特征图中与行人身份无关的服装特征进行过滤，以得到外形特征图以及步态特征图；

6、基于所述外形特征图以及步态特征图，确定所述视频帧图像中行人的身份。

7、在一些实施例中，使用大视觉模型提取所述视频帧图像的不同粒度的多个第一通用特征图的步骤之前，所述方法还包括：

8、将所述视频帧图像等比例拉伸到预设的目标高度，判断是否需要对所述视频帧图像的宽度进行补全或裁剪，根据判断结果将所述视频帧图像的宽度变化至目标宽度。

9、在一些实施例中，所述自编码器通过l2损失函数训练得到，在通过所述l2损失函数训练所述自编码器时，根据所述自编码器的l2损失对所述自编码器的网络参数进行调整；

10、所述自编码器包括第一bn层、第一线性层以及第一softmax函数，所述第一bn层用于对所述第二通用特征图进行标准化，得到标准化特征图，所述第一线性层用于对所述标准化特征图进行降维，所述第一softmax函数用于对降维后的所述标准化特征图进行注意力操作，得到所述行人掩码图。

11、在一些实施例中，对所述通用行人特征图中与行人身份无关的服装特征进行过滤，以得到外形特征图以及步态特征图的步骤，包括：

12、对所述通用行人特征图进行线性降维操作，得到所述视频帧图像中行人的外形特征图；

13、对所述通用行人特征图进行非线性降维操作，得到所述视频帧图像中行人的步态特征图。

14、在一些实施例中，通过外形提取网络对所述通用行人特征图进行线性降维操作，得到所述视频帧图像中行人的外形特征图；

15、所述外形提取网络包括第二bn层、第二线性层、第三bn层和sigmoid层，所述第二bn层用于对所述通用行人特征图进行标准化，得到第一标准化通用行人特征图，所述第二线性层用于对所述第一标准化通用行人特征图进行降维，所述第三bn层用于对降维后的所述第一标准化通用行人特征图进行标准化，得到第二标准化通用行人特征图，所述sigmoid层用于对所述第二标准化通用行人特征图进行非线性转换，得到所述外形特征图。

16、在一些实施例中，通过步态提取网络对所述通用行人特征图进行非线性降维操作，得到所述视频帧图像中行人的步态特征图；

17、所述步态提取网络通过平滑性损失函数和多样性损失函数训练得到，在通过所述平滑性损失函数和多样性损失函数训练所述步态提取网络时，根据所述步态提取网络的平滑性损失和多样性损失对所述步态提取网络的网络参数进行调整；

18、所述步态提取网络包括第四bn层、第三线性层、激活层、第四线性层以及第二softmax函数，所述第四bn层用于对所述通用行人特征图进行标准化，得到第三标准化通用行人特征图，所述第三线性层用于对所述第三标准化通用行人特征图进行降维，得到第四标准化通用行人特征图，所述激活层用于对所述第四标准化通用行人特征图进行非线性转换，得到第五标准化通用行人特征图，所述第四线性层用于对所述第五标准化通用行人特征图进行降维，得到第六标准化通用行人特征图，所述第二softmax函数用于对第六标准化通用行人特征图进行注意力操作，得到所述步态特征图。

19、第二方面，本发明提供了一种基于大视觉模型的步态识别网络训练方法，所述步态识别网络包括大视觉模型、自编码器、外形提取网络、步态提取网络以及步态识别模块，所述方法包括：

20、从输入的彩色行人视频样本获取待处理的视频帧图像，使用所述大视觉模型提取所述视频帧图像的不同粒度的多个第一通用特征图；

21、将所述多个第一通用特征图中最粗粒度的通用特征图设置为第二通用特征图，并对所述多个第一通用特征图进行特征拼接，得到第三通用特征图，使用所述自编码器将所述第二通用特征图中的行人和背景分离，得到行人掩码图；

22、基于所述行人掩码图和所述第三通用特征图，获取通用行人特征图，通过所述外形提取网络以及步态提取网络对所述通用行人特征图中与行人身份无关的服装特征进行过滤，以得到外形特征图以及步态特征图；

23、基于所述外形特征图以及步态特征图，通过所述步态识别模块确定所述视频帧图像中行人的身份，基于所述视频帧图像的标签以及确定的所述身份，通过平滑性损失和多样性损失对所述步态提取网络的网络参数进行调整，直至得到训练好的步态识别网络。

24、第三方面，本发明提供了一种基于大视觉模型的步态识别装置，所述装置包括：

25、特征提取单元，用于从输入的彩色行人视频获取待处理的视频帧图像，使用大视觉模型提取所述视频帧图像的不同粒度的多个第一通用特征图；

26、特征图获取单元，用于将所述多个第一通用特征图中最粗粒度的通用特征图设置为第二通用特征图，并对所述多个第一通用特征图进行特征拼接，得到第三通用特征图，使用自编码器将所述第二通用特征图中的行人和背景分离，得到行人掩码图；

27、特征过滤单元，用于基于所述行人掩码图和所述第三通用特征图，获取通用行人特征图，对所述通用行人特征图中与行人身份无关的服装特征进行过滤，以得到外形特征图以及步态特征图；以及

28、步态识别单元，用于基于所述外形特征图以及步态特征图，确定所述视频帧图像中行人的身份。

29、第四方面，本发明还提供了一种步态识别设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述方法的步骤。

30、第五方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述方法的步骤。

31、本发明实施例使用大视觉模型提取视频帧图像的不同粒度的多个第一通用特征图，对多个第一通用特征图进行特征拼接，得到第三通用特征图，使用自编码器将最粗粒度的第二通用特征图中的行人和背景分离，得到行人掩码图，基于行人掩码图和第三通用特征图，获取通用行人特征图，对通用行人特征图中与行人身份无关的服装特征进行过滤，以得到外形特征图以及步态特征图，基于外形特征图以及步态特征图，确定视频帧图像中行人的身份，从而使用大视觉模型提取视频帧图像的中间特征，进而转变为步态特征，最终实现行人的步态识别，提高了本发明实施例的泛化性和精确度。

技术特征：

1.一种基于大视觉模型的步态识别方法，其特征在于，所述方法包括下述步骤：

2.如权利要求1所述的方法，其特征在于，使用大视觉模型提取所述视频帧图像的不同粒度的多个第一通用特征图的步骤之前，所述方法还包括：

3.如权利要求1所述的方法，其特征在于，所述自编码器通过l2损失函数训练得到，在通过所述l2损失函数训练所述自编码器时，根据所述自编码器的l2损失对所述自编码器的网络参数进行调整；

4.如权利要求1所述的方法，其特征在于，对所述通用行人特征图中与行人身份无关的服装特征进行过滤，以得到外形特征图以及步态特征图的步骤，包括：

5.如权利要求4所述的方法，其特征在于，通过外形提取网络对所述通用行人特征图进行线性降维操作，得到所述视频帧图像中行人的外形特征图；

6.如权利要求4所述的方法，其特征在于，通过步态提取网络对所述通用行人特征图进行非线性降维操作，得到所述视频帧图像中行人的步态特征图；

7.一种基于大视觉模型的步态识别网络训练方法，其特征在于，所述步态识别网络包括大视觉模型、自编码器、外形提取网络、步态提取网络以及步态识别模块，所述方法包括：

8.一种基于大视觉模型的步态识别装置，其特征在于，所述装置包括：

9.一种步态识别设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

技术总结
本发明适用计算机技术领域，提供了一种基于大视觉模型的步态识别方法、装置、设备及存储介质，该方法包括：从输入的彩色行人视频获取待处理的视频帧图像，使用大视觉模型提取视频帧图像的不同粒度的多个第一通用特征图，对多个第一通用特征图进行特征拼接，得到第三通用特征图，使用自编码器将最粗粒度的第二通用特征图中的行人和背景分离，得到行人掩码图，基于行人掩码图和第三通用特征图，获取通用行人特征图，对通用行人特征图中与行人身份无关的服装特征进行过滤，以得到外形特征图以及步态特征图，基于外形特征图以及步态特征图，确定视频帧图像中行人的身份，从而提高了该步态识别方法的泛化性和精确度。

技术研发人员：于仕琪,叶顶强,樊超
受保护的技术使用者：南方科技大学
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1829248.html

专利

最新回复(0)