一种基于深度学习的视频接力跟踪方法及系统与流程

专利2022-05-09  47



1.本发明涉及视频追踪技术领域,具体涉及一种基于深度学习的视频接力跟踪方法。


背景技术:

2.随着电力工业的不断发展,电力部门网络的全面改造工程已经实施,各变电站、变电所、通讯站等要实现少人或无人值守,以提高生产效益。各地区电业局都设立了运行管理值班室及调度部门,由于不能全面掌握现场状况,给各部门的运行协调带来了一定的困难。
3.完整的多摄像头接力跟踪包括目标定位、单摄像头机内追踪和多摄像头间交接三个部分。传统基于先验信息的目标定位方法包括静态背景下的目标检测和复杂背景下的目标检测。静态背景下目标检测多采用差分法、模板匹配法、减除背景法。复杂背景下的目标检测包括运动背景下的目标检测和大场景下目标检测。无论是运动背景下的目标检测还是大场景下的目标检测,都需要利用一定的算法对背景进行估计和补偿,将一系列拍摄所得的背景图像拼接为完整的背景,然后再根据每一帧的像素锁定背景区域,实现目标的定位。一般情况下,多摄像头的交接跟踪分为有重叠视觉区域的多摄像机目标跟踪和无重叠视觉区域的多摄像机目标跟踪。有重叠视觉区域的多摄像机目标跟踪可以利用不同摄像机内的重叠区域进行标定,其核心思想是建立不同摄像机之间的三维拓扑关系。该方法通过摄像头获得其周围环境信息,通过映射函数将某一摄像机坐标下的目标信息映射到另一摄像机的坐标中。该算法只利用了摄像机间的位置信息,没有利用目标物体的特征模型,是一种计算复杂度相对较低的方法。无重叠视觉区域的多摄像机目标跟踪中存在视觉盲区,难度比有重叠视觉区域的追踪要大得多。由于摄像机间视野不重叠,多个摄像机的相对位置关系难以确定,无法在视觉交界处进行目标的传递。因此,在这种情况下,多采用基于目标特征匹配的算法。例如,可利用颜色直方图进行目标匹配,或是利用纹理和形状特征来建立模型,最大化概率关联融合(jpdaf)来进行跨越视野的追踪。
4.传统基于先验信息的目标定位方法依赖于环境信息和手工特征,目标定位的鲁棒性、准确性和环境适应性较低。多摄像头间交接依赖于多摄像头的拓扑信息以及手工特征,不同摄像机所处环境的不同导致了目标特征的选取存在一定困难,容易引起特征提取不准确、不完整。同时,同一目标特征模型的参数在不同摄像机下也不尽相同,进一步加大了多摄像机交接的困难,该类算法的计算复杂度相对较高。因此,提出一种基于深度学习的视频接力跟踪方法及系统。


技术实现要素:

5.本发明所要解决的技术问题在于:如何解决当前变电站监控系统存在的需要人员在线干预、多个摄像头之间相互孤立缺乏联动、智能化水平低等问题,提供了一种基于深度学习的视频接力跟踪方法,用来提高变电站监控智能化水平,以应对无人值守环境下大场景或大范围内实现可疑目标检测和连续跟踪。
6.本发明是通过以下技术方案解决上述技术问题的,本发明包括以下步骤:
7.s1:获得目标位置和目标深度特征
8.每隔n个图像帧,输入视频流经过目标检测网络和特征提取网络分别获得目标位置和目标深度特征;
9.s2:进行iou匹配
10.预测目标下一次可能的位置,并对检测结果和跟踪结果做iou匹配;
11.s3:进行特征相似性度量
12.判断iou是否大于预设阈值δ,如果大于预设阈值δ,则表示跟踪成功;如果小于预设阈值δ,则表示跟踪失败,进而计算当前跟踪失败目标与相邻所有相机目标做特征相似性度量;
13.s4:目标接力跟踪
14.计算跟踪失败目标与相邻所有相机中已存储的目标特征相似度,判断其中特征相似度最大值是否大于预设阈值γ,如果相似度大于预设阈值γ则进行相邻相机目标接力跟踪,将跟踪失败目标与相邻相机对应符合相似度预设阈值γ的目标关联;如果相似度小于预设阈值γ则判断当前跟踪失败目标为在所有相机中从未出现的新目标。
15.更进一步地,所述步骤s1中的具体过程如下:
16.s11:假设当前时刻为t,从视频流读取图像帧i
t
,将i
t
输入目标检测网络获得l个检测结果,检测结果在图像i
t
中的矩形框坐标位置为其中i∈[0,l

1],表示矩形框的左上角,表示矩形框的右下角;
[0017]
s12:将检测结果根据坐标位置从图像i
t
截取出来送入特征提取网络获得每个目标对应的深度特征
[0018]
更进一步地,在所述步骤s11中,目标检测网络是基于卷积神经网络的单阶段无锚框目标检测网络nanodet训练而成的。
[0019]
更进一步地,在所述步骤s12中,特征提取网络是基于卷积神经网络的行人重识别网络scpnet训练而成的。
[0020]
更进一步地,所述步骤s2的具体过程如下:
[0021]
s21:在跟踪预测过程采用卡尔曼滤波算法预测图像帧i
t
中检测目标在t 1时刻在图像i
t 1
中可能的坐标位置,得到跟踪结果
[0022]
s22:假设t 1时刻,将图像i
t 1
输入目标检测网络获得m个检测结果其中j∈[1,m];
[0023]
s23:对t 1时刻检测结果和t时刻预测结果做iou匹配。
[0024]
更进一步地,在所述步骤s3中,判断iou是否大于预设阈值δ,如果大于预设阈值δ,表示t 1时刻的检测结果与t时刻的检测结果为同一个目标,跟踪成功;如果小于预设阈值δ,表示t 1时刻的检测结果不属于t时刻的检测结果,跟踪失败。
[0025]
更进一步地,跟踪失败的原因为目标从其他相机观测区域进入当前相机区域,或者目标是一个新目标,之前未出现在任何相机观测区域。
[0026]
更进一步地,在所述步骤s4中,t 1时刻跟踪失败目标的特征向量为相邻所有相机中保存的目标深度特征f
k
,其中k∈[0,n

1],n表示相邻所有相机保存的目标深度特征,相似度d用特征向量的欧式距离表示为
[0027]
本发明还提供了一种基于深度学习的视频接力跟踪系统,采用上述的视频接力跟踪方法对监控视频中的目标进行跟踪,包括:
[0028]
位置和特征获取模块,用于每隔n个图像帧,输入视频流经过目标检测网络和特征提取网络分别获得目标位置和目标深度特征;
[0029]
iou匹配模块,用于预测目标下一次可能的位置,并对检测结果和跟踪结果做iou匹配;
[0030]
相似性度量模块,用于判断iou是否大于预设阈值δ,如果大于预设阈值δ,则表示跟踪成功;如果小于预设阈值δ,则表示跟踪失败,进而计算当前跟踪失败目标与相邻所有相机目标做特征相似性度量;
[0031]
接力跟踪模块,用于计算跟踪失败目标与相邻所有相机中已存储的目标特征相似度,判断其中特征相似度最大值是否大于预设阈值γ,如果相似度大于预设阈值γ则进行相邻相机目标接力跟踪,将跟踪失败目标与相邻相机对应符合相似度预设阈值γ的目标关联;如果相似度小于预设阈值γ则判断当前跟踪失败目标为在所有相机中从未出现的新目标;
[0032]
中央处理模块,用于向其他模块发出指令,完成相关动作;
[0033]
所述位置和特征获取模块、iou匹配模块、相似性度量模块、接力跟踪模块均与所述中央处理模块电连接。
[0034]
本发明相比现有技术具有以下优点:该基于深度学习的视频接力跟踪方法,采用无锚框的目标检测算法作为变电监控环境中的检测算法,并针对变电场景选择合适主干网络并训练特定目标检测器,以适应不同硬件设备的部署;采用基于深度学习的特征提取网络提取的鲁棒特征用于跨摄像头目标关联匹配,可以提高变电站监控智能化水平,以应对无人值守环境下大场景或大范围内实现可疑目标检测和连续跟踪,值得被推广使用。
附图说明
[0035]
图1是本发明实施例一中基于深度学习的视频接力跟踪方法的流程示意图;
[0036]
图2是本发明实施例一中iou匹配示意图。
具体实施方式
[0037]
下面对本发明的实施例作详细说明,本实施例在以本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
[0038]
实施例一
[0039]
如图1所示,本实施例提供一种技术方案:一种基于深度学习的视频接力跟踪方法,包括以下步骤:
[0040]
s1:每隔n个图像帧,输入视频流经过目标检测网络和特征提取网络分别获得目标
位置和目标深度特征;
[0041]
步骤s1的具体过程如下:
[0042]
假设当前时刻为t,从视频流读取图像帧i
t
,将i
t
输入目标检测网络获得l个检测结果,检测结果在图像i
t
中的坐标位置为其中i∈[0,l

1]。将检测结果根据坐标位置从图像i
t
截取出来送入特征提取网络获得每个目标对应的深度特征向量为1
×
512维度的向量,是卷积神经网络提取的有利于区分不同行人的外观特征。目标检测网络使用了基于卷积神经网络的单阶段无锚框目标检测网络nanodet,目标检测网络输出为目标在图像中的矩形框坐标位置表示矩形框的左上角,表示矩形框的右下角。特征提取网络采用了基于卷积神经网络的行人重识别(person reid)网络scpnet,网络输出特征向量
[0043]
nanodet是基于无锚框单阶段检测算法fcos改进的适用于移动端的轻量化检测算法,去掉了fcos的centerness分支,引入了gfl解决了centerness分支在轻量级的模型上很难收敛的弊端,替换fcos的fpn结构为pan增强了特征融合,骨干网络从resnet替换为更加轻量的shufflenet。在nvidia gpu上使用pytorch深度学习框架实现,主干网络采用shufflenet,输入图像经过随机水平翻转、平移、旋转、裁剪等预处理操作,调整图像大小为320
×
320,经归一化处理后输入到网络中;使用sgd优化器,初始学习率设置为0.14,并在第130、160、175、185个epoch将学习率逐渐下降为上一次的0.1倍,总共训练190个epoch。
[0044]
对scpnet网络模型的特征提取模块进行改进,提出一种基于通道注意力机制的行人重识别方法,充分提取行人关键特征,提高识别精度。该方法以骨干网络resnet50为基础,结合通道注意力机制se模块对行人特征关键信息进行加权强化;采用动态激活函数作为网络激活层,提高网络模型对行人特征的非线性表示能力;在adam优化器中加入梯度中心化算法,加快模型训练速度。在nvidia gpu上使用pytorch深度学习框架实现,主干网络采用resnet50,输入图像经过随机水平翻转、裁剪等预处理操作,调整图像大小为256
×
128,经归一化处理后输入到网络中;使用sgd优化器,初始学习率设置为2e

4,并在第80个epoch和第180个epoch将学习率分别降到1e

4和1e

5,总共训练200个epoch。
[0045]
s2:采用跟踪算法预测目标下一次可能的位置,并对检测结果和跟踪结果做iou匹配;
[0046]
步骤s2的具体过程如下:
[0047]
跟踪预测过程采用卡尔曼滤波算法预测图像帧i
t
中检测目标在t 1时刻在图像i
t 1
中可能的坐标位置,得到跟踪结果卡尔曼滤波算法分为预测和更新两个过程,该算法将目标的运动状态定义为边界框的中心位置、纵横比、高度、以及在图像坐标中对应的速度信息共8个正态分布的向量;预测指当目标经过移动,通过上一帧的目标框和速度等参数,预测出当前帧的目标框位置和速度等参数;更新指对预测值和观测值两个正态分布的状态进行线性加权,得到目前系统预测的状态;
[0048]
假设t 1时刻,将图像i
t 1
输入目标检测网络获得m个检测结果其中j∈[1,m];
[0049]
对t 1时刻检测结果和t时刻预测结果做iou匹配。如图2所示,图中实线所示区域a为检测结果的坐标区域,图中虚线所示区域b为跟踪结果的坐标区域,iou表示为即区域a和区域b的交集与并集的比值。
[0050]
s3:判断iou是否大于预设阈值δ,如果小于阈值,计算当前目标与相邻所有相机目标做特征相似性度量;
[0051]
步骤s3的具体过程如下:
[0052]
判断iou是否大于阈值δ,如果大于阈值δ,表示t 1时刻的检测结果与t时刻的检测结果为同一个目标,跟踪成功;如果小于阈值δ,表示t 1时刻的检测结果不属于t时刻的检测结果,跟踪失败,失败原因有两种可能情况,目标可能是从其他相机观测区域进入当前相机区域,或者目标是一个新目标,之前未出现在任何相机观测区域;因此将跟踪失败目标与相邻所有相机中保存的目标深度特征做相似性度量。在本实施例中,阈值δ为0.5。
[0053]
s4:判断相似度是否大于预设阈值γ,如果大于阈值完成相邻相机目标接力跟踪,如果小于阈值为新目标;
[0054]
步骤s4的具体过程如下:
[0055]
t 1时刻跟踪失败目标的特征向量为相邻所有相机中保存的目标深度特征f
k
,其中k∈[0,n

1],n表示相邻所有相机保存的目标深度特征,相似度d用特征向量的欧式距离表示为判断相似度d是否大于阈值γ,如果d大于阈值γ完成相邻相机目标接力跟踪,失败目标是从其他相机观测区域进入当前相机区域;如果d小于阈值γ失败目标为新目标,阈值γ是通过测试集验证的统计值,可根据现场运行情况动态调整。
[0056]
综上所述,上述实施例的基于深度学习的视频接力跟踪方法,采用无锚框的目标检测算法作为变电监控环境中的检测算法,并针对变电场景选择合适主干网络并训练特定目标检测器,以适应不同硬件设备的部署;采用基于深度学习的特征提取网络提取的鲁棒特征用于跨摄像头目标关联匹配,可以提高变电站监控智能化水平,以应对无人值守环境下大场景或大范围内实现可疑目标检测和连续跟踪,值得被推广使用。
[0057]
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

技术特征:
1.一种基于深度学习的视频接力跟踪方法,其特征在于,包括以下步骤:s1:获得目标位置和目标深度特征每隔n个图像帧,输入视频流经过目标检测网络和特征提取网络分别获得目标位置和目标深度特征;s2:进行iou匹配预测目标下一次可能的位置,并对检测结果和跟踪结果做iou匹配;s3:进行特征相似性度量判断iou是否大于预设阈值δ,如果大于预设阈值δ,则表示跟踪成功;如果小于预设阈值δ,则表示跟踪失败,进而计算当前跟踪失败目标与相邻所有相机目标做特征相似性度量;s4:目标接力跟踪计算跟踪失败目标与相邻所有相机中已存储的目标特征相似度,判断其中特征相似度最大值是否大于预设阈值γ,如果相似度大于预设阈值γ则进行相邻相机目标接力跟踪,将跟踪失败目标与相邻相机对应符合相似度预设阈值γ的目标关联;如果相似度小于预设阈值γ则判断当前跟踪失败目标为在所有相机中从未出现的新目标。2.根据权利要求1所述的一种基于深度学习的视频接力跟踪方法,其特征在于:所述步骤s1中的具体过程如下:s11:假设当前时刻为t,从视频流读取图像帧i
t
,将i
t
输入目标检测网络获得l个检测结果,检测结果在图像i
t
中的矩形框坐标位置为其中i∈[0,l

1],表示矩形框的左上角,表示矩形框的右下角;s12:将检测结果根据坐标位置从图像i
t
截取出来送入特征提取网络获得每个目标对应的深度特征f
it
。3.根据权利要求2所述的一种基于深度学习的视频接力跟踪方法,其特征在于:在所述步骤s11中,目标检测网络是基于卷积神经网络的单阶段无锚框目标检测网络nanodet训练而成的。4.根据权利要求2所述的一种基于深度学习的视频接力跟踪方法,其特征在于:在所述步骤s12中,特征提取网络是基于卷积神经网络的行人重识别网络scpnet训练而成的。5.根据权利要求2所述的一种基于深度学习的视频接力跟踪方法,其特征在于:所述步骤s2的具体过程如下:s21:在跟踪预测过程采用卡尔曼滤波算法预测图像帧i
t
中检测目标在t 1时刻在图像i
t 1
中可能的坐标位置,得到跟踪结果s22:假设t 1时刻,将图像i
t 1
输入目标检测网络获得m个检测结果其中j∈[1,m];s23:对t 1时刻检测结果和t时刻预测结果做iou匹配。6.根据权利要求5所述的一种基于深度学习的视频接力跟踪方法,其特征在于:在所述步骤s3中,判断iou是否大于预设阈值δ,如果大于预设阈值δ,表示t 1时刻的检测结果与t时刻的检测结果为同一个目标,跟踪成功;如果小于预设阈值δ,表示t 1时刻的检测结果不
属于t时刻的检测结果,跟踪失败。7.根据权利要求6所述的一种基于深度学习的视频接力跟踪方法,其特征在于:跟踪失败的原因为目标从其他相机观测区域进入当前相机区域,或者目标是一个新目标,之前未出现在任何相机观测区域。8.根据权利要求7所述的一种基于深度学习的视频接力跟踪方法,其特征在于:在所述步骤s4中,t 1时刻跟踪失败目标的特征向量为相邻所有相机中保存的目标深度特征f
k
,其中k∈[0,n

1],n表示相邻所有相机保存的目标深度特征,相似度d用特征向量的欧式距离表示为9.一种基于深度学习的视频接力跟踪系统,其特征在于,采用上述的视频接力跟踪方法对监控视频中的目标进行跟踪,包括:位置和特征获取模块,用于每隔n个图像帧,输入视频流经过目标检测网络和特征提取网络分别获得目标位置和目标深度特征;iou匹配模块,用于预测目标下一次可能的位置,并对检测结果和跟踪结果做iou匹配;相似性度量模块,用于判断iou是否大于预设阈值δ,如果大于预设阈值δ,则表示跟踪成功;如果小于预设阈值δ,则表示跟踪失败,进而计算当前跟踪失败目标与相邻所有相机目标做特征相似性度量;接力跟踪模块,用于计算跟踪失败目标与相邻所有相机中已存储的目标特征相似度,判断其中特征相似度最大值是否大于预设阈值γ,如果相似度大于预设阈值γ则进行相邻相机目标接力跟踪,将跟踪失败目标与相邻相机对应符合相似度预设阈值γ的目标关联;如果相似度小于预设阈值γ则判断当前跟踪失败目标为在所有相机中从未出现的新目标;中央处理模块,用于向其他模块发出指令,完成相关动作;所述位置和特征获取模块、iou匹配模块、相似性度量模块、接力跟踪模块均与所述中央处理模块电连接。
技术总结
本发明公开了一种基于深度学习的视频接力跟踪方法及系统,属于视频追踪技术领域,包括以下步骤:S1:获得目标位置和目标深度特征;S2:进行IOU匹配;S3:进行特征相似性度量;S4:目标接力跟踪。本发明采用无锚框的目标检测算法作为变电监控环境中的检测算法,并针对变电场景选择合适主干网络并训练特定目标检测器,以适应不同硬件设备的部署;采用基于深度学习的特征提取网络提取的鲁棒特征用于跨摄像头目标关联匹配,可以提高变电站监控智能化水平,以应对无人值守环境下大场景或大范围内实现可疑目标检测和连续跟踪,值得被推广使用。值得被推广使用。值得被推广使用。


技术研发人员:洪洋 张明 任广鑫 赵曼 张泉 吕要要 刘海峰 季坤 吴迪 甄超 王坤 王刘芳 郑浩
受保护的技术使用者:国网安徽省电力有限公司
技术研发日:2021.04.25
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-18243.html

最新回复(0)