一种多目标跟踪方法与流程

专利2025-12-31  14


本发明涉及计算机视觉,更具体地,涉及一种多目标跟踪方法。


背景技术:

1、在现有技术的计视觉技术领域中,目前多行人跟踪算法主要是基于检测的跟踪算法主要由两部分组成:检测与关联。首先使用目标检测算法来检测视频帧中的目标,然后通过关联算法(如卡尔曼滤波、匈牙利算法等)基于检测的交并比(iou)在不同帧之间关联目标,形成目标轨迹。

2、这种方法需要先进行目标检测,然后再进行关联,这导致了额外的计算开销和较低的计算效率。在实时应用中会导致较高的延迟。同时,这种方法完全依赖于交并比匹配方式受限于目标检测的准确性。如果目标检测器产生不准确或错误的检测结果,匹配的准确性会受到较大的影响。例如目标检测器在某一帧中错误地检测了目标,这个错误可能会一直传播到后续的帧中,导致跟踪器的错误。


技术实现思路

1、本发明旨在克服上述现有技术的至少一种缺陷,提供一种多目标跟踪方法,能够无需依赖目标检测器,有效提高多目标跟踪的实时性。

2、本发明采取的技术方案为:

3、本发明提供一种多目标跟踪方法,所述方法包括:

4、采集若干包含有多人并进行运动的视频,并根据所述视频构建多目标跟踪训练集;

5、获取每段所述视频中每一帧的关于人的标准跟踪队列,并根据获取的所述标准跟踪队列构建每段所述视频的标准跟踪队列集;

6、构建基于transformer模型的多目标跟踪网络模型,并根据所述多目标跟踪训练集对所述多目标跟踪网络模型进行训练,具体包括:

7、将每段所述视频输入所述多目标跟踪网络模型,所述多目标跟踪网络模型逐帧对所述视频进行识别,获取每段所述视频的每一帧的识别跟踪队列,并构建每段所述视频的识别跟踪队列集;

8、在每次识别得到每段所述视频对应的识别跟踪队列集后,通过损失函数计算所述识别跟踪队列集和标准跟踪队列集的损失值,并通过反向传播更新所述多目标跟踪网络模型的参数;

9、更新所述多目标跟踪网络模型的参数后,再将下一段所述视频输入所述多目标跟踪网络模型进行识别,最终得到训练好的多目标跟踪网络模型;

10、获取目标运动视频,将所述目标运动视频输入所述训练好的多目标跟踪网络模型,得到目标跟踪队列。

11、基于transformer模型构建所述多目标跟踪网络模型,利用transformer模型可以进行端到端的学习,且能够直接从原始数据中学习目标的运动模式,无需依赖目标检测器,使训练的模型能够有更高的计算效率,进而提高模型对多目标跟踪的实时性。

12、进一步的,所述多目标跟踪网络模型逐帧对所述视频进行识别,获取每段所述视频的每一帧的识别跟踪队列,具体包括:

13、所述多目标跟踪网络模型将当前帧的单帧图像,与所述多目标跟踪网络模型对前一帧的所述视频的单帧图像进行识别输出的识别跟踪队列作为输入进行识别,获取每段所述视频的当前帧的识别跟踪队列;如当前帧为所述视频的第一帧,则构建并初始化一个所述识别跟踪队列输入所述多目标跟踪网络模型。

14、进一步的,所述多目标跟踪网络模型包括输入模块,编码模块、解码模块、融合特征解析模块和跟踪队列管理模块;

15、所述输入模块包括图像输入分支和跟踪队列输入分支,所述图像输入分支接收所述视频当前帧的单帧图像,并对所述单帧图像进行编码处理,得到图像语义特征;所述跟踪队列输入分支用于接收前一帧的所述视频的单帧图像识别输出的识别跟踪队列;

16、所述编码模块根据编码处理后的所述图像语义特征,通过自注意力机制获取空间特征;

17、所述解码模块接收所述空间特征和前一帧的所述视频的单帧图像识别输出的识别跟踪队列,并通过自注意力机制和互注意力机制根据所述空间特征和所述识别跟踪队列进行处理获得时空融合特征;

18、所述融合特征解析模块根据所述时空融合特征生成对应的特征解析;

19、所述跟踪队列管理模块根据所述特征解析对对应的时空融合特征进行处理,得到当前帧的所述识别跟踪队列。

20、所述编码模块的自注意力机制提取所述单帧图像的空间特征,所述前一帧的所述识别跟踪队列为时序特征,通过所述解码模块的自注意力机制和互注意力机制将空间特征和时序特征进行特征融合,能够很好的捕捉所述空间特征的时序关系,提高所述多目标跟踪网络模型对运动的目标跟踪的准确性。

21、进一步的,所述对所述单帧图像进行编码处理,得到图像语义特征,具体包括:

22、将所述单帧图像重采样为预设的尺寸,并对重采样后的所述单帧图像进行归一化处理;

23、将归一化后的所述单帧图像按照网格切分为预设大小的小块图像;

24、将每一个所述小块图像输入预训练的resnet50网络,提取每一个所述小块图像的特征;

25、将每一个所述小块图像的坐标输入到位置编码网络中获得对应的位置编码;

26、将每一个所述小块图像的特征与对应的位置编码相加,得到每一个所述小块的位置编码特征,根据所有所述小块图像的位置编码特征构建所述图像语义特征。

27、由于transformer模型不适用于直接处理图像的输入,其从图像底层提取图像特征的效果较差,并且直接用于底层信息处理还会导致计算量呈指数级增加,因此对所述单帧图像进行编码处理,将图像转换为适用于transformer模型处理的序列形式,使所述多目标跟踪网络模型能够更有效的捕捉到所述单帧图像中的语义特征和位置特征。

28、进一步的,所述编码模块包括6个顺序连接设置且结构相同的自注意力模块;

29、所述解码模块包括6个顺序连接设置且结构相同的所述自注意力模块和6个顺序连接设置且结构相同的互注意力模块;

30、所述编码模块的6个所述自注意力模块用于根据编码处理后的所述图像语义特征,并通过自注意力机制获取所述空间特征;

31、所述解码模块的6个所述自注意力模块用于接收前一帧的所述视频的单帧图像识别出的识别跟踪队列,并通过自注意力机制提取出所述识别跟踪队列中的时序特征;6个所述互注意力机制用于接收所述解码模块的6个所述自注意力模块输出的所述时序特征和所述编码模块输出的所述空间特征,并通过互注意力机制将所述时序特征和空间特征进行特征融合,得到所述时空融合特征。

32、所述编模块基于transformer模型的自注意力机制构建,能够对应捕捉不同的所述图像语义特征的交互信息,生成包含语特征和位置特征的空间特征;所述解码模块基于transformer模型的自注意力机制和互注意力机制构建,捕捉所述识别跟踪队列中的时序特征的内部关系,以及所述识别跟踪队列中的时序特征与空间特征之间的交互关系,利用transformer模型在序列数据中处理上下文信息能力较强的特点,能够有效的捕捉多目标运动中的上下文关系,提高跟踪的准确性。

33、进一步的,所述识别跟踪队列和标准跟踪队列中均包含若干轨迹特征,所述轨迹特征分为可以互相转化的存活轨迹特征、休克轨迹特征和检测轨迹特征,所述存活轨迹特征表示对应帧正在跟踪对应目标,所述休克轨迹特征表示对应目标曾经出现但在对应帧暂时离开,所述检测轨迹特征表示对应目标到对应帧为止还未出现;

34、所述时空融合特征中包含若干可以互相转化的存活时空融合特征、休克时空融合特征和检测时空融合特征,所述存活时空融合特征、休克时空融合特征和检测时空融合特征分别与所述存活轨迹特征、休克轨迹特征和检测轨迹特征对应。

35、进一步的,所述融合特征解析模块至少包括目标检测得分预测分支、跟踪轨迹存活系数预测分支和边框预测分支;

36、所述边框预测分支用于回归预测得到跟踪框的中心点坐标及跟踪框宽高,其中和分别表示所述跟踪框的中心点坐标的横坐标和纵坐标,和分别表示所述跟踪框的宽和高;

37、所述目标检测得分预测分支用于输出当前所述跟踪框内存在目标对象的置信度,所述跟踪轨迹存活系数预测分支用于预测所述轨迹特征为存活轨迹特征的轨迹存活概率;

38、所述融合特征解析模块根据所述时空融合特征生成对应的特征解析,具体包括:

39、所述融合特征解析模块对所述时空融合特征进行解析,解析为与所述识别跟踪队列中的轨迹特征对应的特征解析,所述特征解析表示为:。

40、通过所述特征解析,能够获取对应目标在当前帧的所述单帧图像的情况,具体包括:将所述识别跟踪队列中第i个轨迹特征对应的所述时空融合特征的目标对象存在置信度和轨迹存活概率相乘得到轨迹得分;

41、当为存活时空融合特征,如轨迹得分大于等于预设的跟踪阈值,的解析结果表示对应目标在当前帧的所述单帧图像的跟踪结果,如轨迹得分小于所述跟踪阈值,的解析结果表示对应目标在当前帧暂时离开;

42、当为休克时空融合特征,如轨迹得分大于等于所述跟踪阈值,的解析结果表示对应目标重新出现在当前帧的所述单帧图像中,如轨迹得分小于跟踪阈值,的解析结果表示对应目标仍然在画面外;

43、当为检测时空融合特征,如轨迹得分大于等于所述跟踪阈值,的解析结果表示对应目标为新出现的目标,如轨迹得分小于所述跟踪阈值,的解析结果表示对应目标为无效跟踪目标。

44、经过所述解码模块特征融合后的时空融合特征中包含了多目标跟踪所需要的时序特征和空间特征以及两者之间的关系,但是其中与人类能理解的输出结果相差甚远,因此通过融合特征解析模块对不能理解的时空融合特征进行解析,得到能够识别的特征解析。

45、进一步的,所述跟踪队列管理模块根据所述特征解析对对应的时空融合特征进行处理,得到当前帧的所述识别跟踪队列,具体包括:

46、所述跟踪队列管理模块根据所述时空融合特征对应的所述特征解析,对所述时空融合特征进行转化,所述转化包括:

47、当所述识别跟踪队列中第i个轨迹特征在所述时空融合特征中对应的特征为存活时空融合特征,如轨迹存活概率大于等于预设的跟踪阈值,则维持为存活时空融合特征,如轨迹存活概率小于所述跟踪阈值,将转换为休克时空融合特征;若为休克时空融合特征,如轨迹存活概率大于等于所述跟踪阈值,将转换为存活时空融合特征,如轨迹存活概率小于所述跟踪阈值,维持为休克时空融合特征;若为检测时空融合特征,如轨迹存活概率大于等于所述跟踪阈值,则表明将转换为存活时空融合特征,如轨迹存活概率小于所述跟踪阈值,维持为检测时空融合特征;

48、将所述存活时空融合特征与检测时空融合特征按顺序拼合成存活-检测特征队列,将所述休克时空融合特征与检测时空融合特征按顺序拼合成休克-检测轨迹队列;

49、将所述存活-检测轨迹队列和休克-检测轨迹队列分别输入两个自注意力模块进行处理,获得转换后的轨迹特征,根据转换后的所述轨迹特征获得当前帧的所述单帧图像的所述识别跟踪队列。

50、进一步的,所述自注意力模块至少包括多头自注意力层、第一线性连接层、第一残差归一层、第一前馈神经网络层和第二残差归一层;其中所述多头自注意力层包括并列设置的若干个自注意力头;

51、所述自注意力模块执行的操作具体包括:

52、将前一个所述自注意力模块输出的自注意力特征作为当前所述自注意力模块的头输入特征;如所述自注意力模块为第一个所述自注意力模块,则前一个所述自注意力模块输出的自注意力特征为该所述自注意力模块所对应的所述编码模块或所述解码模块的输入;

53、将所述头输入特征分别通过所述多头自注意力层的若干个自注意力头获取对应的自注意头特征;

54、将所有所述自注意力头获得的所述自注意头特征通过所述第一线性连接层进行拼接,并将拼接后的所有所述自注意头特征进行线性变换得到多头自注意输出特征;

55、将所述头输入特征与所述多头自注意输出特征输入所述第一残差归一层进行残差连接并归一化处理后,得到第一连接特征;

56、将所述第一连接特征输入所述第一前馈神经网络层,所述第一前馈神经网络层将所述第一连接特征中的每个元素进行非线性映射得到第一非线性特征;

57、将所述第一非线性特征与所述第一连接特征输入所述第二残差归一层进行残差连接并归一化处理后,得到所述自注意力特征作为所述自注意力模块的输出。

58、进一步的,所述互注意力模块至少包括多头互注意力层、第二线性连接层、第三残差归一层、第二前馈神经网络层和第四残差归一层;其中所述多头互注意力层包括并列设置的若干个互注意力头;

59、所述互注意力模块执行的操作具体包括:

60、将所述编码模块输出的所述空间特征和所述解码模块的6个所述自注意力模块输出的所述时序特征分别输入所述多头互注意力层的若干个互注意力头,通过每个互注意力头的互注意力机制获取对应的互注意头特征,表现为:

61、

62、式中,表示由第i个所述互注意力头获得的所述互注意头特征,分别为:

63、

64、

65、

66、式中,所述解码模块中的第一个所述互注意力模块的表示所述解码模块的6个所述自注意力模块输出的所述时序特征,其他所述互注意力模块的表示当前所述互注意力模块的前一个所述互注意力模块输出的互注意力特征;均表示所述编码模块输出的所述空间特征;分别为互注意力机制中的三个独立的可学习权重矩阵;为中每个查询条件的维度;

67、将所有所述互注意力头获得的所述互注意头特征通过所述第二线性连接层进行拼接,并将拼接后的所有所述互注意力头进行线性变换得到多头互注意输出特征;

68、将所述和所述多头互注意输出特征输入所述第三残差归一层进行残差连接并归一化处理后,得到第二连接特征;

69、将所述第二连接特征输入所述第二前馈神经网络层,所述第二前馈神经网络层将所述第二连接特征中的每个元素进行非线性映射得到第二非线性特征;

70、将所述第二非线性特征与所述第二连接特征输入第四残差归一层进行残差连接并归一化处理后,得到所述互注意力特征作为所述互注意力模块的输出。

71、与现有技术相比,本发明的有益效果为:

72、1.本发明通过transformer模型来构建多目标跟踪网络模型,利用transformer模型能够进行端到端学习的特性,能够直接从原始数据中学习目标,能够不需要依赖目标检测器,进而提升模型的计算效率以加强跟踪的实时性,同时能够使本发明的所述过目标跟踪网络模型能够适用于更多的场景和目标;

73、2.本发明利用transformer模型能够更好的处理序列数据中上下文信息的优点,通过编码模块的6个自注意力模块来对图像中的图像语义特征进行处理获取空间特征,并通过解码模块的6个自注意力模块来对跟踪队列中进行处理获取时序特征,再通过解密模块的6个互注意力模块来将空间特征和时序特征进行特征融合,将更好的获取多人场景下的空间信息和时间信息,以及空间和时间之间的关系信息,进而能够在拥挤场景中能够进行有效的跟踪;

74、3.本发明针对跟踪队列中的存活轨迹特征、休克轨迹特征和检测轨迹特征之间进行建模学习,不仅能够有效的降低多人场景下的身份交换的问题,还提升了短期离开的目标或被暂时遮挡的目标的持续跟踪,有效的降低了目标丢失概率。


技术特征:

1.一种多目标跟踪方法,其特征在于,所述方法包括:

2.根据权利要求1所述的一种多目标跟踪方法,其特征在于,所述多目标跟踪网络模型逐帧对所述视频进行识别,获取每段所述视频的每一帧的识别跟踪队列,具体包括:

3.根据权利要求2所述的一种多目标跟踪方法,其特征在于,所述多目标跟踪网络模型包括输入模块,编码模块、解码模块、融合特征解析模块和跟踪队列管理模块;

4.根据权利要求3所述的一种多目标跟踪方法,其特征在于,所述对所述单帧图像进行编码处理,得到图像语义特征,具体包括:

5.根据权利要求4所述的一种多目标跟踪方法,其特征在与,

6.根据权利要求5所述的一种多目标跟踪方法,其特征在于,所述识别跟踪队列和标准跟踪队列中均包含若干轨迹特征,所述轨迹特征分为互相转化的存活轨迹特征、休克轨迹特征和检测轨迹特征,所述存活轨迹特征表示对应帧正在跟踪对应目标,所述休克轨迹特征表示对应目标曾经出现但在对应帧暂时离开,所述检测轨迹特征表示对应目标到对应帧为止还未出现;

7.根据权利要求6所述的一种多目标跟踪方法,其特征在与,所述融合特征解析模块至少包括目标检测得分预测分支、跟踪轨迹存活系数预测分支和边框预测分支;

8.根据权利要求7所述的一种多目标跟踪方法,其特征在于,所述跟踪队列管理模块根据所述特征解析对对应的时空融合特征进行处理,得到当前帧的所述识别跟踪队列,具体包括:

9.根据权利要求5-8任一项所述的一种多目标跟踪方法,其特征在于,

10.根据权利要求5-8任一项所述的一种多目标跟踪方法,其特征在于,所述互注意力模块至少包括多头互注意力层、第二线性连接层、第三残差归一层、第二前馈神经网络层和第四残差归一层;其中所述多头互注意力层包括并列设置的若干个互注意力头;


技术总结
本发明提供一种多目标跟踪方法,本方法包括采集若干包含有多人并进行运动的视频,并构建多目标跟踪训练集;获取每段视频中每一帧的关于人的标准跟踪队列并对应构建每段所述视频的标准跟踪队列集;通过基于Transformer模型构建多目标跟踪网络模型并获取每段所述视频的识别跟踪队列集,通过计算识别跟踪队列和标准跟踪队列的损失并更新得到训练好的所述多目标跟踪网络模型,通过所述训练好的所述多目标跟踪网络模型实现多目标的实时跟踪。与现有技术相比,本发明利用Transformer模型可以进行端到端的学习,且能够直接从原始数据中学习目标的运动模式,无需依赖目标检测器,使训练的模型能够有更高的计算效率,进而提高模型对多目标跟踪的实时性。

技术研发人员:李观喜,徐贤威,王刚,梁倬华
受保护的技术使用者:广州紫为云科技有限公司
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1826187.html

最新回复(0)