一种基于高动态多层语义编码的视频描述生成方法

专利2025-09-13  22


本发明属于深度学习(deep learning)、计算机视觉(computer vision)、视频描述生成(video captioning)领域,设计了一种高精度的基于高动态多层语义编码的视频描述生成(video captioning)方法。


背景技术:

1、近年来,在人工智能时代背景下,多模态场景解析领域已经取得了快速的发展,在人机交互、多源情报分析、医学分析、工业智能化等方面具有重要的应用价值,吸引了人们的广泛关注。视频描述生成任务作为多模态场景解析领域重要的研究课题,旨在为输入的视频生成与其内容相对应的自然语言描述。与静态的图像场景不同,视频往往时间跨度大、场景变换多,具有动态变化的特点,使得该任务不仅需要充分理解整段输入视频的视觉信息,还需要从整段视频中提取最具代表性的关键帧或者视频片段,进而实现视频内容的准确描述。

2、目前,实现对高动态变化视频的语义特征编码是实现精准视频描述生成的关键因素。一些主流方法通常基于在其他视觉任务(如:目标检测任务、视频分类任务等)预训练好的模型,进行固定视频特征的提取,进一步采用卷积神经网络(convolutional neuralnetwork,cnn)和循环神经网络(recurrent neural network,rnn)实现视觉特征的编码和解码,最终生成与视频内容相对应的语言描述。然而,这些方法依赖于复杂的预训练特征提取网络,使得网络整体灵活性差、特征提取耗时以及中间特征需要大量存储空间等挑战。更重要的是,视频内容通常具有高动态性,通常包含大量变化的场景,因此需要针对性的提取视频中的关键帧或片段,传统的特征编码容易忽略视频中关键帧所包含视觉信息的核心地位,并且存在预训练的特征提取器与下游视频描述生成任务不匹配的潜在风险,使得编码得到的视频语义特征表征力不足,导致了生成的描述细节性差、视频中部分内容缺失。


技术实现思路

1、本发明提出一种基于高动态多层语义编码的视频描述生成算法。现有视频描述生成技术利用在其他视觉任务上预训练的特征提取器去获取固定的视觉表征,通过整体视觉表征融合,进行描述生成。一方面视频内容通常具有高动态性,这可能导致受到非关键帧的影响,丢失关键帧所包含的重要视觉信息,另一方面固定的预训练特征提取器存在与描述生成任务不匹配的问题,使得了生成的描述存在细节性差、部分关键对象或内容缺失的问题。

2、本发明通过利用transformer结构强大的语义特征提取与编码能力,在视频帧级别上获得更丰富的视觉语义特征,并设计并行串行相结合的特征编码结构,挖掘帧内网格对象关系语义信息以及帧间动态变化语义信息。同时,设计多层特征注意力的编码结构,进行关键帧视觉特征的筛选与融合,降低无效帧对特征编码的干扰,进一步增强在高动态场景下的视频语义信息的编码能力,有效地提升视频描述生成的准确性。因而本发明技术方案为:一种基于高动态多层语义编码的视频描述生成方法,该方法包括:

3、步骤1:视频帧特征提取;

4、对于输入视频,按照帧/秒进行视频帧采样,获得k帧图像i,通过基于imagenet预训练的swin transformer作为主干网络提取每一帧图像的网格特征fb:

5、fb=swint(i)

6、其中,z为视频帧网格数,c为特征通道维度,swint(.)为swintransformer特征提取器;

7、步骤2:全局视觉信息提取及共享;

8、首先利用平均池化操作从视频帧级别视觉信息fb中捕获视频全局语义信息,将其作为共享视觉信息vg,然后,将其分别注入每一帧视觉特征中,从而获得具有共享全局语义信息的多帧网格特征vb;

9、vg=fc(avgpool(fb))

10、

11、vb=concat(vg,v′b)

12、其中,fc表示一个全连接层,能够将视觉特征映射到具有相同维度的特征嵌入空间中,avgpool(.)表示针对维度k的平均池化操作,concat(.)表示特征级联操作;

13、为了为网格化视觉帧特征提供视频帧在视频中的位置信息,从而有助于挖掘帧间时序性动态变化关系,进一步补充基于截断正态分布构建的位置信息vpos,获得初始化视频帧级别的视觉语义特征vf;

14、v′f=vb+vpos

15、vf=dropout(ln(relu(v′f)))

16、其中,relu(*)表示非线性激活函数,ln(*)表示层归一化操作,dropout(*)表示数据随机置零操作;

17、步骤3:构建并行多层帧内网格对象关系语义特征编码器

18、在特征编码阶段,为了挖掘视频帧内网格对象关系语义信息,设计并行帧内网格对象关系语义特征编码器。

19、具体地,利用具有多头的注意力模块mha(q,k,v)实现特征编码:

20、mha(q,k,v)=concat(h1,…,hn)w1

21、hi=attention(qw2,kw3,vw4)

22、

23、其中,w*表示可学习的权重矩阵,n表示多头注意力机制中头的个数,q,k,v分别表示查询向量、关键向量、数值向量,attention(.)表示注意力加权过程,softmax(.)表示概率分布计算过程,d表示关键向量维度;

24、为了充分建模同一帧视频内不同网格对象之间的相关性,最大限度提取视频帧中的有效信息,采用并行n层的帧内网格对象关系语义特征编码结构;对于第i层、第l个视频帧,网格对象关系语义特征编码如下:

25、

26、

27、

28、其中,表示第i层、第l个视频帧的网格对象语义特征,表示第i+1层、第l个视频帧的网格对象语义特征,relu(.)表示非线性激活函数,初始化第0层输入特征vf表示初始化视频帧对象语义特征;

29、基于最后一层帧网格对象关系语义特征编码输出结果,利用平均池化层得到每一帧的视觉语义特征vf;

30、

31、

32、其中,avgpool(.)表示平均池化层,表示第n层、第l个视频帧的网格语义特征;

33、通过网格对象关系语义编码,能够增强语义特征对帧内显著性对象的表征能力;

34、步骤4:构建串行多层帧间语义信息特征编码器;

35、此外,考虑到视频通常具备较长的时间跨度和多变的场景,展现出动态变化的特性,进一步构建了串行多层帧间语义信息特征编码以学习不同视频帧之间的直接关联。通过增强最具代表性的关键帧或视频片段所对应的语义特征响应,从而确保在视频特征编码时有效地表征视频内容的动态性和全面性,避免关键帧信息的丢失,并为后续的描述生成提供更加可靠的特征表达。

36、对于vf,采用串行m层的帧间语义信息特征编码结构,对于第i层,帧间语义信息特征编码如下:

37、

38、

39、

40、其中,表示视频语义特征,表示第i+1层编码后的视频语义特征;

41、步骤5:构建自然语言描述生成解码器;

42、在解码阶段,利用具有多头注意力机制的transformer结构进行单词预测,对于t时刻,为了充分考虑前t-1时刻已预测的单词语义信息对当前时刻单词预测的影响,进行前t-1时刻语言特征融合:

43、

44、其中,ht-1表示t-1时刻transformer的隐藏状态,h0:t-1表示前t-1时刻的隐藏层状态,表示t时刻文本语义特征;

45、同时,通过计算视频帧与上一时刻隐藏状态的相关性得分,进行视频帧特征筛选和特征融合,将融合后的视频帧特征作为视频语义特征编码结果进行描述生成;

46、

47、其中,表示t时刻视频语义特征,表示第m层编码后的视频语义特征;

48、然后,将融合后的视觉特征和语言特征送入到transformer结构中,进行跨模态时序性语义映射:

49、

50、

51、ht=ln(dropout(h′t-1w2)+ht-1)

52、最后,利用全连接层将transformer的隐藏状态ht映射到词向量空间中,实现单词wt的概率预测:

53、pt(wt)=softmax(fc(dropout(ht)))

54、基于单词wt的预测概率pt(wt),采用交叉熵损失约束训练阶段的单词生成:

55、

56、其中,t表示句子的最大单词数,pt(wt)表示当前t时刻预测单词的概率值;

57、步骤6:基于强化学习策略的网络优化;

58、基于步骤5训练得到的描述生成模型,进一步采用强化学习的训练策略,并利用cider得分构建奖励机制,约束字幕生成过程:

59、lossreward=-e1:t(score(w1:t))

60、其中,score(*)表示cider指标的分数,e1:t(.)表示预测每个单词得分的期望值,lossreward表示强化学习奖励机制。

61、本发明所提出的高动态多层语义编码的视频描述生成算法,通过设计并行串行相结合的视频特征编码结构,实现了帧内网格对象关系语义信息、帧间动态变化语义信息的有效提取。同时,通过堆叠多层注意力机制,进行多视频帧语义特征的筛选与融合,降低无效帧对特征编码的干扰,充分挖掘了高动态视频中关键帧或片段的语义信息,为生成自然语言描述提供具有强表征力的视频语义特征。相比现有视频描述算法,所述视频描述算法在不同视频场景上均表现优越,展示出了更高的视频描述生成能力。


技术特征:

1.一种基于高动态多层语义编码的视频描述生成方法,该方法包括:


技术总结
该发明公开了一种基于高动态多层语义编码的视频描述生成方法,视频描述生成领域。本发明通过利用transformer结构强大的语义特征提取与编码能力,在视频帧级别上获得更丰富的视觉语义特征,并设计并行串行相结合的特征编码结构,挖掘帧内网格对象关系语义信息以及帧间动态变化语义信息。同时,设计多层特征注意力的编码结构,进行关键帧视觉特征的筛选与融合,降低无效帧对特征编码的干扰,进一步增强在高动态场景下的视频语义信息的编码能力,有效地提升视频描述生成的准确性。

技术研发人员:王岚晓,邱荷茜,李宏亮,曾兵
受保护的技术使用者:电子科技大学
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1823867.html

最新回复(0)