一种基于元学习的少样本行为识别方法与流程

专利2022-05-09  65



1.本发明涉及视频行为识别技术领域,尤其涉及基于元学习的少样本行为识别方法。


背景技术:

2.行为识别技术是计算机视觉领域的研究重点之一,在城市交通管控,智慧安防等领域有着广泛应用。
3.随着网络技术的高速发展,智能摄像头的大规模安装,视频数据每天呈爆发式的增长。近十年深度学习的技术进展虽然大大提高了视频行为识别准确率,但是标注如此海量的视频数据,给人们带来了巨大的困难。不光如此,收集特定领域的视频,依然比较稀少,比如异常行为场景,工厂中的危险行为等。如何仅使用少量样本数据训练模型,并得到较高的准确率,是近几年研究人员关注的热点。
4.元学习技术旨在使计算机获得如人类一样的能力,可以从以前的任务中学习通用的经验知识,用于新任务中。元学习技术的训练集是由一个个任务组成,旨在学习通用知识,研究人员常使用元学习技术解决少样本学习问题。视频行为识别相较于静态图像增加时间维度,在避免过拟合,即使用深层神经网络的情况下,如何提取有效特征,增强模型面对不同任务的泛化能力,是需要研究的重点问题。


技术实现要素:

5.为了克服上述问题,本发明提供一种使用浅层网络,可以根据不同视频行为识别任务使用不同参数提取视频特征,泛化能力较强的基于元学习的少样本行为识别方法。
6.本发明解决其技术问题所采用的技术方案是:
7.一种基于元学习的少样本行为识别方法,所述方法包括以下步骤:
8.1)将视频数据集分为元训练集和元测试集,从元训练集中抽取多组支持集和询问集用于训练模型,从元测试集中抽取多组支持集和询问集用于测试模型;
9.2)使用浅层三维卷积神经网络提取支持集和询问集的视频特征;
10.3)构建一种元学习网络,用于对支持集进行建模,生成步骤2)中浅层三维卷积神经网络参数;
11.4)对步骤2)提取到的视频特征进行二阶变换和归一化处理;
12.5)将处理后的支持集和询问集视频特征进行拼接,采用多层二维卷积神经网络提取询问集和支持集视频特征之间的非线性距离关系,对训练集视频进行分类。
13.进一步,所述步骤1)中,视频数据集的划分过程包括:将视频数据集划分为元训练集d
meta

train
和元测试集d
meta

test
,在训练过程中,每轮从d
meta

train
随机抽取n个不同的类,每类有k个不同样本组成支持集再从剩余d
meta

train
中随机抽取这n个类中的样本组成询问集在测试过程中,对d
meta

test
做同样的操作。
14.更进一步,所述步骤3)中,元学习网络生成步骤2)中浅层三维卷积网络参数的过程如下:将输入由三维卷积网络组成的任务编码器e,得到任务的概率分布,将任务表示成条件概率分布模型得到任务特征向量t,如式(1),(2):
[0015][0016][0017]
式中q是条件概率分布,是正态分布;
[0018]
然后使用单层全连接神经网络g生成步骤2)中三维卷积的网络参数θ,如式(3)所示:
[0019]
θ=g(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0020]
将式(3)中得到的网络参数作正则化处理,如式(4):
[0021][0022]
再进一步,所述步骤2)中浅层三维卷积网络f
θ
使用由步骤3)中元学习网络生成的参数θ,提取视频特征,视频特征表示计算为:
[0023]
w=f
θ
(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0024]
式中x是视频片段,并且x∈r
c
×
t
×
h
×
w
,w是视频特征,且w∈r
c'
×
t'
×
h'
×
w'

[0025]
再进一步,所述步骤4)中,对于步骤2)提取到的视频特征w处理的过程如下:首先将w∈r
c
’×
t
’×
h
’×
w’改变维度为w'∈r
c'
×
m
(m=t'
×
h'
×
w'),求二阶特征的公式如下:
[0026][0027]
式中ψ(
·
)为归一化函数,如下:
[0028][0029]
更进一步,所述步骤5)中,寻找支持集和询问集度量关系,对询问集进行分类的过程如下:将步骤4)提取到的支持集和询问集的视频特征进行拼接,表示为将拼接后的特征输入多层二维卷积网络,得到相似性r,如式(8)所示:
[0030][0031]
式中r
i,j
是一个0到1的数值,表示支持集视频x
i
和询问集视频x
j
的相似度;
[0032]
最后,使用均方差公式作为损失函数,如式(9):
[0033][0034]
本发明的技术构思为:为了解决当今社会海量视频难以标注且特殊场景的视频难以收集的问题。本发明使用元学习的训练方式,使用多任务训练。同时对于不同的任务采用自适应的模型参数,以更加有效的提取视频特征。对于提取到的视频特征采用二阶化和归一化预处理,最后将支持集和询问集的视频特征进行拼接,使用二维卷积网络获取非线性度量关系。
[0035]
本发明的有益效果为:具有较好的任务间泛化能力以及对新视频行为的识别准确率。
附图说明
[0036]
图1为本发明模型的总体框架图。
[0037]
图2为本发明中元学习网络的框架图。
[0038]
图3是基于元学习的少样本行为识别方法的流程图。
具体实施方式
[0039]
下面结合附图对本发明做进一步说明。
[0040]
参照图1和图2,一种基于元学习的少样本行为识别方法,包括以下步骤:
[0041]
1)将视频数据集分为元训练集和元测试集,从元训练集中抽取多组支持集和询问集用于训练模型,从元测试集中抽取多组支持集和询问集用于测试模型。
[0042]
将视频数据集划分为元训练集d
meta

train
和元测试集d
meta

test
,在训练过程中,每轮从d
meta

train
随机抽取n个不同的类,每类有k个不同样本组成支持集再从剩余d
meta

train
中随机抽取这n个类中的样本组成询问集在测试过程中,对d
meta

test
做同样的操作。
[0043]
2)使用浅层三维卷积神经网络提取支持集和询问集的视频特征;
[0044]
3)构建一种元学习网络,用于对支持集进行建模,生成步骤2)中浅层三维卷积神经网络参数;过程如下:将输入由卷积网络组成的任务编码器e,得到任务的概率分布,将任务表示成条件概率分布模型得到任务特征向量t,如式(1),(2):
[0045][0046][0047]
式中q是条件概率分布,是正态分布;
[0048]
然后使用单层全连接神经网络g中三维卷积的网络参数θ,如式(3)所示:
[0049]
θ=g(t)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0050]
将式(3)中得到的网络参数作正则化处理,如式(4):
[0051][0052]
所述步骤2)中浅层三维卷积网络f
θ
使用由步骤3)中元学习网络生成的参数θ,提取视频特征,视频特征表示计算为:
[0053]
w=f
θ
(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)
[0054]
式中x是视频片段,并且x∈r
c
×
t
×
h
×
w
,w是视频特征,且w∈r
c'
×
t'
×
h'
×
w'

[0055]
4)对步骤2)提取到的视频特征进行二阶变换和归一化处理;
[0056]
对于步骤2)提取到的视频特征w处理的过程如下:首先将w∈r
c
’×
t
’×
h
’×
w’改变维度为w'∈r
c
’×
m
(m=t'
×
h'
×
w'),求二阶特征的公式如下:
[0057][0058]
式中ψ(
·
)为归一化函数,具体如下:
[0059][0060]
5)将处理后的支持集和询问集视频特征进行拼接,采用多层二维卷积神经网络提取询问集和支持集视频特征之间的非线性距离关系,对训练集视频进行分类。
[0061]
将步骤3)提取到的支持集和询问集的视频特征进行拼接,表示为将拼接后的特征输入多层二维卷积网络,得到相似性r,如式(8)所示:
[0062][0063]
式中r
i,j
是一个0到1的数值,表示支持集视频x
i
和询问集视频x
j
的相似度;
[0064]
最后,使用均方差公式作为损失函数,如式(9):
[0065][0066]
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。

技术特征:
1.一种基于元学习的少样本行为识别方法,其特征在于,所述方法包括以下步骤:1)将视频数据集分为元训练集和元测试集,从元训练集中抽取多组支持集和询问集用于训练模型,从元测试集中抽取多组支持集和询问集用于测试模型;2)使用浅层三维卷积神经网络提取支持集和询问集的视频特征;3)构建一种元学习网络,用于对支持集进行建模,生成步骤2)中浅层三维卷积神经网络参数;4)对步骤2)提取到的视频特征进行二阶变换和归一化处理;5)将处理后的支持集和询问集视频特征进行拼接,采用多层二维卷积神经网络提取询问集和支持集视频特征之间的非线性距离关系,对训练集视频进行分类。2.如权利要求1所述的一种基于元学习的少样本行为识别方法,其特征在于:所述步骤1)中,视频数据集的划分过程包括:将视频数据集划分为元训练集d
meta

train
和元测试集d
meta

test
,在训练过程中,每轮从d
meta

train
随机抽取n个不同的类,每类有k个不同样本组成支持集再从剩余d
meta

train
中随机抽取这n个类中的样本组成询问集在测试过程中,对d
meta

test
做同样的操作。3.如权利要求1或2所述的一种基于元学习的少样本行为识别方法,其特征在于:所述步骤3)中,元学习网络生成步骤2)中浅层三维卷积网络参数的过程如下:将输入由三维卷积网络组成的任务编码器e,得到任务的概率分布,将任务表示成条件概率分布模型得到任务特征向量t,如式(1),(2):将任务表示成条件概率分布模型得到任务特征向量t,如式(1),(2):式中q是条件概率分布,是正态分布;然后使用单层全连接神经网络g生成步骤2)中三维卷积的网络参数θ,如式(3)所示:θ=g(t)
ꢀꢀꢀꢀꢀꢀꢀꢀ
(3)将式(3)中得到的网络参数作正则化处理,如式(4):4.如权利要求1或2所述的一种基于元学习的少样本行为识别方法,其特征在于:所述步骤2)中浅层三维卷积网络f
θ
使用由步骤3)中元学习网络生成的参数θ,提取视频特征,视频特征表示计算为:w=f
θ
(x)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(5)式中x是视频片段,并且x∈r
c
×
t
×
h
×
w
,w是视频特征,且w∈r
c'
×
t'
×
h'
×
w'
。5.如权利要求1或2所述的一种基于元学习的少样本行为识别方法,其特征在于:所述步骤4)中,对于步骤2)提取到的视频特征w处理的过程如下:首先将w∈r
c
′×
t
′×
h
′×
w

改变维度为w'∈r
c'
×
m
(m=t'
×
h'
×
w'),求二阶特征的公式如下:
式中ψ(
·
)为归一化函数,如下:6.如权利要求5所述的一种基于元学习的少样本行为识别方法,其特征在于:所述步骤5)中,寻找支持集和询问集度量关系,对询问集进行分类的过程如下:将步骤4)提取到的支持集和询问集的视频特征进行拼接,表示为将拼接后的特征输入多层二维卷积网络,得到相似性r,如式(8)所示:式中r
i,j
是一个0到1的数值,表示支持集视频x
i
和询问集视频x
j
的相似度;最后,使用均方差公式作为损失函数,如式(9):
技术总结
一种基于元学习的少样本行为识别方法,包括以下步骤:1)视频数据集分为元训练集和元测试集,从元训练集中抽取多组支持集和询问集用于训练模型,从元测试集中抽取多组支持集和询问集用于测试模型;2)使用浅层三维卷积神经网络提取支持集和询问集的视频特征;3)构建一种元学习网络,用于对支持集进行建模,生成步骤2)中浅层三维卷积神经网络参数;4)对步骤2)提取到的视频特征进行二阶变换和归一化处理;5)将处理后的支持集和询问集视频特征进行拼接,采用多层二维卷积神经网络提取询问集和支持集视频特征之间的非线性距离关系,对训练集视频进行分类。本发明具有较好的任务间泛化能力以及对新视频行为的识别准确率。以及对新视频行为的识别准确率。以及对新视频行为的识别准确率。


技术研发人员:陈朋 宗鹏程 党源杰 俞天纬 王海霞
受保护的技术使用者:浙江工业大学
技术研发日:2021.03.25
技术公布日:2021/6/29

转载请注明原文地址:https://doc.8miu.com/read-13232.html

最新回复(0)