基于多任务级联的猪脸面部表情识别框架的建立方法与流程

专利2022-05-09  11


本发明涉及计算机图像识别及人工智能技术领域,特别涉及一种基于多任务级联的猪脸面部表情识别框架的建立方法,用于视频中家畜面部表情识别的端到端模型框架。



背景技术:

动物情感研究是动物科学的重要研究目标之一,可以更好评估家畜福利,包括猪等家畜在饲喂过程中良好的情绪对于保证饲料消化率和利用率抵达最高,从而提高生长速度,提高出产效益具有重要作用,因此对于基于面部表情识别的情感研究具有重要意义。

动物面部表情识别面临挑战,首先对比人脸表情识别,动物面部表情变化较难察觉识别,原因在于动物表情变化主要依赖面颊两侧颧大肌,肌群结构简单变化幅度较低。其次已有的动物面部表情识别相关工作大多基于生理解剖学,付出成本较高且效率较低。最后动物面部生理体征采集较为困难,没有可用于监督半监督学习的规模化标准化数据集,并且当前仅有的极少量基于机器视觉的方法多是对静态影像中动物面部表情进行识别,没有针对视频帧中具有时序性表情进行分类识别的研究。静态影像中的面部表情仅是某一时间点上的表情特征记录,然而面部表情本身具有时空性,因此仅有的极少量基于静态影像面部表情识别方法在面部表情特征提取和表示过程中丢失了大量的由时间维度变化引起的时空逻辑性特征,违背面部表情呈现的内在规律性,因此急需一种用于视频中家畜面部表情识别的端到端模型框架。



技术实现要素:

本发明的目的在于提供一种基于多任务级联的猪脸面部表情识别框架的建立方法,解决了现有技术存在的上述问题。本发明基于多注意力机制级联长短时记忆网络模型对视频影像中猪脸面部表情进行分类识别。首先利用简化多任务级联卷积网络快速检测定位视频帧中猪脸,去除非猪脸区域对于识别性能的影响。将检测定位的猪脸面部序列特征图送入多注意力卷积机制模块,通过注意力关注各类表情变化引起的显著性区域,从而克服家猪面部表情肌群结构简单幅度变化小,致使面部表情较难察觉识别的问题。最后将提取到的全局特征图和注意力特征图通过合并数组操作融合为精细化特征以序列形式送入长短时记忆网络中,最终实现表情识别。

本发明的上述目的通过以下技术方案实现:

基于多任务级联的猪脸面部表情识别框架的建立方法,包括如下步骤:

s1、输入猪脸面部表情视频段,对输入视频段进行类别标注,分别为家猪愤怒、欢快、恐惧以及平和四类表情;

s2、级联框架模型第一阶段:将猪脸面部表情视频影像等间隔选取帧图像输入到简化多任务级联卷积神经网络中,用于检测定位猪脸;该简化多任务级联卷积神经网络分别由粗粒度和细粒度两步实现猪脸区域快速检测和定位;

s3、级联框架模型第二阶段:将提取到的猪脸面部序列帧图像输入到多注意力机制模块中,用于提取和构建猪脸面部表情变化的显著性区域特征图;首先使用一个浅层残差网络对猪脸面部提取全局卷积特征图;其次通过通道分组响应注意力机制,捕获并生成猪脸面部表情变化的显著性区域特征图;然后将注意力区域特征图与全局卷积特征图做合并数组操作生成融合注意力机制的猪脸面部特征图;

s4、级联框架模型第三阶段:将融合注意力机制的猪脸面部特征图,依序列顺序输入到长短时记忆网络,经过全连接层和softmax分类器对猪脸面部表情做识别分类。

步骤s2中简化多任务级联卷积神经网络的模型架构方法如下:

s21、粗粒度检测和定位:利用一个全卷积网络,即建议性网络获得猪脸面部窗口及其边界框回归向量,再根据估计的边界框回归向量对候选窗口进行校正;最后使用非极大值抑制合并高度重叠的候选窗口;

s22、细粒度检测和定位:由步骤s21获得的所有包含猪脸面部的候选对象传递给精细化网络,筛选去除错误候选窗口,使用边界框回归向量进行校准,并执行非极大值抑制,最终输出包含有猪脸的边界框坐标,实现猪脸检测和定位;

s23、损失优化函数:简化多任务级联卷积神经网络的损失函数分别由猪脸分类损失函数和面部区域边界框回归的欧氏距离回归损失函数构成,并通过联合优化损失函数实现网络学习;联合优化损失函数为:

其中lcd表示用于猪脸检测的简化多任务级联卷积神经网络的优化目标函数,n为训练集样本总数,i表示第i个样本,j表示任务类别,取值为det或box,det用于表示任务类别为猪脸判别,box用于表示任务类别为猪脸回归框检测,表示第i个样本在第j个任务中的损失函数,αj表示第j个任务对应损失函数所拥有的权重,为第i个样本在第j个任务中的标签,取值为0或1,粗粒度和细粒度任务对应权值分配比例分别为αdet=1和αbox=0.5,表示样本的真实标签,pi表示i样本网络输出是猪脸的概率,为网络预测的猪脸边界框坐标,为人工标注的真实边界框坐标,两者皆为四维向量r4,分别为回归框左上角的横纵坐标,以及回归框的宽和高。

步骤s3中提取和构建猪脸面部表情变化的显著性区域特征图的方法如下:

s31、将步骤s2提取到包含猪脸面部表情的视频帧序列提取的特征图输入浅层残差网络,用于生成具有时序性的全局特征图;

s32、将步骤s31得到的全局特征图依据通道响应模式进行分组:首先计算每个特征通道对于注意力区域贡献度,权重计算表达式为:dυ(x)=fυ(w*x),其中dυ(x)=[dυ(1),…,dυ(c)],为了生成n个注意力区域,定义一组全连接函数f(·)={f1(·),…fυ(·),…fn(·)},每个fυ(·)以卷积特征作为输入,分别对应第υ个注意力区域,接收c维特征通道的输入,并且生成c维权重向量dυ,用于指代每个特征通道对于注意力区域υ的贡献度,w*x表示输入样本x的卷积特征,w表示特征提取单元的参数集合,分别为w,h,c表示输入样本的宽、高和特征通道的数量,“*”表示特征提取单元的卷积、池化和激活操作;

s33、依据步骤s32计算的权重计算注意力区域特征图:首先基于学习到的权重向量dυ获取每个关注区域的注意力掩模矩阵mυ,其中,x表示输入样本,取sigmoid函数将其归一化为0-1,k和υ表示不同特征通道,即不同注意力区域索引值,(k≠υ)∈{1,2,…,n},[·]k表示卷积特征w*x的第k个特征通道权重向量dk与对应特征通道对应元素相乘;然后计算注意力区域特征图其中pυ(x)表示第υ个注意力区域的特征图,通过每个通道上的池化计算得出,运算标记为·表示第υ个注意力区域掩模矩阵与卷积特征图点乘再累加;

s34:构建特征通道分组聚类优化目标函数lcg,实现特征通道聚类从而获取注意力区域,lcg目的是判断高关注区域特征点与弱关注区域特征点之间的相关性,使得同一个注意力区域内坐标更聚集,用函数dis(·)表示,不同区域坐标尽量远,用函数div(·)表示,λ表示目标约束分配权重,优化目标函数如下:

minlcg(mυ)=dis(mυ) 2div(mυ)

其中(x,y)取自注意力区域坐标,mυ(x,y)对应关注区域的注意力掩模矩阵mυ(x)在(x,y)坐标处的响应值,tx和ty表示训练集对第υ个注意力区域峰值响应的坐标,用于表示(x,y)坐标位置能够最佳代表第υ个区域的响应值,tmrg代表预设定边界阈值为常量,用于防止极端值的出现,使得损失对噪声并不敏感,从而实现网络的稳健性。

步骤s4中对猪脸面部表情做识别分类的方法如下:

长短时记忆网络为猪脸面部表情做实时分类,将步骤s31获取的面部全局卷积特征图和步骤s33获取多注意力特征图通过合并数组融合输入到长短时记忆网络中,输出愤怒、欢快、恐惧以及平和等四类表情概率值,实现猪脸面部表情分类识别;级联猪脸面部表情识别框架模型的优化函数为,其中γ为平衡阶段目标函数的权值,lcd表示用于猪脸检测的简化多任务级联卷积神经网络的优化目标函数,αj表示简化多任务级联卷积神经网络中第j个任务对应损失函数所拥有的权重,j∈{det,box},det用于表示任务类别为猪脸判别,box用于表示任务类别为猪脸回归框检测,表示第i个样本在任务j中的损失值;lcg表示构建特征通道分组聚类优化目标函数,λ表示注意力区域中目标约束分配权重,mυ表示第υ个区域的注意力掩模矩阵。

本发明的有益效果在于:

1、本发明首次提出基于多注意力机制级联长短时记忆网络框架模型对视频影像中猪脸面部表情进行分类识别。区别于现有基于生理解剖学研究动物面部肌群变化用于识别家畜表情的方法,付出成本较高且效率较低。本发明也区别于现有基于单张静态影像识别的动物(家畜)表情识别方法,单张静态影像的机器视觉识别方法,在特征提取和表示过程丢失了表情变化过程中的时序信息。本发明提出的一种用于视频中家畜面部表情识别的端到端模型框架具有创新先进性。

2、本发明模型框架为多任务级联框架,结构设计具有创新性。级联任务第一阶段为简化多任务卷积网络,用于检测定位视频帧中猪脸,以去除非猪脸区域对于识别性能的影响。级联任务第二阶段为多注意力机制模块,通过特征通道分组,利用特征图不同通道关注的视觉信息不同,峰值响应区域也不同这一特点,利用弱监督聚类获取注意力区域,通过注意力关注各类表情变化引起的显著性区域。级联任务第三阶段为长短时记忆网络模型,将提取到的卷积特征和注意力特征图通过合并数组操作融合为精细化特征以序列形式送入长短时记忆网络中实现表情识别。

3、家畜情感研究是动物科学的重要研究目标之一,本发明通过识别表情变化从而了解家畜情绪,可以更好评估家畜福利,对于保证饲料消化率和利用率抵达最高,从而提高生长速度,提高出产效益具有重要作用。

附图说明

此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实例及其说明用于解释本发明,并不构成对本发明的不当限定。

图1为本发明的猪脸面部表情识别模型的建立流程框架图;

图2为本发明的猪脸面部表情识别模型的建立步骤图;

图3为本发明的多注意力卷积网络实现流程图。

具体实施方式

下面结合附图进一步说明本发明的详细内容及其具体实施方式。

参见图1至图3所示,本发明的基于多任务级联的猪脸面部表情识别框架的建立方法,包括以下步骤:

s1:输入猪脸面部表情视频段,选取在养猪场拍摄的包含正面猪脸的视频段,依据相关成果和人工经验对输入视频段进行类别标注,视频段数据集分为生猪愤怒、欢快、恐惧以及平和等四类表情,用于框架模型的训练、验证和测试;

s2:将猪脸面部表情视频影像等间隔选取帧图像输入到简化多任务级联卷积神经网络中,用于检测定位猪脸。该简化多任务级联卷积神经网络分别由粗粒度和细粒度两步实现猪脸区域快速检测和定位。具体执行步骤如下:

s21:粗粒度检测和定位,利用一个全卷积网络,即建议性网络获得猪脸面部窗口及其边界框回归向量,再根据估计的边界框回归向量对候选窗口进行校正。最后使用非极大值抑制合并高度重叠的候选窗口。

s22:细粒度检测和定位,由步骤s21获得的所有包含猪脸面部的候选对象传递给精细化网络,筛选去除错误候选窗口,使用边界框回归向量进行校准,并执行非极大值抑制,最终输出包含有猪脸的边界框坐标,实现猪脸检测和定位。

s23:损失优化函数,简化多任务级联卷积神经网络的损失函数分别由猪脸分类损失函数和面部区域边界框回归的欧氏距离回归损失函数构成,并通过联合优化损失函数实现网络学习。联合优化损失函数为:

其中lcd表示用于猪脸检测的简化多任务级联卷积神经网络的优化目标函数,n为训练集样本总数,i表示第i个样本,j表示任务类别,取值为det或box,det用于表示任务类别为猪脸判别,box用于表示任务类别为猪脸回归框检测,表示第i个样本在第j个任务中的损失函数,αj表示第j个任务对应损失函数所拥有的权重,为第i个样本在第j个任务中的标签,取值为0或1,粗粒度和细粒度任务对应权值分配比例分别为αdet=1和αbox=0.5,表示样本的真实标签,pi表示i样本网络输出是猪脸的概率,为网络预测的猪脸边界框坐标,为人工标注的真实边界框坐标,两者皆为四维向量r4,分别为回归框左上角的横纵坐标,以及回归框的宽和高。

s3:在步骤s2的基础上,将提取到的猪脸面部序列帧图像输入到多注意力机制模块中,用于提取和构建猪脸面部表情变化的显著性区域特征图。具体执行步骤如下:

s31:将步骤s2提取到包含猪脸面部表情的视频序列输入到深度为24层的残差网络中,该网络结构包含8组残差单元,每组残差单元前两层结构为bn-relu-conv(3×3),最后结构为bn-conv(3×3),步长为1,该网络每一阶段的实现还需要加入一个下采样结构,此时将步长改为2得到大小为28×28×512猪脸卷积特征图。

s32:将步骤s31得到的全局特征图依据通道响应模式进行分组:首先计算每个特征通道对于注意力区域贡献度,权重计算表达式为:dυ(x)=fυ(w*x),其中dυ(x)=[dυ(1),…,dυ(c)],为了生成n个注意力区域,定义一组全连接函数f(·)={f1(·),…fυ(·),…fn(·)},每个fυ(·)以卷积特征作为输入,分别对应第υ个注意力区域,接收c维特征通道的输入,并且生成c维权重向量dυ,用于指代每个特征通道对于注意力区域υ的贡献度,w*x表示输入样本x的卷积特征,w表示特征提取单元的参数集合,分别为w,h,c表示输入样本的宽、高和特征通道的数量,“*”表示特征提取单元的卷积、池化和激活操作;

s33、依据步骤s32计算的权重计算注意力区域特征图:首先基于学习到的权重向量dυ获取每个关注区域的注意力掩模矩阵mυ,其中,x表示输入样本,取sigmoid函数将其归一化为0-1,k和υ表示不同特征通道,即不同注意力区域索引值,(k≠υ)∈{1,2,…,n},[·]k表示卷积特征w*x的第k个特征通道权重向量dk与对应特征通道对应元素相乘;然后计算注意力区域特征图其中pυ(x)表示第υ个注意力区域的特征图,通过每个通道上的池化计算得出,运算标记为·表示第υ个注意力区域掩模矩阵与卷积特征图点乘再累加;

s34:构建特征通道分组聚类优化目标函数lcg,实现特征通道聚类从而获取注意力区域,lcg目的是判断高关注区域特征点与弱关注区域特征点之间的相关性,使得同一个注意力区域内坐标更聚集,用函数dis(·)表示,不同区域坐标尽量远,用函数div(·)表示,λ表示目标约束分配权重,优化目标函数如下:

minlcg(mυ)=dis(mυ) λdiv(mx)

其中(x,y)取自注意力区域坐标,mυ(x,y)对应关注区域的注意力掩模矩阵mυ(x)在(x,y)坐标处的响应值,tx和ty表示训练集对第υ个注意力区域峰值响应的坐标,用于表示(x,y)坐标位置能够最佳代表第υ个区域的响应值,tmrg代表预设定边界阈值为常量,用于防止极端值的出现,使得损失对噪声并不敏感,从而实现网络的稳健性。

s4:长短时记忆网络为猪脸面部表情做实时分类,将步骤s31获取的面部全局卷积特征图和步骤s33获取多注意力特征图通过合并数组融合输入到长短时记忆网络中,经过全连接层和softmax分类器对猪脸面部表情做识别分类,输出愤怒、欢快、恐惧以及平和等四类表情概率值,实现猪脸面部表情分类识别。级联猪脸面部表情识别框架模型的优化函数为,其中γ为平衡阶段目标函数的权值,lcd表示用于猪脸检测的简化多任务级联网络的优化目标函数,αj表示简化多任务卷积网络中第j个任务对应损失函数所拥有的权重,j∈{det,box},det用于表示任务类别为猪脸判别,box用于表示任务类别为猪脸回归框检测,表示第i个样本在任务j中的损失值;lcg表示用于约束通道分组聚类的优化目标函数,λ表示注意力区域中目标约束分配权重,mυ表示第υ个区域的注意力掩模矩阵。

s5:目标函数优化和参数更新,通过多次迭代在训练集及验证集中对本发明网络结构做模型的训练和验证。依据随机梯度下降方法we 1=we ve 1,更新网络参数,优化目标函数,其中上式中e表示迭代次数,v表示动量,η表示学习率,表示第e次迭代中de个批次通过训练产生的损失函数l相对于权重w的偏导。

所述的基于多注意力机制级联长短时记忆网络模型的猪脸面部表情识别模型不仅适用猪脸面部表情识别,也适用于对其他家畜视频影像中的表情进行识别。

实施例:

参见图1至图3所示,本发明的基于多注意力机制级联长短时记忆网络模型的猪脸面部表情识别框架模型,首先在共享猪脸面部表情数据集的基础上做数据扩充,具体方式为视频明暗度变化、小角度旋转、左右翻转等,数据集将表情分为四类,分别是愤怒、欢快、恐惧以及平和等四类表情。训练集与验证集的划分采用五折交叉验证的方式,利用训练集进行训练,计算训练的实际输出结果与标签值之间的误差,通过反向传播算法自上向下传递差值,并利用权值更新权值,训练完后,保存训练完成的神经网络模型,输入验证集调整参数对网络模型的训练情况做初步评价。具体包括以下步骤:

s1:输入猪脸面部表情视频段,选取在养猪场拍摄的包含正面猪脸的视频段,视频段数据集分为生猪愤怒、欢快、恐惧以及平和状态下的中性表情等四类。

s2:简化多任务级联卷积网络定位视频段中的猪脸并提取出将其归一化为224×224×3大小的包含猪脸正面的视频图像。

该网络首先将学习目标定义为猪脸/非猪脸的二分类问题,对每个样本xi使用交叉熵损失:

其中i表示第i个样本,det用于表示简化多任务级联卷积神经网络任务类别为猪脸判别。pi表示网络输出是猪脸的概率,表示人工标注的真实边界框标签。

其次计算网络生成的预测边界框与离它最近的实际边界框之间的偏移量,对每个样本xi通过欧几里得计算损失。

其中box用于表示简化多任务级联卷积神经网络任务类别为猪脸回归框检测,为网络预测的猪脸边界框坐标,为人工标注的真实边界框坐标,两者皆由四个值组成,分别为边界框左上角的横纵坐标,以及边界框的高和宽,因此表示一个四维向量。

简化多任务级联卷积神经网络在最后的损失函数前加了一个权重α,det和box两个任务权重不同,训练优化目标函数如下:

其中lcd表示用于猪脸检测的简化多任务级联卷积神经网络的优化目标函数,n为训练集样本总数,i表示第i个样本,j表示任务类别,取值为det或box,表示第i个样本在第j个任务中的损失函数,αj表示第j个任务对应损失函数所拥有的权重,为第i个样本在第j个任务中的标签,取值为0或1,粗粒度和细粒度任务对应权值分配比例分别为αdet=1和αbox=0.5,当时,样本被判定为非猪脸,当时,样本被判定为猪脸。

s3:构建基于猪脸面部表情的网络识别模型提取猪脸面部的全局特征及多注意力特征;

(1)首先使用一个24层的残差网络模型对猪脸面部提取全局卷积特征;

将s2提取到包含猪脸面部的大小为224×224×3的视频序列输入到深度为24层的残差网络中,该网络结构包含8组残差单元,每组残差单元前两层结构为bn-relu-conv(3×3),最后结构为bn-conv(3×3),步长为1,该网络每一阶段的实现还需要加入一个下采样结构,此时将步长改为2得到大小为28×28×512猪脸卷积特征图,该残差结构能够有效避免梯度消失等问题,针对于对象特征表达鲁棒性更高。对于残差网络结构示例性表达式为:

f=w2σ(w1x)

y=f(x,{wi}) x

其中表示σ表示relu函数,x和y是网络层的输入和输出向量,i为第i个样本,函数f(x,{wi})表示要学习的残差映射,根据公式可以发现该计算既没有引入额外的参数,也没有增加计算复杂性,x和f的尺寸必须相等,如尺寸不同时需要执行线性变换ws以匹配尺寸。

(2)其次引入多注意力机制,生成猪脸面部关键区域的注意力特征,如图3所示;

将视频段输入到残差网络模型中提取卷积特征图,再将第一个卷积层的特征通道展开发现每个特征通道都存在一个峰值相应区域,利用特征图不同通道关注的视觉信息不同,峰值响应区域也不同这一特点,通过堆叠的全连接层聚类响应区域相近的通道,全连接层的个数与细粒度特征个数相同,拟聚类生成n个注意力区域,定义一组全连接函数f(·)={f1(·),…fυ(·),…fn(·)},其中fυ(·)对应第υ个注意力区域,接收c维特征通道的输入,并且生成c维权重向量dυ,同类的通道相加,取sigmoid函数(归一化到0-1)得到相应概率值,由此得到识别过程所需的注意力区域。

将残差网络模型中第一个卷积层得到的特征通道展开利用n个堆叠的全连接层产生一个权重向量dυ,用于指代每个特征通道对于注意力区域υ的贡献度,dυ(x)=fυ(w*x)。

式中,x表示输入图像,w表示总体参数,其维度是w×h×c,其中w,h,c表示图像的宽度,高度和特征通道的数量,w*x表示提取的深度,*表示特征提取单元的卷积、池化和激活操作,dυ(x)=[dυ(1),…,dυ(c)],fυ(·)为对应第υ个注意力区域的全连接函数。

由学习到的权重向量聚类响应区域相近的通道,通过sigmoid函数归一化为0-1,得到相应的概率值,基于学习到的权重向量,获取每个关注区域的注意力掩模矩阵mυ(x),υ∈{1,2,…,n},公式如下。

其中,x表示输入样本,取sigmoid函数将其归一化为0-1,k和υ表示不同特征通道,即不同注意力区域索引值,(k≠υ)∈{1,2,…,n},[·]k表示卷积特征w*x的第k个特征通道权重向量dk与对应特征通道对应元素相乘。

(3)将全局特征与注意力区域特征通过空间池化运算得到猪脸面部多注意力特征图。

输入视频序列大小为28×28×512,注意力区域大小为28×28×1,最后将第υ个注意力区域掩模与卷积特征图做空间池化运算,得到大小为28×28×512的猪脸注意力图的多注意力特征pυ(x)。

其中pυ(x)表示第υ个注意力区域的特征图,通过每个通道上的池化计算得出,运算标记为·表示第υ个注意力区域掩模矩阵与卷积特征图点乘再累加;

s4:将提取到多注意力特征和卷积特征的序列图像合并数组融合输入到长短时记忆网络中,再经过全连接层和softmax分类器对猪脸面部表情做识别分类。

由于猪表情变化通常持续在3—4秒,帧速为25帧每秒,考虑表情变化为一个持续的动态变化,开头帧和结尾帧可提供的信息内容较为匮乏,所以本文在特征帧提取时采用“掐头去尾”,留用中间平均帧的方法,在视频中间段每隔5帧取一帧做平分采样,如果原视频段帧数小于平均长度则采取复制最后一帧的方法,使每个视频序列成为试验所需的平均长度16帧。本发明选取16帧作为输入帧,输入帧维度为28×28×512,经过网络内部输入门it、遗忘门ft、并由记忆单元ct不断更新特征信息的候选向量最终经过输出门ot得到样本的类别向量,长短时记忆网络的隐层单元设为单层128。

s5:定义网络模型损失函数,通过多次迭代在训练集及验证集中对本发明网络结构做模型的训练和验证。损失函数具体如下:

lcg(λ,mυ)=dis(mυ) λdiv(mυ)

其中γ为平衡阶段目标函数的权值,αj表示简化多任务级联卷积神经网络中第j个任务对应损失函数所拥有的权重,λ表示注意力区域中目标约束分配权重,表示第i个样本在任务j中的损失值,mυ表示第υ个区域的注意力掩模矩阵,lcd表示用于猪脸检测的简化多任务级联卷积神经网络的优化目标函数,lcg表示用于约束通道分组聚类的优化目标函数。n为训练集样本总数,为第i个样本在第j个任务中的标签,取值为0或1,j∈{det,box},det用于表示任务类别为猪脸判别,box用于表示任务类别为猪脸回归框检测,表示样本的真实标签,pi表示网络输出是猪脸的概率。为网络预测的猪脸边界框坐标,为人工标注的真实边界框坐标,两者皆为四维向量,分别为回归框左上角的横纵坐标,以及回归框的宽和高。lcg目的是判断高关注区域特征点与弱关注区域特征点之间的相关性,即同一个注意力区域内通道峰值响应区域相近的坐标更聚集,用函数dis(·)表示,不同注意力区域内通道峰值响应区域的坐标尽量远,用函数div(·)表示,(x,y)取自注意力区域坐标,mυ(x,y)对应关注区域的注意力掩模矩阵mυ(x)在(x,y)坐标处的响应值,tx和ty表示训练集对第υ个注意力区域峰值响应的坐标,k和υ表示不同注意力区域索引值,其中k,υ=1,2,…,n用于表示(x,y)坐标位置能够最佳代表第υ个区域的响应值,tmrg代表预设定边界阈值,为常量,用于防止极端值的出现,使得损失对噪声并不敏感,从而实现网络的稳健性。

本发明不仅适用猪脸面部表情识别,也适用于其他家畜面部视频中的四类简单表情识别,即愤怒、恐惧、欢快和平和。本发明的基于多注意力机制级联长短时记忆网络模型的猪脸面部表情识别模型框架,对视频帧图像中的家猪表情进行识别,区别于现有以生理解剖方法为主的家畜表情识别,也区别于识别静态影像中家畜表情识别方法。本发明首次提出将级联框架模型应用于对家猪时序面部表情影像进行分类识别。网络模型由三个级联结构构成,首先将猪脸面部表情视频帧图像等间隔选择输入到简化多任务级联卷积神经网络中,用于检测定位猪脸。其次将提取到的猪脸面部序列帧特征图输入到多注意力机制模块中,捕获表情变化引起的面部显著性区域,实现对面部细微变化的关注。然后将视频帧提取到的精细特征图和多注意力特征图通过合并数组操作融合后输入到长短时记忆网络中,实现表情分类识别。本发明提出的端到端级联框架,可以有效克服家猪面部表情肌群结构简单数量较少,表情持续时间较短,致使面部表情较难察觉识别的问题。本发明提出的模型框架用于家畜情感研究,是动物科学的重要研究目标之一,可以更好评估家畜福利,通过家畜表情识别可以更好实现情绪调控,从而提高饲料消化率和利用率,提高生长速度,提高出产效益。

以上所述仅为本发明的优选实例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡对本发明所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


技术特征:

1.一种基于多任务级联的猪脸面部表情识别框架的建立方法,其特征在于:包括如下步骤:

s1、输入猪脸面部表情视频段,对输入视频段进行类别标注,分别为家猪愤怒、欢快、恐惧以及平和四类表情;

s2、级联框架模型第一阶段:将猪脸面部表情视频影像等间隔选取帧图像输入到简化多任务级联卷积神经网络中,用于检测定位猪脸;该简化多任务级联卷积神经网络分别由粗粒度和细粒度两步实现猪脸区域快速检测和定位;

s3、级联框架模型第二阶段:将提取到的猪脸面部序列帧图像输入到多注意力机制模块中,用于提取和构建猪脸面部表情变化的显著性区域特征图;首先使用一个浅层残差网络对猪脸面部提取全局卷积特征图;其次通过通道分组响应注意力机制,捕获并生成猪脸面部表情变化的显著性区域特征图;然后将注意力区域特征图与全局卷积特征图做合并数组操作生成融合注意力机制的猪脸面部特征图;

s4、级联框架模型第三阶段:将融合注意力机制的猪脸面部特征图,依序列顺序输入到长短时记忆网络,经过全连接层和softmax分类器对猪脸面部表情做识别分类。

2.根据权利要求1所述的基于多任务级联的猪脸面部表情识别框架的建立方法,其特征在于:步骤s2中简化多任务级联卷积神经网络的模型架构方法如下:

s21、粗粒度检测和定位:利用一个全卷积网络,即建议性网络获得猪脸面部窗口及其边界框回归向量,再根据估计的边界框回归向量对候选窗口进行校正;最后使用非极大值抑制合并高度重叠的候选窗口;

s22、细粒度检测和定位:由步骤s21获得的所有包含猪脸面部的候选对象传递给精细化网络,筛选去除错误候选窗口,使用边界框回归向量进行校准,并执行非极大值抑制,最终输出包含有猪脸的边界框坐标,实现猪脸检测和定位;

s23、损失优化函数:简化多任务级联卷积神经网络的损失函数分别由猪脸分类损失函数和面部区域边界框回归的欧氏距离回归损失函数构成,并通过联合优化损失函数实现网络学习;联合优化损失函数为:

其中lcd表示用于猪脸检测的简化多任务级联卷积神经网络的优化目标函数,n为训练集样本总数,i表示第i个样本,j表示任务类别,取值为det或box,det用于表示任务类别为猪脸判别,box用于表示任务类别为猪脸回归框检测,表示第i个样本在第j个任务中的损失函数,αj表示第j个任务对应损失函数所拥有的权重,为第i个样本在第j个任务中的标签,取值为0或1,粗粒度和细粒度任务对应权值分配比例分别为αdet=1和αbox=0.5,表示样本的真实标签,pi表示i样本网络输出是猪脸的概率,为网络预测的猪脸边界框坐标,为人工标注的真实边界框坐标,两者皆为四维向量r4,分别为回归框左上角的横纵坐标,以及回归框的宽和高。

3.根据权利要求1所述的基于多任务级联的猪脸面部表情识别框架的建立方法,其特征在于:步骤s3中提取和构建猪脸面部表情变化的显著性区域特征图的方法如下:

s31、将步骤s2提取到包含猪脸面部表情的视频帧序列提取的特征图输入浅层残差网络,用于生成具有时序性的全局特征图;

s32、将步骤s31得到的全局特征图依据通道响应模式进行分组:首先计算每个特征通道对于注意力区域贡献度,权重计算表达式为:dυ(x)=fv(w*x),其中dv(x)=[dυ(1),…,dυ(c)],为了生成n个注意力区域,定义一组全连接函数f(·)={f1(·),…fυ(·),…fn(·)},每个fυ(·)以卷积特征作为输入,分别对应第υ个注意力区域,接收c维特征通道的输入,并且生成c维权重向量dυ,用于指代每个特征通道对于注意力区域υ的贡献度,w*x表示输入样本x的卷积特征,w表示特征提取单元的参数集合,分别为w,h,c表示输入样本的宽、高和特征通道的数量,“*”表示特征提取单元的卷积、池化和激活操作;

s33、依据步骤s32计算的权重计算注意力区域特征图:首先基于学习到的权重向量dυ获取每个关注区域的注意力掩模矩阵mυ,其中,x表示输入样本,取sigmoid函数将其归一化为0—1,k和υ表示不同特征通道,即不同注意力区域索引值,(k≠υ)∈{1,2,…,n},[·]k表示卷积特征w*x的第k个特征通道权重向量dk与对应特征通道对应元素相乘;然后计算注意力区域特征图其中pυ(x)表示第υ个注意力区域的特征图,通过每个通道上的池化计算得出,运算标记为·表示第υ个注意力区域掩模矩阵与卷积特征图点乘再累加;

s34:构建特征通道分组聚类优化目标函数lcg,实现特征通道聚类从而获取注意力区域,lcg目的是判断高关注区域特征点与弱关注区域特征点之间的相关性,使得同一个注意力区域内坐标更聚集,用函数dis(·)表示,不同区域坐标尽量远,用函数div(·)表示,λ表示目标约束分配权重,优化目标函数如下:

minlcg(mυ)=dis(mυ) λdiv(mυ)

其中(x,y)取自注意力区域坐标,mυ(x,y)对应关注区域的注意力掩模矩阵mυ(x)在(x,y)坐标处的响应值,tx和ty表示训练集对第υ个注意力区域峰值响应的坐标,用于表示(x,y)坐标位置能够最佳代表第υ个区域的响应值,tmrg代表预设定边界阈值为常量,用于防止极端值的出现,使得损失对噪声并不敏感,从而实现网络的稳健性。

4.根据权利要求1所述的基于多任务级联的猪脸面部表情识别框架的建立方法,其特征在于:步骤s4中对猪脸面部表情做识别分类的方法如下:

长短时记忆网络为猪脸面部表情做实时分类,将步骤s31获取的面部全局卷积特征图和步骤s33获取多注意力特征图通过合并数组融合输入到长短时记忆网络中,输出愤怒、欢快、恐惧以及平和四类表情概率值,实现猪脸面部表情分类识别;级联猪脸面部表情识别框架模型的优化函数为,其中γ为平衡阶段目标函数的权值,lcd表示用于猪脸检测的简化多任务级联卷积神经网络的优化目标函数,αj表示简化多任务级联卷积神经网络中第j个任务对应损失函数所拥有的权重,j∈{det,box},det用于表示任务类别为猪脸判别,box用于表示任务类别为猪脸回归框检测,表示第i个样本在任务j中的损失值;lcg表示构建特征通道分组聚类优化目标函数,λ表示注意力区域中目标约束分配权重,mυ表示第υ个区域的注意力掩模矩阵。

技术总结
本发明涉及一种基于多任务级联的猪脸面部表情识别框架的建立方法,属于计算机图像识别及人工智能技术领域。首次提出将级联框架模型应用于对家猪时序面部表情影像进行分类识别。网络模型由三个级1联结构构成,首先将猪脸面部表情视频帧图像等间隔选择输入到简化多任务级联卷积神经网络中。其次将提取到的猪脸面部序列帧特征图输入到多注意力机制模块中,捕获表情变化引起的面部显著性区域,实现对面部细微变化的关注。然后将视频帧提取到的精细特征图和多注意力特征图通过合并数组操作融合后输入到长短时记忆网络中,实现表情分类识别。通过家畜表情识别可以更好实现情绪调控,从而提高饲料消化率和利用率,提高生长速度,提高出产效益。

技术研发人员:温长吉;张笑然;吴建双;于合龙;石磊;郭宏亮;毕春光;李卓识;苏恒强;薛明轩;杨之音
受保护的技术使用者:吉林农业大学
技术研发日:2021.03.31
技术公布日:2021.07.02

转载请注明原文地址:https://doc.8miu.com/read-350262.html

最新回复(0)