一种基于数据增强和ECA-Net的手写体蒙古文识别方法与流程

专利2022-05-09  6


本发明属于文字识别技术领域,特别涉及一种基于数据增强和eca-net的手写体蒙古文识别方法。



背景技术:

随着互联网与人工智能的快速发展,教育信息化已经开始影响并改变传统教育方式,在线解答等人机交互的场景越来越普遍,手写识别问题成为了计算机视觉领域的一个研究方向。对于人类来说识别手写文字是一件很简单的事,但这对于计算机而言非常复杂。近年来,深度卷积神经网络的发展给计算机视觉领域带来了革命性的变化,卷积神经网络和循环神经网络的结合在基于图像的序列识别问题中取得了巨大的成功,推动了手写识别领域的进展。作为模式识别的一个重要研究领域,手写识别得到了学术界的广泛研究和关注。热门语言(如汉文、英文、日文)的手写识别研究已经从简单的孤立词识别发展到文本行识别、无约束手写识别、文档识别和场景文字识别等领域。

而蒙古文等小众语言的手写识别起步较晚、相关研究较少,且蒙古文具有词汇量巨大、书写自由、字符变形严重等特点,这些都给蒙古文手写识别带来了巨大挑战。



技术实现要素:

为了克服上述现有技术的缺点,本发明的目的在于提供一种基于数据增强和eca-net的手写体蒙古文识别方法,采用随机擦除和/或弹性形变的方法对手写体蒙古文数据库进行数据增强,在此过程中,生成了不同遮挡程度的训练图像,可以进一步提高神经网络的泛化能力,降低了过拟合的风险,使模型对遮挡(擦除)具有鲁棒性,解决可直接使用的蒙古文手写体识别数据库规模小的问题,并以eca-net提取输入图像特征得到特征图,最终向量化特征图,利用增强数据库识别手写体蒙古文。

为了实现上述目的,本发明采用的技术方案是:

一种基于数据增强和eca-net的手写体蒙古文识别方法,包括如下步骤:

第一步:利用弹性形变数据增强和/或随机擦除数据增强对现有的蒙古文手写体识别数据库进行数据增强,得到增强数据库;

第二步:获取手写体蒙古文的图片作为输入图像,使用深度卷积神经网络对输入图像进行特征提取得到特征图,所述深度卷积神经网络为包含高效通道注意模块的残差网络,即eca-net;

第三步:对特征图进行向量化,进而利用增强数据库识别手写体蒙古文。

所述弹性形变数据增强是对一个手写体蒙古文字的图像进行弹性形变的空间数据增强,每增强一次,产生一个增强的手写体蒙古文字图像,即产生一个进行了弹性形变的手写体蒙古文字,对该增强的蒙古文字图像使用原文字图像对应的蒙文作为其数据标签。

所述弹性形变数据增强是平均地将图像分成n个小块,并沿着图像的顶部和底部边界初始化2(n 1)个基准点p,以基准点p为圆心设置半径为r的圆形变换区域,通过基于移动最小二乘的相似变换,将基准点p随机移动到半径r内的q来增强图像,其中对图像中的任意一点u,其变换遵循如下表达式:

t(u)=(u-p*)m q*

m是一个线性变换矩阵,对于某个标量λ,它被约束为具有mtm=λ2i的性质;

p*和q*分别是基准点p和基准点q的加权质心:

pi表示第i个初始化基准点,qi代表第i个移动基准点,即pi随机移动后的基准点;wi表示图像中任意一点u的权重,公式如下:

α设置为固定值1,当u接近pi时,权重会增加,即意味着u主要取决于最近基准点的运动。

所述随机擦除数据增强是对一个手写体蒙古文字的图像进行随机擦除的数据增强,每增强一次,产生一个增强的手写体蒙古文字图像,即产生了一个进行了随机擦除的手写体蒙古文字,对该增强的蒙古文字图像使用原文字图像对应的蒙文作为其数据标签。

所述随机擦除数据增强是随机选择图像i中的一个矩形区域ie,并用随机值擦除其像素,生成不同遮挡程度的训练图像,步骤如下:

步骤1:输入大小为s的图像i,s=w*h,w和h分别为图像i的宽度和高度,设置擦除面积比范围[sl,sh]和擦除纵横比范围[r1,r2],初始化擦除概率p为0~1;

步骤2:随机选择图像i中的矩形区域ie,并用随机值擦除其像素,其中将矩形区域ie的面积随机初始化为se,将擦除纵横比随机初始化为re,在[sl,sh]范围内,re在[r1,r2]范围内,ie的面积大小通过如下公式进行计算:

we与he是随机擦除的矩形区域ie的长与宽;

步骤3:随机初始化图像i中的一个点p=(xe,ye),xe与ye是随机初始化的点坐标;

步骤4:对擦除部分进行判断,如果xe we≤w,ye he≤h,则将区域(xe,ye,xe we,ye he)设置为选中的矩形区域ie;否则,重复上述过程,直到选择满足要求的矩形区域ie,对于选定的矩形区域ie,其中的每个像素分别被分配给[0,255]中的随机值。

所述高效通道注意模块执行卷积核大小为k的快速1d卷积,从而生成输入图像的各信道权重,卷积核大小k也即局部跨信道交互时信道的覆盖量,是决定通道yi权重的k个相邻信道,即该通道周围的多少个邻居参加了这个信道的注意力预测;在不降低维数的通道级全局池化后,通过考虑输入图像的每个通道及其k个邻居来捕获局部跨通道交互信息,参数矩阵wk表示学习到的通道注意力权重,wk的表达式如下:

wk涉及k*c个参数,c代表输入图像特征矩阵的大小,也即通道维数,图像通道yi的权重仅需考虑yi及其k个相邻信道的信息交互,其权重计算公式如下所示:

其中,表示yi的第j个相邻信道,表示的权重,表示yi的k个相邻信道的集合,k的取值与c成正比,关系如下所示:

c=φ(k)=2(γ k-b)

给定c,k由如下公式自适应地进行调整:

式中,计算式|x|odd表示x的最近奇数,γ和b设置为固定常数,通过映射ψ,以及使用非线性映射,高维通道具有更长范围的相互作用,而低维通道经历更短范围的相互作用。

使用eca-net实现对输入图像的特征提取,可以有效避免降维,同时捕获跨通道交互的信息。有助于文字识别获得更高的精度并减少模型复杂度。即可以以更有效的方式学习通道注意力。

所述第三步中,将门控循环单元与聚合交叉熵损失函数结合,实现特征图的向量化,所述门控循环单元的编码处理过程如下:

步骤1:通过上一个节点传递下来的隐状态h<t-1>和当前节点的输入x获取重置门和更新门两个门控状态,并将获得的信息通过sigmoid函数实现归一化,使其充当门控信号;

步骤2:在进行第j个隐藏单元的激活运算时,重置门的运算如下:

rj=σ([wrx]j [urh<t-1>]j)

其中σ是逻辑sigmoid函数,[]j表示向量的第j个元素,即第j个隐藏单元,wr和ur是重置门中学习到的权重矩阵;

步骤3:更新门的计算方法如下所示:

zj=σ([wzx]j [uzh<t-1>]j)

wz和uz是更新门中学习到的权重矩阵;

步骤4:第j个隐藏单元在当前时间片t的隐藏状态由下式计算:

其中,包含了当前节点的输入,同时有针对性地将上一时间片第j个隐藏单元的隐藏状态添加到当前的隐藏状态中,计算公式如下:

w代表当前输入的权重,u代表上一时间片第j个隐藏单元的隐藏状态的权重。

在gru中,当更新门接近0时,隐藏状态被迫忽略先前的隐藏状态,并用仅使用当前输入进行更新。这有效地允许隐藏状态在将来丢弃任何被发现不相关的信息,从而允许更紧凑的表示。

所述第三步中,将门控循环单元与聚合交叉熵损失函数结合,实现特征图的向量化,所述门控循环单元的解码处理过程如下:

步骤1:首先,解码器的作用是将特征向量c,前一个时间片的输出y<t-1>,以及前一个隐层节点h<t-1>作为输入,得到h<t>,计算公式如下:

h<t>=f(h<t-1>,y<t-1>,c)

f代表给定的激活函数,必须产生有效概率,例如softmax。

步骤2:解码器在时间t的输出y<t>由一个关于c,y<t-1>以及h<t>的条件分布来决定,如下所示:

p(yt∣yt-1,yt-2,…,y1,c)=g(h<t>,yt-1,c)

g代表给定的激活函数,必须产生有效概率,例如softmax。

所述聚合交叉熵损失函数包括如下阶段:

(1)沿时间维度聚合每个标签类别的概率;

将网络预测的各类别字符数量当作一个概率分布如下:

yk指预测结果中第k类字符的数量,t指所有的字符数量;

将实际标签的各类别字符数量当作另一个概率分布如下:

nk指实际标签中第k类字符的数量;

(2)结合标签标注,将聚合结果标准化为所有类别的概率分布;

(3)使用交叉熵比较两个概率分布

使用聚合交叉熵函数表示预测结果分布和实际标签分布的相似程度,并将其作为蒙古文手写体识别模型的损失函数,如下:

聚合交叉熵损失函数是对ctc的优化,实现更加简单且能够很好的适用于2d预测。它可以2d预测展平为1d预测并作为输入直接应用于2d预测。

假设输出的2维预测图高度h,宽度w(经过cnn,不等于原图大小),第h行第w列的预测输出表示为对于网络预测的各类别字符数量的概率分布如下:

损失函数表达如下:

如上述公式所示,利用ace损失函数可以将原始的2维预测拉直为1维预测结果计算损失。

与现有技术相比,本发明的有益效果是:

(1)本发明可根据已有的蒙古文手写体数据库,利用弹性形变数据增强以及随机擦除数据增强,获得形式更加丰富的蒙古文手写体识别数据库,同时有助于提高模型对于遮挡的鲁棒性。

(2)特征提取网络选择使用eca-net,通过使用高效注意力机制模块,避免降维,同时有效捕获跨通道交互信息。

(3)训练最终的蒙古文手写体识别系统时,选择使用ace损失函数结合gru,可以更快地推断和反向传播,并且,通过将2d预测平坦化为1d预测,ace损失函数可以适应2d预测问题。

附图说明

图1是本发明基于数据增强与eca-net的蒙古文手写体识别方法的结构图。

图2是eca-net结构示意图。

图3是长短时记忆网络(lstm)结构示意图。

图4是门控循环单元(gru)结构示意图。

图5是聚合交叉熵(ace)损失函数实现的结构示意图。

图6是本发明手写体蒙古文部分测试集图像

图7是本发明手写体蒙古文识别模型部分测试结果

具体实施方式

下面结合附图和实施例详细说明本发明的实施方式。

如图1所示,本发明为一种基于数据增强和eca-net的手写体蒙古文识别方法,包括如下步骤:

第一步:从空间变换和/或添加噪点的角度实现对有限数据的增强,即利用弹性形变数据增强和/或随机擦除数据增强对现有的蒙古文手写体识别数据库进行数据增强,得到增强数据库,获得形式更加丰富的蒙古文手写体识别数据,为提高模型的识别能力和对遮挡的鲁棒性提供数据基础。

1、弹性形变数据增强

弹性形变数据增强是从图像的空间变换入手,对现有数据进行增强,其原理将弹性形变产生的文本图像采用基于移动最小二乘法的相似变形作为变换策略,即进行了相似变换,目的是增加文本字符串中每个字符的多样性。具体地,对一个手写体蒙古文字的图像进行弹性形变的空间数据增强,每增强一次,产生一个增强的手写体蒙古文字图像,即产生一个进行了弹性形变的手写体蒙古文字,对该增强的蒙古文字图像使用原文字图像对应的蒙文作为其数据标签。

弹性形变数据增强需要更多的定制基准点进行弹性形变,其具体实现过程如下:

平均地将图像分成n个小块,并沿着图像的顶部和底部边界初始化2(n 1)个基准点p,以基准点p为圆心设置半径为r的圆形变换区域,通过基于移动最小二乘的相似变换,将基准点p随机移动到半径r内的q来增强图像,其中对图像中的任意一点u,其变换遵循如下表达式:

t(u)=(u-p*)m q*

m是一个线性变换矩阵,对于某个标量λ,它被约束为具有mtm=λ2i的性质;

p*和q*分别是基准点p和基准点q的加权质心:

pi表示第i个初始化基准点,qi代表第i个移动基准点,即pi随机移动后的基准点;wi表示图像中任意一点u的权重,公式如下:

α设置为固定值1,当u接近pi时,权重会增加,即意味着u主要取决于最近基准点的运动。

2、随机擦除数据增强

随机擦除数据增强是从添加噪点入手,对现有数据进行增强,使模型对遮挡(擦除)具有鲁棒性,降低过拟合风险,其原理是在训练中随机擦除随机选择图像中的一个矩形区域,并用随机值擦除其像素,生成不同遮挡程度的训练图像。其是对一个手写体蒙古文字的图像进行随机擦除的数据增强,每增强一次,产生一个增强的手写体蒙古文字图像,即产生了一个进行了随机擦除的手写体蒙古文字,对该增强的蒙古文字图像使用原文字图像对应的蒙文作为其数据标签。

随机擦除数据增强的具体实现过程如下:

随机选择图像i中的一个矩形区域ie,并用随机值擦除其像素,生成不同遮挡程度的训练图像,步骤如下:

步骤1:输入大小为s的图像i,s=w*h,w和h分别为图像i的宽度和高度,设置擦除面积比范围[sl,sh]和擦除纵横比范围[r1,r2],初始化擦除概率p为0~1;

步骤2:随机选择图像i中的矩形区域ie,并用随机值擦除其像素,其中将矩形区域ie的面积随机初始化为se,将擦除纵横比随机初始化为re,在[sl,sh]范围内,re在[r1,r2]范围内,ie的面积大小通过如下公式进行计算:

ie=we*he

we与he是随机擦除的矩形区域ie的长与宽;

步骤3:随机初始化图像i中的一个点p=(xe,ye),xe与ye是随机初始化的点坐标;

步骤4:对擦除部分进行判断,如果xe we≤w,ye he≤h,则将区域(xe,ye,xe we,ye he)设置为选中的矩形区域ie;否则,重复上述过程,直到选择满足要求的矩形区域ie,对于选定的矩形区域ie,其中的每个像素分别被分配给[0,255]中的随机值。

对一个蒙古文手写体图像采用上述两种操作方式同时进行增强,可以产生形式更加丰富多样的蒙古文手写体图像。

第二步:获取手写体蒙古文的图片作为输入图像,使用深度卷积神经网络对输入图像进行特征提取得到特征图,该深度卷积神经网络为包含高效通道注意(efficientchannelattention,eca)模块的残差网络,即eca-net。在特征提取阶段,引入高效通道注意模块可避免降维,能够有效捕获跨通道交互的信息。有助于文字识别获得更高的精度,同时减少模型复杂度,即可以以更有效的方式学习有效的通道注意力。

具体地,参考图2,该高效通道注意模块执行卷积核大小为k的快速1d卷积,从而生成输入图像的各信道权重,卷积核大小k也即局部跨信道交互时信道的覆盖量,是决定通道yi权重的k个相邻信道,即该通道周围的多少个邻居参加了这个信道的注意力预测;在不降低维数的通道级全局池化后,高效通道注意模块通过考虑输入图像的每个通道及其k个邻居来捕获局部跨通道交互信息,参数矩阵wk表示学习到的通道注意力权重,wk的表达式如下:

wk涉及k*c个参数,c代表输入图像特征矩阵的大小,也即通道维数,为了避免不同通道的完全独立,图像通道yi的权重仅需考虑yi及其k个相邻信道的信息交互,其权重计算公式如下所示:

其中,表示yi的第j个相邻信道,表示的权重,表示yi的k个相邻信道的集合,k的取值与c成正比,关系如下所示:

c=φ(k)=2(γ k-b)

给定c,k由如下公式自适应地进行调整:

式中,计算式|x|odd表示x的最近奇数,γ和b设置为固定常数,通过映射ψ,以及使用非线性映射,高维通道具有更长范围的相互作用,而低维通道经历更短范围的相互作用。

使用eca-net实现对输入图像的特征提取,可以有效避免降维,同时捕获跨通道交互的信息。有助于文字识别获得更高的精度并减少模型复杂度。即可以以更有效的方式学习通道注意力。

第三步:对特征图进行向量化,进而利用增强数据库识别手写体蒙古文。

具体地,本发明将门控循环单元(gatedrecurrentunit,gru)与(aggregationcross-entropy,ace)损失函数结合,实现特征图的向量化,进而完成对手写体蒙古文的识别任务,即利用门控循环单元(gru)结合聚合交叉熵(ace)构建序列识别神经网络,完成特征序列化与序列识别。在进行文字识别过程中,使用gru更容易进行训练,能够很大程度上降低训练难度,提高训练效率;聚合交叉熵损失函数主要针对序列识别,是对ctc(connectionisttemporalclassification)及注意力机制的优化,聚合交叉熵损失函数不考虑序列中字符间的顺序,仅仅考虑一个字符串中某个类别的字符出现的次数,同时,通过将2d预测平坦化为1d预测,ace损失函数实现简单且能够很好地适用于2d预测问题。

参考图3和图4,较之于普通rnn,gru有独特的门控状态。更新门(z)的作用类似于lstm的遗忘和输入门。它决定要丢弃哪些信息和要添加哪些新信息。结合上述,这一步的操作就是忘记传递下来的h(t-1)中的某些维度信息,并加入当前节点输入的某些维度信息。

重置门(r)是另一个用来决定要忘记多少过去的信息的门,重置隐含状态并将其与当前时间片的输入相结合,并进行归一化处理。重置门有针对性地将当前输入添加到当前的隐藏状态,相当于“记忆了当前时刻的状态”。类似于lstm的选择记忆阶段。

1、门控循环单元的编码处理过程如下:

步骤1:通过上一个节点传递下来的隐状态h<t-1>和当前节点的输入x获取重置门和更新门两个门控状态,并将获得的信息通过sigmoid函数实现归一化,使其充当门控信号;

步骤2:在进行第j个隐藏单元的激活运算时,重置门的运算如下:

rj=σ([wrx]j [urh<t-1>]j)

其中σ是逻辑sigmoid函数,[]j表示向量的第j个元素,即第j个隐藏单元,wr和ur是重置门中学习到的权重矩阵;

步骤3:更新门的计算方法如下所示:

zj=σ([wzx]j [uzh<t-1>]j)

wz和uz是更新门中学习到的权重矩阵;

步骤4:第j个隐藏单元在当前时间片t的隐藏状态由下式计算:

其中,包含了当前节点的输入,同时有针对性地将上一时间片第j个隐藏单元的隐藏状态添加到当前的隐藏状态中,计算公式如下:

w代表当前输入的权重,u代表上一时间片第j个隐藏单元的隐藏状态的权重。在gru中,当更新门接近0时,隐藏状态被迫忽略先前的隐藏状态,并用仅使用当前输入进行更新。这有效地允许隐藏状态在将来丢弃任何被发现不相关的信息,从而允许更紧凑的表示。

门控循环单元的解码处理过程如下:

步骤1:首先,解码器的作用是将特征向量c,前一个时间片的输出y<t-1>,以及前一个隐层节点h<t-1>作为输入,得到h<t>,计算公式如下:

h<t〉=f(h<t-1>,y<t-1>,c)

f代表给定的激活函数,必须产生有效概率,例如softmax。

步骤2:解码器在时间t的输出y<t>由一个关于c,y<t-1>以及h<t>的条件分布来决定,选择条件概率最大的y<t>作为当前时间的输出,计算公式如下所示:

p(yt∣yt-1,yt-2,…,y1,c)=g(h<t>,yt-1,c)

g代表给定的激活函数,必须产生有效概率,例如softmax。

2、参考图5,聚合交叉熵损失函数包括如下阶段:

(1)沿时间维度聚合每个标签类别的概率

将网络预测的各类别字符数量当作一个概率分布如下:

yk指预测结果中第k类字符的数量,t指所有的字符数量;

将实际标签的各类别字符数量当作另一个概率分布如下:

nk指实际标签中第k类字符的数量;

(2)结合标签标注,将聚合结果标准化为所有类别的概率分布

(3)使用交叉熵比较两个概率分布

使用聚合交叉熵函数表示预测结果分布和实际标签分布的相似程度,并将其作为蒙古文手写体识别模型的损失函数,如下:

此外,聚合交叉熵损失函数可以2d预测展平为1d预测并作为输入直接应用于2d预测。

假设输出的2维预测图高度h,宽度w(经过cnn,不等于原图大小),第h行第w列的预测输出表示为对于网络预测的各类别字符数量的概率分布如下:

损失函数表达如下:

如上述公式所示,利用ace损失函数可以将原始的2维预测拉直为1维预测结果计算损失。

参考图6和图7,描述了一个具体的手写体蒙古文识别案例。

在手写体蒙古文识别模型搭建中,使用20万字的蒙古文手写体识别数据库。部分手写体蒙古文测试集图像如图6所示,实验结果如图7所示。实验结果中,第一列为蒙古文标签,第二列为模型识别输出,最右列为单字/词识别的准确率。可发现,实验识别准确率较高,模型训练效率有所提高。总体而言,识别效果较好。


技术特征:

1.一种基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,包括如下步骤:

第一步:利用弹性形变数据增强和/或随机擦除数据增强对现有的蒙古文手写体识别数据库进行数据增强,得到增强数据库;

第二步:获取手写体蒙古文的图片作为输入图像,使用深度卷积神经网络对输入图像进行特征提取得到特征图,所述深度卷积神经网络为包含高效通道注意模块的残差网络,即eca-net;

第三步:对特征图进行向量化,进而利用增强数据库识别手写体蒙古文。

2.根据权利要求1所述基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,所述弹性形变数据增强是对一个手写体蒙古文字的图像进行弹性形变的空间数据增强,每增强一次,产生一个增强的手写体蒙古文字图像,即产生一个进行了弹性形变的手写体蒙古文字,对该增强的蒙古文字图像使用原文字图像对应的蒙文作为其数据标签。

3.根据权利要求2所述基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,所述弹性形变数据增强是平均地将图像分成n个小块,并沿着图像的顶部和底部边界初始化2(n 1)个基准点p,以基准点p为圆心设置半径为r的圆形变换区域,通过基于移动最小二乘的相似变换,将基准点p随机移动到半径r内的q来增强图像,其中对图像中的任意一点u,其变换遵循如下表达式:

t(u)=(u-p*)m q*

m是一个线性变换矩阵,对于某个标量λ,它被约束为具有mtm=λ2i的性质;

p*和q*分别是基准点p和基准点q的加权质心:

pi表示第i个初始化基准点,qi代表第i个移动基准点,即pi随机移动后的基准点;wi表示图像中任意一点u的权重,公式如下:

α设置为固定值1,当u接近pi时,权重会增加,即意味着u主要取决于最近基准点的运动。

4.根据权利要求1所述基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,所述随机擦除数据增强是对一个手写体蒙古文字的图像进行随机擦除的数据增强,每增强一次,产生一个增强的手写体蒙古文字图像,即产生了一个进行了随机擦除的手写体蒙古文字,对该增强的蒙古文字图像使用原文字图像对应的蒙文作为其数据标签。

5.根据权利要求4所述基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,所述随机擦除数据增强是随机选择图像i中的一个矩形区域ie,并用随机值擦除其像素,生成不同遮挡程度的训练图像,步骤如下:

步骤1:输入大小为s的图像i,s=w*h,w和h分别为图像i的宽度和高度,设置擦除面积比范围[sl,sh]和擦除纵横比范围[r1,r2],初始化擦除概率p为0~1;

步骤2:随机选择图像i中的矩形区域ie,并用随机值擦除其像素,其中将矩形区域ie的面积随机初始化为se,将擦除纵横比随机初始化为re,在[sl,sh]范围内,re在[r1,r2]范围内,ie的面积大小通过如下公式进行计算:

ie=we*he

we与he是随机擦除的矩形区域ie的长与宽;

步骤3:随机初始化图像i中的一个点p=(xe,ye),xe与ye是随机初始化的点坐标;

步骤4:对擦除部分进行判断,如果xe we≤w,ye he≤h,则将区域(xe,ye,xe we,ye he)设置为选中的矩形区域ie;否则,重复上述过程,直到选择满足要求的矩形区域ie,对于选定的矩形区域ie,其中的每个像素分别被分配给[0,255]中的随机值。

6.根据权利要求1所述基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,所述高效通道注意模块执行卷积核大小为k的快速1d卷积,从而生成输入图像的各信道权重,卷积核大小k也即局部跨信道交互时信道的覆盖量,是决定通道yi权重的k个相邻信道,即该通道周围的多少个邻居参加了这个信道的注意力预测;在不降低维数的通道级全局池化后,通过考虑输入图像的每个通道及其k个邻居来捕获局部跨通道交互信息,参数矩阵wk表示学习到的通道注意力权重,wk的表达式如下:

wk涉及k*c个参数,c代表输入图像特征矩阵的大小,也即通道维数。

7.根据权利要求6所述基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,图像通道yi的权重仅需考虑yi及其k个相邻信道的信息交互,yi的权重计算公式如下所示:

其中,表示yi的第j个相邻信道,表示的权重,表示yi的k个相邻信道的集合,k的取值与c成正比,关系如下所示:

c=φ(k)=2(γ k-b)

给定c,k由如下公式自适应地进行调整:

式中,计算式|x|odd表示x的最近奇数,γ和b设置为固定常数,通过映射ψ,以及使用非线性映射,高维通道具有更长范围的相互作用,而低维通道经历更短范围的相互作用。

8.根据权利要求1所述基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,其特征在于,所述第三步中,将门控循环单元与聚合交叉熵损失函数结合,实现特征图的向量化。

9.根据权利要求8所述基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,所述门控循环单元的编码处理过程如下:

步骤1:通过上一个节点传递下来的隐状态h(t-1)和当前节点的输入x获取重置门和更新门两个门控状态,并将获得的信息通过sigmoid函数实现归一化,使其充当门控信号;

步骤2:在进行第j个隐藏单元的激活运算时,重置门的运算如下:

rj=σ([wrx]j [urh<t-1>]j)

其中σ是逻辑sigmoid函数,[]j表示向量的第j个元素,即第j个隐藏单元,wr和ur是重置门中学习到的权重矩阵;

步骤3:更新门的计算方法如下所示:

zj=σ([wzx]j [uzh<t-1>]j)

wz和uz是更新门中学习到的权重矩阵;

步骤4:第j个隐藏单元在当前时间片t的隐藏状态由下式计算:

其中,包含了当前节点的输入,同时有针对性地将上一时间片第j个隐藏单元的隐藏状态添加到当前的隐藏状态中,计算公式如下:

w代表当前输入的权重,u代表上一时间片第j个隐藏单元的隐藏状态的权重;

所述门控循环单元的解码处理过程如下:

步骤1:解码器将特征向量c,前一个时间片的输出y<t-1>,以及前一个隐层节点h<t-1>作为输入,得到h<t>,计算公式如下:

h<t>=f(h<t-1>,y<t-1>,c)

步骤2:解码器在时间t的输出y<t>由一个关于c,y<t-1>以及h<t>的条件分布来决定,如下所示:

p(yt∣yt-1,yt-2,…,y1,c)=g(h<t>,yt-1,c)

f和g均代表给定的激活函数。

10.根据权利要求8所述基于数据增强和eca-net的手写体蒙古文识别方法,其特征在于,所述聚合交叉熵损失函数包括如下阶段:

(1)沿时间维度聚合每个标签类别的概率;

将网络预测的各类别字符数量当作一个概率分布如下:

yk指预测结果中第k类字符的数量,t指所有的字符数量;

将实际标签的各类别字符数量当作另一个概率分布如下:

nk指实际标签中第k类字符的数量;

(2)结合标签标注,将聚合结果标准化为所有类别的概率分布;

(3)使用交叉熵比较两个概率分布

使用聚合交叉熵函数表示预测结果分布和实际标签分布的相似程度,并将其作为蒙古文手写体识别模型的损失函数,如下:

输出的2维预测图高度h,宽度w,第h行第w列的预测输出表示为对于网络预测的各类别字符数量的概率分布如下:

损失函数表达如下:

技术总结
一种基于数据增强和ECA‑Net的手写体蒙古文识别方法,利用弹性形变数据增强和/或随机擦除数据增强对现有的蒙古文手写体识别数据库进行数据增强,得到增强数据库;获取手写体蒙古文的图片作为输入图像,使用包含高效通道注意模块的残差网络对输入图像进行特征提取得到特征图;对特征图进行向量化,进而利用增强数据库识别手写体蒙古文。本发明利用弹性形变数据增强以及随机擦除数据增强,获得形式更加丰富的蒙古文手写体识别数据库,同时有助于提高模型对于遮挡的鲁棒性。通过使用高效通道注意模块,避免降维,同时有效捕获跨通道交互信息,最终识别系统训练使用ACE损失函数结合GRU,可以更快地推断和反向传播。

技术研发人员:仁庆道尔吉;麻泽蕊;尹玉娟;程坤;李媛;苏依拉;李雷孝
受保护的技术使用者:内蒙古工业大学
技术研发日:2021.03.23
技术公布日:2021.07.02

转载请注明原文地址:https://doc.8miu.com/read-350414.html

最新回复(0)