本发明涉及一种姿势估计方法,尤其涉及一种面向人机交互的姿势估计方法。
背景技术:
1、人体姿势估计是指从图片或者视频序列中标记出人体关节点的位置,并将人体关节点按照人体骨骼形态进行连接的过程。人体姿势估计在动作识别、人机交互、智能跟踪等领域有着广泛的应用,已成为计算机视觉领域的研究热点之一。人体姿态的多样性、环境的复杂性以及视角的不定性等因素,使人体姿态估计面临着巨大的挑战,受到众多学者的密切关注。
2、近年来,随着深度学习在图像分类、目标检测、语义分割等研究方向上的良好表现,利用深度学习技术进行人体的姿势估计也取得了快速发展。按照人体姿态维度的差异,可以将人体姿态估计任务分为2d(二维)人体姿态估计和3d(三维)人体姿态估计。2d人体姿态估计包括单人姿态估计和多人姿态估计,2d人体姿态估计的目标是定位并识别出人体关键点,将这些关键点按照关节顺序相连形成在图像二维平面的投影,从而得到人体骨架。3d人体姿态估计的主要任务是预测出人体关节点的三维坐标位置和角度等信息,由于3d姿态估计在2d姿态估计的基础上加入了深度信息,其对于人体姿态的表述比2d,更为精准,因此其应用范围和研究价值都要高于2d人体姿态估计,但是3d姿态估计的难度也更高,存在着遮挡,单视角2d到3d的映射中固有的深度模糊性、不确定性等问题。
3、为了解决上述问题,体感交互使用动作交互的方式来进行人机交互,在人机交互应用中首先使用深度传感器获取人体姿势以及骨骼关节点的信息,再根据这些信息进行动作识别,这样能够更好地提高3d姿态估计的深度确定性,但是由于增加了额外的设备,对应用场景有着更高的要求,极大地限制了体感交互应用的发展。
技术实现思路
1、本发明的目的就在于为了解决上述问题而提供一种仅使用一个普通摄像头就能完成体感交互的全过程的面向人机交互的姿势估计方法。
2、本发明通过以下技术方案来实现上述目的:
3、一种面向人机交互的姿势估计方法,其特征在于:包括以下步骤:
4、步骤1、利用深度传感器获取人体3d骨骼关节点,建立人机交互动作三维数据集;
5、步骤2、利用2d姿势估计算法从视频中获取人体2d骨骼可视化关节点图片以及关节点二维坐标,建立二维人体动作数据集,所述二维人体动作数据集的姿势动作与所述人机交互动作三维数据集中包含的动作一致;
6、步骤3、将对应的所述2d骨骼可视化关节点图片与所述3d骨骼关节点的数据一起送入神经网络进行训练,并加入通道注意力机制,为输入数据的不同通道之间的数据赋予权值,训练完成后得到训练后神经网络,通过该训练后神经网络能够使用2d姿势估计算法从视频中直接得到3d骨骼数据。
7、作为优选,所述步骤1包括以下步骤:
8、步骤1.1、利用深度传感器获取人体的m个3d骨骼关节点;
9、步骤1.2、选择n名拥有不同的身高、体型和性别的人作为受试者,在数据集中以p1-pn进行编号,针对每一名受试者,在开阔的场地中,使用一台深度传感器采集数据,在数据集中以c1进行编号,每个受试者会将每一个动作执行三遍,在数据集中以r1-r3编号;
10、步骤1.3、选取l个常用的具有较强分辨度的人机交互动作进行录制,在数据集中以a1-al编号;
11、步骤1.4、设置h组深度传感器的设备高度和距离的组合,在数据集中以s1-sh来编号;
12、步骤1.5、针对每一组数据,即由一个受试者在某一深度传感器的设备高度和距离的组合下完成一次一个动作所产生的所有数据,以详细的编号格式作为文件名,文件以txt文本文件形式存储,第一行存储该动作所有帧的个数,之后按照帧的顺序,以第一行为当前帧数,后面m行按照3d骨骼关节点的顺序排列,以此循环存储所有帧的信息,最终形成人机交互动作三维数据集。
13、作为优选,所述步骤1.1中,所述深度传感器为kinect,所述m为25;所述步骤1.2中,所述受试者的年龄在18-30岁之间,所述n为20,所述深度传感器为kinectv2;所述步骤1.3中,所述l为10,对应的人机交互动作为:平举双手、抬起左手、抬起右手、双手画叉、抬起左脚、抬起右脚、蹲下、挥拳、双手合十、挥手;所述步骤1.4中,所述h为6,所述深度传感器为kinect,其设备高度和距离的组合如下表1所示:
14、表1
15、
16、作为优选,所述步骤2的具体方法是:使用unity3d作为实验平台,加载2d姿势估计算法openpose的unity插件,按照步骤1的内容使用openpose取代深度传感器采集人体的m个2d骨骼可视化关节点图片以及关节点二维坐标,形成二维人体动作数据集,其中openpose获取到的坐标数据使用json格式存储,并使用jsonunity对其进行解析,转化为简单的文本格式。
17、作为优选,所述步骤3包括以下步骤:
18、步骤3.1、对步骤1得到的人机交互动作三维数据集和步骤2得到的二维人体动作数据集进行处理,从中选取出两者共有的x个关节点,这些关节点能够保证人体姿态的完整性;
19、步骤3.2、针对双分支孪生监督模型进行改进,提出基于通道注意力的双分支孪生网络,该网络中,其中一个分支的输入为真实的3d骨骼关节点坐标,另一个分支的输入为使用openpose检测出来的2d骨骼可视化关节点,并在训练过程中,导入同样由openpose采集的2d坐标进行监督训练以提高输出准确3d估计关节点的能力;在数据输入阶段,使用高效通道注意力通道注意力模块对输入的数据进行处理,赋予每个通道特征不同的重要性,同时在网络中加入batchnorm进行批处理,使用selu作为激活函数,dropout层防止数据过拟合,所述基于通道注意力的双分支孪生网络即为训练后神经网络,用下述公式(1)表示:
20、
21、其中,dmin表示x个关节点的真实坐标与估计坐标的平均最小距离,整个网络以优化该最小距离为目的,floss为网络的损失函数,通过训练不断优化该损失函数,pe和pt表示估计的关节点与真实的关节点,其中pe用下述公式(2)计算:
22、pe=fchange[ωp2d,p(c)] (2)
23、其中,fchange是一个转换函数,表示由2d关节点向3d关节点进行转换,p2d表示由openpose得到的2d关节点估计,p(c)={p1,…,pn}表示网络的可训练参数集合;
24、公式(1)和公式(2)中的ω表示高效通道注意力模块,该模块可由如下公式3得到:
25、ω=σ(c1dk(f)) (3)
26、其中,f表示通道特征,c1dk表示计算其相邻的k个通道的快速一维卷积计算权重,σ表示sigmoid激活函数。
27、所述步骤3.1中,所述x为17;所述步骤3.2中,所述高效通道注意力模块为eca。
28、上述内容中的英文名称含义如下:
29、kinect:微软公司开发的一款可以即时动态捕捉、影像辨识、麦克风输入、语音辨识、社群互动的3d体感摄影机。
30、kinectv2:第二代的kinect产品。
31、unity3d:unity technologies公司开发的虚拟交互式引擎。
32、openpose:卡耐基梅隆大学(cmu)基于卷积神经网络和监督学习并以caffe为框架开发的开源库。
33、json:一种轻量级的数据交换格式。
34、jsonunity:json数据解析在unity中使用。
35、batchnorm:深度网络中常用的一种加速神经网络训练、加速收敛速度及稳定性的算法。
36、selu:一种扩展性指数线性单元激活函数。
37、dropout:指在深度学习网络的训练过程中,对于神经网络单元,按照一定的概率将其暂时从网络中丢弃。
38、eca:由wang等人针对se-net中通道降维和跨通道交互对通道注意力的影响而提出的更加有效的高效通道注意力模块,eca实现了大小为k的快速1d卷积,其中k表示有多少个相邻通道参与该通道的注意力预测,eca能够在避免维度特征缩减的同时,增加不同通道间的信息交互,由于整个计算模块只涉及k个参数,计算量大幅降低,而且更注重局部通道直接的信息交互。
39、本发明的有益效果在于:
40、本发明使用基于高效通道注意力机制的双分支孪生监督网络,利用骨骼关节点的二维与三维数据共同训练,以二维数据为输入,三维数据为输出,实现了利用2d姿势估计算法直接从利用普通摄像机获得的视频中获取人体的三维坐标数据,利用识别算法直接进行识别,大大降低了体感交互的成本,更加便捷与方便。
1.一种面向人机交互的姿势估计方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的面向人机交互的姿势估计方法,其特征在于:所述步骤1包括以下步骤:
3.根据权利要求2所述的面向人机交互的姿势估计方法,其特征在于:所述步骤1.1中,所述深度传感器为kinect,所述m为25;所述步骤1.2中,所述受试者的年龄在18-30岁之间,所述n为20,所述深度传感器为kinectv2;所述步骤1.3中,所述l为10,对应的人机交互动作为:平举双手、抬起左手、抬起右手、双手画叉、抬起左脚、抬起右脚、蹲下、挥拳、双手合十、挥手;所述步骤1.4中,所述h为6,所述深度传感器为kinect,其设备高度和距离的组合如下表1所示:
4.根据权利要求2或3所述的面向人机交互的姿势估计方法,其特征在于:所述步骤2的具体方法是:使用unity3d作为实验平台,加载2d姿势估计算法openpose的unity插件,按照步骤1的内容使用openpose取代深度传感器采集人体的m个2d骨骼可视化关节点图片以及关节点二维坐标,形成二维人体动作数据集,其中openpose获取到的坐标数据使用json格式存储,并使用jsonunity对其进行解析,转化为简单的文本格式。
5.根据权利要求2或3所述的面向人机交互的姿势估计方法,其特征在于:所述步骤3包括以下步骤:
6.所述步骤3.1中,所述x为17;所述步骤3.2中,所述高效通道注意力模块为eca。