本发明属于计算机与生物信号、运动信号相结合领域,尤其涉及一种基于深度学习和多视图、多模态学习的手势识别方法。
背景技术:
表面肌电信号(surfaceelectromyography,semg)是一种通过非侵入式的电极贴在皮肤表面来记录肌肉活动的生物信号,在人机交互、康复医学临床和基础研究等方向具有重要的学术价值和应用意义;微惯性测量单元信号(inertialmeasurementunit,imu)是测量物体三轴姿态角以及加速度的装置,在运动控制的设备上具有广泛的应用,如汽车和机器人等。融合肌电与微惯性测量单元多模态信号的手势识别技术能够利用两个不同模态数据各自的优势,提升手势识别方法的准确性。其中多视图深度学习算法常用于多模态数据,其中经典多视图手势识别流程由数据预处理、特征空间构建、特征融合和分类组成。数据预处理部分主要对多模态的信号进行整流去噪,特征空间构建部分将预处理后的信号变换到特征空间使得类间具有更大的区分度,特征融合部分将各个视图构建的特征在特征空间下进行融合,最后用一个分类模型对融合后的多模态特征进行手势分类。
特征空间的构建部分和手势识别模型构建部分是提高识别准确率十分重要的两个部分。针对前者,很多研究人员致力于通过他们的生物领域知识提出新的特征表示,例如phinyomark特征集;针对后者,在国内外的研究中,基于深度学习神经网络的分类器模型已成了主流的方法,其中最常用的两种网络框架为卷积神经网络和循环神经网络。
在当前的大数据时代,多模态数据已成为近来数据资源的主要形式。作为一种多模态数据形式,肌电和微惯性测量单元信号具有多源异构性,目前没有有效的方法将这类多源异构的多模态数据融合用于模式识别任务,而本发明提出了一种多视图深度学习的手势识别算法,将多模态数据在特征子空间实现融合,从而得到一个更具类区分度的多模态特征表示。
技术实现要素:
本发明的目的在于针对多源异构的多模态数据,即肌电和微惯性测量单元信号,提供一种深度学习的多视图手势识别方法,通过设计基于多流卷积神经网络和特征融合机制的模型结构,提高手势识别的准确性。
本发明的目的是通过以下技术方案来实现的,一种融合肌电和微惯性测量单元多模态信号的手势识别方法,包括如下步骤:
(1)获取肌电和微惯性测量单元数据,数据预处理,包括以下子步骤:
(1.1)被试按照预设的手势顺序做出相应的手势,通过肌电电极和微惯性测量单元采集若干被试的若干手势动作的肌电数据和运动数据,一个手势动作的若干次重复对应一个数据文件,在数据文件中存储对应的手势标签;
(1.2)对采集的运动数据进行上采样,实现肌电数据和运动数据的同步;
(2)进行训练集和测试集的划分,包括以下子步骤:
(2.1)根据数据文件中的手势标签,将每个数据文件分割为若干个信号段,每个信号段对应一次手势动作重复;
(2.2)按照被试内评估或被试间评估方法,将手势的多次动作重复分别划分到训练集和测试集中;
(3)信号分割和信号特征提取,包括以下子步骤:
(3.1)用滑动窗口将每个信号段分割为多个固定长度的子信号段;
(3.2)对每个窗口内的定长子信号段中的肌电数据的每个通道进行特征提取,提取多种时域、频域的肌电特征;
(3.3)对每个窗口内的定长子信号段中的运动数据的每个通道进行特征提取,提取多种时域、频域的运动特征;
(4)融合肌电特征和运动特征的手势识别,包括以下子步骤:
(4.1)采用多视图深度学习的网络结构,为肌电特征和运动特征分别设计一个用于提取浅层特征和深层特征的卷积神经网络的分支;每个分支的卷积神经网络包含2层卷积层,后接2层局部连接层和1层全连接层;
(4.2)将步骤(4.1)的每个分支在第1层卷积层后提取浅层特征,在最后1层全连接层后提取深层特征;将两个分支的浅层特征和深层特征分别进行融合,得到融合后的浅层、深层多模态信号特征;
(4.3)将融合后的浅层、深层多模态信号特征分别输入由1层全连接层、1层g-way全连接层和softmax层构成的分类网络,再进行决策层融合,输出每一手势类别的概率;
(4.4)两个分支和分类网络共同构成手势识别模型,训练过程中将每个子信号段提取的肌电特征和运动特征作为模型的输入,对两个分支和分类网络的参数进行联合优化,得到最优的模型参数;
(4.5)将测试集中每个子信号段提取的肌电特征和运动特征作为步骤(4.4)训练好的手势识别模型的输入,输出手势识别结果。
进一步地,所述步骤(1.1)中,通过肌电电极采集肌电数据的采样率为200hz,通过微惯性测量单元采集的运动数据包括加速度、陀螺仪和磁力计数据,采样率分别为50hz、50hz和13.3hz;采集过程中对于每个手势动作,被试都被要求重复3次,每两次重复之间都需要保持休息手势一段时间。
进一步地,所述步骤(1.2)中,对运动数据通过线性插值实现上采样,使得加速度、陀螺仪和磁力计的采样率达到与肌电数据一致的采样率。
进一步地,所述步骤(2.1)中,训练集和测试集的划分使用被试内评估,将每个被试的第1和第3次动作重复作为训练数据,第2次动作重复作为测试数据。
进一步地,所述步骤(3.1)中,采用了多种配置的滑动窗口长度和滑动步长,其中滑动窗口长度为100ms或150ms或200ms,滑动步长保持为5ms。
进一步地,所述步骤(3.2)中,对窗口内的定长子信号段中的肌电数据的每个通道基于经典时域特征集phinyomark、频域特征离散小波变换系数(dwtc)和离散小波包变换系数(dwptc)进行特征提取,其中phinyomark特征集包含特征信号幅值绝对值(mav)、波形长度(wl)、自回归系数(ar)、绝对均值斜率(mavslp)、平均频率(mnf)、功率谱最大值附近能量与总能量比率(psr)和willison幅值(wamp)。
进一步地,所述步骤(3.3),对窗口内的定长子信号段中的运动数据的每个通道进行特征提取,包含常用的统计特征信号均值(mean)、方差(var)、标准差(std)、众数(mode)、最大值(max)、最小值(min)、过零次数(zc)和幅度(range),和常用频域特征快速傅里叶变换的直流分量(fft_dc)、均值(fft_mean)、方差(fft_var)、标准差(fft_std)、熵(fft_entropy)、能量(fft_energy)、倾斜系数(fft_skew)、库尔特系数(fft_kurt)、最大值(fft_max)。
进一步地,所述步骤(4.5)中,手势识别模型的输出为标签,即子信号段对应的数据文件的手势标签,用识别准确率对识别结果进行衡量,识别准确率为识别正确的子信号段数除以测试集中所有子信号段数。
本发明的有益效果是:本发明提出一种融合肌电和微惯性测量单元多模态信号的手势识别方法,能够对两个模态提取的高层特征进行融合,与单视图的卷积神经网络方法相比,该方法能有效提升手势识别率。人工提取各个模态信号的特征作为新的视图输入多视图分类模型,能够有效提升手势识别的准确率。
附图说明
图1为本发明实施例提供的融合肌电和微惯性测量单元多模态信号的手势识别方法流程图;
图2为本发明实施例提供的手势识别模型结构图。
具体实施方式
下面结合附图和具体实施方式对本发明作进一步详细说明。
如图1所示,本发明实施例提供的一种融合肌电和微惯性测量单元多模态信号的手势识别方法,具体实施步骤如下:
步骤(1)要求被试按照预设的手势顺序做出相应的手势,通过肌电电极和微惯性测量单元采集若干被试的若干手势动作的肌电数据和运动数据,一个手势动作的若干次重复对应一个数据文件,在数据文件中存储对应的手势标签;采集过程中每个手势动作均重复3次,每两次重复之间都需要保持一定时间的休息手势;对运动数据通过线性插值实现上采样,使得加速度、陀螺仪和磁力计的采样率达到与肌电数据一致的采样率。
步骤(2)进行训练集和测试集的划分,根据数据文件中的手势标签,将每个数据文件分割为若干个信号段,每个信号段对应一次手势动作重复;训练集和测试集的划分使用被试内评估;采集的肌电和微惯性测量单元的多模态数据集将每个被试的第1和第3次重复作为训练数据,第2次重复作为测试数据。
步骤(3)进行信号分割和信号特征提取,用窗口长度为100ms或150ms或200ms,步长为5ms的滑动窗口将每个信号段分割为多个固定长度的子信号段;对每个窗口内的定长子信号段中的肌电数据的每个通道进行基于经典时域特征集phinyomark,频域特征离散小波变换系数(dwtc)和离散小波包变换系数(dwptc)的特征提取,其中phinyomark特征集包含特征信号幅值绝对值(mav)、波形长度(wl)、自回归系数(ar)、绝对均值斜率(mavslp)、平均频率(mnf)、功率谱最大值附近能量与总能量比率(psr)和willison幅值(wamp);对窗口内的定长子信号段中的运动数据的每个通道进行特征提取,包含常用的统计特征信号均值(mean)、方差(var)、标准差(std)、众数(mode)、最大值(max)、最小值(min)、过零次数(zc)和幅度(range),和常用频域特征快速傅里叶变换的直流分量(fft_dc)、均值(fft_mean)、方差(fft_var)、标准差(fft_std)、熵(fft_entropy)、能量(fft_energy)、倾斜系数(fft_skew)、库尔特系数(fft_kurt)、最大值(fft_max)。
步骤(4)融合肌电特征和运动特征进行手势识别,采用多视图深度学习的网络结构,为肌电特征和运动特征分别设计一个用于提取浅层特征和深层特征的卷积神经网络的分支;每个分支的卷积神经网络包含2层卷积层,后接2层局部连接层和1层全连接层;每个分支在第1层卷积层后提取浅层特征,在最后1层全连接层后提取深层特征;将两个分支的浅层特征和深层特征分别进行融合,得到融合后的浅层、深层多模态信号特征;将融合后的浅层、深层多模态信号特征分别输入由1层全连接层、1层g-way全连接层和softmax层构成的分类网络,再进行决策层融合,输出每一手势类别的概率;两个分支和分类网络共同构成手势识别模型,手势识别模型整体结构如图2所示,训练过程中将每个子信号段提取的肌电特征和运动特征作为模型的输入,对两个分支和分类网络的参数进行联合优化,得到最优的模型参数;测试集中每个子信号段提取的肌电特征和运动特征作为训练好的手势识别模型的输入,输出手势识别结果,即子信号段对应的数据文件的手势标签,用识别准确率对识别结果进行衡量,识别准确率为识别正确的子信号段数除以测试集中所有子信号段数。
对使用肌电电极和微惯性测量单元采集的肌电数据和运动数据构建的多模态数据集进行手势识别。使用本发明基于肌电和微惯性测量单元的多视图手势识别方法的识别准确率见下表:
以上所述,仅为较佳实施样例,本发明并不局限于上述实施方式,只要以相同手段达到本发明的技术效果,都应属于本发明的保护范围。在本发明的保护范围内,其技术方案和/或实施方式可以有各种不同的修改和变化。
1.一种融合肌电和微惯性测量单元多模态信号的手势识别方法,其特征在于,包括如下步骤:
(1)获取肌电和微惯性测量单元数据,数据预处理,包括以下子步骤:
(1.1)被试按照预设的手势顺序做出相应的手势,通过肌电电极和微惯性测量单元采集若干被试的若干手势动作的肌电数据和运动数据,一个手势动作的若干次重复对应一个数据文件,在数据文件中存储对应的手势标签;
(1.2)对采集的运动数据进行上采样,实现肌电数据和运动数据的同步;
(2)进行训练集和测试集的划分,包括以下子步骤:
(2.1)根据数据文件中的手势标签,将每个数据文件分割为若干个信号段,每个信号段对应一次手势动作重复;
(2.2)按照被试内评估或被试间评估方法,将手势的多次动作重复分别划分到训练集和测试集中;
(3)信号分割和信号特征提取,包括以下子步骤:
(3.1)用滑动窗口将每个信号段分割为多个固定长度的子信号段;
(3.2)对每个窗口内的定长子信号段中的肌电数据的每个通道进行特征提取,提取多种时域、频域的肌电特征;
(3.3)对每个窗口内的定长子信号段中的运动数据的每个通道进行特征提取,提取多种时域、频域的运动特征;
(4)融合肌电特征和运动特征的手势识别,包括以下子步骤:
(4.1)采用多视图深度学习的网络结构,为肌电特征和运动特征分别设计一个用于提取浅层特征和深层特征的卷积神经网络的分支;每个分支的卷积神经网络包含2层卷积层,后接2层局部连接层和1层全连接层;
(4.2)将步骤(4.1)的每个分支在第1层卷积层后提取浅层特征,在最后1层全连接层后提取深层特征;将两个分支的浅层特征和深层特征分别进行融合,得到融合后的浅层、深层多模态信号特征;
(4.3)将融合后的浅层、深层多模态信号特征分别输入由1层全连接层、1层g-way全连接层和softmax层构成的分类网络,再进行决策层融合,输出每一手势类别的概率;
(4.4)两个分支和分类网络共同构成手势识别模型,训练过程中将每个子信号段提取的肌电特征和运动特征作为模型的输入,对两个分支和分类网络的参数进行联合优化,得到最优的模型参数;
(4.5)将测试集中每个子信号段提取的肌电特征和运动特征作为步骤(4.4)训练好的手势识别模型的输入,输出手势识别结果。
2.根据权利要求1所述一种融合肌电和微惯性测量单元多模态信号的手势识别方法,其特征在于,所述步骤(1.1)中,通过肌电电极采集肌电数据的采样率为200hz,通过微惯性测量单元采集的运动数据包括加速度、陀螺仪和磁力计数据,采样率分别为50hz、50hz和13.3hz;采集过程中对于每个手势动作,被试都被要求重复3次,每两次重复之间都需要保持休息手势一段时间。
3.根据权利要求1所述一种融合肌电和微惯性测量单元多模态信号的手势识别方法,其特征在于,所述步骤(1.2)中,对运动数据通过线性插值实现上采样,使得加速度、陀螺仪和磁力计的采样率达到与肌电数据一致的采样率。
4.根据权利要求1所述一种融合肌电和微惯性测量单元多模态信号的手势识别方法,其特征在于,所述步骤(2.1)中,训练集和测试集的划分使用被试内评估,将每个被试的第1和第3次动作重复作为训练数据,第2次动作重复作为测试数据。
5.根据权利要求1所述一种融合肌电和微惯性测量单元多模态信号的手势识别方法,其特征在于,所述步骤(3.1)中,采用了多种配置的滑动窗口长度和滑动步长,其中滑动窗口长度为100ms或150ms或200ms,滑动步长保持为5ms。
6.根据权利要求1所述一种融合肌电和微惯性测量单元多模态信号的手势识别方法,其特征在于,所述步骤(3.2)中,对窗口内的定长子信号段中的肌电数据的每个通道基于经典时域特征集phinyomark、频域特征离散小波变换系数(dwtc)和离散小波包变换系数(dwptc)进行特征提取,其中phinyomark特征集包含特征信号幅值绝对值(mav)、波形长度(wl)、自回归系数(ar)、绝对均值斜率(mavslp)、平均频率(mnf)、功率谱最大值附近能量与总能量比率(psr)和willison幅值(wamp)。
7.根据权利要求1所述一种融合肌电和微惯性测量单元多模态信号的手势识别方法,其特征在于,所述步骤(3.3),对窗口内的定长子信号段中的运动数据的每个通道进行特征提取,包含常用的统计特征信号均值(mean)、方差(var)、标准差(std)、众数(mode)、最大值(max)、最小值(min)、过零次数(zc)和幅度(range),和常用频域特征快速傅里叶变换的直流分量(fft_dc)、均值(fft_mean)、方差(fft_var)、标准差(fft_std)、熵(fft_entropy)、能量(fft_energy)、倾斜系数(fft_skew)、库尔特系数(fft_kurt)、最大值(fft_max)。
8.根据权利要求1所述一种融合肌电和微惯性测量单元多模态信号的手势识别方法,其特征在于,所述步骤(4.5)中,手势识别模型的输出为标签,即子信号段对应的数据文件的手势标签,用识别准确率对识别结果进行衡量,识别准确率为识别正确的子信号段数除以测试集中所有子信号段数。
技术总结