一种基于多模态情感识别的协作机器人控制方法及系统

专利2025-03-29  24


本发明涉及情感识别领域,尤其是涉及一种基于多模态情感识别的协作机器人控制方法及系统。


背景技术:

1、现有技术中,随着机器人技术和自动化技术的蓬勃发展,各种类型的机器人在日常工作和生产中都占据着重要地位,同时越来越多的领域都开始引入机器人来提升它们的工作效率。在工业领域中,劳动力缺失问题严重影响企业生产效率,尤其是那些劳动密集型和自动化程度较低的行业。为了缓解这种劳动力缺失问题,更多行业开始引入机器人来协助进行产品生产。传统的工业机器人或机械臂通常使用预编程完成预设的任务,大多适用于固定场景下的指定单一任务,对于那些机器人不能独立完成的任务或需要机器人协助人类完成的任务,这类传统的工业机器人就很难完成这些任务。协作机器人的出现部分缓解了这个问题,协作机器人通常被设计用来协助人类进行协作任务,例如协助物体搬运,设备组件装配等任务。协作机器人允许在工作环境中与人类进行物理交互且只需要进行简单编程即可根据具体环境和任务进行部署,与传统机器人相比大大增加了灵活性。

2、但是现有协作机器人缺少对人类情绪状态的识别能力。在人机协作过程中,将人类情绪保持在理想的范围内有助于增加人与协作机器人之间的信心与信任,从而提升生产效率。针对于人机协作中的情感识别,现有项目大多利用脑电图等生物信号进行检测,这十分不利于在工厂、车间等复杂环境中部署,且对于操作人员提出了一定要求。

3、依靠单模态情感识别在模态数据质量受限的情况下,准确率会大幅降低,使用多模态数据进行情感识别一方面可以在单一模态数据质量较差的情况下保证准确率,另一方面,相较于单一模态,多模态情感识别可以进行多维度特征融合,从而进一步提升模型整体准确率。


技术实现思路

1、为了解决上述提到的问题,本发明提供一种基于多模态情感识别的协作机器人控制方法及系统。

2、第一方面,本发明提供的一种基于多模态情感识别的协作机器人控制方法,包括如下步骤:

3、s1.采样语音数据和视频数据,分别构建单模态数据,对单模态数据进行标注和归一化处理,得到多模态情感数据集;

4、s2.构建多模态情感识别网络模型,所述多模态情感识别网络模型包括构建自顶向下融合方式、单模态特征提取和多模态特征融合;

5、s3.所述自顶向下融合方式包括构建单模态编码器,利用单模态编码器对多模态情感数据集进行处理,得到隐状态的单模态的编码后特征和反馈掩码,利用自顶向下融合方式对隐状态的单模态的编码后特征和反馈掩码处理得到新输入特征;

6、s4.所述单模态特征提取和多模态特征融合包括构建单模态编码器和模态间特征融合网络,利用单模态编码器对新输入特征进行处理,得到注意力表示向量,利用模态间特征融合网络对注意力表示向量进行处理,得到最终特征向量;

7、s5.利用多模态情感数据集对多模态情感识别网络模型进行训练,最终获得训练好的多模态情感识别网络模型;

8、s6.构建协作机器人控制框架,利用协作机器人控制框架和训练好的多模态情感识别网络模型构建协作机器人控制系统。

9、进一步地,所述语音数据的采样率为20hz,所述视频数据的采样频率为15hz,其中单模态数据进行标注包括获取单模态数据的情感分数,所述单模态数据包括从强烈负面到强烈正面共7种情感的情感分数,所述情感分数的区间在(-2,-2,0,1,2)中。

10、进一步地,所述对单模态数据进行标注和归一化处理,包括对所述语音数据提取covarep特征,所述单模态数据利用p2fa进行数据对齐。

11、进一步地,所述利用单模态编码器对多模态情感数据集进行处理,得到隐状态的单模态的编码后特征和反馈掩码,包括将多模态情感数据集作为输入特征分别输入两个不同的长短时间记忆网络的隐藏层,生成相应的隐状态的单模态的编码后特征,所述输入特征,,其中表示模态类型,分别表示语音模态和视觉模态,n表示对应模态序列长度,表示模态输入维度,所述隐状态,其中为隐藏层输出大小。

12、进一步地,所述利用自顶向下融合方式对隐状态的单模态的编码后特征和反馈掩码处理得到新输入特征,具体步骤包括:

13、a1.将所述隐状态单模态的编码后特征输入长短时记忆网络,得到更深一级隐状态;

14、a2.利用反馈掩码评估更深一级隐状态;

15、a3. 利用反馈掩码对最初的输入特征进行处理,生成新输入特征;

16、其中所述,所述,所述,其中是反馈掩码, 是sigmoid函数,其中是哈达玛积。

17、进一步地,所述利用模态间特征融合网络对注意力表示向量进行处理,得到最终特征向量的具体步骤包括:

18、b1.利用单模态数据编码器对新输入特征处理,得到语音视觉的单模态中的注意力表示,所述注意力表示包括语音注意力表示和视觉注意力表示;

19、b2.构建语音视觉注意力的查询、键和值;

20、b3.利用单模态中的注意力表示和语音视觉注意力的查询、键和值构建语音视觉注意力;

21、b4.利用b1、b2和b3的方法构建视觉语音注意力,利用语音视觉注意力和视觉语音注意力获取对称注意力;

22、b5.利用对称注意力、语音注意力表示和视觉注意力表示构建融合后的注意力表示向量,

23、其中所述注意力表示,包括利用点积注意力获取单模态中的注意力表示,所述注意力表示,公式为,

24、其中是softmax函数,表示模态数据的查询,表示模态数据的键,表示模态数据的值,分别由对应模态隐状态与不同权重矩阵相乘得到,

25、所述查询,键,值,是可学习的权重矩阵,所述,所述,所述,其中,是连接符号,拼接不同向量,其中;

26、b6.利用模态间特征融合网络对注意力表示向量进行处理,得到最终特征向量。

27、进一步地,所述利用多模态情感数据集对多模态情感识别网络模型进行训练,具体步骤包括:

28、c1.将多模态情感数据集处理并输入至多模态情感识别网络模型中;

29、c2.对多模态情感数据集进行自顶向下融合方式、单模态数据特征提取和多模态特征融合,得到最终特征向量;

30、c3.对最终特征向量进行分类并计算损失,并进行前向传播更新优化网络参数,直至网络收敛。

31、进一步地,所述构建协作机器人控制框架包括,采集操作人员的压力状态,并对压力状态进行情感打分得到情感分数,所述情感分数对应的强烈正面情感到强烈负面情感分别对应操作人员的压力低、较低、中等、较高和高,机器人运行速度和机器人延迟参数依据操作员压力变化做出反馈,所述机器人运行速度与压力成反比,所述延迟参数与压力成正比。

32、进一步地,所述构建协作机器人控制系统,包括部署情感识别主机和协作机器人主机,将rgb摄像机与麦克风设备分别安置在机器人正上方以及机器人中部,所述协作机器人主机和情感识别主机采用udp协议进行通讯,所述协作机器人控制系统采用ros系统进行,建立机器人运行速度调整结点和延迟调整结点,对接受到的操作人员压力状态进行反馈。

33、进一步地,所述情感识别主机包括情感识别网络模型,所述情感识别网络模型对于接受到的数据进行两阶段的特征提取和特征融合获得当前操作人员情感,依据所述操作人员情感对协作机器人主机进行通讯,所述协作机器人主机接收通讯后对运行速度调整节点和延迟调整节点进行机器人运行速度和延迟改变。

34、第二方面,一种基于多模态情感识别的协作机器人控制系统,包括:

35、数据采集模块,被配置为,采样语音数据和视频数据,分别构成单模态数据,对单模态数据进行标注和归一化处理,得到多模态情感数据集;

36、自顶向下融合模块,被配置为,构建多模态情感识别网络模型,所述多模态情感识别网络模型包括构建自顶向下融合方式、单模态特征提取和多模态特征融合,所述自顶向下融合方式包括构建单模态编码器,利用单模态编码器对多模态情感数据集进行处理,得到隐状态的单模态的编码后特征和反馈掩码,利用自顶向下融合方式对隐状态的单模态的编码后特征和反馈掩码处理得到新输入特征;

37、特征融合模块,被配置为,所述单模态特征提取和多模态特征融合包括构建单模态编码器和模态间特征融合网络,利用单模态编码器对新输入特征进行处理,得到注意力表示向量,利用模态间特征融合网络对注意力表示向量进行处理,得到最终特征向量;

38、模型训练模块,被配置为,利用多模态情感数据集对多模态情感识别网络模型进行训练,最终获得训练好的多模态情感识别网络模型;

39、控制框架模块,被配置为,构建协作机器人控制框架,利用协作机器人控制框架和训练好的多模态情感识别网络模型构建协作机器人控制系统。

40、第三方面,本发明提供一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行一种基于多模态情感识别的协作机器人控制方法。

41、第四方面,本发明提供一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,所述指令适于由处理器加载并执行一种基于多模态情感识别的协作机器人控制方法。

42、综上所述,本发明具有如下的有益技术效果:

43、1、本发明使用多模态数据进行情感识别一方面可以在单一模态数据质量较差的情况下保证准确率,另一方面,相较于单一模态,多模态情感识别可以进行多维度特征融合,从而进一步提升模型整体准确率;

44、2、本发明为了解决模态数据质量受限导致的识别准确率下降的问题,构建了一种基于视觉-语音的多模态情感分析模型,该模型运用自注意力机制进行单模态数据特征提取,利用自顶向下的融合方法进行模态间特征融合,不仅提升了识别全局准确率,并使得模型更加轻量化;

45、3、本发明针对现有的协作机器人缺失对人类的情感识别能力,构建了一种基于实时情感识别的协作机器人控制方法,利用实时的人类情感识别模型,分析操作人员情感,根据操作人员情感,协作机器人实时调整运行速度与延迟,提高工作效率。

46、综上,本技术实现了一种基于多模态情感识别的协作机器人控制方法及系统,实现了协作机器人对人类情感的高效、精准识别,提高了工作效率,相比现有技术更加先进与完善。


技术特征:

1.一种基于多模态情感识别的协作机器人控制方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于多模态情感识别的协作机器人控制方法,其特征在于,所述对单模态数据进行标注和归一化处理,包括对所述语音数据提取covarep特征,所述单模态数据利用p2fa进行数据对齐。

3.根据权利要求1所述的一种基于多模态情感识别的协作机器人控制方法,其特征在于,所述利用单模态编码器对多模态情感数据集进行处理,得到隐状态的单模态的编码后特征和反馈掩码,包括将多模态情感数据集作为输入特征分别输入两个不同的长短时间记忆网络的隐藏层,生成相应的隐状态的单模态的编码后特征,所述输入特征,,其中表示模态类型,分别表示语音模态和视觉模态,n表示对应模态序列长度,表示模态输入维度,所述隐状态,其中为隐藏层输出大小。

4.根据权利要求1所述的一种基于多模态情感识别的协作机器人控制方法,其特征在于,所述利用自顶向下融合方式对隐状态的单模态的编码后特征和反馈掩码处理得到新输入特征,具体步骤包括:

5.根据权利要求1所述的一种基于多模态情感识别的协作机器人控制方法,其特征在于,所述利用模态间特征融合网络对注意力表示向量进行处理,得到最终特征向量的具体步骤包括:

6.根据权利要求1所述的一种基于多模态情感识别的协作机器人控制方法,其特征在于,所述利用多模态情感数据集对多模态情感识别网络模型进行训练,具体步骤包括:

7.根据权利要求1所述的一种基于多模态情感识别的协作机器人控制方法,其特征在于,所述构建协作机器人控制系统,包括部署情感识别主机和协作机器人主机,将rgb摄像机与麦克风设备分别安置在机器人正上方以及机器人中部,所述协作机器人主机和情感识别主机采用udp协议进行通讯,所述协作机器人控制系统采用ros系统进行,建立机器人运行速度调整结点和延迟调整结点,对接受到的操作人员压力状态进行反馈。

8.一种基于多模态情感识别的协作机器人控制系统,其特征在于,包括:

9.一种计算机可读存储介质,其中存储有多条指令,其特征在于,所述指令适于由终端设备的处理器加载并执行如权利要求1所述的一种基于多模态情感识别的协作机器人控制方法。

10.一种终端设备,包括处理器和计算机可读存储介质,处理器用于实现各指令;计算机可读存储介质用于存储多条指令,其特征在于,所述指令适于由处理器加载并执行如权利要求1所述的一种基于多模态情感识别的协作机器人控制方法。


技术总结
本发明涉及情感识别领域,尤其是涉及一种基于多模态情感识别的协作机器人控制方法及系统,包括以下步骤:S1.采样语音数据和视频数据,分别构建单模态数据,对所述单模态数据进行标注和归一化处理,得到多模态情感数据集;S2.构建多模态情感识别网络模型,所述多模态情感模型包括构建自顶向下融合方式、单模态特征提取和多模态特征融合;S3.利用所述多模态情感数据集对多模态情感识别网络模型进行训练;S4.构建协作机器人控制框架,利用所述协作机器人控制框架和训练好的情感识别网络模型构建协作机器人控制系统。本发明通过基于多模态情感识别的协作机器人实现了对人类情感的高效和精准识别,同时提高了操作人员的工作效率。

技术研发人员:刘文哲,刘兆伟,宋鹏,苏航,姜岸佐,宋永超
受保护的技术使用者:烟台大学
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1817801.html

最新回复(0)