本发明涉及多模态情感识别领域,特别涉及一种基于稀疏注意力融合机制的多模态情感识别方法。
背景技术:
1、随着计算机网络技术的飞速发展和社交媒体的盛行,人们日益倾向于使用图文和视频等多模态方式表达自己的情感和观点。这种多模态表达方式为情感识别领域带来了新的挑战和机遇。多模态情感识别的研究备受关注,通过综合不同模态的数据源,提高了情感分析的准确性和鲁棒性。然而,多种模态信息的引入也会造成信息冗余。冗余信息对模型训练的性能有不利影响,因为它使模型难以识别出有效且互补的特征,从而降低了情感识别的准确性。此外,处理和分析这些冗余信息需要更多的计算资源和时间,导致了训练过程的成本增加。
技术实现思路
1、针对上述存在的问题,本发明提供一种基于稀疏注意力融合机制的多模态情感识别方法,优化模型的复杂性,减少计算需求,缩短模型训练所需的时间,以提高多模态融合的效率和性能,减少信息冗余,提高情感识别的准确性。
2、为实现上述目的,本发明具体技术方案如下:一种基于稀疏注意力融合机制的多模态情感识别方法,包括如下步骤:
3、1)提取多模态数据集中文本、视觉和音频数据的特征信息,其中,所述特征信息包括文本模态情感特征ft、视觉模态情感特征fv和音频模态情感特征fa;
4、2)构建稀疏注意力瓶颈融合模型;
5、3)利用稀疏注意力瓶颈融合模型融合文本模态情感特征ft、视觉模态情感特征fv和音频模态情感特征fa,得到多模态特征fm;
6、4)将融合后的多模态特征fm通过稀疏注意力机制,进行权重分配,以捕获模态内特征的相关性并优化模型的复杂度,得到fm';
7、5)将fm'使用全连接层来输出情感识别的预测结果result;计算公式如下:
8、result=wy+b
9、式中:w是模态参数权重,b是偏置,y是预测值。
10、进一步地,上述步骤1)包括如下步骤:
11、1.1)利用glove模型提取文本的静态词义信息;
12、1.2)利用bert模型提取文本的上下文敏感语义信息;
13、1.3)将文本的静态词义信息和上下文敏感语义信息进行特征拼接得到文本模态情感特征ft;
14、1.4)利用covarep语音算法处理库和双向gru网络模型提取音频模态情感特征;
15、1.5)利用facenet模型和双向gru网络模型提取视觉模态情感特征fv。
16、进一步地,上述步骤2)构建稀疏注意力瓶颈融合模型包括如下步骤:
17、2.1)设计稀疏注意力机制;
18、2.2)加入跨模态注意力机制ca,用于引导多模态之间的信息交互,所述跨模态注意力机制ca计算公式如下:
19、ca(hb,fi)=attention(wqb,wki,wvi)
20、式中:hb代表瓶颈单元,fi代表代表ft、fv、fa,wq、wk、wv为权重;
21、2.3)构建稀疏注意力瓶颈融合模型,包括稀疏注意力机制、跨模态注意力机制和transformer编码器。
22、进一步地,上述步骤2.1)设计稀疏注意力机制包括如下步骤:
23、2.1.1)计算query注意力概率分布,公式如下:
24、
25、式中:qi代表查询向量query,kj代表键key。
26、2.1.2)计算query注意力均匀分布,公式如下:
27、
28、式中:lk代表键的总数。
29、2.1.3)通过kl散度来衡量p(kj|qi),q(kj|qi)的相似性,其中,第i个query活跃度的评价公式为:
30、
31、2.1.4)根据m(qi,k)得到活跃度高的l个占主导地位的
32、2.1.5)利用l个筛选局部距离不超过u,并且远程距离为k,2k,3k…的键值计算稀疏自注意力机制ssa,计算公式如下:
33、
34、式中:q是查询(query)矩阵,k是键(key)矩阵,v是值(value)矩阵,softmax是归一化指数函数,是缩放因子。
35、进一步地,上述步骤3)包括如下步骤:
36、3.1)将瓶颈单元hb与视觉模态情感特征fv通过稀疏注意力瓶颈融合模型进行融合,融合公式如下:
37、
38、3.2)将带有视觉模态情感特征的hb(v)与音频模态情感特征fa通过稀疏注意力瓶颈融合模型进行融合,融合公式如下:
39、
40、3.3)将同时带有视觉模态情感特征和音频模态情感特征的hb(v+a)与文本模态情感特征ft通过稀疏注意力瓶颈融合模型进行融合,融合公式如下:
41、
42、式中:{t,v,a}分别代表t、v、a,l为瓶颈融合模块网络层数,sparse-transformer由多头稀疏自注意力机制、层归一化和应用残差连接的多层感知器组成,θ为模型参数;
43、3.4)计算多模态融合特征为fm,计算公式如下:
44、
45、本发明与现有技术相比,本发明优化了模型的复杂性,减少了计算需求,缩短了模型训练所需的时间,提高了多模态融合的效率和性能,减少信息冗余,提高了情感识别的准确性
1.一种基于稀疏注意力融合机制的多模态情感识别方法,其特征在于,包括如下步骤:
2.如权利要求1所述的基于稀疏注意力融合机制的多模态情感识别方法,其特征在于,所述步骤1)包括如下步骤:
3.如权利要求1所述的基于稀疏注意力融合机制的多模态情感识别方法,其特征在于所述步骤2)构建稀疏注意力瓶颈融合模型包括如下步骤:
4.如权利要求3所述的基于稀疏注意力融合机制的多模态情感识别方法,其特征在于所述步骤2.1)设计稀疏注意力机制包括如下步骤:
5.如权利要求1所述的基于稀疏注意力融合机制的多模态情感识别方法,其特征在于所述步骤3)包括如下步骤:
