一种基于稀疏注意力融合机制的多模态情感识别方法

专利2026-02-13 15

本发明涉及多模态情感识别领域，特别涉及一种基于稀疏注意力融合机制的多模态情感识别方法。

背景技术：

1、随着计算机网络技术的飞速发展和社交媒体的盛行，人们日益倾向于使用图文和视频等多模态方式表达自己的情感和观点。这种多模态表达方式为情感识别领域带来了新的挑战和机遇。多模态情感识别的研究备受关注，通过综合不同模态的数据源，提高了情感分析的准确性和鲁棒性。然而，多种模态信息的引入也会造成信息冗余。冗余信息对模型训练的性能有不利影响，因为它使模型难以识别出有效且互补的特征，从而降低了情感识别的准确性。此外，处理和分析这些冗余信息需要更多的计算资源和时间，导致了训练过程的成本增加。

技术实现思路

1、针对上述存在的问题，本发明提供一种基于稀疏注意力融合机制的多模态情感识别方法，优化模型的复杂性，减少计算需求，缩短模型训练所需的时间，以提高多模态融合的效率和性能，减少信息冗余，提高情感识别的准确性。

2、为实现上述目的，本发明具体技术方案如下：一种基于稀疏注意力融合机制的多模态情感识别方法，包括如下步骤：

3、1)提取多模态数据集中文本、视觉和音频数据的特征信息，其中，所述特征信息包括文本模态情感特征ft、视觉模态情感特征fv和音频模态情感特征fa；

4、2)构建稀疏注意力瓶颈融合模型；

5、3)利用稀疏注意力瓶颈融合模型融合文本模态情感特征ft、视觉模态情感特征fv和音频模态情感特征fa，得到多模态特征fm；

6、4)将融合后的多模态特征fm通过稀疏注意力机制，进行权重分配，以捕获模态内特征的相关性并优化模型的复杂度，得到fm'；

7、5)将fm'使用全连接层来输出情感识别的预测结果result；计算公式如下：

8、result＝wy+b

9、式中：w是模态参数权重，b是偏置，y是预测值。

10、进一步地，上述步骤1)包括如下步骤：

11、1.1)利用glove模型提取文本的静态词义信息；

12、1.2)利用bert模型提取文本的上下文敏感语义信息；

13、1.3)将文本的静态词义信息和上下文敏感语义信息进行特征拼接得到文本模态情感特征ft；

14、1.4)利用covarep语音算法处理库和双向gru网络模型提取音频模态情感特征；

15、1.5)利用facenet模型和双向gru网络模型提取视觉模态情感特征fv。

16、进一步地，上述步骤2)构建稀疏注意力瓶颈融合模型包括如下步骤：

17、2.1)设计稀疏注意力机制；

18、2.2)加入跨模态注意力机制ca，用于引导多模态之间的信息交互，所述跨模态注意力机制ca计算公式如下：

19、ca(hb,fi)＝attention(wqb,wki,wvi)

20、式中：hb代表瓶颈单元，fi代表代表ft、fv、fa，wq、wk、wv为权重；

21、2.3)构建稀疏注意力瓶颈融合模型，包括稀疏注意力机制、跨模态注意力机制和transformer编码器。

22、进一步地，上述步骤2.1)设计稀疏注意力机制包括如下步骤：

23、2.1.1)计算query注意力概率分布，公式如下：

24、

25、式中：qi代表查询向量query，kj代表键key。

26、2.1.2)计算query注意力均匀分布，公式如下：

27、

28、式中：lk代表键的总数。

29、2.1.3)通过kl散度来衡量p(kj|qi),q(kj|qi)的相似性，其中，第i个query活跃度的评价公式为：

30、

31、2.1.4)根据m(qi,k)得到活跃度高的l个占主导地位的

32、2.1.5)利用l个筛选局部距离不超过u，并且远程距离为k,2k,3k…的键值计算稀疏自注意力机制ssa，计算公式如下：

33、

34、式中：q是查询(query)矩阵，k是键(key)矩阵，v是值(value)矩阵，softmax是归一化指数函数，是缩放因子。

35、进一步地，上述步骤3)包括如下步骤：

36、3.1)将瓶颈单元hb与视觉模态情感特征fv通过稀疏注意力瓶颈融合模型进行融合，融合公式如下：

37、

38、3.2)将带有视觉模态情感特征的hb(v)与音频模态情感特征fa通过稀疏注意力瓶颈融合模型进行融合，融合公式如下：

39、

40、3.3)将同时带有视觉模态情感特征和音频模态情感特征的hb(v+a)与文本模态情感特征ft通过稀疏注意力瓶颈融合模型进行融合，融合公式如下：

41、

42、式中：{t,v,a}分别代表t、v、a，l为瓶颈融合模块网络层数，sparse-transformer由多头稀疏自注意力机制、层归一化和应用残差连接的多层感知器组成，θ为模型参数；

43、3.4)计算多模态融合特征为fm，计算公式如下:

44、

45、本发明与现有技术相比，本发明优化了模型的复杂性，减少了计算需求，缩短了模型训练所需的时间，提高了多模态融合的效率和性能，减少信息冗余，提高了情感识别的准确性

技术特征：

1.一种基于稀疏注意力融合机制的多模态情感识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的基于稀疏注意力融合机制的多模态情感识别方法，其特征在于，所述步骤1)包括如下步骤：

3.如权利要求1所述的基于稀疏注意力融合机制的多模态情感识别方法，其特征在于所述步骤2)构建稀疏注意力瓶颈融合模型包括如下步骤：

4.如权利要求3所述的基于稀疏注意力融合机制的多模态情感识别方法，其特征在于所述步骤2.1)设计稀疏注意力机制包括如下步骤：

5.如权利要求1所述的基于稀疏注意力融合机制的多模态情感识别方法，其特征在于所述步骤3)包括如下步骤：

技术总结
本发明涉及多模态情感识别领域，具体涉及一种基于稀疏注意力融合机制的多模态情感识别方法，采用稀疏自注意力机制解决了处理长序列时计算复杂度激增的问题，通过聚焦于数据中情感相关信息，优化计算效率。设计瓶颈融合模块，显著降低参数量并减少计算成本。稀疏自注意力机制和瓶颈融合模块的结合提升了多模态情感识别任务的性能，在保持低资源消耗的同时，有效分析复杂情感信息，为大规模多模态数据处理提供了高效且资源友好的技术方案。本发明通过对注意力机制进行改进，提出稀疏注意力机制，并引入瓶颈融合模块，能够有效压缩和筛选各模态的特征信息，融合情感相关内容，从而提升多模态融合的整体性能，同时减少模型的参数量。

技术研发人员：宋雪桦,张海侠,杨恬,金华,王昌达,袁昕
受保护的技术使用者：江苏大学
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1827536.html

专利

最新回复(0)