本公开涉及计算机,尤其涉及一种情感识别模型的训练方法、情感识别方法、情感识别模型的训练装置、情感识别装置、电子设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、语音是日常生活中的主要交流媒介之一,它不仅传达了思想,还表达了说话人的情感状态。语音情感识别可以检测用户的心理健康状况,也可以在不同的场景(例如,数字人、客服等场景)根据用户的情感变化进行相应的反馈和回复等。此外,语音情感识别也有助于家长了解孩子的心理健康状况。
2、然而,在语音情感识别系统中,标注情感数据是一项具有挑战性的任务,这使得语音情感识别模型更容易受到训练集中的说话人的情感的影响。换句话说,如果我们在测试阶段使用与训练集中不同的说话人,则系统常常会出现错误的情感识别结果。另外,语音情感识别具有一定的主观性,这是因为不同的用户可能对同一句话有不同的情感理解。也就是说,有些人可能会认为某句话带有某种特殊或强烈的情感,而另一些人则可能认为它表达的是平静的情感。
3、如何提高情感识别的准确性,是亟待解决的技术问题。
技术实现思路
1、本公开提供了一种情感识别技术方案。
2、根据本公开的一方面,提供了一种情感识别模型的训练方法,包括:
3、获得多模态训练数据集,其中,所述多模态训练数据集包括多项多模态训练数据;
4、采用所述多模态训练数据集,训练第一多模态情感识别模型,其中,所述第一多模态情感识别模型包括文本编码器、音频编码器、融合模块和多模态解码器;
5、响应于所述第一多模态情感识别模型训练至满足第一预设训练条件,在所述第一多模态情感识别模型中增加说话人编码器和说话人解码器,得到第二多模态情感识别模型;
6、采用所述多模态训练数据集,训练所述第二多模态情感识别模型,直至满足第二预设训练条件。
7、在一种可能的实现方式中,在训练所述第二多模态情感识别模型的过程中,固定所述文本编码器和所述音频编码器的参数,更新所述说话人编码器、所述说话人解码器、所述融合模块和所述多模态解码器的参数。
8、在一种可能的实现方式中,任意一项多模态训练数据包括情感标签、训练文本和训练音频;
9、所述采用所述多模态训练数据集,训练第一多模态情感识别模型,包括:
10、对于所述多模态训练数据集中的任意一项多模态训练数据,通过所述文本编码器提取所述多模态训练数据中的训练文本对应的第一文本特征向量,并通过所述音频编码器提取所述多模态训练数据中的训练音频对应的第一音频特征向量;
11、通过所述融合模块对所述第一文本特征向量和所述第一音频特征向量进行融合,得到所述多模态训练数据对应的第一融合特征向量;
12、将所述第一融合特征向量输入所述多模态解码器,通过所述多模态解码器输出所述多模态训练数据对应的第一情感类别预测结果;
13、根据所述第一情感类别预测结果和所述多模态训练数据中的情感标签,训练所述第一多模态情感识别模型。
14、在一种可能的实现方式中,所述第一多模态情感识别模型还包括适配模块;
15、所述通过所述融合模块对所述第一文本特征向量和所述第一音频特征向量进行融合,得到所述多模态训练数据对应的第一融合特征向量,包括:
16、通过所述适配模块对所述第一音频特征向量进行降维,得到所述第一音频特征向量对应的第一降维特征向量;
17、通过所述融合模块对所述第一文本特征向量和所述第一降维特征向量进行融合,得到所述多模态训练数据对应的第一融合特征向量。
18、在一种可能的实现方式中,所述通过所述融合模块对所述第一文本特征向量和所述第一降维特征向量进行融合,得到所述多模态训练数据对应的第一融合特征向量,包括:
19、通过所述融合模块基于交叉注意力机制对所述第一降维特征向量进行处理,得到所述第一音频特征向量对应的第二降维特征向量;
20、通过所述融合模块对所述第一文本特征向量和所述第二降维特征向量进行拼接或相加,得到所述多模态训练数据对应的第一融合特征向量。
21、在一种可能的实现方式中,任意一项多模态训练数据还包括说话人标签;
22、所述采用所述多模态训练数据集,训练所述第二多模态情感识别模型,包括:
23、对于所述多模态训练数据集中的任意一项多模态训练数据,通过所述文本编码器提取所述多模态训练数据中的训练文本对应的第二文本特征向量,通过所述音频编码器提取所述多模态训练数据中的训练音频对应的第二音频特征向量,并通过所述说话人编码器提取所述训练音频对应的第一说话人特征向量;
24、通过所述融合模块对所述第一文本特征向量、所述第一音频特征向量和所述第一说话人特征向量进行融合,得到所述多模态训练数据对应的第二融合特征向量;
25、将所述第二融合特征向量输入所述多模态解码器,通过所述多模态解码器输出所述多模态训练数据对应的第二情感类别预测结果;
26、将所述第一说话人特征向量输入所述说话人解码器,通过所述说话人解码器输出所述多模态训练数据对应的第二说话人预测结果;
27、根据所述第二情感类别预测结果与所述多模态训练数据中的情感标签之间的差异信息,以及所述第二说话人预测结果与所述多模态训练数据中的说话人标签之间的差异信息,训练所述第二多模态情感识别模型。
28、在一种可能的实现方式中,在所述采用所述多模态训练数据集,训练第一多模态情感识别模型之前,所述方法还包括:
29、对于所述多模态训练数据集中的任意一项多模态训练数据,将所述多模态训练数据中的训练音频输入说话人识别模型,通过所述说话人识别模型输出所述训练音频对应的第一说话人预测结果;其中,所述说话人识别模型包括所述说话人编码器、所述说话人解码器和说话人分类器;
30、根据所述第一说话人预测结果和所述多模态训练数据中的说话人标签,对所述说话人识别模型进行训练。
31、在一种可能的实现方式中,在所述采用所述多模态训练数据集,训练第一多模态情感识别模型之前,所述方法还包括:
32、采用所述多模态训练数据集中的多模态训练数据中的训练音频,训练得到所述音频编码器。
33、在一种可能的实现方式中,在所述采用所述多模态训练数据集,训练第一多模态情感识别模型之前,所述方法还包括:
34、采用所述多模态训练数据集中的多模态训练数据中的训练文本,训练得到所述文本编码器。
35、在一种可能的实现方式中,所述方法还包括:
36、响应于所述第二多模态情感识别模型训练至满足所述第二预设训练条件,删除所述第二多模态情感识别模型中的所述说话人解码器,得到第三多模态情感识别模型。
37、根据本公开的一方面,提供了一种情感识别方法,包括:
38、获取所述情感识别模型的训练方法获得的第三多模态情感识别模型;
39、获得待处理的多模态数据,其中,所述待处理的多模态数据包括待处理音频和待处理文本;
40、将所述待处理音频和所述待处理文本输入所述第三多模态情感识别模型,得到所述待处理的多模态数据对应的情感类别预测结果。
41、在一种可能的实现方式中,所述获得待处理的多模态数据,包括:
42、获得待处理音频;
43、对所述待处理音频进行语音识别,得到待处理文本。
44、根据本公开的一方面,提供了一种情感识别模型的训练装置,其特征在于,包括:
45、第一获得模块,用于获得多模态训练数据集,其中,所述多模态训练数据集包括多项多模态训练数据;
46、第一训练模块,用于采用所述多模态训练数据集,训练第一多模态情感识别模型,其中,所述第一多模态情感识别模型包括文本编码器、音频编码器、融合模块和多模态解码器;
47、增加模块,用于响应于所述第一多模态情感识别模型训练至满足第一预设训练条件,在所述第一多模态情感识别模型中增加说话人编码器和说话人解码器,得到第二多模态情感识别模型;
48、第二训练模块,用于采用所述多模态训练数据集,训练所述第二多模态情感识别模型,直至满足第二预设训练条件。
49、在一种可能的实现方式中,在训练所述第二多模态情感识别模型的过程中,固定所述文本编码器和所述音频编码器的参数,更新所述说话人编码器、所述说话人解码器、所述融合模块和所述多模态解码器的参数。
50、在一种可能的实现方式中,任意一项多模态训练数据包括情感标签、训练文本和训练音频;
51、所述第一训练模块用于:
52、对于所述多模态训练数据集中的任意一项多模态训练数据,通过所述文本编码器提取所述多模态训练数据中的训练文本对应的第一文本特征向量,并通过所述音频编码器提取所述多模态训练数据中的训练音频对应的第一音频特征向量;
53、通过所述融合模块对所述第一文本特征向量和所述第一音频特征向量进行融合,得到所述多模态训练数据对应的第一融合特征向量;
54、将所述第一融合特征向量输入所述多模态解码器,通过所述多模态解码器输出所述多模态训练数据对应的第一情感类别预测结果;
55、根据所述第一情感类别预测结果和所述多模态训练数据中的情感标签,训练所述第一多模态情感识别模型。
56、在一种可能的实现方式中,所述第一多模态情感识别模型还包括适配模块;
57、所述第一训练模块用于:
58、通过所述适配模块对所述第一音频特征向量进行降维,得到所述第一音频特征向量对应的第一降维特征向量;
59、通过所述融合模块对所述第一文本特征向量和所述第一降维特征向量进行融合,得到所述多模态训练数据对应的第一融合特征向量。
60、在一种可能的实现方式中,所述第一训练模块用于:
61、通过所述融合模块基于交叉注意力机制对所述第一降维特征向量进行处理,得到所述第一音频特征向量对应的第二降维特征向量;
62、通过所述融合模块对所述第一文本特征向量和所述第二降维特征向量进行拼接或相加,得到所述多模态训练数据对应的第一融合特征向量。
63、在一种可能的实现方式中,任意一项多模态训练数据还包括说话人标签;
64、所述第二训练模块用于:
65、对于所述多模态训练数据集中的任意一项多模态训练数据,通过所述文本编码器提取所述多模态训练数据中的训练文本对应的第二文本特征向量,通过所述音频编码器提取所述多模态训练数据中的训练音频对应的第二音频特征向量,并通过所述说话人编码器提取所述训练音频对应的第一说话人特征向量;
66、通过所述融合模块对所述第一文本特征向量、所述第一音频特征向量和所述第一说话人特征向量进行融合,得到所述多模态训练数据对应的第二融合特征向量;
67、将所述第二融合特征向量输入所述多模态解码器,通过所述多模态解码器输出所述多模态训练数据对应的第二情感类别预测结果;
68、将所述第一说话人特征向量输入所述说话人解码器,通过所述说话人解码器输出所述多模态训练数据对应的第二说话人预测结果;
69、根据所述第二情感类别预测结果与所述多模态训练数据中的情感标签之间的差异信息,以及所述第二说话人预测结果与所述多模态训练数据中的说话人标签之间的差异信息,训练所述第二多模态情感识别模型。
70、在一种可能的实现方式中,所述装置还包括:
71、说话人预测模块,用于对于所述多模态训练数据集中的任意一项多模态训练数据,将所述多模态训练数据中的训练音频输入说话人识别模型,通过所述说话人识别模型输出所述训练音频对应的第一说话人预测结果;其中,所述说话人识别模型包括所述说话人编码器、所述说话人解码器和说话人分类器;
72、第三训练模块,用于根据所述第一说话人预测结果和所述多模态训练数据中的说话人标签,对所述说话人识别模型进行训练。
73、在一种可能的实现方式中,所述装置还包括:
74、第四训练模块,用于采用所述多模态训练数据集中的多模态训练数据中的训练音频,训练得到所述音频编码器。
75、在一种可能的实现方式中,所述装置还包括:
76、第五训练模块,用于采用所述多模态训练数据集中的多模态训练数据中的训练文本,训练得到所述文本编码器。
77、在一种可能的实现方式中,所述装置还包括:
78、删除模块,用于响应于所述第二多模态情感识别模型训练至满足所述第二预设训练条件,删除所述第二多模态情感识别模型中的所述说话人解码器,得到第三多模态情感识别模型。
79、根据本公开的一方面,提供了一种情感识别装置,包括:
80、获取模块,用于获取所述情感识别模型的训练方法获得的第三多模态情感识别模型;
81、第二获得模块,用于获得待处理的多模态数据,其中,所述待处理的多模态数据包括待处理音频和待处理文本;
82、情感识别模块,用于将所述待处理音频和所述待处理文本输入所述第三多模态情感识别模型,得到所述待处理的多模态数据对应的情感类别预测结果。
83、在一种可能的实现方式中,所述第二获得模块用于:
84、获得待处理音频;
85、对所述待处理音频进行语音识别,得到待处理文本。
86、根据本公开的一方面,提供了一种电子设备,包括:一个或多个处理器;用于存储可执行指令的存储器;其中,所述一个或多个处理器被配置为调用所述存储器存储的可执行指令,以执行上述方法。
87、根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
88、根据本公开的一方面,提供了一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行上述方法。
89、在本公开实施例中,通过获得多模态训练数据集,其中,所述多模态训练数据集包括多项多模态训练数据,采用所述多模态训练数据集,训练第一多模态情感识别模型,其中,所述第一多模态情感识别模型包括文本编码器、音频编码器、融合模块和多模态解码器,响应于所述第一多模态情感识别模型训练至满足第一预设训练条件,在所述第一多模态情感识别模型中增加说话人编码器和说话人解码器,得到第二多模态情感识别模型,并采用所述多模态训练数据集,训练所述第二多模态情感识别模型,直至满足第二预设训练条件,由此提出了一种分阶段的联合训练方式,利用多模态数据来提升情感识别模型的效果,并且注入说话人自适应的信息,使得情感识别模型的泛化性更强,面对不同的说话人更加鲁棒。本公开实施例训练得到的多模态情感识别模型能够实现说话人自适应的多模态情感识别。
90、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。
91、根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
1.一种情感识别模型的训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,在训练所述第二多模态情感识别模型的过程中,固定所述文本编码器和所述音频编码器的参数,更新所述说话人编码器、所述说话人解码器、所述融合模块和所述多模态解码器的参数。
3.根据权利要求1所述的方法,其特征在于,任意一项多模态训练数据包括情感标签、训练文本和训练音频;
4.根据权利要求3所述的方法,其特征在于,所述第一多模态情感识别模型还包括适配模块;
5.根据权利要求4所述的方法,其特征在于,所述通过所述融合模块对所述第一文本特征向量和所述第一降维特征向量进行融合,得到所述多模态训练数据对应的第一融合特征向量,包括:
6.根据权利要求3所述的方法,其特征在于,任意一项多模态训练数据还包括说话人标签;
7.根据权利要求1所述的方法,其特征在于,在所述采用所述多模态训练数据集,训练第一多模态情感识别模型之前,所述方法还包括:
8.根据权利要求1所述的方法,其特征在于,在所述采用所述多模态训练数据集,训练第一多模态情感识别模型之前,所述方法还包括:
9.根据权利要求1所述的方法,其特征在于,在所述采用所述多模态训练数据集,训练第一多模态情感识别模型之前,所述方法还包括:
10.根据权利要求1至9中任意一项所述的方法,其特征在于,所述方法还包括:
11.一种情感识别方法,其特征在于,包括:
12.根据权利要求11所述的方法,其特征在于,所述获得待处理的多模态数据,包括:
13.一种情感识别模型的训练装置,其特征在于,包括:
14.一种情感识别装置,其特征在于,包括:
15.一种电子设备,其特征在于,包括:
16.一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,所述计算机程序指令被处理器执行时实现权利要求1至12中任意一项所述的方法。
17.一种计算机程序产品,包括计算机可读代码,或者承载有计算机可读代码的非易失性计算机可读存储介质,其特征在于,当所述计算机可读代码在电子设备中运行时,所述电子设备中的处理器执行权利要求1至12中任意一项所述的方法。