本发明涉及数字医疗领域,尤其涉及一种情绪引导音频生成方法、装置、电子设备及可读存储介质。
背景技术:
1、目前常见的抑郁症治疗方法多为心理医生对抑郁症患者进行引导治疗,但由于心理健康从业者的数量满足不了社会需求,从而导致在社会上还有很大一群抑郁症患者无法得到及时的引导治疗,错过最佳治疗时间。
2、随着人工智能技术的发展,设计一款有效的具有情感的语音合成技术,以对抑郁症患者进行引导治疗是很必要的。但是,传统的语音合成技术对训练数据的情感提取不足,在自然流畅度、韵律轻重等方面具有较大缺陷,往往无法提供高质量、自然流畅的语音体验,导致生成的情绪引导的声音不够人性化,不能实现对抑郁症患者有效的引导治疗。
技术实现思路
1、本发明提供一种情绪引导音频生成方法、装置、电子设备及可读存储介质,其目的在于能够及时为抑郁症患者提供有效的引导治疗音频,减小心理医生的工作压力。
2、为实现上述目的,本发明提供的一种情绪引导音频生成方法,所述方法包括:
3、获取待合成引导文本及心理医生参考音频的参考梅尔频谱,并对所述待合成引导文本进行音素转换,得到文本音素序列;
4、对所述文本音素序列进行编码,得到文本特征向量,并提取所述参考梅尔频谱的音频特征,得到音频特征向量;
5、利用预设情感风格识别模型识别所述音频特征向量的音频情感风格向量;
6、将所述文本特征向量与所述音频情感风格向量进行拼接,得到文本音频拼接向量,并利用预设的变量预测器提取所述文本音频拼接向量中的目标人声特征向量;
7、对所述目标人声特征向量进行梅尔频谱预测,得到目标梅尔频谱,并对所述目标梅尔频谱进行音频转换,得到情绪引导音频。
8、可选地,所述利用预设情感风格识别模型识别所述音频特征向量的音频情感风格向量,包括:
9、利用预设情感风格识别模型中的第一情感风格注意力模块对所述音频特征向量进行向量加权,得到第一加权情感风格向量;
10、利用预设情感风格识别模型中的第二情感风格注意力模块对所述第一加权情感风格向量进行向量加权,得到第二加权情感风格向量;
11、利用预设情感风格识别模型中的第三情感风格注意力模块对所述二加权情感风格向量进行向量加权,得到第三加权情感风格向量;
12、利用预设情感风格识别模型中的情感风格分类模块对所述第三加权情感风格向量进行线性计算,得到音频情感风格向量。
13、可选地,所述对所述待合成引导文本进行音素转换,得到文本音素序列,包括:
14、对所述待合成引导文本进行语句切分处理,得到语句切分文本;
15、对所述语句切分文本中的非文字进行文字转化,得到目标语句切分文本;
16、对所述目标语句切分文本进行分词处理,得到分词文本;
17、根据预设的文字音素映射词典,对所述分词文本进行映射,得到音素数据;
18、对所述音素数据进行向量转化,得到音素向量;
19、按照所述待合成引导文本的文本顺序对所述音素向量进行编码排序,得到文本音素序列。
20、可选地,所述利用预设的变量预测器提取所述文本音频拼接向量中的目标人声特征向量,包括:
21、利用所述变量预测器中的音素时长预测器计算所述文本音频拼接向量中每个文本音素的持续时长特征向量;
22、利用预设的变量预测器中的音素音高预测器计算所述文本音频拼接向量中每个文本音素的音素能量特征向量;
23、利用预设的变量预测器中的音素能量预测器计算所述文本音频拼接向量中每个文本音素的音素音高特征向量;
24、将所述持续时长特征向量、所述音素能量特征向量及所述音素音高特征向量按照人声特征的对应关系进行合并,得到目标人声特征向量。
25、可选地,所述对所述目标梅尔频谱进行音频转换,得到引导音频,包括:
26、利用预设声码器对所述目标梅尔频谱进行语音波形转换,得到引导语音波形;
27、对所述引导语音波形进行取样处理,得到取样语音波形;
28、对所述取样语音波形进行量化处理,得到量化语音波形;
29、对所述量化语音波形进行编码处理,得到引导音频。
30、可选地,所述对所述文本音素序列进行编码,得到文本特征向量,包括:
31、对所述音素序列进行卷积处理,得到降维特征向量;
32、对所述降维特征向量进行批归一化处理,得到优化特征向量;
33、利用预设的双向长短时记忆网络,对所述优化特征向量进行上下文特征提取,得到文本特征向量。
34、可选地,所述利用预设情感风格识别模型识别所述音频特征向量的音频情感风格向量之后,还包括;
35、利用预设的余弦相似度算法计算任意两个音频情感风格向量的向量相似度;
36、判断所述向量相似度是否大于预设阈值;
37、当所述向量相似度大于所述预设阈值时,判定所述任意两个音频情感风格向量的情感风格差异巨大;
38、当所述向量相似度不大于所述预设阈值时,对所述任意两个音频情感风格向量进行向量比对,将其中不同的部分视作所述任意两个音频情感风格向量的特征分布。
39、为了解决上述问题,本发明还提供一种情绪引导音频生成装置,所述装置包括:
40、音频特征提取模块,用于获取待合成引导文本及心理医生参考音频的参考梅尔频谱,并对所述待合成引导文本进行音素转换,得到文本音素序列,对所述文本音素序列进行编码,得到文本特征向量,并提取所述参考梅尔频谱的音频特征,得到音频特征向量;
41、音频情绪风格提取模块,用于利用预设情感风格识别模型识别所述音频特征向量的音频情感风格向量;
42、情绪引导音频生成模块,用于将所述文本特征向量与所述音频情感风格向量进行拼接,得到文本音频拼接向量,并利用预设的变量预测器提取所述文本音频拼接向量中的目标人声特征向量,对所述目标人声特征向量进行梅尔频谱预测,得到目标梅尔频谱,并对所述目标梅尔频谱进行音频转换,得到情绪引导音频。
43、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
44、存储器,存储至少一个计算机程序;及
45、处理器,执行所述存储器中存储的计算机程序以实现上述所述的情绪引导音频生成方法。
46、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的情绪引导音频生成方法。
47、本发明实施例通过对待合成引导文本进行音素转换,避免了一词多音的问题造成的发音错误,提高了合成的音频的准确率,进一步地,识别音频特征向量的音频风格,并对所述音频风格进行情感嵌入,扩大了音频风格之间的区别,其次,并利用预设的变量预测器提取文本音频拼接向量中的目标人声特征向量,可以保证合成的目标引导音频能够更贴近心理医生的人声特征,提高抑郁症患者对目标引导音频的接受程度。因此,本发明提供的一种情绪引导音频生成方法、装置、设备及存储介质,能够及时为抑郁症患者提供有效的引导治疗音频,减小心理医生的工作压力。
1.一种情绪引导音频生成方法,其特征在于,所述方法包括:
2.如权利要求1所述的情绪引导音频生成方法,其特征在于,所述利用预设情感风格识别模型识别所述音频特征向量的音频情感风格向量,包括:
3.如权利要求1所述的情绪引导音频生成方法,其特征在于,所述对所述待合成引导文本进行音素转换,得到文本音素序列,包括:
4.如权利要求1所述的情绪引导音频生成方法,其特征在于,所述利用预设的变量预测器提取所述文本音频拼接向量中的目标人声特征向量,包括:
5.如权利要求1所述的情绪引导音频生成方法,其特征在于,所述对所述目标梅尔频谱进行音频转换,得到引导音频,包括:
6.如权利要求1所述的情绪引导音频生成方法,其特征在于,所述对所述文本音素序列进行编码,得到文本特征向量,包括:
7.如权利要求1所述的情绪引导音频生成方法,其特征在于,所述利用预设情感风格识别模型识别所述音频特征向量的音频情感风格向量之后,还包括;
8.一种情绪引导音频生成装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的情绪引导音频生成方法。