语音合成方法、装置、设备、介质及程序产品与流程

专利2025-09-14 126

本申请涉及人工智能，特别涉及一种语音合成方法、装置、设备、介质及程序产品。

背景技术：

1、语音合成技术作为人工智能技术领域的一个重要分支，时下受到了人们的广泛关注。其中，语音合成是一种将计算机生成的或外部输入的文本数据转换为音频数据的技术，目前广泛应用在有声读物、智能客服、音色转换、语音合成助手等多个场景中。

2、其中，合成的音频数据的质量会严重影响用户听觉体验。比如，合成的音频数据的音质和音色越佳，用户的听觉体验便越好；反之亦然。

3、为此，目前亟需一种新的语音合成方法，来提升音频数据的质量。

技术实现思路

1、本申请实施例提供了一种语音合成方法、装置、设备、介质及程序产品，能够将各个特征充分融合，使得计算机设备能够充分了解各个词语的语义和对应的发声特点，进而能够合成质量更高的音频数据。所述技术方案如下：

2、一方面，提供了一种语音合成方法，所述方法包括：

3、获取待转换的文本数据的第一文本特征和目标对象的声学特征，所述第一文本特征中包括所述文本数据中各个词语的第一词语特征；

4、为所述各个词语的第一词语特征确定第一融合权重；

5、基于所述第一融合权重，对所述各个词语的第一词语特征进行特征融合，得到第二文本特征，所述第二文本特征中包括与各个第一词语特征对应的第二词语特征；

6、将所述第二文本特征和所述声学特征进行特征拼接，得到拼接特征；

7、为所述拼接特征中每个维度上的特征分量确定第二融合权重；

8、基于第二融合权重，对所述拼接特征中每个维度上的特征分量进行特征融合，得到融合特征；

9、对所述融合特征进行语音合成，得到所述目标对象的音频数据。

10、另一方面，提供了一种语音合成装置，所述装置包括：

11、第一获取模块，用于获取待转换的文本数据的第一文本特征和目标对象的声学特征，所述第一文本特征中包括所述文本数据中各个词语的第一词语特征；

12、第一权重确定模块，用于为所述各个词语的第一词语特征确定第一融合权重；

13、第一融合模块，用于基于所述第一融合权重，对所述各个词语的第一词语特征进行特征融合，得到第二文本特征，所述第二文本特征中包括与各个第一词语特征对应的第二词语特征；

14、拼接模块，用于将所述第二文本特征和所述声学特征进行特征拼接，得到拼接特征；

15、第二权重确定模块，用于为所述拼接特征中每个维度上的特征分量确定第二融合权重；

16、第二融合模块，用于基于第二融合权重，对所述拼接特征中每个维度上的特征分量进行特征融合，得到融合特征；

17、语音合成模块，用于对所述融合特征进行语音合成，得到所述目标对象的音频数据。

18、另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如上述任一实现方式所述的语音合成方法。

19、另一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述任一实现方式所述的通话中的语音合成方法。

20、另一方面，提供了一种计算机程序产品，所述计算机程序产品包括至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如上述任一实现方式所述的通话中的语音合成方法。

21、本申请实施例提供的技术方案的有益效果至少包括：

22、本申请实施例提供了一种语音合成方法，在合成语音数据之前，先对文本特征中各个词语的词语特征进行了特征融合，使得计算机设备能够充分地了解文本特征的语义；又将文本特征与声学特征拼接后，对每个维度上的特征分量进行特征融合，使得每个词语的词语特征与声学特征能够充分融合，使得计算机设备能够充分地了解各个词语的语义和对应的发声特点，进而基于融合后的特征能够合成质量更高的音频数据。

技术特征：

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述为所述各个词语的第一词语特征确定第一融合权重，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第i个第一词语特征与所述第i-1个第二词语特征的相似度，确定所述第i-1个第二词语特征的权重，包括：

4.根据权利要求2所述的方法，其特征在于，所述权重包括多个子权重，每个子权重对应所述第i-1个第二词语特征在一个特征空间内的映射特征，所述子权重用于指示将对应的映射特征融合到所述第i个第一词语特征中；

5.根据权利要求1所述的方法，其特征在于，所述为所述各个词语的第一词语特征确定第一融合权重，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第一融合权重，对所述各个词语的第一词语特征进行特征融合，得到第二文本特征，包括：

7.根据权利要求2所述的方法，其特征在于，为第i个第一词语特征确定的第一融合权重还包括其他第一词语特征的权重，所述其他第一词语特征是所述第一文本特征中除所述第i个第一词语特征之外的第一词语特征；

8.根据权利要求7所述的方法，其特征在于，确定所述其他第一词语特征的权重的过程，包括：

9.根据权利要求1所述的方法，其特征在于，所述对所述融合特征进行语音合成，得到所述目标对象的音频数据，包括：

10.根据权利要求1所述的方法，其特征在于，所述第二文本特征、所述拼接特征、所述融合特征和所述目标对象的音频数据是基于语音合成模型获取的；

11.根据权利要求10所述的方法，其特征在于，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，所述方法还包括：

13.一种语音合成装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以实现如权利要求1至12任一项所述的语音合成方法。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至12任一项所述的语音合成方法。

16.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以实现如权利要求1至12任一项所述的语音合成方法。

技术总结
本申请提供了一种语音合成方法、装置、设备、介质及程序产品，属于人工智能技术领域。该方法包括：获取第一文本特征和声学特征；为第一文本特征中各个词语的第一词语特征确定第一融合权重；基于第一融合权重，对各个词语的第一词语特征进行特征融合，得到第二文本特征；将第二文本特征和声学特征进行特征拼接，得到拼接特征；为拼接特征中每个维度上的特征分量确定第二融合权重；基于第二融合权重，对拼接特征中每个维度上的特征分量进行特征融合，得到融合特征；对融合特征进行语音合成，得到目标对象的音频数据。该方案能够将各个特征充分融合，使得计算机设备能够充分了解各个词语的语义和对应的发声特点，进而能够合成质量更高的音频数据。

技术研发人员：陈孝良,常乐,黄赟贺,涂贤玲
受保护的技术使用者：北京声智科技有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1823925.html

专利

最新回复(0)