一种在视频中实现等效声纹情感配音的系统与方法与流程

专利2026-02-17 35

本发明属于视频处理，具体涉及一种在视频中实现等效声纹情感配音的系统与方法。

背景技术：

1、随着视频内容在互联网和多媒体平台上的普及，对视频内容的质量和观感提出了更高的要求。然而，在视频制作过程中，往往存在着声音与画面之间不匹配的问题，尤其是在需要情感表达的场景中。传统的配音技术虽然可以解决这一问题，但其需要大量的人力和时间成本。因此，需要一种自动化的系统与方法，能够在视频中实现情感配音，提升视频观感，降低制作成本。

技术实现思路

1、本发明要解决的技术问题是克服现有的缺陷，提供一种在视频中实现等效声纹情感配音的系统与方法，通过视频中的人物进行声音合成，以在保持原始语音节奏和音调的同时，调整其情感表达，实现对视频内容的情感配音。该系统通过将情感识别算法与声纹合成技术相结合，能够在不修改原始视频的情况下，为视频中的角色自动生成符合其表情和情感的声音，提高视频观感，增强用户体验。

2、为实现上述目的，本发明提供如下技术方案：一种在视频中实现等效声纹情感配音的系统，包括以下模块：视频输入模块、声纹分析模块、情感识别模块、声纹合成模块和输出模块。

3、优选的，所述视频输入模块用于接收原始视频文件。

4、优选的，所述声纹分析模块用于从视频中提取人物的声纹特征。

5、优选的，所述情感识别模块用于识别视频中人物的情感状态。

6、优选的，所述声纹合成模块用于根据情感状态调整声纹特征，并生成新的声音。

7、优选的，所述输出模块用于将新生成的声音与原始视频进行合成输出。

8、一种用于实现上述系统的方法，包括以下步骤：

9、步骤一、通过视频输入模块导入原始电影文件；

10、步骤二、系统自动提取角色的声纹特征和情感状态；

11、步骤三、然后根据情感识别结果，在声纹合成模块中调整声音特征，生成新的声音；

12、步骤四、最后，通过输出模块将新生成的声音与原始视频进行合成输出，得到情感更加丰富的电影作品。

13、与现有技术相比，本发明提供了一种在视频中实现等效声纹情感配音的系统与方法，具备以下有益效果：本系统采用自动化技术，无需人工干预，能够在短时间内完成对视频的情感配音；基于声纹分析和情感识别技术，能够准确捕捉视频中人物的声音特征和情感状态，精准度高；相比传统的配音方式，本系统无需额外的人力资源和时间成本，能够降低视频制作的成本。

技术特征：

1.一种在视频中实现等效声纹情感配音的系统，其特征在于，包括以下模块：视频输入模块、声纹分析模块、情感识别模块、声纹合成模块和输出模块。

2.根据权利要求1所述的一种在视频中实现等效声纹情感配音的系统，其特征在于：所述视频输入模块用于接收原始视频文件。

3.根据权利要求1所述的一种在视频中实现等效声纹情感配音的系统，其特征在于：所述声纹分析模块用于从视频中提取人物的声纹特征。

4.根据权利要求1所述的一种在视频中实现等效声纹情感配音的系统，其特征在于：所述情感识别模块用于识别视频中人物的情感状态。

5.根据权利要求1所述的一种在视频中实现等效声纹情感配音的系统，其特征在于：所述声纹合成模块用于根据情感状态调整声纹特征，并生成新的声音。

6.根据权利要求1所述的一种在视频中实现等效声纹情感配音的系统，其特征在于：所述输出模块用于将新生成的声音与原始视频进行合成输出。

7.一种用于实现上述系统的方法，其特征在于：包括以下步骤：

技术总结
本发明公开了一种在视频中实现等效声纹情感配音的系统与方法，包括以下模块：视频输入模块、声纹分析模块、情感识别模块、声纹合成模块和输出模块；所述视频输入模块用于接收原始视频文件；所述声纹分析模块用于从视频中提取人物的声纹特征；所述情感识别模块用于识别视频中人物的情感状态；所述声纹合成模块用于根据情感状态调整声纹特征，并生成新的声音；本系统采用自动化技术，无需人工干预，能够在短时间内完成对视频的情感配音；基于声纹分析和情感识别技术，能够准确捕捉视频中人物的声音特征和情感状态，精准度高；相比传统的配音方式，本系统无需额外的人力资源和时间成本，能够降低视频制作的成本。

技术研发人员：陈啸冬,曹宇飞,张良
受保护的技术使用者：苏州小同科技有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1827736.html

专利

最新回复(0)