有声视频的生成系统、方法、存储介质及计算机程序产品与流程

专利2025-08-07 56

本公开涉及视频处理领域，特别涉及一种有声视频的生成系统、方法、存储介质及计算机程序产品。

背景技术：

1、有声视频是一种结合视觉元素和听觉元素的多媒体内容，通过同时呈现图像和声音来传达信息和情感。有声视频在当今数字化时代扮演着重要的角色，被广泛应用于广告营销、电影制作、教育培训和社交媒体传播等领域。尤其是，有声视频通过将声音和图像结合，能够更加生动、真实和全面的传达信息，激发观众的情感共鸣。但是，为了进一步满足观众的观看体验，可能会存在对视频中的声音部分进行替换需求。例如，某演讲者的原始演讲视频为英文版本，而观众更期望看到中文版本的演讲视频，那么就会存对音频部分进行语言转换的需求。

2、但是，若原始视频的图像主体为人物，如果直接将新音频和视频简单的结合，那么人物嘴型与声音之间会出现错位的问题，会极大地降低所生成的新视频的真实度，那么也就无法发挥有声视频给观众带来情感共鸣的优势。

技术实现思路

1、为了解决前述问题的至少之一，本公开提供了一种有声视频的生成系统、方法、存储介质及计算机程序产品。

2、根据本公开的一个方面提供了一种有声视频的生成系统，包括：处理器；存储器；以及计算机程序，其中计算机程序存储在存储器上，当所述计算机程序被所述处理器执行时，使得所述有声视频的生成系统执行以下过程：基于原始视频的原始影像和目标语音，获得影像光流集，其中所述影像光流集用于指示所述原始影像中各个像素点的移位量；根据所述影像光流集和所述原始影像中发音主体的面部特征信息，生成目标影像；将所述目标影像和所述原始影像进行融合，形成目标有声视频。

3、在一些实施方式中，所述处理器，在基于原始视频的原始影像和目标语音，获得影像光流集时，用于：根据所述目标语音，确定所述发音主体的多个面部关键点的目标位置数据；对所述原始影像进行分析，获得所述发音主体的多个所述面部关键点的原始位置数据；基于所述目标位置数据和所述原始位置数据，确定所述原始影像中任一原始图片帧的影像光流，其中所述影像光流表征所述原始图片帧中所述发音主体由所述原始视频的声音信息变化至所述目标语音时各个像素点的移位量。

4、在一些实施方式中，所述处理器，在基于所述目标位置数据和所述原始位置数据，确定所述原始影像中任一原始图片帧的影像光流时，用于：根据所述原始图片帧的时序信息，确定与所述原始图片帧在时序上相邻的多个关联帧的关联数据，其中所述关联数据包括所述关联帧、所述关联帧的目标位置数据和所述关联帧的原始位置数据；基于所述原始图片帧的所述目标位置数据、所述原始位置数据以及各个所述关联数据，确定所述原始图片帧中各个像素点的移位量，形成所述影像光流。

5、在一些实施方式中，所述处理器，在根据所述影像光流集和所述原始影像中发音主体的面部特征信息，生成目标影像时，用于：调用移位模型，按照所述影像光流集中对应于所述原始影像中任一原始图片帧的影像光流，对所述原始图片帧进行像素点首次移位，获得过程图片帧，其中所述过程图片帧中所述发音主体的各个面部关键点的目标位置数据与所述目标语音相适应；基于所述面部特征信息，对所述过程图片帧进行像素点二次移位，获得目标图片帧，其中所述目标图片帧中所述发音主体的各个面部关键点的目标位置数据与所述发音主体的所述面部特征信息相适应。

6、在一些实施方式中，所述处理器，在按照所述影像光流集中对应于所述原始影像中任一原始图片帧的影像光流，对所述原始图片帧进行像素点首次移位，获得过程图片帧之前，还用于：调用原始模型，按照预测光流执行对样本图像的像素点移位，获得预测移位结果；计算所述预测移位结果与期望结果的偏差值；当所述偏差值大于偏差阈值时，对所述原始模型进行参数优化，直至所述偏差值小于或等于偏差阈值，以优化后的所述原始模型作为所述移位模型。

7、在一些实施方式中，所述处理器，在基于原始视频的原始影像和目标语音，获得影像光流集之前，还用于：对所述原始视频中的声音信息进行处理，获得目标语音。

8、在一些实施方式中，所述处理器，在对所述原始视频中的声音信息进行处理，获得目标语音时，用于：识别所述声音信息的原始文本和声音特征；将所述原始文本翻译为目标文本；调用语音转换模型，按照所述声音特征将所述目标文本转换为所述目标语音。

9、根据本公开的另一个方面提供了一种有声视频的生成方法，包括：基于原始视频的原始影像和目标语音，获得影像光流集，其中所述影像光流集用于指示所述原始影像中各个像素点的移位量；根据所述影像光流集和所述原始影像中发音主体的面部特征信息，生成目标影像；将所述目标影像和所述原始影像进行融合，形成目标有声视频。

10、根据本公开的又一个方面提供了一种可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行本公开任一个实施方式的有声视频的生成方法。

11、根据本公开的再一个方面提供了一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现本公开任一个实施方式的有声视频的生成方法。

技术特征：

1.一种有声视频的生成系统，其特征在于，包括：处理器；存储器；以及计算机程序，其中所述计算机程序存储在所述存储器上，当所述计算机程序被所述处理器执行时，使得所述有声视频的生成系统执行以下过程：

2.根据权利要求1所述的有声视频的生成系统，其特征在于，所述处理器，在基于原始视频的原始影像和目标语音，获得影像光流集时，用于：

3.根据权利要求2所述的有声视频的生成系统，其特征在于，所述处理器，在基于所述目标位置数据和所述原始位置数据，确定所述原始影像中任一原始图片帧的影像光流时，用于：

4.根据权利要求1所述的有声视频的生成系统，其特征在于，所述处理器，在根据所述影像光流集和所述原始影像中发音主体的面部特征信息，生成目标影像时，用于：

5.根据权利要求4所述的有声视频的生成系统，其特征在于，所述处理器，在按照所述影像光流集中对应于所述原始影像中任一原始图片帧的影像光流，对所述原始图片帧进行像素点首次移位，获得过程图片帧之前，还用于：

6.根据权利要求1所述的有声视频的生成系统，其特征在于，所述处理器，在基于原始视频的原始影像和目标语音，获得影像光流集之前，还用于：

7.根据权利要求6所述的有声视频的生成系统，其特征在于，所述处理器，在对所述原始视频中的声音信息进行处理，获得目标语音时，用于：

8.一种有声视频的生成方法，其特征在于，包括：

9.一种可读存储介质，其特征在于，所述可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求8所述的有声视频的生成方法。

10.一种计算机程序产品，包括计算机程序/指令，其特征在于，所述计算机程序/指令被处理器执行时实现权利要求8所述的有声视频的生成方法。

技术总结
本公开提供了一种有声视频的生成系统，包括：处理器；存储器；以及计算机程序，其中计算机程序存储在存储器上，当计算机程序被处理器执行时，使得视频的生成系统执行以下过程：基于原始视频的原始影像和目标语音，获得影像光流集，其中影像光流集用于指示原始影像中各个像素点的移位量；根据影像光流集和原始影像中发音主体的面部特征信息，生成目标影像；将目标影像和原始影像进行融合，形成目标有声视频。本公开还提供一种有声视频的生成方法、存储介质及计算机程序产品。

技术研发人员：孙瑜博,侯学东,唐旻杰,吕达
受保护的技术使用者：出门问问（苏州）信息科技有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1823637.html

专利

最新回复(0)