视频处理方法、装置、电子设备和存储介质与流程

专利2022-05-09 226

本公开涉及信息技术领域，尤其涉及一种视频处理方法、装置、电子设备和存储介质。

背景技术：

随着信息技术的发展，终端成为人们生活中不可或缺的设备。例如，用户可以通过终端观看视频。

当前的一些视频可能是其他语种的视频，用户可能听不懂视频中的音频内容。而目前已有的技术是在视频中显示用户可以读懂的字幕，但有些情况下用户浏览字幕的速度可能无法与字幕的显示速度相匹配，从而降低了用户体验。

技术实现要素：

为了解决上述技术问题或者至少部分地解决上述技术问题，本公开实施例提供了一种视频处理方法、装置、电子设备和存储介质。

本公开实施例提供了一种视频处理方法，所述方法包括：

获取原视频中的第一字幕；

对所述第一字幕进行翻译，得到第二字幕；

确定配音的目标语速；

根据所述配音的目标语速生成所述第二字幕对应的配音音频。

本公开实施例还提供了一种视频处理装置，包括：

获取模块，用于获取原视频中的第一字幕；

翻译模块，用于对所述第一字幕进行翻译，得到第二字幕；

确定模块，用于确定配音的目标语速；

配音模块，用于根据所述配音的目标语速生成所述第二字幕对应的配音音频。

本公开实施例还提供了一种电子设备，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上所述的视频处理方法。

本公开实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上所述的视频处理方法。

本公开实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序或指令，该计算机程序或指令被处理器执行时实现如上所述的视频处理方法。

本公开实施例提供的技术方案与现有技术相比至少具有如下优点：本公开实施例提供的技术方案通过设置获取原视频中的第一字幕；对第一字幕进行翻译，得到第二字幕；确定配音的目标语速；根据配音的目标语速生成第二字幕对应的配音音频，可以实现生成视频观看者所能理解的配音音频，可以帮助用户降低对视频内容的理解难度，提高用户体验。

此外，本公开实施例提供的视频处理方法，通过确定目标字幕的显示时长、以及配音的目标语速，以实现对目标字幕的显示时长和/或第二字幕对应的配音音频的持续时间进行调整，使得配音音频持续时长与目标字幕的显示时长在误差允许的范围内相一致，从而解决针对相同的意思，因不同语种所表达的语句的长短可能是不一样的，导致配音时长与字幕显示时长不匹配的问题，提高用户体验。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。

图1为本公开实施例提供的一种视频处理方法的流程图；

图2为本公开实施例提供的一种视频中图像帧的示意图；

图3为本公开实施例提供的另一种视频处理方法的流程图；

图4为本公开实施例提供的一种用于实现s130的方法的流程图；

图5为本公开实施例提供的另一种用于实现s130的方法的流程图；

图6为本公开实施例提供的另一种用于实现s130的方法的流程图；

图7为本公开实施例提供的另一种视频处理方法的流程图；

图8为本公开实施例提供的一种视频处理装置的结构示意图；

图9为本公开实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

图1为本公开实施例提供的一种视频处理方法的流程图，本实施例可适用于客户端中对视频进行配音的情况，该方法可以由视频处理装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如终端，具体包括但不限于智能手机、掌上电脑、平板电脑、带显示屏的可穿戴设备、台式机、笔记本电脑、一体机、智能家居设备等。或者，本实施例可适用于服务端中对视频进行配音的情况，该方法可以由视频处理装置执行，该装置可以采用软件和/或硬件的方式实现，该装置可配置于电子设备中，例如服务器。

如图1所示，该方法具体可以包括：

s1、获取原视频中的第一字幕。

第一字幕与原视频人物说话所使用的语种一致，示例性地，若视频中人物使用英文说话，第一字幕为英文形式。

本步骤的实现方法有多种，本申请对此不作限制。示例性地，若原视频中包括第一字幕，可以直接提取第一字幕。

或者，若原视频中不包括第一字幕，对原视频中的任一段音频进行语音识别，得到第一字幕。此时，第一字幕是原视频中任一段音频对应的字幕。

此处，任一段音频是指与视频中任一人物所说的任意一句话对应音频信息。

具体地，视频包括音频流和视频流。视频流包括多个图像帧。多个图像帧按时间顺序顺次播放，形成视频的动态图像。该视频中的人物在一些时间段内说话，在另一些时间段内不说话。音频流由多段音频构成，每一段音频对应视频中一个人物所说的一句话。一段音频与多个图像帧对应。

示例性地，图2为本公开实施例提供的一种视频中图像帧的示意图。参见图2，假设该视频中的人物在t0时间段和t3时间段内说话，在其余时间段内不说话。则t0时间段内的图像帧对应有一句连续的语音，t0时间段所对应的连续的语音构成一段音频。t3时间段内的图像帧对应有另一句连续的语音，t3时间段所对应的连续的语音构成一段音频。

可选地，在执行本步骤时，通过语音识别技术，对原视频中的任一段音频进行语音识别，得到第一字幕。例如，可以根据该音频中的语音停顿，将每一句连续的中文语音识别为一句连续的中文字幕。

s2、对第一字幕进行翻译，得到第二字幕。

第二字幕与第一字幕所使用的语种不同。示例性地，第一字幕为中文形式，第二字幕为英文形式。第二字幕使用视频观看者所能理解的语种。在实际设置时，第二字幕可以根据视频观看者需要进行设置。

s3、确定配音的目标语速。

本领域技术人员可以理解，为了实现对原视频进行配音的目的，需要以一定的语速阅读第二字幕。本步骤中，配音的目标语速是指用于阅读第二字幕的配音语速。

可选地，数据库中预先存储有多个配音音色数据，不同的配音音色数据具有与其对应的默认语速数据。在执行步骤时，选择配音音色数据，将所选择的配音音色对应的默认语速和/或对默认语速进行调整后的语速作为配音的目标语速。

需要说明的是，在执行本步骤时，需要确保以所确定的配音的目标语速阅读第二字幕，视频观看者能够听清。

s4、根据配音的目标语速生成第二字幕对应的配音音频。

本公开实施例提供的技术方案通过设置获取原视频中的第一字幕；对第一字幕进行翻译，得到第二字幕；确定配音的目标语速；根据配音的目标语速生成第二字幕对应的配音音频，可以实现生成视频观看者所能理解的配音音频，可以帮助用户降低对视频内容的理解难度，提高用户体验。

可选地，本申请上述技术方案所得到的配音音频可以单独播放，也可以将原视频中的音频替换为配音音频，得到配音后的视频。还可以将原视频与配音音频同步播放，实现在视频播放时，具有配音效果的目标。

图3为本公开实施例提供的一种视频处理方法的流程图。图3为图1中的一个具体示例。参见图3，该方法包括：

s110、对原视频中的任一段音频进行语音识别，得到第一字幕。

s120、对第一字幕进行翻译，得到第二字幕。

s130、确定目标字幕的显示时长、以及配音的目标语速，目标字幕包括第一字幕和/或第二字幕。

本领域技术人员可以理解，为了实现对原视频进行配音的目的，后续需要基于第二字幕生成配音音频，并使得配音音频持续时间与该配音音频对应的图像帧的播放时长(也可以理解为第一字幕和/或第二字幕的显示时长，即此处的目标字幕的显示时长)相当。这是因为如果配音音频的持续时长大于该配音音频对应的图像帧的播放时长，此时会出现配音音频还没结束，但图像帧已经播放完毕。如果配音音频的持续时长小于该配音音频对应的图像帧的播放时长，此时会出现配音音频已经结束，但该图像帧还在显示。这两种情况都会导致图像与音频不同步的问题，影响用户体验。

要使得配音音频持续时间与该配音音频对应的图像帧的播放时长相当，必须先明确两个参量，一个是配音音频持续时间，另一个是配音音频对应的图像帧的播放时长。

对应第一个参量，配音音频持续时间主要取决于两个量，一个是第二字幕的长度，另一个是配音的语速。由于在s120中已得到第二字幕，因此在本步骤中第二字幕的长度一定，此时配音音频持续时间主要取决于配音的语速。

因此，本步骤的实质是，通过确定合适的目标字幕的显示时长、以及配音的目标语速，以使得第二字幕对应的配音音频持续时长与目标字幕的显示时长在误差允许的范围内相一致。在一些实施例中，并不限定确定目标字幕的显示时长和确定配音的目标语速之间的先后顺序。另外，确定目标字幕的显示时长和确定配音的目标语速可以是两个相互独立的过程，也可以是相互关联的过程。

s140、根据配音的目标语速生成第二字幕对应的配音音频。

本步骤的实质是，以s130所确定的配音的目标语速阅读第二字幕中的文字信息，进行得的与第二字幕对应的配音音频。

s150、将原视频中的任一段音频替换为配音音频，得到目标视频，并在目标视频中与目标字幕的显示时长对应的画面中显示目标字幕。

示例性地，若原视频中的任一段音频为中文音频，配音音频为英文音频，利用英文音频替换原视频中的中文音频，得的目标视频。并在视频帧的画面中添加中文字幕和/或英文字幕。

本申请上述技术方案的实质是，通过确定目标字幕的显示时长、以及配音的目标语速，以实现对目标字幕的显示时长和/或第二字幕对应的配音音频的持续时间进行调整，使得配音音频持续时长与目标字幕的显示时长在误差允许的范围内相一致，从而解决针对相同的意思，因不同语种所表达的语句的长短可能是不一样的，导致配音时长与字幕展示时长不匹配的问题，提高用户体验。

在上述技术方案的基础上，可选地，s150还可以替换为：根据原视频中每一段音频分别对应的配音音频生成一个音频文件，该音频文件包括原视频中每一段音频分别对应的配音音频，以及每个配音音频的时间信息。在播放原视频时，根据原视频当前播放的时间进度以及各配音音频的时间信息，顺次调用并播放各配音音频。进一步地，每个配音音频的时间信息包括该配音音频的开始时间和/或结束时间。

示例性地，若基于某一原视频生成多个音频文件，各音频文件包括该音频文件对应的配音音频的开始时间。假设配音音频a的开始时间是从视频第一图像帧播放起算的第12秒。当该视频被播放，且播放到第12s时，调用并播放配音音频a。可选地，采用这种方式时，消除原视频的原有音频。进一步地，在消除原视频的原有音频时，仅消除原视频中人物说话的音频，保留原视频的背景音。

进一步，在播放目标视频的用户界面中可以显示有与该音频文件对应的播放按钮或图标。在该按钮或图标处于关闭状态时，目标视频中的音频还是原视频中的音频，即原视频中的音频没有被替换为相应的配音音频。在该按钮或图标处于开启状态时，原视频中的音频被替换为相应的配音音频，即目标视频中的音频变成了配音音频。或者，在该按钮或图标处于开启状态时，终端可以单独播放该配音音频。

在上述技术方案的基础上，进一步分析在执行s130时，如何确定目标字幕的显示时长、以及配音的目标语速，可以发现在实际中，主要包括两种情况：

情况一、针对原视频中一段音频，基于配音的默认语速和第二字幕，得到配音音频的持续时长。该配音音频的持续时长和原视频中该段音频的持续时长，两者原本在误差允许的范围内就相一致。此种情况，可以直接确定目标字幕的显示时长为该段音频对应的时间，配音的目标语速为默认语速。

其中，可选地，数据库中预先存储有多个配音音色数据，不同的配音音色数据具有与其对应的默认语速数据。配音的默认语速为所选择的配音音色对应的默认语速，基于数据库中存储的配音音色数据得到。

情况二、针对原视频中一段音频，基于配音的默认语速和第二字幕，得到配音音频的持续时长。该配音音频的持续时长和原视频中该段音频的持续时长，两者原本相差很大，不能认为在误差允许的范围内相一致。此种情况，可以基于原视频中该段音频的持续时间，确定目标字幕的显示时长；同时，基于配音的默认语速，确定配音的目标语速。

图4为本公开实施例提供的一种用于实现s130的方法的流程图。该方法适用于上述情况一。参见图4，该方法包括：

s1311、根据第二字幕的长度和配音的默认语速，确定配音的默认时长。

s1312、若任一段音频的时长大于或等于默认时长，且任一段音频的时长和默认时长之间的第一差异小于或等于第一阈值，则目标字幕的显示时长为任一段音频对应的时间，配音的目标语速为默认语速。

其中，“任一段音频的时长和默认时长之间的第一差异”可以为任一段音频的时长和默认时长之差的绝对值，也可以为任一段音频的时长和默认时长的比值。

这样设置的实质是，在误差允许的范围内容，若任一段音频的时长和与其对应的配音的默认时长一致，则直接确定目标字幕的显示时长为该段音频对应的时间，配音的目标语速为默认语速。

图5为本公开实施例提供的另一种用于实现s130的方法的流程图。该方法适用于上述情况二。参见图5，该方法包括：

s1321、根据第二字幕的长度和配音的默认语速，确定配音的默认时长。

s1322、若任一段音频的时长小于默认时长，则确定第二字幕的长度是否在预设范围内。

s1323、若第二字幕的长度在预设范围内，则增大目标字幕的显示时长，和/或提高配音的目标语速，使得目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度之间的第二差异小于或等于第二阈值。

目标字幕的显示时长为调整后任一段音频对应的画面的显示时长。

本领域技术人员可以理解，执行s1323时，若选择增大目标字幕的显示时长，增大后目标字幕的显示时长不能是无限的。若增大后目标字幕的显示时长过长(超出一定的限度)，意味着该段音频对应的图像帧的切换速度过慢，而其他音频对应的图像帧的切换速度正常，其会造成视频整体不和谐，影响用户体验。因此，可以采用设置时长调整参数的方式来限定目标字幕的最大显示时长。

具体地，若一组字幕的初始显示时长(即在原视频中，与该组字幕对应的音频的持续时长)为t1，时长调整参数为x1，调整后该字幕的显示时长为t2，则有t2＝t1/x1，此时x1是小于1的数。通过设置时长调整参数x1的最小取值，来限制调整后该字幕的显示时长的最大值。

可选地，“增大目标字幕的显示时长”的实现方法有多种，示例性地，增大目标字幕的显示时长的实现方法，包括：降低任一段音频对应的画面的显示速度。

进一步地，若采用降低任一段音频对应的画面的显示速度的方法，时长调整参数x1可视作为显示速度调整参数x1。

具体地，假设原视频中的某一段音频对应的画面的显示速度为v1，显示速度调整参数为x1，调整后该段音频对应的画面的显示速度为v2，则有v2＝v1·x1。通过设置显示速度调整参数x1的最小取值，来限制调整后该段音频对应的画面的显示速度的最小值，进而限制调整后目标字幕的显示时长的最大值。

示例性地，继续参见图2，假设t0时间段对应有20个图像帧，t0＝2s，说明t0时间段对应的图像帧原来的显示速度v1为20帧/2秒。如果将图像帧的显示速度调慢，调慢后的图像帧的显示速度记为v2，v2＝v1·x1，此时，x1是小于1的数。若设置x1最小值为0.9，即图像帧的显示速度最慢可以被调整为18帧/2秒，此时，相当于图像帧的显示速度被调慢了10％，而t0时间段对应的图像帧的总数20是固定的，因此，该20个图像帧的显示时长变为了t0/x1。将x1的值由1变为0.9，相当于增大了图像帧的显示时长，即增大了该组字幕的显示时长。

类似地，执行s1323时，若选择提高配音的目标语速，若提高后目标语速过快(超出一定的限度)，会导致用户听不清楚，影响用户体验。因此，可以采用设置语速调整参数的方式来限定目标语速的最大值。

具体地，假设为原视频中的某一段音频所选择的配音音色对应的默认语速为v3，语速调整参数为x2，调整后该配音音色对应的目标语速为v4，则有v4＝v3·x2。通过设置语速调整参数x2的最大取值，来限制调整后该配音音色的目标语速的最大值。

示例性地，将配音音色的默认语速记为v3，v3是固定的。配音音色的目标语速记为v4，v4的初始值为v3。配音音色的目标语速可以被调整，例如，如果提高该配音音色的目标语速，相当于v4＝v3·x2，此时，x2是大于1的数。若设置x2最大值是1.1，即目标语速最大可以是默认语速的1.1倍，这时候相当于将配音音色的目标语速调快了10％。

目标字幕的显示时长t2与配音的目标语速v4的乘积l1，可表示为l1＝t2·v4＝(t1/x1)(v3·x2)。即，以配音的目标语速在目标字幕的显示时长内可阅读的文字的长度。此处，文字的长度可以理解为文字的单词个数、或者文字的音节数等。

目标字幕的显示时长与配音的目标语速的乘积等于第二字幕的长度，意味着以配音的目标语速在目标字幕的显示时长内可阅读的文字的长度恰好等于第二字幕的长度。换言之，以配音的目标语速阅读第二字幕所需要的时间恰好等于目标字幕的显示时长。

因此，在s1323中，“使得目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度之间的第二差异小于或等于第二阈值”是指在误差允许的范围内，基于第二字幕生成的配音音频的持续时长与目标字幕的显示时长相一致。

其中，第二差异可以为目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度之差的绝对值，也可以为目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度的比值。

如上述内容，由于需要保证视频具有较佳的视听效果，需要限定目标字幕的最大显示时长以及最大目标语速，这会使得第二字幕的长度处于一定范围(即s1322中的“预设范围”)内。

若第二字幕的长度恰好处于预设范围，在“目标字幕的显示时长小于或等于目标字幕的最大显示时长”以及“配音的目标语速小于或等于最大目标语速”这两个条件下，通过增大目标字幕的显示时长，和/或提高配音的目标语速，可以使得目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度之间的第二差异小于或等于第二阈值。

若第二字幕的长度不处于预设范围，在“目标字幕的显示时长小于或等于目标字幕的最大显示时长”以及“配音的目标语速小于或等于最大目标语速”这两个条件下，无论如何增大目标字幕的显示时长，和/或提高配音的目标语速，均不能使得目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度之间的第二差异小于或等于第二阈值。

可选地，若确定第二字幕的长度不在预设范围内，则根据预设范围对第一字幕进行重新翻译，使得重新翻译后得到的第二字幕的长度在预设范围内。

可选地，预设范围与默认语速和任一段音频的时长相关。

进一步地，预设范围包括上限值(即最大值)，该上限值与默认语速、任一段音频的时长、时长调整参数的最小值以及语速调整参数的最大值相关。

示例性地，假设预设范围上限值为n1，默认语速为v3，任一段音频的时长为t1，时长调整参数的最小值为0.9，语速调整参数的最大值为1.1，则n1＝(v3*1.1)(t1/0.9)。

在上述技术方案的基础上，在执行s1323时，“增大目标字幕的显示时长，和/或提高配音的目标语速”的具体实现方法有多种。下面给出典型的三种方法。

方法一：

在配音的目标语速为默认语速的基础上，逐渐提高配音的目标语速；若配音的目标语速已达到最大值，且第二差异大于第二阈值，则在目标字幕的显示时长为任一段音频的时长的基础上，逐渐增大目标字幕的显示时长，直到第二差异小于或等于第二阈值。

例如，控制某组字幕的显示时长不变，即t1为定值，时长调整参数x1＝1。优先调整语速调整参数x2，x2的取值从1开始逐渐向1.1增大，例如，按照从1到1.1的顺序，依次间隔取值，当x2取某个值时，若在误差允许的范围内，能使得(v3·x2)(t1/x1)＝该组字幕中文字的长度，则停止调整x2，输出当前时长调整参数x1和语速调整参数x2。

如果x2的取值已经达到了最大值1.1，但是还不能在误差允许的范围内，使得(v3·x2)(t1/x1)＝该组字幕中文字的长度，则固定x2＝1.1，调整x1的值，x1的取值从1开始逐渐向0.9减小，例如，按照从1到0.9的顺序，依次间隔取值，直到在误差允许的范围内，使得(v3·x2)(t1/x1)＝该组字幕中文字的长度，输出当前时长调整参数x1和语速调整参数x2。

方法二：

在目标字幕的显示时长为任一段音频的时长的基础上，逐渐增大目标字幕的显示时长；若目标字幕的显示时长已达到最大值，且第二差异大于第二阈值，则在配音的目标语速为默认语速的基础上，逐渐提高配音的目标语速，直到第二差异小于或等于第二阈值。

例如，控制配音音色的目标语速不变，即v3为定值，语速调整参数x2＝1。优先调整时长调整参数x1，x1的取值从1开始逐渐向0.9减小，例如，按照从1到0.9的顺序，依次间隔取值，当x1取某个值时，若能使得在误差允许的范围内，(v3·x2)(t1/x1)＝该组字幕中文字的长度，则停止调整x1，输出当前时长调整参数x1和语速调整参数x2。

如果x1的取值已经达到了最小值0.9，但是还不能在误差允许的范围内，使得(v3·x2)(t1/x1)＝该组字幕中文字的长度，则进一步调整x2的值，x2的取值从1开始逐渐向1.1增大，例如，按照从1到1.1的顺序，依次间隔取值，直到在误差允许的范围内，(v3*x2)(t1/x1)＝该组字幕中英文字幕的长度。输出当前时长调整参数x1和语速调整参数x2。

方法三：

在目标字幕的显示时长为任一段音频的时长的基础上，逐渐增大目标字幕的显示时长，同时在配音的目标语速为默认语速的基础上，逐渐提高配音的目标语速，直到第二差异小于或等于第二阈值。

例如，同时调整时长调整参数x1和语速调整参数x2的取值，x1的取值从1开始逐渐向0.9减小，x2的取值从1开始逐渐向1.1增大，直至在误差允许的范围内，(v3·x2)(t1/x1)＝该组字幕中文字的长度。输出当前时长调整参数x1和语速调整参数x2。

进一步地，针对方法三，在实际中可能存在多种时长调整参数x1和语速调整参数x2的组合，各组合均能够满足在误差允许的范围内，(v3·x2)(t1/x1)＝该组字幕中文字的长度。针对这种情况，还可以增设其他筛选条件，如，x1 x2最小、2x1 x2最小、x1² x2²最小等，以得到最优的关于时长调整参数x1和语速调整参数x2的组合。

图6为本公开实施例提供的另一种用于实现s130的方法的流程图。该方法适用于上述情况二。参见图6，该方法包括：

s1331、根据第二字幕的长度和配音的默认语速，确定配音的默认时长。

s1332、若任一段音频的时长大于默认时长，且任一段音频的时长和默认时长之间的第一差异大于第一阈值，则确定第二字幕的长度是否在预设范围内。

s1333、若第二字幕的长度在预设范围内，则减小目标字幕的显示时长，和/或降低配音的目标语速，使得目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度之间的第二差异小于或等于第二阈值。

目标字幕的显示时长为调整后任一段音频对应的画面的显示时长。

本领域技术人员可以理解，执行s1333时，若选择减小目标字幕的显示时长，若减小后目标字幕的显示时长过短(超出一定的限度)，意味着该段音频对应的图像帧的切换速度过快，而其他音频对应的图像帧的切换速度正常，其会造成视频整体不和谐，影响用户体验。因此，可以采用设置时长调整参数的方式来限定目标字幕的最小显示时长。

具体地，若一组字幕的初始显示时长(即在原视频中，与该组字幕对应的音频的持续时长)为t1，时长调整参数为x1，调整后该字幕的显示时长为t2，则有t2＝t1/x1，此时x1是大于1的数。通过设置时长调整参数x1的最大取值，来限制调整后该字幕的显示时长的最小值。

可选地，“减小目标字幕的显示时长”的实现方法有多种，示例性地，减小目标字幕的显示时长的实现方法，包括：提高任一段音频对应的画面的显示速度。

进一步地，若采用提高任一段音频对应的画面的显示速度的方法，时长调整参数x1可视作为显示速度调整参数x1。

具体地，假设原视频中的某一段音频对应的画面的显示速度为v1，显示速度调整参数为x1，调整后该段音频对应的画面的显示速度为v2，则有v2＝v1·x1。通过设置显示速度调整参数x1的最大取值，来限制调整后该段音频对应的画面的显示速度的最大值，进而限制调整后目标字幕的显示时长的最小值。

示例性地，继续参见图2，假设t0时间段对应有20个图像帧，t0＝2s，说明t0时间段对应的图像帧原来的显示速度v1为20帧/2秒。如果将图像帧的显示速度调快，调快后的图像帧的显示速度记为v2，v2＝v1·x1，此时，x1是大于1的数。若设置x1最大值为1.1，即图像帧的显示速度最快可以被调整为22帧/2秒，此时，相当于图像帧的显示速度被调快了10％，而t0时间段对应的图像帧的总数20是固定的，因此，该20个图像帧的显示时长变为了t0/x1，将x1的值由1变为1.1，相当于减小了图像帧的显示时长，即减小了该组字幕的显示时长。

类似地，执行s1333时，若选择降低配音的目标语速，若降低后目标语速过慢(超出一定的限度)，会导致该段音频语速过慢，而其他音频对应的语速正常，其会造成视频整体不和谐，影响用户体验。因此，可以采用设置语速调整参数的方式来限定目标语速的最小值。

具体地，假设为原视频中的某一段音频所选择的配音音色对应的默认语速为v3，语速调整参数为x2，调整后该配音音色对应的语速为v4，则有v4＝v3·x2。通过设置语速调整参数x2的最小取值，来限制调整后该配音音色的目标语速的最小值。

示例性地，将配音音色的默认语速记为v3，v3是固定的。配音音色的目标语速记为v4，v4的初始值为v3。配音音色的目标语速可以被调整，例如，如果降低该配音音色的目标语速，相当于v4＝v3·x2，此时，x2是小于1的数。若设置x2最小值是0.9，即目标语速最小可以是默认语速的0.9倍，这时候相当于将配音音色的目标语速调慢了10％。

因此，在s1333中，“使得目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度之间的第二差异小于或等于第二阈值”是指在误差允许的范围内，基于第二字幕生成的配音音频的持续时长与目标字幕的显示时长相一致。

如上述内容，由于需要保证视频具有较佳的视听效果，需要限定目标字幕的最短显示时长以及最小目标语速，这会使得第二字幕的长度处于一定的范围(即s1332中的“预设范围”)内。

若第二字幕的长度恰好处于预设范围，在“目标字幕的显示时长大于或等于目标字幕的最小显示时长”以及“配音的目标语速大于或等于最小目标语速”这两个条件下，通过减小目标字幕的显示时长，和/或降低配音的目标语速，可以使得目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度之间的第二差异小于或等于第二阈值。

若第二字幕的长度不处于预设范围，在“目标字幕的显示时长大于或等于目标字幕的最小显示时长”以及“配音的目标语速大于或等于最小目标语速”这两个条件下，无论如何减小目标字幕的显示时长，和/或降低配音的目标语速，均不能使得目标字幕的显示时长与配音的目标语速的乘积与第二字幕的长度之间的第二差异小于或等于第二阈值。

可选地，若确定第二字幕的长度不在预设范围内，则根据预设范围对第一字幕进行重新翻译，使得重新翻译后得到的第二字幕的长度在预设范围内。

可选地，预设范围与默认语速和任一段音频的时长相关。

进一步地，预设范围包括下限值(即最小值)，该下限值与默认语速、任一段音频的时长、时长调整参数的最大值以及语速调整参数的最小值相关。

示例性地，假设预设范围上限值为n1，默认语速为v3，任一段音频的时长为t1，时长调整参数的最大值为1.1，语速调整参数的最小值为0.9，则n1＝(v3*0.9)(t1/1.1)。

在上述技术方案的基础上，在执行s1333时，“减小目标字幕的显示时长，和/或降低配音的目标语速”的具体实现方法有多种。下面给出典型的三种方法。

方法一：

在配音的目标语速为默认语速的基础上，逐渐降低配音的目标语速；若配音的目标语速已达到最小值，且第二差异大于第二阈值，则在目标字幕的显示时长为任一段音频的时长的基础上，逐渐减小目标字幕的显示时长，直到第二差异小于或等于第二阈值。。

例如，控制某组字幕的显示时长不变，即t1为定值，时长调整参数x1＝1。优先调整语速调整参数x2，x2的取值从1开始逐渐向0.9减小，例如，按照从1到0.9的顺序，依次间隔取值，当x2取某个值时，若在误差允许的范围内，能使得(v3·x2)(t1/x1)＝该组字幕中文字的长度，则停止调整x2，输出当前时长调整参数x1和语速调整参数x2。

如果x2的取值已经达到了最小值0.9，但是还不能在误差允许的范围内，使得(v3·x2)(t1/x1)＝该组字幕中文字的长度，则固定x2＝0.9，调整x1的值，x1的取值从1开始逐渐向1.1增大，例如，按照从1到1.1的顺序，依次间隔取值，直到在误差允许的范围内，使得(v3·x2)(t1/x1)＝该组字幕中文字的长度，输出当前时长调整参数x1和语速调整参数x2。

方法二：

在目标字幕的显示时长为任一段音频的时长的基础上，逐渐减小目标字幕的显示时长；若目标字幕的显示时长已达到最小值，且第二差异大于第二阈值，则在配音的目标语速为默认语速的基础上，逐渐降低配音的目标语速，直到第二差异小于或等于第二阈值。

例如，控制配音音色的目标语速不变，即v3为定值，语速调整参数x2＝1。优先调整时长调整参数x1，x1的取值从1开始逐渐向1.1增大，例如，按照从1到1.1的顺序，依次间隔取值，当x1取某个值时，若能使得在误差允许的范围内，(v3·x2)(t1/x1)＝该组字幕中文字的长度，则停止调整x1，输出当前时长调整参数x1和语速调整参数x2。

如果x1的取值已经达到了最大值1.1，但是还不能在误差允许的范围内，使得(v3·x2)(t1/x1)＝该组字幕中文字的长度，则进一步调整x2的值，x2的取值从1开始逐渐向0.9减小，例如，按照从1到1.1的顺序，依次间隔取值，直到在误差允许的范围内，(v3*x2)(t1/x1)＝该组字幕中英文字幕的长度。输出当前时长调整参数x1和语速调整参数x2。

方法三：

在目标字幕的显示时长为任一段音频的时长的基础上，逐渐减小目标字幕的显示时长，同时在配音的目标语速为默认语速的基础上，逐渐降低配音的目标语速，直到第二差异小于或等于第二阈值。

例如，同时调整时长调整参数x1和语速调整参数x2的取值，x1的取值从1开始逐渐向1.1增大，x2的取值从1开始逐渐向0.9减小，直至在误差允许的范围内，(v3·x2)(t1/x1)＝该组字幕中文字的长度。输出当前时长调整参数x1和语速调整参数x2。

图7为本公开实施例提供的另一种视频处理方法的流程图。在实际中，可能出现原视频包括多段音频，多段音频是多个目标对象的语音。其中目标对象可以理解为视频中的人物。针对这种情况，在上述各技术方案的基础上，可选地，参见图7，该方法还包括：

s210、针对多个目标对象中的每个目标对象，选择目标对象对应的配音音色。

本步骤的实现方法有多种，示例性地，预先在数据库中存储多个配音音色数据，不同的配音音色数据对应不同的人物属性数据。此处，人物属性数据包括人物的年龄、性别、语气、职业等。在执行本步骤时，基于原视频，识别目标对象的人物属性数据；基于目标对象的人物属性数据，确定目标对象的对应的配音音色。

可选地，同一视频中，同一目标对象对应的配音音色相同，不同目标对象对应的配音音色不同。

s220、根据每个目标对象分别对应的配音音色，生成多段音频对应的多个配音音频。

s230、将原视频中的多段音频替换为多个配音音频，得到目标视频。

上述技术方案通过针对多个目标对象中的每个目标对象，选择目标对象对应的配音音色；根据每个目标对象分别对应的配音音色，生成多段音频对应的多个配音音频，实现人物与音色的对应，可以便于用户从声音方面对配音后不同人物角色进行区分，可以提高用户体验。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本发明并不受所描述的动作顺序的限制，因为依据本发明，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本发明所必须的。

图8为本公开实施例提供的一种视频处理装置的结构示意图。本公开实施例所提供的视频处理装置可以配置于客户端中，或者可以配置于服务端中，该视频处理装置具体包括：

获取模块310，用于获取原视频中的第一字幕；

翻译模块320，用于对所述第一字幕进行翻译，得到第二字幕；

确定模块330，用于确定配音的目标语速；

配音模块340，用于根据所述配音的目标语速生成所述第二字幕对应的配音音频。

进一步地，所述第一字幕是所述原视频中任一段音频对应的字幕，

所述确定模块330，还用于确定目标字幕的显示时长，所述目标字幕包括所述第一字幕和/或所述第二字幕；

所述装置还包括替换模块350，用于将所述原视频中的所述任一段音频替换为所述配音音频，得到目标视频，并在所述目标视频中与所述目标字幕的显示时长对应的画面中显示所述目标字幕。

进一步地，确定模块用于：

根据所述第二字幕的长度和所述配音的默认语速，确定所述配音的默认时长；

若所述任一段音频的时长大于或等于所述默认时长，且所述任一段音频的时长和所述默认时长之间的第一差异小于或等于第一阈值，则所述目标字幕的显示时长为所述任一段音频对应的时间，所述配音的目标语速为所述默认语速。

进一步地，该装置还包括第一调整模块。第一调整模块用于：

若所述任一段音频的时长小于所述默认时长，则确定所述第二字幕的长度是否在预设范围内；

若所述第二字幕的长度在所述预设范围内，则增大所述目标字幕的显示时长，和/或提高所述配音的目标语速，使得所述目标字幕的显示时长与所述配音的目标语速的乘积与所述第二字幕的长度之间的第二差异小于或等于第二阈值。

进一步地，第一调整模块用于：

在所述配音的目标语速为所述默认语速的基础上，逐渐提高所述配音的目标语速；

若所述配音的目标语速已达到最大值，且所述第二差异大于第二阈值，则在所述目标字幕的显示时长为所述任一段音频的时长的基础上，逐渐增大所述目标字幕的显示时长，直到所述第二差异小于或等于第二阈值。

进一步地，第一调整模块用于：

在所述目标字幕的显示时长为所述任一段音频的时长的基础上，逐渐增大所述目标字幕的显示时长；

若所述目标字幕的显示时长已达到最大值，且所述第二差异大于第二阈值，则在所述配音的目标语速为所述默认语速的基础上，逐渐提高所述配音的目标语速，直到所述第二差异小于或等于第二阈值。

进一步地，第一调整模块用于：

在所述目标字幕的显示时长为所述任一段音频的时长的基础上，逐渐增大所述目标字幕的显示时长，同时在所述配音的目标语速为所述默认语速的基础上，逐渐提高所述配音的目标语速，直到所述第二差异小于或等于第二阈值。

进一步地，第一调整模块通过降低所述任一段音频对应的画面的显示速度，增大所述目标字幕的显示时长。

进一步地，该装置还包括第二调整模块。第二调整模块用于：

若所述任一段音频的时长大于所述默认时长，且所述任一段音频的时长和所述默认时长之间的第一差异大于第一阈值，则确定所述第二字幕的长度是否在预设范围内；

若所述第二字幕的长度在所述预设范围内，则减小所述目标字幕的显示时长，和/或降低所述配音的目标语速，使得所述目标字幕的显示时长与所述配音的目标语速的乘积与所述第二字幕的长度之间的第二差异小于或等于第二阈值。

进一步地，第二调整模块用于：

在所述配音的目标语速为所述默认语速的基础上，逐渐降低所述配音的目标语速；

若所述配音的目标语速已达到最小值，且所述第二差异大于第二阈值，则在所述目标字幕的显示时长为所述任一段音频的时长的基础上，逐渐减小所述目标字幕的显示时长，直到所述第二差异小于或等于第二阈值。

进一步地，第二调整模块用于：

在所述目标字幕的显示时长为所述任一段音频的时长的基础上，逐渐减小所述目标字幕的显示时长；

若所述目标字幕的显示时长已达到最小值，且所述第二差异大于第二阈值，则在所述配音的目标语速为所述默认语速的基础上，逐渐降低所述配音的目标语速，直到所述第二差异小于或等于第二阈值。

进一步地，第二调整模块用于：

在所述目标字幕的显示时长为所述任一段音频的时长的基础上，逐渐减小所述目标字幕的显示时长，同时在所述配音的目标语速为所述默认语速的基础上，逐渐降低所述配音的目标语速，直到所述第二差异小于或等于第二阈值。

进一步地，第二调整模块通过提高所述任一段音频对应的画面的显示速度，减小所述目标字幕的显示时长。

进一步地，翻译模块还用于：

若确定所述第二字幕的长度不在预设范围内，则根据所述预设范围对所述第一字幕进行重新翻译，使得重新翻译后得到的第二字幕的长度在所述预设范围内。

进一步地，所述目标字幕的显示时长为所述任一段音频对应的画面的显示时长。

进一步地，所述预设范围与所述默认语速和所述任一段音频的时长相关。

进一步地，所述原视频包括多段音频，所述多段音频是多个目标对象的语音；

所述装置还包括选择模块；选择模块用于针对所述多个目标对象中的每个目标对象，选择所述目标对象对应的配音音色；

配音模块，用于根据所述每个目标对象分别对应的配音音色，生成所述多段音频对应的多个配音音频；

替换模块，用于将所述原视频中的所述多段音频替换为所述多个配音音频，得到目标视频。

本公开实施例提供的视频处理装置，可执行本公开方法实施例所提供的视频处理方法中客户端或服务端所执行的步骤，具备执行步骤和有益效果此处不再赘述。

图9为本公开实施例提供的一种电子设备的结构示意图。下面具体参考图9，其示出了适于用来实现本公开实施例中的电子设备1000的结构示意图。本公开实施例中的电子设备1000可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、pda(个人数字助理)、pad(平板电脑)、pmp(便携式多媒体播放器)、车载终端(例如车载导航终端)、可穿戴电子设备等等的移动终端以及诸如数字tv、台式计算机、智能家居设备等等的固定终端。图9示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，电子设备1000可以包括处理装置(例如中央处理器、图形处理器等)1001，其可以根据存储在只读存储器(rom)1002中的程序或者从存储装置1008加载到随机访问存储器(ram)1003中的程序而执行各种适当的动作和处理以实现如本公开所述的实施例的视频处理方法。在ram1003中，还存储有电子设备1000操作所需的各种程序和信息。处理装置1001、rom1002以及ram1003通过总线1004彼此相连。输入/输出(i/o)接口1005也连接至总线1004。

通常，以下装置可以连接至i/o接口1005：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置1006；包括例如液晶显示器(lcd)、扬声器、振动器等的输出装置1007；包括例如磁带、硬盘等的存储装置1008；以及通信装置1009。通信装置1009可以允许电子设备1000与其他设备进行无线或有线通信以交换信息。虽然图9示出了具有各种装置的电子设备1000，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码，从而实现如上所述的视频处理方法。在这样的实施例中，该计算机程序可以通过通信装置1009从网络上被下载和安装，或者从存储装置1008被安装，或者从rom1002被安装。在该计算机程序被处理装置1001执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的信息信号，其中承载了计算机可读的程序代码。这种传播的信息信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、rf(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如http(hypertexttransferprotocol，超文本传输协议)之类的任何已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字信息通信(例如，通信网络)互连。通信网络的示例包括局域网(“lan”)，广域网(“wan”)，网际网(例如，互联网)以及端对端网络(例如，adhoc端对端网络)，以及任何已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：

获取原视频中的第一字幕；

对所述第一字幕进行翻译，得到第二字幕；

确定配音的目标语速；

根据所述配音的目标语速生成所述第二字幕对应的配音音频。

可选的，当上述一个或者多个程序被该电子设备执行时，该电子设备还可以执行上述实施例所述的其他步骤。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如java、smalltalk、c ，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、片上系统(soc)、复杂可编程逻辑设备(cpld)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，本公开提供了一种电子设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本公开提供的任一所述的视频处理方法。

根据本公开的一个或多个实施例，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开提供的任一所述的视频处理方法。

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

技术特征：

1.一种视频处理方法，其特征在于，所述方法包括：

获取原视频中的第一字幕；

对所述第一字幕进行翻译，得到第二字幕；

确定配音的目标语速；

根据所述配音的目标语速生成所述第二字幕对应的配音音频。

2.根据权利要求1所述的方法，其特征在于，所述第一字幕是所述原视频中任一段音频对应的字幕；

所述方法还包括：

确定目标字幕的显示时长，所述目标字幕包括所述第一字幕和/或所述第二字幕；

根据所述配音的目标语速生成所述第二字幕对应的配音音频之后，所述方法还包括：

将所述原视频中的所述任一段音频替换为所述配音音频，得到目标视频，并在所述目标视频中与所述目标字幕的显示时长对应的画面中显示所述目标字幕。

3.根据权利要求2所述的方法，其特征在于，确定所述目标字幕的显示时长、以及配音的目标语速，包括：

根据所述第二字幕的长度和所述配音的默认语速，确定所述配音的默认时长；

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

若所述任一段音频的时长小于所述默认时长，则确定所述第二字幕的长度是否在预设范围内；

5.根据权利要求4所述的方法，其特征在于，增大所述目标字幕的显示时长，和/或提高所述配音的目标语速，包括：

在所述配音的目标语速为所述默认语速的基础上，逐渐提高所述配音的目标语速；

6.根据权利要求4所述的方法，其特征在于，增大所述目标字幕的显示时长，和/或提高所述配音的目标语速，包括：

在所述目标字幕的显示时长为所述任一段音频的时长的基础上，逐渐增大所述目标字幕的显示时长；

7.根据权利要求4所述的方法，其特征在于，增大所述目标字幕的显示时长，和/或提高所述配音的目标语速，包括：

8.根据权利要求5-7任一项所述的方法，其特征在于，增大所述目标字幕的显示时长，包括：

降低所述任一段音频对应的画面的显示速度。

9.根据权利要求3所述的方法，其特征在于，所述方法还包括：

10.根据权利要求9所述的方法，其特征在于，减小所述目标字幕的显示时长，和/或降低所述配音的目标语速，包括：

在所述配音的目标语速为所述默认语速的基础上，逐渐降低所述配音的目标语速；

11.根据权利要求9所述的方法，其特征在于，减小所述目标字幕的显示时长，和/或降低所述配音的目标语速，包括：

在所述目标字幕的显示时长为所述任一段音频的时长的基础上，逐渐减小所述目标字幕的显示时长；

12.根据权利要求9所述的方法，其特征在于，减小所述目标字幕的显示时长，和/或降低所述配音的目标语速，包括：

13.根据权利要求10-12任一项所述的方法，其特征在于，减小所述目标字幕的显示时长，包括：

提高所述任一段音频对应的画面的显示速度。

14.根据权利要求4或9所述的方法，其特征在于，所述方法还包括：

15.根据权利要求4或9所述的方法，其特征在于，所述目标字幕的显示时长为所述任一段音频对应的画面的显示时长。

16.根据权利要求4或9所述的方法，其特征在于，所述预设范围与所述默认语速和所述任一段音频的时长相关。

17.根据权利要求1所述的方法，其特征在于，所述原视频包括多段音频，所述多段音频是多个目标对象的语音；

所述方法还包括：

针对所述多个目标对象中的每个目标对象，选择所述目标对象对应的配音音色；

根据所述每个目标对象分别对应的配音音色，生成所述多段音频对应的多个配音音频；

将所述原视频中的所述多段音频替换为所述多个配音音频，得到目标视频。

18.一种视频处理装置，其特征在于，包括：

获取模块，用于获取原视频中的第一字幕；

翻译模块，用于对所述第一字幕进行翻译，得到第二字幕；

确定模块，用于确定配音的目标语速；

配音模块，用于根据所述配音的目标语速生成所述第二字幕对应的配音音频。

19.一种电子设备，其特征在于，所述电子设备包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-17中任一项所述的方法。

20.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-17中任一项所述的方法。

技术总结
本公开实施例公开了一种视频处理方法、装置、电子设备和存储介质，该方法包括：获取原视频中的第一字幕；对所述第一字幕进行翻译，得到第二字幕；确定配音的目标语速；根据所述配音的目标语速生成所述第二字幕对应的配音音频。本公开实施例提供的技术方案可以实现生成视频观看者所能理解的配音音频，可以帮助用户降低对视频内容的理解难度。

技术研发人员：杜育璋;刘坚;李磊;王明轩
受保护的技术使用者：北京有竹居网络技术有限公司
技术研发日：2021.04.29
技术公布日：2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-1662.html

专利

最新回复(0)