一种智慧课堂录制视频增加字幕的系统及方法与流程

专利2022-05-09  102

本发明涉及智慧课堂技术领域,具体涉及一种智慧课堂录制视频增加字幕的系统及方法。



背景技术:

目前,学生在直播课堂听课时,通过观看老师展示的ppt以及讲解来进行课堂理解。当听不清楚老师讲解的内容时,往往是通过回放直播,并结合ppt的内容进行理解。或者,通过询问在观看直播的其他同学来对老师刚刚讲解的内容进行理解。但是,上述方式会增加学生的听课耗时,且不能够使得学生实时了解清楚老师所要传达的信息。故而会选择回放录播课,可是在录播课中也听不清楚老师讲解的内容时,往往会打击学生的学习积极性,进而降低学生的听课欲望,从而使得直播教学的效果下降。



技术实现要素:

针对现有技术的不足,本发明旨在提供一种智慧课堂录制视频增加字幕的系统及方法。

为了实现上述目的,本发明采用如下技术方案:

一种智慧课堂录制视频增加字幕的系统,包括:

视频录制模块:用于对智慧课堂的直播视频进行视频录制,得到录制视频文件;

音频提取模块:用于对视频录制模块录制得到的录制视频文件进行音频提取得到录制音频文件;

语音识别模块:用于录制音频文件进行语音识别,识别对应的文字内容,并同步记录可以识别得到文字内容的各段音频片段的起始时间和结束时间,建立各段音频片段和文字内容之间的关联关系;

字幕增加模块:用于根据各段音频片段的起始时间和结束时间,将各段文字内容展示在录制视频文件对应的各段视频片段中,各段文字内容的起始展示时间和结束展示时间与对应视频片段的起始时间和结束时间相对应;最终得到增加字幕内容后的视频文件;

编辑模块:用于供用户对增加字幕内容后的视频文件进行修改,包括改变文字内容的起始展示时间以及对文字内容进行修改。

进一步地,上述系统中,语音识别模块用于按照时间顺序依次对录制音频文件进行语音识别,首次识别到文字内容时记录当前时间为本音频片段的起始时间,当在某个时间起超过预设的时长无法再识别到文字内容时,记录该时间为本音频片段的结束时间;直至下一次再识别到文字内容时,记录该时间为下一音频片段的起始时间,以此类推,从而识别到可以识别到文字内容的各段音频片段以及获得各段音频片段的起始时间和结束时间。

本发明还提供一种利用上述系统的方法,具体过程为:

智慧课堂的直播过程中,视频录制模块同步进行视频录制,直播结束后,视频录制结束得到录制视频文件;

音频提取模块对视频录制模块录制得到的录制视频文件进行音频提取得到录制音频文件;

语音识别模块对录制音频文件进行语音识别,识别对应的文字内容,并同步记录可以识别得到文字内容的各段音频片段的起始时间和结束时间,建立各段音频片段和文字内容之间的关联关系;

当用户触发增加字幕事件时,字幕增加模块根据各段音频片段的起始时间和结束时间,将各段文字内容展示在录制视频文件对应的各段视频片段中,各段文字内容的起始展示时间和结束展示时间与对应视频片段的起始时间和结束时间相对应;最终得到增加字幕内容后的视频文件;

当用户发现文字内容和录制视频文件的画面不匹配时,可通过编辑模块将对应文字内容的起始展示时间提前或推后,使其与录制视频文件的画面完全匹配;当用户发现文字内容有错误时,可通过编辑模块对文字内容进行修改。

进一步地,上述方法中,语音识别模块按照时间顺序依次对录制音频文件进行语音识别,首次识别到文字内容时记录当前时间为本音频片段的起始时间,当在某个时间起超过预设的时长无法再识别到文字内容时,记录该时间为本音频片段的结束时间;直至下一次再识别到文字内容时,记录该时间为下一音频片段的起始时间,以此类推,从而识别到可以识别到文字内容的各段音频片段以及获得各段音频片段的起始时间和结束时间。

本发明的有益效果在于:利用本发明可以精准、快速为录制视频添加字幕内容,且避免了大量的人工复查翻译工作,提高了字幕生成效率,从而保障了课程质量。

具体实施方式

以下将对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。

实施例1

本实施例提供一种智慧课堂录制视频增加字幕的系统,包括:

视频录制模块:用于对智慧课堂的直播视频进行视频录制,得到录制视频文件;

音频提取模块:用于对视频录制模块录制得到的录制视频文件进行音频提取得到录制音频文件;

语音识别模块:用于录制音频文件进行语音识别,识别对应的文字内容,并同步记录可以识别得到文字内容的各段音频片段的起始时间和结束时间,建立各段音频片段和文字内容之间的关联关系;

字幕增加模块:用于根据各段音频片段的起始时间和结束时间,将各段文字内容展示在录制视频文件对应的各段视频片段中,各段文字内容的起始展示时间和结束展示时间与对应视频片段的起始时间和结束时间相对应;最终得到增加字幕内容后的视频文件;

编辑模块:用于供用户对增加字幕内容后的视频文件进行修改,包括改变文字内容的起始展示时间以及对文字内容进行修改。

进一步地,语音识别模块用于按照时间顺序依次对录制音频文件进行语音识别,首次识别到文字内容时记录当前时间为本音频片段的起始时间,当在某个时间起超过预设的时长无法再识别到文字内容时,记录该时间为本音频片段的结束时间;直至下一次再识别到文字内容时,记录该时间为下一音频片段的起始时间,以此类推,从而识别到可以识别到文字内容的各段音频片段以及获得各段音频片段的起始时间和结束时间。

实施例2

本实施例提供一种实现实施例1所述系统的方法,具体过程为:

智慧课堂的直播过程中,视频录制模块同步进行视频录制,直播结束后,视频录制结束得到录制视频文件;

音频提取模块对视频录制模块录制得到的录制视频文件进行音频提取得到录制音频文件;

语音识别模块对录制音频文件进行语音识别,识别对应的文字内容,并同步记录可以识别得到文字内容的各段音频片段的起始时间和结束时间,建立各段音频片段和文字内容之间的关联关系;

当用户触发增加字幕事件时,字幕增加模块根据各段音频片段的起始时间和结束时间,将各段文字内容展示在录制视频文件对应的各段视频片段中,各段文字内容的起始展示时间和结束展示时间与对应视频片段的起始时间和结束时间相对应;最终得到增加字幕内容后的视频文件;

当用户发现文字内容和录制视频文件的画面不匹配时,可通过编辑模块将对应文字内容的起始展示时间提前或推后,使其与录制视频文件的画面完全匹配;当用户发现文字内容有错误时,可通过编辑模块对文字内容进行修改。

上述方法中,语音识别模块按照时间顺序依次对录制音频文件进行语音识别,首次识别到文字内容时记录当前时间为本音频片段的起始时间,当在某个时间起超过预设的时长无法再识别到文字内容时,记录该时间为本音频片段的结束时间;直至下一次再识别到文字内容时,记录该时间为下一音频片段的起始时间,以此类推,从而识别到可以识别到文字内容的各段音频片段以及获得各段音频片段的起始时间和结束时间。

对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。


技术特征:

1.一种智慧课堂录制视频增加字幕的系统,其特征在于,包括:

视频录制模块:用于对智慧课堂的直播视频进行视频录制,得到录制视频文件;

音频提取模块:用于对视频录制模块录制得到的录制视频文件进行音频提取得到录制音频文件;

语音识别模块:用于录制音频文件进行语音识别,识别对应的文字内容,并同步记录可以识别得到文字内容的各段音频片段的起始时间和结束时间,建立各段音频片段和文字内容之间的关联关系;

字幕增加模块:用于根据各段音频片段的起始时间和结束时间,将各段文字内容展示在录制视频文件对应的各段视频片段中,各段文字内容的起始展示时间和结束展示时间与对应视频片段的起始时间和结束时间相对应;最终得到增加字幕内容后的视频文件;

编辑模块:用于供用户对增加字幕内容后的视频文件进行修改,包括改变文字内容的起始展示时间以及对文字内容进行修改。

2.根据权利要求1所述的系统,其特征在于,语音识别模块用于按照时间顺序依次对录制音频文件进行语音识别,首次识别到文字内容时记录当前时间为本音频片段的起始时间,当在某个时间起超过预设的时长无法再识别到文字内容时,记录该时间为本音频片段的结束时间;直至下一次再识别到文字内容时,记录该时间为下一音频片段的起始时间,以此类推,从而识别到可以识别到文字内容的各段音频片段以及获得各段音频片段的起始时间和结束时间。

3.一种利用权利要求1-2任一所述系统的方法,其特征在于,具体过程为:

智慧课堂的直播过程中,视频录制模块同步进行视频录制,直播结束后,视频录制结束得到录制视频文件;

音频提取模块对视频录制模块录制得到的录制视频文件进行音频提取得到录制音频文件;

语音识别模块对录制音频文件进行语音识别,识别对应的文字内容,并同步记录可以识别得到文字内容的各段音频片段的起始时间和结束时间,建立各段音频片段和文字内容之间的关联关系;

当用户触发增加字幕事件时,字幕增加模块根据各段音频片段的起始时间和结束时间,将各段文字内容展示在录制视频文件对应的各段视频片段中,各段文字内容的起始展示时间和结束展示时间与对应视频片段的起始时间和结束时间相对应;最终得到增加字幕内容后的视频文件;

当用户发现文字内容和录制视频文件的画面不匹配时,可通过编辑模块将对应文字内容的起始展示时间提前或推后,使其与录制视频文件的画面完全匹配;当用户发现文字内容有错误时,可通过编辑模块对文字内容进行修改。

4.根据权利要求3所述的方法,其特征在于,语音识别模块按照时间顺序依次对录制音频文件进行语音识别,首次识别到文字内容时记录当前时间为本音频片段的起始时间,当在某个时间起超过预设的时长无法再识别到文字内容时,记录该时间为本音频片段的结束时间;直至下一次再识别到文字内容时,记录该时间为下一音频片段的起始时间,以此类推,从而识别到可以识别到文字内容的各段音频片段以及获得各段音频片段的起始时间和结束时间。

技术总结
本发明公开了一种智慧课堂录制视频增加字幕的系统及方法,对录制视频进行自动音频提取、语音识别、字幕对位。利用本发明可以精准、快速为录制视频添加字幕内容,且避免了大量的人工复查翻译工作,提高了字幕生成效率,从而保障了课程质量。

技术研发人员:秦曙光;陈家峰
受保护的技术使用者:读书郎教育科技有限公司
技术研发日:2021.04.29
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-1666.html

最新回复(0)