一种可快速定制唤醒词的语音唤醒方法及系统

专利2025-07-02  19


本发明涉及数字信号处理,深度学习和安卓开发,具体而言,涉及一种可快速定制唤醒词的语音唤醒方法及系统。


背景技术:

1、语音唤醒是许多语音交互产品的前置环节,在用户使用语音交互产品之前,一般都需要通过特定的唤醒词,将设备或应用从待机状态唤醒,再进行后续的语音控制或语音识别。

2、在目前市场上,大多数的语音唤醒系统都有其预先设定的唤醒词,这些产品使用设定好的唤醒词,可能使个人设备被其他用户唤醒,带来信息安全问题,而且,这些唤醒词要求普通话发音标准,导致发音不准的人群难以有效使用语音交互产品。另外,用户不可根据自身喜好改变唤醒词,在一定程度上影响了用户体验。

3、近几年,语音行业的头部企业也推出了定制唤醒词业务,但该业务主要面向企业,成本较高,难以推广到大量产品中。此外,该业务仅限普通话唤醒词,如用户需定义小方言唤醒词(如潮汕话,温州话),其效果待验证,而这也进一步限制了定制唤醒词业务的推广。

4、语音唤醒的核心技术是语音识别(speech recognition),在这项技术中,计算机分析用户的语音输入并将其转换为文本。语音识别技术基于声学模型和语言模型,通过训练大量的语音数据来识别和理解不同类别的语音输入。这些模型通常使用模式识别算法,如深度神经网络(deep neural networks)和隐马尔可夫模型(hidden markov models),以提高识别的准确性。

5、为了实现语音唤醒,需要在语音识别技术的基础上添加唤醒词检测功能。唤醒词检测(keyword spotting)是一种能够在连续的语音流中准确识别特定唤醒词的技术,它可以识别和响应特定的唤醒词,例如“hey siri”或“小爱同学”,以激活设备并开始语音交互。

6、主流的语音唤醒流程如图1所示,设备的麦克风首先接收用户的语音数据,并根据算法截取唤醒词候选片段(可能有多条),在本地进行简单的预处理之后,设备再将数据通过网络发送到服务器,基于服务器端的声学模型和语言模型识别出唤醒结果,再将结果通过网络回传给设备,设备根据识别结果,判断是否响应。

7、由于语音唤醒过程需要处理的数据量少,对响应速度要求很高,所以越来越多的产品将语音唤醒算法部署在设备本地完成,即离线语音唤醒,但这种情况对唤醒算法和模型提出了挑战。为了降低功耗和成本,大多数设备的硬件资源有限,无法部署和运行参数量大和复杂度高的模型,而简单的小模型又很难达到较为满意的唤醒效果,所以这种离线语音唤醒方案通常需要对唤醒效果和功耗成本两方面进行取舍。

8、除此之外,大多数语音交互产品都有其预设的唤醒词,用户一般不能根据自己的喜好自定义唤醒词。在深度学习领域,如果需要开发一个新的唤醒系统,开发者需要收集大量的新唤醒词数据,并对数据进行标注和处理,再重新训练唤醒模型,这个过程比较耗时和繁琐。有公司提出了定制唤醒词业务,这类业务主要是开发一套比较高效的声学模型和语言模型,将其部署在离线设备中,用户只需输入新唤醒词文本,即可快速定制出新唤醒系统,这种query by string(qbys)的定制唤醒词方法要求用户在语音唤醒时发音标准,用户体验差,而且这类算法仍然存在资源受限问题,即无法部署在成本和功耗较低的设备中。

9、最后,与英文唤醒词相比,中文唤醒词技术面临着一些独特的挑战。中文是一种音节语言,具有丰富的音节组合方式和声调变化,这使得训练中文唤醒词的声学模型和语言模型可能更加复杂。为了应对这些挑战,需要大规模中文语音数据的收集和标注,并且需要使用适合中文语音特点的模型架构和训练算法。目前主流的中文语音唤醒词语种是普通话,尚未发现有研究涉及快速定制方言唤醒词的算法,而方言唤醒与方言识别的结合,将使语音交互变得更加人性化,提升用户体验,因此,定制方言唤醒词具有重要意义和广阔的市场前景。


技术实现思路

1、为了解决上述问题,本发明提供了一种可快速定制唤醒词的语音唤醒方法,包括以下步骤:

2、在电脑端,基于由特征提取器、尺度模块和crnn模型组成的深度神经网络模型,使用开源中文语音数据集进行训练,得到嵌入模型;

3、在安卓端,对嵌入模型进行部署,并在嵌入模型的输出端添加单层全连层,通过设置具有低维背景噪声特征的新唤醒词对单层全连层进行训练,构建唤醒模型;

4、在安卓端,收集语音输入信息,通过唤醒模型,识别语音输入信息中的新唤醒词,并执行对应的语音喊醒功能。

5、优选地,在电脑端构建深度神经网络模型的过程中,通过特征提取器获取声学特征,包括梅尔谱图和梅尔倒谱系数。

6、优选地,在电脑端构建深度神经网络模型的过程中,通过尺度模块对梅尔谱图和梅尔倒谱系数进行融合,其中,尺度模块为cnn模块。

7、优选地,在电脑端构建深度神经网络模型的过程中,将融合结果输入到crnn模型以捕获和学习跨频率和时间维度的特征,其中,crnn模型由卷积神经网络和循环神经网络组成。

8、优选地,在获取开源中文语音数据集的过程中,根据multilingual spoken wordscorpus数据集、aidatatang_200zh数据集、aishell-3数据集和shalcas22a数据集,生成开源中文语音数据集,并设置背景噪声数据集,对开源中文语音数据集进行时域增强,以及对嵌入模型进行训练。

9、优选地,在构建嵌入模型的过程中,对数据的时域和时频域进行增强,并根据增强后的数据对深度神经网络模型进行训练,其中,时域增强包括随机时移和随机加噪,时频域增强包括随机时间掩膜,随机频率掩膜和cutout。

10、优选地,在对数据的时域和时频域进行增强的过程中,根据时域增强和时频域增强的过程,构建两个参数不可训练的神经网络模型,发送至安卓端。

11、优选地,响应于在安卓端构建唤醒模型,在电脑端,设置若干条噪声数据,通过嵌入模型进行特征提取,生成噪声样本,发送至安卓端进行模型训练;在安卓端,根据两个参数不可训练的神经网络模型,对新唤醒词进行数据增强,并结合噪声样本,对单层全连层进行训练,构建用于识别新唤醒词的唤醒模型。

12、本发明公开了一种可快速定制唤醒词的语音唤醒系统,包括:

13、训练模块,用于布置在电脑端,基于由特征提取器、尺度模块和crnn模型组成的深度神经网络模型,使用开源中文语音数据集进行训练,得到嵌入模型;

14、嵌入模块,与训练模块进行数据交互,用于布置在安卓端,对嵌入模型进行部署,并在嵌入模型的输出端添加单层全连层,通过设置具有低维背景噪声特征的新唤醒词对单层全连层进行训练,构建唤醒模型;

15、唤醒模块,与嵌入模块进行数据交互,用于在安卓端,收集语音输入信息,通过唤醒模型,识别语音输入信息中的新唤醒词,并执行对应的语音喊醒功能。

16、优选地,训练模块,用于通过特征提取器获取声学特征,包括梅尔谱图和梅尔倒谱系数;

17、训练模块,用于通过尺度模块对梅尔谱图和梅尔倒谱系数进行融合,其中,尺度模块为cnn模块;

18、训练模块,用于将融合结果输入到crnn模型以捕获和学习跨频率和时间维度的特征,其中,crnn模型由卷积神经网络和循环神经网络组成。

19、本发明公开了以下技术效果:

20、本发明设计的技术方案为安卓端应用,实现了在本地设备进行离线语音唤醒,不依赖网络,从而达到较快的响应速度,同时也可以保护用户隐私;

21、本发明设计的深度神经网络模型,结构简单,参数量少,降低了系统的功耗和成本;

22、本发明提出的尺度模块用于融合多种声学特征,增强了模型的学习能力和鲁棒性,保证了较好的唤醒效果,即高唤醒率和低误唤醒率;

23、本发明将声学特征提取过程与crnn神经网络模型结构结合在一起,构成了一个端到端的唤醒模型,在安卓端实现算法时,只需部署单个模型,无额外的信号处理步骤,简化了工程实现;

24、本发明基于迁移学习提出了快速定制唤醒词的方案,此方案简单可行,可部署在大量语音交互产品中,大大拓宽了语音产品市场。


技术特征:

1.一种可快速定制唤醒词的语音唤醒方法,其特征在于,包括以下步骤:

2.根据权利要求1所述一种可快速定制唤醒词的语音唤醒方法,其特征在于:

3.根据权利要求2所述一种可快速定制唤醒词的语音唤醒方法,其特征在于:

4.根据权利要求3所述一种可快速定制唤醒词的语音唤醒方法,其特征在于:

5.根据权利要求4所述一种可快速定制唤醒词的语音唤醒方法,其特征在于:

6.根据权利要求5所述一种可快速定制唤醒词的语音唤醒方法,其特征在于:

7.根据权利要求6所述一种可快速定制唤醒词的语音唤醒方法,其特征在于:

8.根据权利要求7所述一种可快速定制唤醒词的语音唤醒方法,其特征在于:

9.一种可快速定制唤醒词的语音唤醒系统,其特征在于,包括:

10.根据权利要求9所述一种可快速定制唤醒词的语音唤醒系统,其特征在于:


技术总结
本发明公开了一种可快速定制唤醒词的语音唤醒方法及系统,属于数字信号处理,深度学习和安卓开发技术领域,包括:在电脑端,基于由特征提取器、尺度模块和CRNN模型组成的深度神经网络模型,使用开源中文语音数据集进行训练,得到嵌入模型;在安卓端,对嵌入模型进行部署,并在嵌入模型的输出端添加单层全连层,通过设置具有低维背景噪声特征的新唤醒词对单层全连层进行训练,构建唤醒模型;在安卓端,收集语音输入信息,通过唤醒模型,识别语音输入信息中的新唤醒词,并执行对应的语音喊醒功能。本发明基于迁移学习提出了快速定制唤醒词的方案,此方案简单可行,可部署在大量语音交互产品中,大大拓宽了语音产品市场。

技术研发人员:黄梓铭,曹海涛,杨震伦
受保护的技术使用者:广州番禺职业技术学院
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1822072.html

最新回复(0)