一种具有自适应降噪能力的语音识别方法及装置与流程

专利2022-05-09  199


本发明涉及语音识别技术领域,尤其涉及一种具有自适应降噪能力的语音识别方法及装置。



背景技术:

随着人工智能技术的发展和芯片技术的进步,越来越多的电子产品开始支持语音控制功能,这极大地提高了用户的操作便捷性,也丰富了产品本身的功能性和拓展性,万物互联的时代正在到来。许多传统电器设备如吸顶灯、空调、电视机、吸油烟机、晾衣架等。此外,对于某些特殊场景,语音识别也可以起到用户识别功能,比如电子门禁,电视儿童锁等功能,相较于传统的钥匙和密码等,语音识别具有很高的可靠性和稳定性,同时不存在遗失风险。这就要求语音识别具有很高的准确性、实时性。

目前普遍的语音识别方法是通过大数据采集不同说话人的录音音频并提取具有代表性的多维度特征并构建特征库,在使用时采集用户的发音并与特征库进行对比,如果相似度满足则输出正确结果。这种方法主要取决于语音特征库是否能够覆盖足够多的应用场景和不同说话人的语音特征。

然而,在实际使用中,需要考虑不同场景下的环境背景噪声对识别系统的干扰,噪声环境下的语音控制指令波形会产生随即多样性的变化,因为噪声的不可预见性,通常难以和训练数据进行匹配。如果人声与背景噪声的信噪比过低,或者无法准备提取出有效语音信息,那么将严重影响最终的识别结果。为此,通常需要先进行降噪处理,尽可能地剔除掉背景噪声地干扰,再将降噪处理后的语音信号进行多维语音特征提取,降低语音特征中噪声的成分,以提高对噪声的鲁棒性,进行正常的语音识别过程。

可以说,语音识别系统的降噪能力对最终的识别结果有着巨大的影响,此外,准确判断语音段和非语音段能够极大地提高系统工作效率,避免噪声环境下的设备误触发,降低设备端能耗。如何寻找合适有效的降噪技术成为了制约语音识别技术发展的重要因素。目前主流的降噪技术主要分为传统的时域频域处理和利用神经网络降噪处理。传统方法在时域对信号的过零率和短时能量进行分析,或者在频域对语音信号的能量谱进行分析,判断噪声地频谱特性,进而区分出人声和环境噪音并针对噪声进行抑制。

传统的方式往往只能对某种特定的噪声进行降噪,如白噪声,正弦波等,无法覆盖真实的使用场景,并且降噪技术会使人声信号不可避免地产生有损失,影响后续特征处理。最终需要输出的是一个近似纯净的语音信号,噪声特征被完全消去,如果利用这种输出信号进行后续语音识别操作,会存在有效特征的丢失问题。



技术实现要素:

本发明实施例提供一种具有自适应降噪能力的语音识别方法及装置,能够覆盖不同使用场景实现主动降噪并完成后续语音识别等功能。

第一方面,本发明实施例提供一种具有自适应降噪能力的语音识别方法,包括:

获取语音采集设备采集的语音信号;

对所述语音信号进行处理,得到语音特征向量矩阵;

将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果;

其中,所述训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。

上述技术方案中,通过部署级联的卷积神经网络,无需添加额外的降噪模块,即可实现降噪和语音识别功能,且由于降噪和识别操作均位于同一个神经网络内,不再是独立的两个过程,互相具有监督作用,在识别分类过程中,神经网络依然能学习到降噪过程中分离得到的噪声信号特征。此外,整个降噪识别过程都是在高纬度空间下实现的,相比现有技术的方案,没有中间维度变换带来的信息损失。通过这种方式使有效特征不会丢失,同时信号处理的实时性更高,语音识别系统对噪声有更强的鲁棒性,噪声情况下的识别率会有明显提升。

可选的,所述对所述语音信号进行处理,得到语音特征向量矩阵,包括:

对所述语音信号进行分帧、傅里叶变换、预加重和fbank特征提取,得到包含噪声的语音特征向量矩阵。

可选的,所述将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果,包括:

将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵;

将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果。

可选的,所述将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵,包括:

将所述语音特征向量矩阵输入到所述第一级卷积神经网络中,使用不同尺寸的卷积核进行一维卷积得到高维特征矩阵;

将所述高维特征矩阵利用全连接层根据噪声分类标准进行分类,得到分类结果;

若所述分类结果为噪声,则确定出所述噪声的类别,根据所述噪声的类别和预设的各类别的噪声分类系数矩阵,确定出所述语音特征向量矩阵对应的噪声分类系数矩阵;

将所述分类结果与所述语音特征向量矩阵对应的噪声分类系数矩阵进行运算,得到所述语音特征向量矩阵对应的特征矩阵。

可选的,所述将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果,包括:

将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述第二级卷积神经网络中,得到所述语音特征向量矩阵对应的音频概率;所述第二级卷积神经网络为包含注意力机制的卷积神经网络;

使用解码图对所述音频概率对应的音频进行解码得到所述语音信号对应的识别结果。

可选的,所述第一级卷积神经网络和所述第二级卷积神经网络包含有残差模块。

可选的,所述语音采集设备为双麦克风或麦克风阵列。

第二方面,本发明实施例提供一种具有自适应降噪能力的语音识别装置,包括:

获取单元,用于获取语音采集设备采集的语音信号;

处理单元,用于对所述语音信号进行处理,得到语音特征向量矩阵;将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果;其中,所述训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。

可选的,所述处理单元具体用于:

对所述语音信号进行分帧、傅里叶变换、预加重和fbank特征提取,得到包含噪声的语音特征向量矩阵。

可选的,所述处理单元具体用于:

将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵;

将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果。

可选的,所述处理单元具体用于:

将所述语音特征向量矩阵输入到所述第一级卷积神经网络中,使用不同尺寸的卷积核进行一维卷积得到高维特征矩阵;

将所述高维特征矩阵利用全连接层根据噪声分类标准进行分类,得到分类结果;

若所述分类结果为噪声,则确定出所述噪声的类别,根据所述噪声的类别和预设的各类别的噪声分类系数矩阵,确定出所述语音特征向量矩阵对应的噪声分类系数矩阵;

将所述分类结果与所述语音特征向量矩阵对应的噪声分类系数矩阵进行运算,得到所述语音特征向量矩阵对应的特征矩阵。

可选的,所述处理单元具体用于:

将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述第二级卷积神经网络中,得到所述语音特征向量矩阵对应的音频概率;所述第二级卷积神经网络为包含注意力机制的卷积神经网络;

使用解码图对所述音频概率对应的音频进行解码得到所述语音信号对应的识别结果。

可选的,所述第一级卷积神经网络和所述第二级卷积神经网络包含有残差模块。

可选的,所述语音采集设备为双麦克风或麦克风阵列。

第三方面,本发明实施例还提供一种计算设备,包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述具有自适应降噪能力的语音识别方法。

第四方面,本发明实施例还提供一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述具有自适应降噪能力的语音识别方法。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种系统架构的示意图;

图2为本发明实施例提供的一种具有自适应降噪能力的语音识别方法的流程示意图;

图3为本发明实施例提供的一种麦克风部署的示意图;

图4为本发明实施例提供的一种声学特征提取的示意图;

图5为本发明实施例提供的一种语音识别的示意图;

图6为本发明实施例提供的一种降噪和识别的示意图;

图7为本发明实施例提供的一种降噪识别的示意图;

图8为本发明实施例提供的一种卷积神经网络的示意图;

图9为本发明实施例提供的一种包含注意力机制的卷积神经网络的示意图;

图10为本发明实施例提供的一种带有残差结构卷积神经网络的示意图;

图11为本发明实施例提供的一种具有自适应降噪能力的语音识别装置的结构示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

图1为本发明实施例提供的一种系统架构。如图1所示,该系统架构可以包括语音信号的接收输入模块100、语音信号的处理模块200、语音识别模块300和语音识别响应模块400。

其中,语音信号的接收输入模块100,通过单麦双麦或者麦克风阵列接收周围语音信号。

语音信号的处理模块200,对连续语音信号进行模数转换和量化编码,再进行预加重等操作提取出包含有效语音信息的多维声学特征(例如可以是40维)。

语音识别模块300,用以将多维声学特征输入已经提前完成训练并配置好参数的神经网络,得到识别结果。

语音识别响应模块400,根据神经网络的识别结果输出控制信号,通过预设反馈指令控制终端设备并通过扬声器播报指令词。

需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。

在语音信号的接收输入部分,现有的降噪技术都无一例外地需要提前预设一个经验阈值,再将接收到的信号进行时域或者频域的处理。对于频域信号,还需要额外进行快速傅里叶变换和傅里叶逆变换。这些噪声检测消除方法在信号起始阶段都需要一定长度的延迟,通常为5-20帧,并且在处理速度不足时,会存在漏帧缺帧现象或在处理过程中有卡死挂起现象。并且在实际部署中,需要针对不同的噪声环境和应用场景,对阈值进行调整,这增加了部署的难度,且不具备通用性。在终端设备存储器中,噪声前处理模块占有不小的空间,由于终端设备的内存通常不大,这也影响了神经网络模型的大小,制约了神经网络模型的复杂度。此外,语音信号需要先经过前处理模块降噪再输入神经网络进行分类判断,无法并行操作,增加了整个语音识别系统的响应时间。

为了解决上述问题,图2详细的示出了本发明实施例提供的一种具有自适应降噪能力的语音识别方法的流程,该流程可以由具有自适应降噪能力的语音识别装置执行。

如图2所示,该流程具体包括:

步骤201,获取语音采集设备采集的语音信号。

在本发明实施例中,该语音采集设备可以是双麦克风或麦克风阵列。即使用双麦或者麦克风阵列(麦克风个数大于2)进行语音信号采集。如附图3。部署多个麦克风可以实现说话人定位功能,通过说话人定位可以精准确定说话人的空间方位,并主动将来自其他方向的声音进行抑制,即使其他方向的语音信号包含有效指令词,也将其判断为噪声,这种方法可以减少语音信号中背景噪声的比例,降低了后续噪声去除的难度,同时也避免环境中的突发性噪声带来的指令词的误识别。

麦克风数量越多,获得的声道也就越多,相比单麦,双麦可以进行简单的左右声源定位,但是无法区分前后,麦克风阵列(一般按三角形排列或者正多边形或圆形水平排列,视个数决定)相比双麦可以更精准地定位声源,从而能够抑制其他方向的声音,但是麦克风数量取决于终端设备的空间,成本也会增加,目前语音空调使用了双麦版本,后续也有单麦版本。优选方案相比基础方案,目的是增加声音的相位特征,不再仅仅包含频谱和振幅特征,对于本发明实施例的后续特征提取有增益作用,但是其他语音接收方法和接收设备也适用本发明实施例。

步骤202,对所述语音信号进行处理,得到语音特征向量矩阵。

具体的,对语音信号进行分帧、傅里叶变换、预加重和fbank特征提取,得到包含噪声的语音特征向量矩阵。

在语音信号的处理部分,对语音信号进行常规的分帧、傅里叶变换、预加重、fbank特征提取等常规处理步骤,具体的提取流程如图4,包括:

步骤401,输入语音信号。

步骤402,预加重。

对输入的语音信号进行预加重。

步骤403,分帧加窗。

对预加重后的语音信号进行分帧加窗处理。

步骤404,傅里叶变换。

对分帧加窗后的语音信号进行傅里叶变换处理。

步骤405,梅尔滤波器组。

将傅里叶变换后的语音信号输入到梅尔滤波器组进行滤波处理。

步骤406,取对数log。

对滤波后的语音信号进行取对数log处理。

步骤407,提取fbank特征。

对取对数log处理的语音信号提取fbank特征,得到语音特征。

与现有的语音识别技术相比,这里的信号处理对象包含背景噪声,这是现有技术无法识别的。最后所提取的语音特征也包含噪声的音频特征。进行特征提取后,逐帧得到一个具有语音信息代表性的40维向量,最终组成一个多维特征矩阵k。

步骤203,将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果。

具体的,将语音特征向量矩阵输入到级联卷积神经网络中的第一级卷积神经网络中进行分类,得到语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵。然后将语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到语音信号对应的识别结果。

其中,人声和噪声分离的过程中,可以将语音特征向量矩阵输入到第一级卷积神经网络中,使用不同尺寸的卷积核进行一维卷积得到高维特征矩阵。将高维特征矩阵利用全连接层根据噪声分类标准进行分类,得到分类结果;若分类结果为噪声,则确定出噪声的类别,根据噪声的类别和预设的各类别的噪声分类系数矩阵,确定出语音特征向量矩阵对应的噪声分类系数矩阵。最后将分类结果与语音特征向量矩阵对应的噪声分类系数矩阵进行运算,得到语音特征向量矩阵对应的特征矩阵。

语音识别的过程中,可以将语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到第二级卷积神经网络中,得到语音特征向量矩阵对应的音频概率,其中,第二级卷积神经网络为包含注意力机制的卷积神经网络。最后使用解码图对音频概率对应的音频进行解码得到语音信号对应的识别结果。

上述第一级卷积神经网络和第二级卷积神经网络可以包含有残差模块。

在实际应用过程中,将处理得到的多维特征矩阵k输入一个多级卷积神经网络,进行语音识别。如图5所示,具体可以包括:

步骤501,输入语音信号。

步骤502,特征提取得到40维特征矩阵k。

步骤503,输入一级卷积神经网络。

对40维特征矩阵k中的特征向量使用不同尺寸的卷积核进行一维卷积得到高维特征矩阵c。这里由于使用了多种尺寸的卷积核,能够利用更多的维度进行分类,而不再局限于时域和频域。将高维特征矩阵c利用全连接层进行线性分类。当输入高维特征矩阵c,卷积神经网络可以根据分类标准对分类矩阵c进行初步分离得到结果c’(分离结果c’包含c内的所有特征信息和分离方法信息,对于初分类为人声的特征,不参与和系数a的运算,也可以认为系数为1)。

步骤504,不存在噪声时,对噪声分类,得到系数矩阵a。

判断噪声大致的种类比如家居、人声背景、风噪、电器、交通等。在不同环境下,语音信号的声学特征会有很大不同,根据对噪声的声学分类结果,对不同噪声分别定义一个系数矩阵a,代表了当前最有可能的噪声环境。

步骤505,不存在噪声时,多尺度卷积信号矩阵c’。

步骤506,系数操作得到消除噪声特征后的矩阵r。

将卷积神经网络结果c’与系数矩阵a进行系数运算,(a是一个归一化后的系数矩阵,做完归一化排除了音量大小等因素,每种噪声对应一组不同的系数,具体的数值特征在c’中,每个特征可以看成是一个向量,所以需要做矩阵运算,这样可以确保系数矩阵a不会太大,因为需要不断更新)以消除矩阵中的噪声分量,得到特征矩阵r,注意噪声分类系数矩阵a会随着输入特征的变化而实时变化,并且会参与后续识别分类过程。

步骤507,输入到二级卷积神经网络。

将特征矩阵r和噪声系数矩阵a同时输入一个包含注意力机制的二级卷积神经网络,该神经网络同样包含不同大小的卷积核,以提取不同尺寸的特征向量。由于在前期训练中已经覆盖了多种常见环境噪声,神经网络能够学习到不同环境下声音的混响衰减特性。

步骤508,得到一个在噪声系数约束下的最优分类结果。

在噪声系数矩阵a作为约束条件下,卷积神经网络能够根据特征矩阵r经过sigmoid函数(位于二级神经网络最后,用于得到分类结果),输出每一帧的音素概率,然后通过解码图解码出最优分类结果。

步骤509,根据最优分类结果控制硬件完成指令。

得到的最优分类结果可以认为是在当前实际噪声环境下,说话人最有可能发出的指令,从而控制硬件完成指令。

步骤510,语音播报指令反馈。

目前有很多同样基于神经网络的降噪技术,但普遍思路依然是模仿传统降噪技术,在信号层面将噪声消除得到纯净信号。并且目前没有一种针对多种应用场景,结合降噪和语音识别两个任务的方案。或者是降噪神经网络,或者是语音识别网络,二者是独立的,分离的,如图6。这种分步操作的问题是,目前的噪声信号消除技术主要体现在通过滤除某些特定频率上的音频分量,但是这种基于信号上的处理方法不可避免地会对人声信号也有失真,因为人声与噪声在频率上会有重叠,体现在感受上就是整个音频会变“糊”。另外目前的降噪技术只关注保留下来的纯净信号,却丢失了可能包含在噪声分量中的有效特征,如附图7。(目前的技术为了更好的消除噪声,可能会存在过度拟合噪声的现象)如果过度拟合噪声(过拟合是指过度追求一致假设导致假设过于严格),那么反而会影响有效声音部分。反之,当前处理过程中降噪不够严格时,由于目前基于神经网络的分类技术主要依赖于前处理降噪后语音信号的精度,分类的效果会很差。此外,神经网络训练时,处理的样本都是背景纯净的语音信号。然而,在实际应用中,前处理降噪技术没有办法在保留有效语音信号的同时将噪声信号完全滤除干净,因此实际的输入信号与神经网络模型训练的对象会存在不一致性,会存在有效特征的丢失和干扰特征的遗留,在不同类型噪声干扰或信噪比较低的情况下,会导致语音识别系统对用户指令的不识别和误识别,对语音识别的准确性产生影响,也降低了用户的体验性。

与现有技术相比,本发明实施例始终以最终语音识别结果为导向,而非单一的进行降噪或者语音识别。降噪与识别操作相结合,在神经网络学习过程中始终维持在高维空间内进行识别分类问题,解决了低维人声噪声不可分问题,如图5。创新点在于包含所有语音信息的高维特征,再使用卷积神经网络将噪声和人声特征进行分离,与其他利用神经网络降噪的技术不同的是,本发明实施例在得到人声特征的同时创新地根据训练内容构建噪声系数矩阵a,目的是为了在降噪处理之后,神经网络依然保留了全部的语音特征,保证了有效特征不会丢失。并且噪声系数矩阵能很好地反映不同种类的噪声环境下的声音传播特性,这对后续的语音分类过程有促进作用。语音识别模块能够适应多种不同的环境噪声,并且能够全程自适应地完成降噪功能。存储的噪声系数矩阵a可以实时进行更新,以确保语音识别系统能够对突发性和非线性的噪声同样具备很好的抑制能力。同时,利用注意力机制,可以实现对不同参数的赋值,能够增强神经网络在部分复杂噪声情况下的注意力得分,抑制在当前任务中不重要的参数,从而整体提升语音识别系统的降噪能力。

与其他使用传统或者神经网络的技术相比,本发明实施例的创新点在于,在离线语音识别过程中,操作结果并不仅仅是去除噪声后的纯净信号,噪声本身的特征依然被保留并参与后续学习,达到分而不离地效果,保证了没有任何潜在有效特征的丢失。其次,由于在训练中,样本不仅包含纯净信号,还包含带噪信号和噪声本身的特征,因此即使降噪后的信号未达到完全纯净,后续的神经网络依然能够识别,抗噪能力更强。最后,由于本发明实施例是针对一种离线情况下的终端语音识别方案。

本发明实施例的基本方案可以使用两个级联的16层卷积神经网络,如图8的一个16层卷积神经网络的结构,其中,卷积层的数量n可以为16。该卷积神经网络可以包括n个卷积层801、激活函数层802和全连接层803。每个卷积层801可以进行归一化、卷积和空洞采样等操作,每个卷积层801的空洞采样的步长可以相同,也可以不相同,在实际应用过程中可以依据经验设置。为了能够得到更好的降噪效果,可以在第二级卷积神经网络中加入了注意力机制,如图9所示,在激活函数之后,加入注意力机制,该注意力机制的主要目的是实现只关注对于当前任务重要的部分空间,减少其他背景的干扰,从而以实现部分特征降噪增强。

本发明实施例的第二级卷积神经网络的优选方案是还可以引入残差模块,如图10所示的结构,该第二级卷积神经网络的结构可以包括n个卷积层1001、激活函数层1002、注意力层1004、全连接层1003和残差模块1005。其中,在任意两个卷积层1001之间进入了残差模块1005,通过残差模块1005,可以实现特征信息跃级传输并且能够减少梯度消失现象。这样将图8所示的结构和图10所示的结构结合在一起,就可以构建部署深度32层的级联卷积神经网络,能够处理更大的指令词库并且适应更多的噪声环境。但是同时对芯片的处理能力和存储器的大小有着更高的要求。

在语音识别的响应模块,系统将神经网络的最终输出的识别分类结果,发送到终端设备的硬件控制系统,根据指令完成相应的指令操作,如打开电视,关闭空调等。同时,通过相关输出设备进行提示,如通过扬声器进行人声播报或通过显示屏幕进行文字显示。

语音识别系统本身需要对播报音具有主动消除性,具体体现为在设备进行播报时,说话人发出指令能够被正常识别;说话人连续发出多个指令时能够连续识别。播报音应当被视为一种特殊的背景噪声。

需要说明的是,为了实现降噪功能,通常需要结合信号处理领域的相关知识,但是都无法实现通用性和实时性,在引入了深度学习网络后,通过海量数据的预训练和高性能处理器可以满足以上两点需求。相比较现有技术,本发明实施例最大的优势在于无需额外占用算力和内存的前处理模块,而是使用一个级联神经网络实现降噪和识别功能,现有的降噪方法无法在保留所有有效语音特征的情况下百分百消除噪声,因此与理论情况永远存在差距。而本发明实施例首先提取噪声和有效语音特征,并在识别过程中仍然保留噪声特征,最终的识别结果参考了信号所处的特定噪声环境,通过这种方法能够极大地提高整个语音识别系统的在不同噪声环境下的抗噪能力。

本发明实施例主要应用于离线小型语音识别终端设备,能够在不联网的基础上完成自适应降噪的语音识别功能,未来如果能够部署于云端使用处理能力更强的中心服务器,那么对噪声的拟合程度将会更好,识别准确度会更高。

本发明实施例使用的卷积神经网络结构和层数可以更改,也可以使用其他神经网络结构进行尝试。

在本发明实施例中,获取语音采集设备采集的语音信号,对语音信号进行处理,得到语音特征向量矩阵,将语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到语音信号对应的识别结果,其中,训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。通过部署级联的卷积神经网络,无需添加额外的降噪模块,即可实现降噪和语音识别功能,且由于降噪和识别操作均位于同一个神经网络内,不再是独立的两个过程,互相具有监督作用,在识别分类过程中,神经网络依然能学习到降噪过程中分离得到的噪声信号特征。此外,整个降噪识别过程都是在高纬度空间下实现的,相比现有技术的方案,没有中间维度变换带来的信息损失。通过这种方式使有效特征不会丢失,同时信号处理的实时性更高,语音识别系统对噪声有更强的鲁棒性,噪声情况下的识别率会有明显提升。

基于相同的技术构思,图11示例性的示出了本发明实施例提供的一种具有自适应降噪能力的语音识别装置的结构,该装置可以执行具有自适应降噪能力的语音识别流程。

如图11所示,该装置具体包括:

获取单元1101,用于获取语音采集设备采集的语音信号;

处理单元1102,用于对所述语音信号进行处理,得到语音特征向量矩阵;将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果;其中,所述训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。

可选的,所述处理单元1102具体用于:

对所述语音信号进行分帧、傅里叶变换、预加重和fbank特征提取,得到包含噪声的语音特征向量矩阵。

可选的,所述处理单元1102具体用于:

将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵;

将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果。

可选的,所述处理单元1102具体用于:

将所述语音特征向量矩阵输入到所述第一级卷积神经网络中,使用不同尺寸的卷积核进行一维卷积得到高维特征矩阵;

将所述高维特征矩阵利用全连接层根据噪声分类标准进行分类,得到分类结果;

若所述分类结果为噪声,则确定出所述噪声的类别,根据所述噪声的类别和预设的各类别的噪声分类系数矩阵,确定出所述语音特征向量矩阵对应的噪声分类系数矩阵;

将所述分类结果与所述语音特征向量矩阵对应的噪声分类系数矩阵进行运算,得到所述语音特征向量矩阵对应的特征矩阵。

可选的,所述处理单元1102具体用于:

将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述第二级卷积神经网络中,得到所述语音特征向量矩阵对应的音频概率;所述第二级卷积神经网络为包含注意力机制的卷积神经网络;

使用解码图对所述音频概率对应的音频进行解码得到所述语音信号对应的识别结果。

可选的,所述第一级卷积神经网络和所述第二级卷积神经网络包含有残差模块。

可选的,所述语音采集设备为双麦克风或麦克风阵列。

基于相同的技术构思,本发明实施例还提供了一种计算设备,包括:

存储器,用于存储程序指令;

处理器,用于调用存储器中存储的程序指令,按照获得的程序执行上述具有自适应降噪能力的语音识别方法。

基于相同的技术构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行计算机可读指令时,使得计算机执行上述具有自适应降噪能力的语音识别方法。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。


技术特征:

1.一种具有自适应降噪能力的语音识别方法,其特征在于,包括:

获取语音采集设备采集的语音信号;

对所述语音信号进行处理,得到语音特征向量矩阵;

将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果;

其中,所述训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。

2.如权利要求1所述的方法,其特征在于,所述对所述语音信号进行处理,得到语音特征向量矩阵,包括:

对所述语音信号进行分帧、傅里叶变换、预加重和fbank特征提取,得到包含噪声的语音特征向量矩阵。

3.如权利要求1所述的方法,其特征在于,所述将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果,包括:

将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵;

将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果。

4.如权利要求3所述的方法,其特征在于,所述将所述语音特征向量矩阵输入到所述级联卷积神经网络中的第一级卷积神经网络中进行分类,得到所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵,包括:

将所述语音特征向量矩阵输入到所述第一级卷积神经网络中,使用不同尺寸的卷积核进行一维卷积得到高维特征矩阵;

将所述高维特征矩阵利用全连接层根据噪声分类标准进行分类,得到分类结果;

若所述分类结果为噪声,则确定出所述噪声的类别,根据所述噪声的类别和预设的各类别的噪声分类系数矩阵,确定出所述语音特征向量矩阵对应的噪声分类系数矩阵;

将所述分类结果与所述语音特征向量矩阵对应的噪声分类系数矩阵进行运算,得到所述语音特征向量矩阵对应的特征矩阵。

5.如权利要求3所述的方法,其特征在于,所述将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述级联卷积神经网络中的第二级卷积神经网络中进行语音识别,得到所述语音信号对应的识别结果,包括:

将所述语音特征向量矩阵对应的特征矩阵和噪声分类系数矩阵输入到所述第二级卷积神经网络中,得到所述语音特征向量矩阵对应的音频概率;所述第二级卷积神经网络为包含注意力机制的卷积神经网络;

使用解码图对所述音频概率对应的音频进行解码得到所述语音信号对应的识别结果。

6.如权利要求3所述的方法,其特征在于,所述第一级卷积神经网络和所述第二级卷积神经网络包含有残差模块。

7.如权利要求1至6任一项所述的方法,其特征在于,所述语音采集设备为双麦克风或麦克风阵列。

8.一种具有自适应降噪能力的语音识别装置,其特征在于,包括:

获取单元,用于获取语音采集设备采集的语音信号;

处理单元,用于对所述语音信号进行处理,得到语音特征向量矩阵;将所述语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到所述语音信号对应的识别结果;其中,所述训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。

9.一种计算设备,其特征在于,包括:

存储器,用于存储程序指令;

处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至7任一项所述的方法。

10.一种计算机可读非易失性存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1至7任一项所述的方法。

技术总结
本发明公开了一种具有自适应降噪能力的语音识别方法及装置,该方法包括获取语音采集设备采集的语音信号,对语音信号进行处理,得到语音特征向量矩阵,将语音特征向量矩阵输入到训练好的级联卷积神经网络中进行降噪和语音识别,得到语音信号对应的识别结果,其中,训练好的级联卷积神经网络是对包含有噪声的语音信号的训练集进行训练得到的。通过部署级联的卷积神经网络,无需添加额外的降噪模块,即可实现降噪和语音识别功能,在识别分类过程中,神经网络依然能学习到降噪过程中分离得到的噪声信号特征。通过这种方式使有效特征不会丢失,同时信号处理的实时性更高,语音识别系统对噪声有更强的鲁棒性,噪声情况下的识别率会有明显提升。

技术研发人员:杨韬育;徐涛;牟杰
受保护的技术使用者:上海顺久电子科技有限公司
技术研发日:2021.04.22
技术公布日:2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-866.html

最新回复(0)