本申请涉及语音技术领域,尤其涉及一种远场语音交互装置和电子设备。
背景技术:
远场语音(far-fieldaudio)交互功能可实现约5米距离的语音控制,可充分解放用户的双手,已成为了电子设备的标配功能。
然而,受限于芯片方案商的硬件资源限制,芯片的接口定义中没有直连麦克风(mic)的硬件接口。在电子设备采用此类芯片时,硬件方案架构需要添加额外的其他元器件,远场语音交互功能会受到其他元器件的影响,且增加了整个硬件方案的成本。
技术实现要素:
本申请实施例提供一种远场语音交互装置和电子设备,可实现了麦克风阵列与控制单元之间的直连,完成电子设备的远场语音交互功能,优化了硬件架构的整体设计,避免了其他元器件对远场语音交互功耗产生的影响,降低了整个硬件架构的元器件成本。
第一方面,本申请实施例提供一种远场语音交互装置,包括:接收电路、模数转换电路、输出电路、功率放大电路以及控制单元;
接收电路用于采集原始音频信号,接收电路与模数转换电路电连接,输出电路与功率放大电路电连接,功率放大电路用于提供回声参考信号,输出电路用于输出控制单元基于原始音频信号和回声参考信号合成后的语音数据;
控制单元包括第一组引脚和第二组引脚;
第一组引脚中的第一数据引脚、一个时钟引脚以及一个位选引脚均与模数转换电路电连接,第一组引脚中的第二数据引脚与功率放大电路电连接;
第二组引脚中的一个数据引脚、一个时钟引脚以及一个位选引脚均与功率放大电路电连接。
通过第一方面的装置,基于前述电连接关系,模数转换电路可将接收电路采集的原始音频信号转化为i2s格式的数字信号,且将i2s格式的数字信号传输给控制单元。同时,功率放大电路可将回声参考信号转换为i2s格式的数字信号,且将i2s格式的数字信号传输给控制单元。控制单元可对回声参考信号对应的数字信号以及原始音频信号对应的数字信号进行如信号降噪、回声消除、声源定位及波束成形的语音算法处理,使得输出电路可输出合成后的语音数据。从而,完成了电子设备的远场语音交互功能,实现了麦克风阵列与控制单元之间的直连,优化了硬件架构的整体设计,且避免了其他元器件对远场语音交互功耗产生的影响,降低了整个硬件架构的元器件成本。
在一种可能的设计中,接收电路中设置有麦克风阵列,输出电路中设置有扬声器阵列。
在一种可能的设计中,第一数据引脚的数量为m,麦克风阵列中麦克风的总数为2m,m为正整数;第二数据引脚的数量为1。
由此,控制单元通过多个数据引脚可接收到原始音频信号对应的数字信号和回声参考信号对应的数字信号,避免了原始音频信号受到其他元器件的影响。
在一种可能的设计中,第一组引脚中的一个时钟引脚与第二组引脚中的一个时钟引脚电连接;第一组引脚中的一个位选引脚与第二组引脚中的一个位选引脚电连接。
由此,使得控制单元的两组引脚能够保持相同的时钟信号和位选信号,减少了控制单元提供各种类型信号的信号量。
第二方面,本申请实施例提供一种远场语音交互装置,包括:接收电路、模数转换电路、输出电路、功率放大电路以及控制单元;
接收电路用于采集原始音频信号,接收电路与模数转换电路电连接,输出电路与功率放大电路电连接,模数转换电路还电连接在输出电路和功率放大电路之间,功率放大电路用于提供回声参考信号,输出电路用于输出控制单元基于原始音频信号和回声参考信号合成后的语音数据;
控制单元包括第三组引脚和第四组引脚;
第三组引脚中的第三数据引脚、一个时钟引脚以及一个位选引脚均与模数转换电路电连接;
第四组引脚中的一个数据引脚、一个时钟引脚以及一个位选引脚均与功率放大电路电连接。
通过第二方面的装置,基于前述电连接关系,模数转换电路可将接收电路采集的原始音频信号转化为i2s格式的数字信号,且将i2s格式的数字信号传输给控制单元。同时,模数转换电路还可将功率放大电路输出的回声参考信号转换为i2s格式的数字信号,且将i2s格式的数字信号传输给控制单元。控制单元可对回声参考信号对应的数字信号以及原始音频信号对应的数字信号进行如信号降噪、回声消除、声源定位及波束成形的语音算法处理,使得输出电路可输出合成后的语音数据。从而,完成了电子设备的远场语音交互功能,实现了麦克风阵列与控制单元之间的直连,优化了硬件架构的整体设计,且避免了其他元器件对远场语音交互功耗产生的影响,降低了整个硬件架构的元器件成本。
在一种可能的设计中,接收电路中设置有麦克风阵列,输出电路中设置有扬声器阵列。
在一种可能的设计中,第三数据引脚的数量为m 1,麦克风阵列中麦克风的总数为2m,m为正整数。
由此,控制单元通过多个数据引脚可接收到原始音频信号对应的数字信号和回声参考信号对应的数字信号,避免了原始音频信号受到其他元器件的影响。
在一种可能的设计中,第三数据引脚的数量为1。
由此,模数转换电路采用软件配置的时分复用(time-divisionmultiplexing,tdm)模式,经过分压、滤波等处理后,通过第三组引脚中的同一个数据引脚,分时向控制单元传输原始音频信号对应的数字信号和回声参考信号对应的数字信号,由此,控制单元通过一个数据引脚便接收到原始音频信号对应的数字信号和回声参考信号对应的数字信号。
在一种可能的设计中,远场语音交互装置还包括:wifi6模块;第三组引脚中的两个第四数据引脚与wifi6模块电连接。
由此,实现了远程语言交互功能和wifi功能的共存。并且,得益于wifi6模块的低延时、高传输速率的优势,云端服务器关联的语言识别和语义理解等服务将更加流畅,使得用户的语音体验效果更佳。
在一种可能的设计中,第三组引脚中的一个时钟引脚与第四组引脚中的一个时钟引脚电连接;第三组引脚中的一个位选引脚与第四组引脚中的一个位选引脚电连接。
由此,使得控制单元的两组引脚能够保持相同的时钟信号和位选信号,减少了控制单元提供各种类型信号的信号量。
第三方面,本申请实施例提供一种电子设备,包括:壳体和第一方面及第一方面任一种可能的设计中的远场语音交互装置;或者,壳体和第二方面及第二方面任一种可能的设计中的远场语音交互装置。
在一种可能的设计中,电子设备为电视机或音箱。
附图说明
图1为一种用于实现远场语音交互功能的第一装置的硬件架构图;
图2为本申请一实施例提供的一种远场语音交互装置的结构示意图;
图3为本申请一实施例提供的一种远场语音交互装置的结构示意图;
图4为本申请一实施例提供的一种远场语音交互装置的结构示意图。
具体实施方式
本申请实施例中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b的情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,单独a,单独b或单独c中的至少一项(个),可以表示:单独a,单独b,单独c,组合a和b,组合a和c,组合b和c,或组合a、b和c,其中a,b,c可以是单个,也可以是多个。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
随着人工智能技术的不断发展,用户越来越希望通过语音实现对电子设备的控制。因此,设置有远场语音交互装置的电子设备孕育而生,极大满足了用户的生产和生活。其中,电子设备可包括但不限于电视机、音箱、空调、冰箱等智能设备。
以电视机为例,在用户想要向电视机询问当前的天气情况时,用户可向发出对应的语音指令。电视机中的远场语音交互装置可采集到用户发出的语音指令,并对该语音指令进行唤醒词的识别。在识别成功后,电视机中的远场语音交互装置可向云端服务器发送处理后的音频数据。云端服务器对该处理后的音频数据进行语音识别和语义理解。云端服务器再向电视机中的远场语音交互装置传输合成后的语音数据。电视机中的远场语音交互装置再输出合成后的语音数据,即当前的天气情况。从而,实现了电子设备的远场语音交互功能。
需要说明的是,除了与云端服务器交互的方式之外,电视机中的远场语音交互装置也可自身实现对该处理后的音频数据进行语音识别和语义理解,本申请实施例对此不做限定。
请参阅图1,图1为一种用于实现远场语音交互功能的第一装置的硬件架构图。如图1所示,用于实现远场语音交互功能的第一装置400可以包括:麦克风阵列401、模数转换器(analogtodigitalconverter,adc)402、扬声器阵列403、功率放大器(poweramplifier,amp)404、adc405、微控制单元(microcontrollerunit,mcu)406以及系统级芯片(systemonchip,soc)407。
其中,麦克风阵列401与adc402电连接,adc402与mcu406电连接。扬声器阵列403与amp404电连接,amp404器与adc405电连接,adc405与mcu406电连接。mcu406还与soc407电连接,soc407还与amp404电连接。
麦克风阵列401向adc402输出模拟信号,adc402将模拟信号转换为集成电路内置音频总线(inter—icsound,i2s)格式的数字信号,且adc402将i2s格式的数字信号输入到mcu406中,使得mcu406将i2s格式的数字信号作为远场语音算法需求的麦克风阵列401采集的原始音频信号。
同时,回声参考信号取自于amp404的模拟输出,经过降压及滤波等处理后,向adc405输出模拟信号,adc405将模拟信号转换为i2s格式的数字信号,且adc405将i2s格式的数字信号输入到mcu406中,使得mcu406将i2s格式的数字信号作为远场语音算法需求的回声参考信号。
mcu406对原始音频信号和回声参考信号完成信号合成、信号转换以及信号相位控制等处理。mcu406利用usb音频类(usbaudioclass,uac)协议,通过标准的usb接口,将处理后的音频数据传输给soc407。
通过上述过程,完成了麦克风阵列401与soc407之间音频数据的传输。然而,图1中的第一装置400的整个架构的设计较为复杂,不仅需要额外增加adc405、mcu406以及对应的电源芯片等,还增加了整个架构的元器件成本。并且,在mcu406的固件程序需要更新时,soc407只能通过usb接口向mcu406传输对应的固件程序,使得mcu406完成固件程序的升级。此时,当传输音频信号时,第一装置400也同样需要使用usb接口,导致第一装置400在mcu406的固件程序升级过程中无法实现远程语音交互功能。
为了解决上述问题,本申请实施例提供一种远场语音交互装置和电子设备,可在电子设备中的控制单元集成有处理回声参考信号对应的数字信号以及原始音频信号对应的数字信号的算法模块,以便完成电子设备的远场语音交互功能,实现了麦克风阵列与控制单元之间的直连,优化了硬件架构的整体设计,避免了其他元器件对远场语音交互功耗产生的影响,降低了整个硬件架构的元器件成本。
示例性地,本申请实施例可提供一种远场语音交互装置。
下面,结合图2-图4,介绍场语音交互装置的具体实现方式。
请参阅图2,图2为本申请一实施例提供的一种远场语音交互装置的结构示意图。如图2所示,本申请实施例的远场语音交互装置100可以包括:接收电路101、模数转换电路102、输出电路103、功率放大电路104以及控制单元105。
其中,接收电路101中设置有麦克风阵列,麦克风阵列用于采集原始音频信号。本申请对麦克风阵列中的麦克风的数量、类型等参数不做限定。
其中,输出电路103中设置有扬声器阵列,扬声器阵列用于输出控制单元105基于所述原始音频信号和所述回声参考信号合成后的语音数据。本申请对扬声器阵列中的扬声器的数量、类型等参数不做限定。
其中,模数转换电路102用于实现模数转换等功能,功率放大电路104用于实现功率放大等功能。
另外,本申请对模数转换电路102、功率放大电路104和控制单元105的具体实现方式不做限定。例如,模数转换电路102可以包括模式转换器和外围电路,功率放大电路104可以包括功率放大器和外围电路,控制单元105可以为soc。其中,外围电路可以为电阻、电容、电感等元器件。
接收电路101与模数转换电路102电连接,输出电路103与功率放大电路104电连接。控制单元105包括第一组引脚(以标记有“i2s0”示出)和第二组引脚(以标记有“i2s1”示出)。
其中,第一组引脚可以包括第一数据引脚、第二数据引脚、一个时钟引脚和一个位选引脚。第二组引脚可以包括一个数据引脚、一个时钟引脚和一个位选引脚。
在一些实施例中,第一数据引脚的数量为m,麦克风阵列中麦克风的总数为2m,m为正整数;第二数据引脚的数量为1。
例如,在麦克风阵列为4mic时,第一数据引脚的数量为2,且每个引脚传输两个通道的音频信号。又如,在麦克风阵列为8mic时,第一数据引脚的数量为4,且每个引脚传输两个通道的音频信号。
为了便于说明,下面,以4mic为例,介绍各个引脚的电连接关系。
第一组引脚中的第一数据引脚(图2中以标记“i2s0din0”和“i2s0din1”进行示意)、一个时钟引脚(图2中以标记“i2s0bclk”进行示意)以及一个位选引脚(图2中以标记“i2s0ws”进行示意)均与模数转换电路102电连接,第一组引脚中的第二数据引脚(图2中以标记“i2s0din2”进行示意)与功率放大电路104电连接。
第二组引脚中的一个数据引脚(图2中以标记“i2s1dout0”进行示意)、一个时钟引脚(图2中以标记“i2s1bclk”进行示意)以及一个位选引脚(图2中以标记“i2s1ws”进行示意)均与功率放大电路104电连接。
在一些实施例中,第一组引脚中的一个时钟引脚(图2中以标记“i2s0bclk”进行示意)与第二组引脚中的一个时钟引脚(图2中以标记“i2s1bclk”进行示意)电连接,且第一组引脚中的一个位选引脚(图2中以标记“i2s0ws”进行示意)与第二组引脚中的一个位选引脚(图2中以标记“i2s1ws”进行示意)电连接。
从而,使得控制单元105的两组引脚保持相同的时钟信号和位选信号,减少了控制单元105提供各种类型信号的信号量。
本申请实施例中,接收电路101采集到原始音频信号,接收电路101向模数转换电路102输出模拟信号,模数转换电路102将模拟信号转换为i2s格式的数字信号。模数转换电路102通过第一数据引脚中的多个数据引脚向控制单元105传输i2s格式的数字信号。
同时,回声参考信号取自于功率放大电路104的数字输出。功率放大电路104通过第一数据引脚中的一个数据引脚向控制单元105传输i2s格式的数字信号。
其中,控制单元105采用不同的数据引脚接收原始音频信号对应的数字信号和回声参考信号对应的数字信号。
从而,接收电路101采集到的原始音频信号仅经过模数转换电路102输出给控制单元105,以及功率放大电路104提供的回声参考信号直接传输给控制单元105,并未经过其他元器件。
控制单元105中集成有算法模块,如远场语音apk(androidapplicationpackage,android应用程序包)。算法模块可对回声参考信号对应的数字信号以及原始音频信号对应的数字信号进行信号降噪、回声消除(acousticechocancellation,aec)、声源定位及波束成形等语音算法处理。
控制单元105中还集成有语音引擎。算法模块可将处理后的音频数据传输给语音引擎,使得语音引擎对处理后的音频数据完成唤醒词的识别。
在识别出处理后的音频数据中包括唤醒词时,语音引擎将触发唤醒事件。在唤醒事件触发后,语音引擎对处理后的音频数据进行转换,并传输给云端服务器,使得云端服务器对转换后的音频数据进行语音识别和语义理解。
云端服务器通过语音合成,向控制单元105传输合成后的语音数据。控制单元105通过第二组引脚中的一个数据引脚,经过功率放大电路104向输出电路103传输合成后的语音数据,便完成了远场语音交互功能的全过程。
需要说明的是,除了与云端服务器交互的方式之外,控制单元105也可自身实现对该处理后的音频数据进行语音识别和语义理解,本申请实施例对此不做限定。
本申请实施例中,基于前述电连接关系,模数转换电路可将接收电路采集的原始音频信号转化为i2s格式的数字信号,且将i2s格式的数字信号传输给控制单元。同时,功率放大电路可将回声参考信号转换为i2s格式的数字信号,且将i2s格式的数字信号传输给控制单元。控制单元可对回声参考信号对应的数字信号以及原始音频信号对应的数字信号进行如信号降噪、回声消除、声源定位及波束成形的语音算法处理,使得输出电路可输出合成后的语音数据。从而,完成了电子设备的远场语音交互功能,实现了麦克风阵列与控制单元之间的直连,优化了硬件架构的整体设计,且避免了其他元器件对远场语音交互功耗产生的影响,降低了整个硬件架构的元器件成本。
请参阅图3,图3为本申请一实施例提供的一种远场语音交互装置的结构示意图。
如图3所示,本申请实施例的远场语音交互装置200可以包括:接收电路201、模数转换电路202、输出电路203、功率放大电路204以及控制单元205。
其中,接收电路201中设置有麦克风阵列,麦克风阵列用于采集原始音频信号。本申请对麦克风阵列中的麦克风的数量、类型等参数不做限定。
其中,输出电路203中设置有扬声器阵列,扬声器阵列用于输出控制单元105基于所述原始音频信号和所述回声参考信号合成后的语音数据。本申请对扬声器阵列中的扬声器的数量、类型等参数不做限定。
其中,模数转换电路202用于实现模数转换等功能,功率放大电路204用于实现功率放大等功能。
另外,本申请对模数转换电路202、功率放大电路204控制单元205的具体实现方式不做限定。例如,模数转换电路202可以包括模式转换器和外围电路,功率放大电路204可以包括功率放大器和外围电路,控制单元205可以为soc。其中,外围电路可以为电阻、电容、电感等元器件。
接收电路201与模数转换电路202电连接,输出电路203与功率放大电路204电连接,模数转换电路202还电连接在输出电路203与和功率放大电路204之间。
控制单元205包括第三组引脚(图3中以标记有“i2s2”示出)和第四组引脚(图3中以标记有“i2s3”示出)。
其中,第三组引脚可以包括第三数据引脚、一个时钟引脚和一个位选引脚。第四组引脚可以包括一个数据引脚、一个时钟引脚和一个位选引脚。
在一些实施例中,第三数据引脚的数量为m 1,麦克风阵列中麦克风的总数为2m,m为正整数。
例如,在麦克风阵列为4mic时,第三数据引脚的数量为3,其中两个数据引脚用于传输4mic采集的原始音频信号,剩余一个数据引脚用于传输功率放大电路204输出的回声参考信号,且每个引脚传输两个通道的音频信号。
又如,在麦克风阵列为8mic时,第三数据引脚的数量为5,其中四个数据引脚用于传输4mic采集的原始音频信号,剩余一个数据引脚用于传输功率放大电路204输出的回声参考信号,且每个引脚传输两个通道的音频信号。
为了便于说明,下面,以4mic为例,介绍各个引脚的电连接关系。
第三组引脚中的第三数据引脚(图3中以标记“i2s2din0”和“i2s2din1”进行示意)、一个时钟引脚(图3中以标记“i2s2bclk”进行示意)以及一个位选引脚(图3中以标记“i2s2ws”进行示意)均与模数转换电路202电连接。
第四组引脚中的一个数据引脚(图3中以标记“i2s3dout0”进行示意)、一个时钟引脚(图3中以标记“i2s3bclk”进行示意)以及一个位选引脚(图3中以标记“i2s3ws”进行示意)均与功率放大电路204电连接。
在一些实施例中,第三组引脚中的一个时钟引脚(图3中以标记“i2s2bclk”进行示意)与第四组引脚中的一个时钟引脚(图3中以标记“i2s3bclk”进行示意)电连接,且第三组引脚中的一个位选引脚(图3中以标记“i2s2ws”进行示意)与第四组引脚中的一个位选引脚(图3中以标记“i2s3ws”进行示意)电连接。
从而,使得控制单元205的两组引脚保持相同的时钟信号和位选信号,减少了控制单元205提供各种类型信号的信号量。
本申请实施例中,接收电路201采集到原始音频信号,接收电路201向模数转换电路202输出模拟信号,模数转换电路202将模拟信号转换为i2s格式的数字信号。模数转换电路202通过第三数据引脚中的多个数据引脚向控制单元205传输i2s格式的数字信号。
同时,回声参考信号取自于功率放大电路204的模拟输出。功率放大电路204通过第三数据引脚中的一个数据引脚向模数转换电路202传输模拟信号。模数转换电路202再向控制单元205传输i2s格式的数字信号。
其中,控制单元105采用不同的数据引脚接收原始音频信号对应的数字信号和回声参考信号对应的数字信号。
从而,接收电路201采集到的原始音频信号以及功率放大电路204提供的回声参考信号经过模数转换电路102便直接传输给控制单元205中,并未经过其他元器件。
控制单元205中集成有算法模块,如远场语音apk(androidapplicationpackage,android应用程序包)。算法模块可对回声参考信号对应的数字信号以及原始音频信号对应的数字信号进行信号降噪、回声消除(acousticechocancellation,aec)、声源定位及波束成形进行语音算法处理。
控制单元205中还集成有语音引擎。算法模块可将处理后的音频数据传输给语音引擎,使得语音引擎对处理后的音频数据完成唤醒词的识别。
在识别出处理后的音频数据中包括唤醒词时,语音引擎将触发唤醒事件。在唤醒事件触发后,语音引擎对处理后的音频数据进行转换,并传输给云端服务器,使得云端服务器对转换后的音频数据进行语音识别和语义理解。
云端服务器通过语音合成,向控制单元205传输合成后的语音数据。控制单元205通过第四组引脚中的一个数据引脚,经过功率放大电路204向输出电路203传输合成后的语音数据,便完成了远场语音交互功能的全过程。
需要说明的是,除了与云端服务器交互的方式之外,控制单元205也可自身实现对该处理后的音频数据进行语音识别和语义理解,本申请实施例对此不做限定。
本申请实施例中,基于前述电连接关系,模数转换电路可将麦克风阵列采集的原始音频信号转化为i2s格式的数字信号,且将i2s格式的数字信号传输给控制单元。同时,模数转换电路还可功率放大电路输出的回声参考信号转换为i2s格式的数字信号,且将i2s格式的数字信号传输给控制单元。控制单元可对回声参考信号对应的数字信号以及原始音频信号对应的数字信号进行如信号降噪、回声消除、声源定位及波束成形的语音算法处理,使得输出电路可输出合成后的语音数据。从而,完成了电子设备的远场语音交互功能,实现了麦克风阵列与控制单元之间的直连,优化了硬件架构的整体设计,且避免了其他元器件对远场语音交互功耗产生的影响,降低了整个硬件架构的元器件成本。
请参阅图4,图4为本申请一实施例提供的一种远场语音交互装置的结构示意图。
如图4所示,本申请实施例的远场语音交互装置可以包括:接收电路301、模数转换电路302、输出电路303、功率放大电路304以及控制单元305。
其中,接收电路301中设置有麦克风阵列,麦克风阵列用于采集原始音频信号。本申请对麦克风阵列中的麦克风的数量、类型等参数不做限定。
其中,输出电路303中设置有扬声器阵列,扬声器阵列用于输出控制单元105基于所述原始音频信号和所述回声参考信号合成后的语音数据。本申请对扬声器阵列中的扬声器的数量、类型等参数不做限定。
其中,模数转换电路302用于实现模数转换等功能,功率放大电路304用于实现功率放大等功能。
另外,本申请对模数转换电路302、功率放大电路304控制单元305的具体实现方式不做限定。例如,模数转换电路302可以包括模式转换器和外围电路,功率放大电路304可以包括功率放大器和外围电路,控制单元305可以为soc。其中,外围电路可以为电阻、电容、电感等元器件。
接收电路301与模数转换电路302电连接,输出电路303与功率放大电路304电连接,模数转换电路302还电连接在输出电路303与和功率放大电路304之间。
控制单元305包括第三组引脚(图4中以标记有“i2s2”示出)和第四组引脚(图4中以标记有“i2s3”示出)。
其中,第三组引脚可以包括第三数据引脚、一个时钟引脚和一个位选引脚。第四组引脚可以包括一个数据引脚、一个时钟引脚和一个位选引脚。
在一些实施例中,第三数据引脚的数量为1。其中,本申请对麦克风阵列中的麦克风的数量不做限定。例如,4mic或者8mic。
为了便于说明,下面,以4mic为例,介绍各个引脚的电连接关系。
第三组引脚中的第三数据引脚(图4中以标记“i2s2din0”进行示意)、一个时钟引脚(图4中以标记“i2s2bclk”进行示意)以及一个位选引脚(图4中以标记“i2s2ws”进行示意)均与模数转换电路302电连接。
第四组引脚中的一个数据引脚(图4中以标记“i2s3dout0”进行示意)、一个时钟引脚(图4中以标记“i2s3bclk”进行示意)以及一个位选引脚(图4中以标记“i2s3ws”进行示意)均与功率放大电路304电连接。
在一些实施例中,第三组引脚中的一个时钟引脚(图4中以标记“i2s2bclk”进行示意)与第四组引脚中的一个时钟引脚(图4中以标记“i2s3bclk”进行示意)电连接,且第三组引脚中的一个位选引脚(图4中以标记“i2s2ws”进行示意)与第四组引脚中的一个位选引脚(图4中以标记“i2s3ws”进行示意)电连接。
从而,使得控制单元305的两组引脚保持相同的时钟信号和位选信号,减少了控制单元305提供各种类型信号的信号量。
本申请实施例中,接收电路301采集到原始音频信号,接收电路301向模数转换电路302输出模拟信号,模数转换电路302将模拟信号转换为i2s格式的数字信号。模数转换电路302通过第三组引脚中的第三数据引脚向控制单元305传输i2s格式的数字信号。
并且,回声参考信号取自于功率放大电路304的模拟输出。功率放大电路304向模数转换电路302传输模拟信号,模数转换电路302将模拟信号转换为i2s格式的数字信号。模数转换电路302再通过第三组引脚中的第三数据引脚向控制单元305传输i2s格式的数字信号。
其中,控制单元105采用相同的数据引脚接收原始音频信号对应的数字信号和回声参考信号对应的数字信号,即第三数据引脚(图4中以标记“i2s2din0”进行示意)。由此,模数转换电路302采用软件配置的时分复用(time-divisionmultiplexing,tdm)模式,经过分压、滤波等处理后,通过第三组引脚中的同一个数据引脚,分时向控制单元305传输原始音频信号对应的数字信号和回声参考信号对应的数字信号,由此,控制单元305通过一个数据引脚便接收到原始音频信号对应的数字信号和回声参考信号对应的数字信号。
从而,接收电路301采集到的原始音频信号以及功率放大电路304提供的回声参考信号仅经过模数转换电路102便直接传输给控制单元305中,并未经过其他元器件。
控制单元305中集成有算法模块,如远场语音apk(androidapplicationpackage,android应用程序包)。算法模块可为对回声参考信号对应的数字信号以及原始音频信号对应的数字信号进行信号降噪、回声消除(acousticechocancellation,aec)、声源定位及波束成形进行语音算法处理。
控制单元305中还集成有语音引擎。算法模块可将处理后的音频数据传输给语音引擎,使得语音引擎对处理后的音频数据完成唤醒词的识别。
在识别出处理后的音频数据中包括唤醒词时,语音引擎将触发唤醒事件。在唤醒事件触发后,语音引擎对处理后的音频数据进行转换,并传输给云端服务器,使得云端服务器对转换后的音频数据进行语音识别和语义理解。
云端服务器通过语音合成,向控制单元305传输合成后的语音数据。控制单元305通过第四组引脚中的一个数据引脚,经过功率放大电路304向输出电路303传输合成后的语音数据,便完成了远场语音交互功能的全过程。
需要说明的是,除了与云端服务器交互的方式之外,控制单元305也可自身实现对该处理后的音频数据进行语音识别和语义理解,本申请实施例对此不做限定。
本申请实施例中,基于前述电连接关系,模数转换电路可将接收电路采集的原始音频信号转化为i2s格式的数字信号,且将i2s格式的数字信号通过一个数据引脚传输给控制单元。并且,模数转换电路还可功率放大电路输出的回声参考信号转换为i2s格式的数字信号,且将i2s格式的数字信号通过同一个数据引脚传输给控制单元。控制单元可对回声参考信号对应的数字信号以及原始音频信号对应的数字信号进行如信号降噪、回声消除、声源定位及波束成形的语音算法处理,使得输出电路可输出合成后的语音数据。从而,完成了电子设备的远场语音交互功能,实现了麦克风阵列与控制单元之间的直连,减少了控制单元的引脚数量,优化了硬件架构的整体设计,且避免了其他元器件对远场语音交互功耗产生的影响,降低了整个硬件架构的元器件成本。
由于第三组引脚中的数据引脚常常作为功能复用因此。因此,在一些实施例中,远场语音装置还可以包括:wifi6模块306。对应的,第三组引脚还可以包括两个第四数据引脚(图4中以标记“i2s2din1”和“i2s2din2”进行示意)。第三组引脚中的两个第四数据引脚与wifi6模块306电连接。
本申请实施例中,第三组引脚中的两个第四数据引脚配置为高速数据串口,如uart4_txd和uart4_rxd。从而,wifi6模块306通过第三组引脚中的两个第四数据引脚,向控制单元305传输wifi数据,完成了wifi6模块306与控制单元305之间的数据传输。
由此,实现了远程语言交互功能和wifi功能的共存。并且,得益于wifi6模块306的低延时、高传输速率的优势,云端服务器关联的语言识别和语义理解等服务将更加流畅,使得用户的语音体验效果更佳。
示例性地,本申请实施例还提供一种电子设备。该电子设备可以包括:壳体和前文实施例的远场语音交互装置。
在一些实施例中,电子设备可以包括但不限于电视机、音箱、空调、冰箱等智能设备。
本申请实施例的电子设备,可以用于执行前文提及的远场语音交互装置的技术方案,其实现原理和技术效果类似,此处不再赘述。
最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。
1.一种远场语音交互装置,其特征在于,包括:
接收电路、模数转换电路、输出电路、功率放大电路以及控制单元;
所述接收电路用于采集原始音频信号,所述接收电路与所述模数转换电路电连接,所述输出电路与所述功率放大电路电连接,所述功率放大电路用于提供回声参考信号,所述输出电路用于输出所述控制单元基于所述原始音频信号和所述回声参考信号合成后的语音数据;
所述控制单元包括第一组引脚和第二组引脚;
所述第一组引脚中的第一数据引脚、一个时钟引脚以及一个位选引脚均与所述模数转换电路电连接,所述第一组引脚中的第二数据引脚与所述功率放大电路电连接;
所述第二组引脚中的一个数据引脚、一个时钟引脚以及一个位选引脚均与所述功率放大电路电连接。
2.根据权利要求1所述的装置,其特征在于,所述接收电路中设置有麦克风阵列,所述输出电路中设置有扬声器阵列。
3.根据权利要求2所述的装置,其特征在于,所述第一数据引脚的数量为m,所述麦克风阵列中麦克风的总数为2m,m为正整数;所述第二数据引脚的数量为1。
4.根据权利要求1-3任一项所述的装置,其特征在于,
所述第一组引脚中的一个时钟引脚与所述第二组引脚中的一个时钟引脚电连接;所述第一组引脚中的一个位选引脚与所述第二组引脚中的一个位选引脚电连接。
5.一种远场语音交互装置,其特征在于,包括:
接收电路、模数转换电路、输出电路、功率放大电路以及控制单元;
所述接收电路用于采集原始音频信号,所述接收电路与所述模数转换电路电连接,所述输出电路与所述功率放大电路电连接,所述模数转换电路还电连接在所述输出电路和所述功率放大电路之间,所述功率放大电路用于提供回声参考信号,所述输出电路用于输出所述控制单元基于所述原始音频信号和所述回声参考信号合成后的语音数据;
所述控制单元包括第三组引脚和第四组引脚;
所述第三组引脚中的第三数据引脚、一个时钟引脚以及一个位选引脚均与所述模数转换电路电连接;
所述第四组引脚中的一个数据引脚、一个时钟引脚以及一个位选引脚均与所述功率放大电路电连接。
6.根据权利要求5所述的装置,其特征在于,所述接收电路中设置有麦克风阵列,所述输出电路中设置有扬声器阵列。
7.根据权利要求6所述的装置,其特征在于,所述第三数据引脚的数量为m 1,所述麦克风阵列中麦克风的总数为2m,m为正整数。
8.根据权利要求5或6所述的装置,其特征在于,所述第三数据引脚的数量为1。
9.根据权利要求5或6所述的装置,其特征在于,所述装置还包括:wifi6模块;所述第三组引脚中的两个第四数据引脚与所述wifi6模块电连接。
10.根据权利要求5-7任一项所述的装置,其特征在于,
所述第三组引脚中的一个时钟引脚与所述第四组引脚中的一个时钟引脚电连接;所述第三组引脚中的一个位选引脚与所述第四组引脚中的一个位选引脚电连接。
11.一种电子设备,其特征在于,包括:壳体和如权利要求1-4任一项所述的远场语音交互装置;或者,壳体和如权利要求5-10任一项所述的远场语音交互装置。
12.根据权利要求11所述的设备,其特征在于,所述电子设备为电视机或音箱。
技术总结