语音控制方法、装置、设备及存储介质与流程

专利2024-04-13 10

1.本发明涉及人工智能技术领域，尤其涉及一种语音控制方法、装置、电子设备及计算机可读存储介质。

背景技术：

2.随着经济的快速发展，人们日常的业务办理越来越频繁。例如，随着消费支出、经济往来活动越来越频繁，人们经常需要通过银行柜台、银行服务大厅的自助机或者银行提供的个人财务管理系统实现银行卡汇款、转账、行用卡还款等操作。但是这些操作均需要用户手工录入操作信息，尤其是一些银行卡卡号、身份证号码等数字相关信息，很容易录入错误，用户体验有待提升，同时针对手工操作不便的用户或者不识字用户，这种手工操作方式并没有带来便利，导致用户体验比较差。

技术实现要素：

3.本发明提供一种语音控制方法、装置及计算机可读存储介质，其主要目的在于提升财务管理的效率及用户的使用体验。
4.为实现上述目的，本发明提供的一种语音控制方法，包括：
5.获取用户的语音信息，提取所述语音信息的声纹特征；
6.根据所述声纹特征对所述用户进行身份鉴权；
7.若所述身份鉴权未通过，则提示用户执行注册业务；
8.若所述身份鉴权通过，则获取所述用户的财务数据并识别所述语音信息的文本内容；
9.将所述文本内容转换为操作指令，其中所述操作指令包括操作类型、操作对象及操作金额；
10.根据所述用户的财务数据，判断是否可以对所述用户执行所述操作指令；
11.若不可以对所述用户执行所述操作指令，则提示用户所述操作对象有误或所述操作金额有误；
12.若可以对所述用户执行所述操作指令，则根据所述操作类型及操作金额，对所述操作对象执行对应操作。
13.可选地，所述提取所述语音信息的声纹特征，包括：
14.对所述语音信息进行分帧加窗，得到多个语音帧，并从所述多个语音帧中逐个选取其中一个语音帧为目标语音帧；
15.将所述目标语音帧映射为语音时域图，统计所述语音时域图的峰值、幅值、均值和过零率，根据所述幅值计算帧能量，并将所述峰值、所述幅值、所述均值、所述帧能量及所述过零率汇集为时域特征；
16.利用预设滤波器将所述语音信息转换为谱域图，统计所述谱域图的谱域密度、谱熵和共振峰参数，得到谱域特征；
17.通过傅里叶逆变换将所述谱域图转换为倒谱域图，统计所述倒谱域图的倒谱域密度、倒谱熵和倒谱周期，得到所述到谱域特征；
18.汇集所述时域特征、所述谱域特征和所述倒谱域特征汇集为声纹特征。
19.可选地，所述根据所述声纹特征对所述用户进行身份鉴权，包括：
20.根据所述声纹特征，在预设的声纹库中查找与所述声纹特征相匹配的声纹id；
21.若查找不到与所述声纹特征相匹配的声纹id，则所述身份鉴权不通过；
22.若查找到与所述声纹特征相匹配的声纹id，则所述身份鉴权通过。
23.可选地，所述将所述文本内容转换为操作指令，包括：
24.将所述文本内容转换为文本向量矩阵，并从所述文本向量矩阵中提取所述文本内容的文本特征；
25.计算所述文本特征与预设的多个财务管理类型之间的相似度；
26.从预设的财务管理类型与操作文本关系表中，获取所述相似度最高的财务管理类型对应的操作文本，利用所述操作文本将所述文本内容转换为操作指令。
27.可选地，所述从所述文本向量矩阵中提取所述文本内容的文本特征，包括：
28.对所述文本内容执行分词操作，得到文本分词集；
29.分别对所述文本分词集中每个文本分词做词向量转换及组合，得到文本向量矩阵；
30.从所述文本分词集中逐个选取其中一个文本分词为目标分词，根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值；
31.按照所述关键值从大到小的顺序从所述多个文本分词中选取预设数量的文本分词为特征分词；
32.将所述特征分词的词向量拼接得到所述文本内容的文本特征。
33.可选地，所述利用所述操作文本将所述文本内容转换为操作指令，包括：
34.从预设的操作文本与标签映射表中，查询所述操作文本对应的标签；
35.利用预设的语义识别模型，根据所述标签对所述文本内容进行切分及打标签操作，得到不同标签的文本块；
36.将所述不同标签的文本块分别替换所述操作文本中对应标签的文本，得到所述文本内容对应的操作指令。
37.可选地，所述判断是否可以对所述用户执行所述操作指令，包括：
38.判断所述用户的财务数据中是否包含所述操作指令中的操作对象；
39.若所述用户的财务数据中不包含所述操作对象，则不可以对所述用户执行所述操作指令；
40.若所述用户的财务数据中包含所述操作对象，则根据所述用户的财务数据，判断所述操作对象对应的余额是否小于所述操作指令中的操作金额；
41.若所述操作对象的余额不小于所述操作金额，则可以对所述用户执行所述操作指令；
42.若所述操作对象的余额小于所述操作金额，则不可以对所述用户执行所述操作类型的操作。
43.为了解决上述问题，本发明还提供一种语音控制装置，所述装置包括：
44.语音身份鉴权模块，用于获取用户的语音信息，提取所述语音信息的声纹特征；根据所述声纹特征对所述用户进行身份鉴权；若所述身份鉴权未通过，则提示用户执行注册业务；
45.文本内容识别模块，用于若所述身份鉴权通过，则获取所述用户的财务数据并识别所述语音信息的文本内容；
46.操作指令生成模块，用于将所述文本内容转换为操作指令，其中所述操作指令包括操作类型、操作对象及操作金额；
47.操作指令执行模块，用于根据所述用户的财务数据，判断是否可以对所述用户执行所述操作指令；若不可以对所述用户执行所述操作指令，则提示所述用户所述操作对象有误或所述操作金额有误；若可以对所述用户执行所述操作指令，则根据所述操作类型及操作金额，对所述操作对象执行对应操作。
48.为了解决上述问题，本发明还提供一种电子设备，所述电子设备包括：
49.存储器，存储计算机程序；及
50.处理器，执行所述存储器中存储的计算机程序以实现上述所述的语音控制方法。
51.为了解决上述问题，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被电子设备中的处理器执行以实现上述所述的语音控制方法。
52.本发明申请通过提取用户语音信息的声纹特征，利用所述声纹特征对用户进行身份鉴权后，将用户语音信息转换为文本内容，进一步的将所述文本内容转换为操作指令，根据所述操作指令对所述用户执行相应的操作。本发明支持用户通过语音操作实现个人财务的管理，提升了财务管理的效率及用户的使用体验。
附图说明
53.图1为本发明一实施例提供的语音控制方法的流程示意图；
54.图2为图1所示语音控制方法中其中一个步骤的详细实施流程示意图；
55.图3为图1所示语音控制方法中其中一个步骤的详细实施流程示意图；
56.图4为图1所示语音控制方法中其中一个步骤的详细实施流程示意图；
57.图5为图1所示语音控制方法中其中一个步骤的详细实施流程示意图；
58.图6为本发明一实施例提供的语音控制装置的功能模块图；
59.图7为本发明一实施例提供的实现所述语音控制方法的电子设备的结构示意图。
60.本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。
具体实施方式
61.应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。
62.本技术实施例提供一种语音控制方法。所述语音控制方法的执行主体包括但不限于服务端、终端等能够被配置为执行本技术实施例提供的该方法的电子设备中的至少一种。换言之，所述语音控制方法可以由安装在终端设备或服务端设备的软件或硬件来执行，所述软件可以是区块链平台。所述服务端可以是独立的服务器，也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分
发网络(contentdelivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
63.参照图1所示，为本发明一实施例提供的语音控制方法的流程示意图。
64.在本实施例中，所述语音控制方法包括：
65.s1、获取用户的语音信息，提取所述语音信息的声纹特征；
66.本发明实施例提供一种语音控制方法，以一种财务管理应用的语音控制方法为例进行说明。所述财务管理应用是一种为用户提供信用卡还款、银行卡转账、汇款等个人财务管理的应用。本发明实施例中，用户只需要发出语音信息表达自己的诉求，所述财务管理应用通过对用户语音信息的分析，实现相应的信用卡还款、银行卡转账、汇款等操作，无需用户手工操作。
67.所述语音信息是指用户打开所述财务管理应用后，根据所述应用的语音提示或界面提示所产生的用户语音，例如，用户发出“我要还款，从卡号1中还款5000元”或者“我要转账，从卡号2中转5000元到卡号3”。
68.本发明实施例中，可通过具有数据抓取功能的计算机语句(java语句、python语句等)从预先构建的存储区域中获取用户授权的可被获取的语音信息，所述存储区域包括但不限于数据库、区块链、网络缓存。
69.本发明实施例中，为了根据所述语音信息对所述用户身份进行鉴权，需要提取所述语音信息的声纹特征。
70.较佳地，所述提取所述语音信息的声纹特征之前，所述方法还包括：利用预设的滤波算法，对所述语音信息执行去噪操作。
71.所述预设的滤波算法，可以采用维纳、卡尔曼、谱减法、自适应滤波算法。
72.详细地，参阅图2所示，所述s1，包括：
73.s11、对所述语音信息进行分帧加窗，得到多个语音帧，并从所述多个语音帧中逐个选取其中一个语音帧为目标语音帧；
74.s12、将所述目标语音帧映射为语音时域图，统计所述语音时域图的峰值、幅值、均值和过零率，根据所述幅值计算帧能量，并将所述峰值、所述幅值、所述均值、所述帧能量及所述过零率汇集为时域特征；
75.s13、利用预设滤波器将所述语音信息转换为谱域图，统计所述谱域图的谱域密度、谱熵和共振峰参数，得到谱域特征；
76.s14、通过傅里叶逆变换将所述谱域图转换为倒谱域图，统计所述倒谱域图的倒谱域密度、倒谱熵和倒谱周期，得到所述到谱域特征；
77.s15、汇集所述时域特征、所述谱域特征和所述倒谱域特征汇集为声纹特征。
78.详细地，可通过汉明窗的方式对所述语音信息进行分帧加窗，得到多个语音帧，可实现利用信号的局部稳定性，提高对语言学习进行分析的精确度。
79.具体地，可利用matplotlib.pyplot包中的pcolormesh函数(预设第一函数)将所述目标语音帧映射为语音时域图，并通过数理统计，获取所述语音时域图的峰值、幅值均值和过零率，进而根据所述幅值计算帧能量。
80.示例性地，可利用如下能量算法计算所述帧能量：
[0081][0082]
其中，energy为第y个语音帧的帧能量，n为所述第y个语音帧的总时长，xn为所述第y个语音帧在n时刻的幅值。
[0083]
本发明实施例中，可利用预设滤波器将所述语音信息转换为谱域图(即频谱图)，并通过数理统计，获取所述倒谱域图的倒谱域密度、倒谱熵和倒谱周期等谱域特征，所述预设滤波器包括但不限于pe滤波器、doumax滤波器。
[0084]
进一步地，由于获取的所述语音信息中可能耦合多种背景噪声音频，而在对该语音信息进行分析时，背景噪声音频会对分析结果产生干扰，造成分析结果的精确度，因此，为了提高最终情感识别的精确度，本发明实施例通过傅里叶逆变换将所述谱域图转换为倒谱域图，将耦合进该语音信息中的多种音频信号进行分离，从而提高情感识别的精确度。
[0085]
本发明其他实施例中，还可采用python库中的pyaudio analysis工具包对所述语音信息进行处理，以获取该语音信息中的时域特征、谱域特征和倒谱域特征。
[0086]
s2、根据所述声纹特征对所述用户进行身份鉴权；
[0087]
本发明实施例中，所述预设的声纹库是一种用来存储用户声纹特征的数据库，当用户在注册所述财务管理应用时，通过采集用户朗读所述应用提供的声纹采集文本的声音，获取用户的声纹特征。
[0088]
详细地，所述根据所述声纹特征对所述用户进行身份鉴权，包括：根据所述声纹特征，在预设的声纹库中查找与所述声纹特征相匹配的声纹id；若查找不到与所述声纹特征相匹配的声纹id，则所述身份鉴权不通过；若查找到与所述声纹特征相匹配的声纹id，则所述身份鉴权通过。
[0089]
本发明实施例中，所述声纹id是根据声纹特征对用户进行区分的唯一标识。
[0090]
若所述身份鉴权未通过，则执行s3、提示用户执行注册业务；
[0091]
本发明实施例中，若在所述预设的声纹库中，查找不到与所述声纹特征相匹配的声纹id，则表示所述用户不是所述财务管理应用的用户，需要提示所述用户注册所述财务管理应用。
[0092]
若所述身份鉴权通过，则执行s4、获取所述用户的财务数据并识别所述语音信息的文本内容；
[0093]
本发明实施例中，可以通过与所述声纹特征相匹配的声纹id，从预设的财务数据库中，获取所述用户的财务数据，所述财务数据包括但不限于用户的银行卡账号信息、金额信息及交易信息。
[0094]
详细地，可采用声学模型对所述语音信息进行语音识别，得到文本内容，所述声学模型通过对每个字进行发声的建模，以建立包含多个字，及每个字对应的标准发声的数据库，通过对所述语音信息中每个时刻下用户发声的采集，以获取每个时刻下用户的发声，进而将该发声与预先构建的包含多个字，及每个字对应的标准发声的数据库中的字进行概率匹配，以此实现对语音信息进行语音识别，得到文本内容。
[0095]
s5、将所述文本内容转换为操作指令，其中所述操作指令包括操作类型、操作对象及操作金额；
[0096]
本发明实施例中，可以理解的是，不同用户的语言表达习惯不同，相应的存在不同
的文本内容对应的文本含义可能相同的情况，例如，“我要还信用卡1，5000元”和“从我的信用卡1中划扣5000元”这两个文本内容不同，但所表达的含义相同。因此，本发明实施例中，需要对所述文本内容进行语义识别，将不同的文本内容转换为符合预设格式的操作指令。
[0097]
本发明实施例中，所述操作指令包括操作类型、操作对象及操作金额三部分，所述操作类型包括还款、转账、基金定投等操作，所述操作对象包括单对象、多对象两种类型，其中所述单对象为数量唯一的信用卡或银行卡信息，所述多对象遵照从卡1到卡2的格式，所述操作金额为具体的还款金额、转账金额或定投金额。
[0098]
详细地，参阅图3所示，所述s5，包括：
[0099]
s51、将所述文本内容转换为文本向量矩阵，并从所述文本向量矩阵中提取所述文本内容的文本特征；
[0100]
s52、计算所述文本特征与预设的多个财务管理类型之间的相似度；
[0101]
s53、从预设的财务管理类型与操作文本关系表中，获取所述相似度最高的财务管理类型对应的操作文本，利用所述操作文本将所述文本内容转换为操作指令。
[0102]
本发明实施例中，所述预设的多个财务管理类型包括信用卡还款、银行卡转账、基金定投等管理类型。所述预设的财务管理类型与操作文本关系表是指不同的管理类型与对应的标准的操作文本之间的映射关系。
[0103]
详细地，参阅图4所示，所述s51，包括：
[0104]
s511、对所述文本内容执行分词操作，得到文本分词集；
[0105]
s512、分别对所述文本分词集中每个文本分词做词向量转换及组合，得到文本向量矩阵；
[0106]
s513、从所述文本分词集中逐个选取其中一个文本分词为目标分词，根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值；
[0107]
s514、按照所述关键值从大到小的顺序从所述多个文本分词中选取预设数量的文本分词为特征分词；
[0108]
s515、将所述特征分词的词向量拼接得到所述文本内容的文本特征。
[0109]
详细地，并非每个文本分词均是所述文本内容的文本特征，因此，需要对所述多个文本分词进行筛选，本发明实施例通过计算所述目标分词的关键值，以根据所述关键值筛选出对所述文本内容具有代表性的特征分词，以实现获取所述文本内容的文本特征。
[0110]
具体地，所述根据所述目标分词的词向量与所述文本向量矩阵计算所述目标分词的关键值，包括：
[0111]
利用如下关键值算法计算所述目标分词的关键值：
[0112][0113]
其中，k为所述关键值，||为所述文本向量矩阵，t为矩阵转置符号，||为求模符号，a
→
为所述目标分词的词向量。
[0114]
本发明实施例中，按照每一个文本分词的关键值从大到小的顺序从所述将所述多个文本分词中选取预设数量的文本分词为特征分词。
[0115]
例如，所述多个文本分词包括：文本分词a、文本分词b和文本分词c，其中，文本分词a的关键值为80，文本分词b的关键值为70，文本分词c的关键值为30，若预设数量为2，则按照所述关键值从大到小的顺序，选取文本分词a和文本分词b为特征分词，并将所述文本
分词a和所述文本分词b的词向量进行拼接，得到所述文本内容的文本特征。
[0116]
本发明实施例中，可以利用预先训练的激活函数计算计算所述文本特征与预设的多个财务管理类型之间的相似度，所述激活函数包括但不限于softmax激活函数、sigmoid激活函数、relu激活函数。
[0117]
本发明其中一个实施例中，可利用如下激活函数计算所述相似度：
[0118][0119]
其中，p(a|x)为特征x和预设的财务管理类型a之间的相似度，w_a为预设的财务管理类型a的权重向量，t为求转置运算符号，exp为求期望运算符号，a为预设的财务管理类型的数量。详细地，所述利用所述操作文本将所述文本内容转换为操作指令，包括：从预设的操作文本与标签映射表中，查询所述操作文本对应的标签；利用预设的语义识别模型，根据所述标签对所述文本内容进行切分及打标签操作，得到不同标签的文本块；将所述不同标签的文本块分别替换所述操作文本中对应标签的文本，得到所述文本内容对应的操作指令。
[0120]
本发明实施例中，所述标签包括操作类型标签、操作金额标签、金额转出对象标签及金额转入对象标签，所述操作类型标签、操作金额标签、金额转出对象标签及金额转入对象标签指代的文本分别对应所述操作指令中的操作类型、操作对象及操作金额。
[0121]
s6、根据所述用户的财务数据，判断是否可以对所述用户执行所述操作指令；
[0122]
本发明实施例中，可以理解的是，在根据所述语音信息执行相关操作前，还需要核实所述用户的实际财务状况，例如，用户要求进行银行卡转账操作时，需要判断用户所提供的金额转出银行卡的有效性，例如，用户名下是否存在该银行卡，该银行卡是否有足够的金额支持转账操作。
[0123]
详细地，参阅图5所示，所述s6，包括：
[0124]
s61、判断所述用户的财务数据中是否包含所述操作指令中的操作对象；
[0125]
若所述用户的财务数据中不包含所述操作对象，则执行s62、不可以对所述用户执行所述操作指令；
[0126]
若所述用户的财务数据中包含所述操作对象，则执行s63、根据所述用户的财务数据，判断所述操作对象对应的余额是否小于所述操作指令中的操作金额；
[0127]
若所述操作对象的余额不小于所述操作金额，则执行s64、可以对所述用户执行所述操作指令；
[0128]
若所述操作对象的余额小于所述操作金额，则执行s62、不可以对所述用户执行所述操作类型的操作。
[0129]
本发明实施例中，通过上述判断可以保障对所述用户执行相关财务管理操作的合理性。
[0130]
s7、若不可以对所述用户执行所述操作指令，则提示所述用户所述操作对象有误或所述操作金额有误；
[0131]
本发明实施例中，若所述操作对象无效，例如，所述用户不存在所述操作对象指定的银行卡，则提示用户所述操作对象有误。若所述操作金额不合理，例如，所述用户的账务余额不足，则提示用户所述操作金额有误。
digital，sd)卡、闪存卡(flash card)等。进一步地，所述存储器11还可以既包括电子设备1的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于电子设备1的应用软件及各类数据，例如语音控制程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。
[0146]
所述处理器10在一些实施例中可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(central processing unit，cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述处理器10是所述电子设备的控制核心(control unit)，利用各种接口和线路连接整个电子设备的各个部件，通过运行或执行存储在所述存储器11内的程序或者模块(例如语音控制程序等)，以及调用存储在所述存储器11内的数据，以执行电子设备1的各种功能和处理数据。
[0147]
所述总线可以是外设部件互连标准(peripheral component interconnect，简称pci)总线或扩展工业标准结构(extended industry standard architecture，简称eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。所述总线被设置为实现所述存储器11以及至少一个处理器10等之间的连接通信。
[0148]
图7仅示出了具有部件的电子设备，本领域技术人员可以理解的是，图7示出的结构并不构成对所述电子设备1的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。
[0149]
例如，尽管未示出，所述电子设备1还可以包括给各个部件供电的电源(比如电池)，优选地，电源可以通过电源管理装置与所述至少一个处理器10逻辑相连，从而通过电源管理装置实现充电管理、放电管理、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述电子设备1还可以包括多种传感器、蓝牙模块、wi-fi模块等，在此不再赘述。
[0150]
进一步地，所述电子设备1还可以包括网络接口，可选地，所述网络接口可以包括有线接口和/或无线接口(如wi-fi接口、蓝牙接口等)，通常用于在该电子设备1与其他电子设备之间建立通信连接。
[0151]
可选地，该电子设备1还可以包括用户接口，用户接口可以是显示器(display)、输入单元(比如键盘(keyboard))，可选地，用户接口还可以是标准的有线接口、无线接口。可选地，在一些实施例中，显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organic light-emitting diode，有机发光二极管)触摸器等。其中，显示器也可以适当的称为显示屏或显示单元，用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0152]
应该了解，所述实施例仅为说明之用，在专利申请范围上并不受此结构的限制。
[0153]
所述电子设备1中的所述存储器11存储的语音控制程序是多个指令的组合，在所述处理器10中运行时，可以实现：
[0154]
获取用户的语音信息，提取所述语音信息的声纹特征；
[0155]
根据所述声纹特征对所述用户进行身份鉴权；
[0156]
若所述身份鉴权未通过，则提示用户执行注册业务；
[0157]
若所述身份鉴权通过，则获取所述用户的财务数据并识别所述语音信息的文本内容；
[0158]
将所述文本内容转换为操作指令，其中所述操作指令包括操作类型、操作对象及操作金额；
[0159]
根据所述用户的财务数据，判断是否可以对所述用户执行所述操作指令；
[0160]
若不可以对所述用户执行所述操作指令，则提示用户所述操作对象有误或所述操作金额有误；
[0161]
若可以对所述用户执行所述操作指令，则根据所述操作类型及操作金额，对所述操作对象执行对应操作。
[0162]
具体地，所述处理器10对上述指令的具体实现方法可参考图1对应实施例中相关步骤的描述，在此不赘述。
[0163]
进一步地，所述电子设备1集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。所述计算机可读存储介质可以是易失性的，也可以是非易失性的。例如，所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)。
[0164]
本发明还提供一种计算机可读存储介质，所述可读存储介质存储有计算机程序，所述计算机程序在被电子设备的处理器所执行时，可以实现：
[0165]
获取用户的语音信息，提取所述语音信息的声纹特征；
[0166]
根据所述声纹特征对所述用户进行身份鉴权；
[0167]
若所述身份鉴权未通过，则提示用户执行注册业务；
[0168]
若所述身份鉴权通过，则获取所述用户的财务数据并识别所述语音信息的文本内容；
[0169]
将所述文本内容转换为操作指令，其中所述操作指令包括操作类型、操作对象及操作金额；
[0170]
根据所述用户的财务数据，判断是否可以对所述用户执行所述操作指令；
[0171]
若不可以对所述用户执行所述操作指令，则提示用户所述操作对象有误或所述操作金额有误；
[0172]
若可以对所述用户执行所述操作指令，则根据所述操作类型及操作金额，对所述操作对象执行对应操作。
[0173]
在本发明所提供的几个实施例中，应该理解到，所揭露的设备，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0174]
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0175]
另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单
元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。
[0176]
对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。
[0177]
因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附关联图标记视为限制所涉及的权利要求。
[0178]
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0179]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中，人工智能(artificial intelligence，ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
[0180]
此外，显然“包括”一词不排除其他单元或步骤，单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第二等词语用来表示名称，而并不表示任何特定的顺序。
[0181]
最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

技术特征：
1.一种语音控制方法，其特征在于，所述方法包括：获取用户的语音信息，提取所述语音信息的声纹特征；根据所述声纹特征对所述用户进行身份鉴权；若所述身份鉴权未通过，则提示用户执行注册业务；若所述身份鉴权通过，则获取所述用户的财务数据并识别所述语音信息的文本内容；将所述文本内容转换为操作指令，其中所述操作指令包括操作类型、操作对象及操作金额；根据所述用户的财务数据，判断是否可以对所述用户执行所述操作指令；若不可以对所述用户执行所述操作指令，则提示用户所述操作对象有误或所述操作金额有误；若可以对所述用户执行所述操作指令，则根据所述操作类型及操作金额，对所述操作对象执行对应操作。2.如权利要求1所述的语音控制方法，其特征在于，所述提取所述语音信息的声纹特征，包括：对所述语音信息进行分帧加窗，得到多个语音帧，并从所述多个语音帧中逐个选取其中一个语音帧为目标语音帧；将所述目标语音帧映射为语音时域图，统计所述语音时域图的峰值、幅值、均值和过零率，根据所述幅值计算帧能量，并将所述峰值、所述幅值、所述均值、所述帧能量及所述过零率汇集为时域特征；利用预设滤波器将所述语音信息转换为谱域图，统计所述谱域图的谱域密度、谱熵和共振峰参数，得到谱域特征；通过傅里叶逆变换将所述谱域图转换为倒谱域图，统计所述倒谱域图的倒谱域密度、倒谱熵和倒谱周期，得到所述到谱域特征；汇集所述时域特征、所述谱域特征和所述倒谱域特征汇集为声纹特征。3.如权利要求1所述的语音控制方法，其特征在于，所述根据所述声纹特征对所述用户进行身份鉴权，包括：根据所述声纹特征，在预设的声纹库中查找与所述声纹特征相匹配的声纹id；若查找不到与所述声纹特征相匹配的声纹id，则所述身份鉴权不通过；若查找到与所述声纹特征相匹配的声纹id，则所述身份鉴权通过。4.如权利要求1所述的语音控制方法，其特征在于，所述将所述文本内容转换为操作指令，包括：将所述文本内容转换为文本向量矩阵，并从所述文本向量矩阵中提取所述文本内容的文本特征；计算所述文本特征与预设的多个财务管理类型之间的相似度；从预设的财务管理类型与操作文本关系表中，获取所述相似度最高的财务管理类型对应的操作文本，利用所述操作文本将所述文本内容转换为操作指令。5.如权利要求4所述的语音控制方法，其特征在于，所述从所述文本向量矩阵中提取所述文本内容的文本特征，包括：对所述文本内容执行分词操作，得到文本分词集；
分别对所述文本分词集中每个文本分词做词向量转换及组合，得到文本向量矩阵；从所述文本分词集中逐个选取其中一个文本分词为目标分词，根据所述目标分词的词向量及所述文本向量矩阵，计算所述目标分词的关键值；按照所述关键值从大到小的顺序从所述多个文本分词中选取预设数量的文本分词为特征分词；将所述特征分词的词向量拼接得到所述文本内容的文本特征。6.如权利要求4所述的语音控制方法，其特征在于，所述利用所述操作文本将所述文本内容转换为操作指令，包括：从预设的操作文本与标签映射表中，查询所述操作文本对应的标签；利用预设的语义识别模型，根据所述标签对所述文本内容进行切分及打标签操作，得到不同标签的文本块；将所述不同标签的文本块分别替换所述操作文本中对应标签的文本，得到所述文本内容对应的操作指令。7.如权利要求1所述的语音控制方法，其特征在于，所述判断是否可以对所述用户执行所述操作指令，包括：判断所述用户的财务数据中是否包含所述操作指令中的操作对象；若所述用户的财务数据中不包含所述操作对象，则不可以对所述用户执行所述操作指令；若所述用户的财务数据中包含所述操作对象，则根据所述用户的财务数据，判断所述操作对象对应的余额是否小于所述操作指令中的操作金额；若所述操作对象的余额不小于所述操作金额，则可以对所述用户执行所述操作指令；若所述操作对象的余额小于所述操作金额，则不可以对所述用户执行所述操作类型的操作。8.一种语音控制装置，其特征在于，所述装置包括：语音身份鉴权模块，用于获取用户的语音信息，提取所述语音信息的声纹特征；根据所述声纹特征对所述用户进行身份鉴权；若所述身份鉴权未通过，则提示用户执行注册业务；文本内容识别模块，用于若所述身份鉴权通过，则获取所述用户的财务数据并识别所述语音信息的文本内容；操作指令生成模块，用于将所述文本内容转换为操作指令，其中所述操作指令包括操作类型、操作对象及操作金额；操作指令执行模块，用于根据所述用户的财务数据，判断是否可以对所述用户执行所述操作指令；若不可以对所述用户执行所述操作指令，则提示所述用户所述操作对象有误或所述操作金额有误；若可以对所述用户执行所述操作指令，则根据所述操作类型及操作金额，对所述操作对象执行对应操作。9.一种电子设备，其特征在于，所述电子设备包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任意一项所
述的语音控制方法。10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的语音控制方法。

技术总结
本发明涉及人工智能技术，揭露一种语音控制方法，包括：提取用户语音信息的声纹特征，利用所述声纹特征对用户进行身份鉴权，用户身份鉴权通过后，识别所述语音信息的文本内容，将所述文本内容转换为操作指令，根据所述操作指令对所述用户执行相应的操作。本发明支持用户通过语音操作实现个人财务的管理，提升了财务管理的效率及用户的使用体验。管理的效率及用户的使用体验。管理的效率及用户的使用体验。

技术研发人员：夏斯勇
受保护的技术使用者：平安科技（深圳）有限公司
技术研发日：2021.10.21
技术公布日：2022/1/28

转载请注明原文地址:https://doc.8miu.com/read-1808375.html

专利

最新回复(0)