本技术涉及语音识别,尤其涉及一种从海量端侧设备唤醒数据中判断误唤醒比例的方法及系统。
背景技术:
1、近年来,随着智能设备和语音助手的广泛应用,唤醒技术在人机交互领域逐渐成为关键技术。用户通过语音指令唤醒设备,进行各种操作,已经成为现代生活的一部分。这种技术的普及不仅提高了人机交互的便利性,还为用户提供了全新的使用体验。因此,唤醒技术的准确性、效率和连续性成为了当前研究的重点。
2、在现有的唤醒技术中,通常通过手动方式从海量的端侧设备日志和音频中提取数据,然后进行小批量的识别和分析,以获取单次的误唤醒比例。
3、然而现有的手动处理方法存在明显的缺陷和局限性。首先,手动处理数据效率低下,占用大量人工成本,容易产生错误。其次,由于日志获取不系统和全面,样本误差可能较大,日志结构也可能不完备,影响数据质量和准确性。最后,得到的数据不具备连续性,无法进行实时监控和趋势分析,使得对唤醒性能的连续性监控和模型优化缺乏有效支持。
技术实现思路
1、本技术提供了一种从海量端侧设备唤醒数据中判断误唤醒比例的方法、系统、设备及存储介质,提高了效率、降低了人工成本、提高了数据完整性和准确性,同时实现了连续数据监控和自动化误唤醒比例计算,有效解决了手动处理、数据获取不全和数据不连续的问题。本技术提供如下技术方案:
2、第一方面,本技术提供一种从海量端侧设备唤醒数据中判断误唤醒比例的方法,所述方法包括:
3、获取唤醒数据,所述唤醒数据包括唤醒音频和唤醒日志;
4、基于预设规则判断所述唤醒数据是否满足上报需求,若是满足,则将所述唤醒数据上报至云端的大数据平台;
5、云端对上报的所述唤醒数据进行基础校验并进行预处理;
6、所述大数据平台定时从上报的所述唤醒数据中抽取若干数量的唤醒成功日志及其对应的唤醒音频,若是找不到所述唤醒成功日志,从上报链中排查原因直至解决;
7、将所述唤醒成功日志对应的唤醒音频输入预设的音频识别模型中,所述音频识别模型输出识别结果;
8、基于所述识别结果计算误唤醒的比例,重复执行计算误唤醒比例的操作并进行数据监控。
9、在一个具体的可实施方案中,所述获取唤醒数据包括:
10、所述唤醒音频是当用户说出唤醒词或短语时,终端设备录制并捕捉的用户语音数据,所述唤醒音频包含了用户在唤醒设备时说的内容;
11、所述唤醒日志记录了唤醒事件的详细信息,如时间戳、设备信息、唤醒结果、评估分数。
12、在一个具体的可实施方案中,所述基于预设规则判断所述唤醒数据是否满足上报需求,若是满足,则将所述唤醒数据上报至云端的大数据平台包括:
13、检查终端设备所运行的用户隐私安全协议是否允许唤醒数据的上报;
14、检查终端设备与云端之间的协议或约定,确认是否需要上传唤醒数据;
15、考虑其他可能的约定或限制。
16、在一个具体的可实施方案中,所述云端对上报的所述唤醒数据进行基础校验包括:
17、格式检查:检查上报的唤醒日志和音频是否符合预定的格式要求;
18、数量验证:确认上报的数据数量是否符合预期范围或阈值;
19、大小检测:核实上报的数据大小是否在允许的范围内;
20、时效性:检查数据的时间戳是否在有效期内;
21、时延:测量数据从终端设备到大数据平台的传输延迟是否在可接受范围内;
22、抖动:评估数据传输的稳定性,检查是否存在异常的数据抖动;
23、并发检查:检查是否有过多的并发数据接入。
24、在一个具体的可实施方案中,所述云端对上报的所述唤醒数据进行基础校验还包括:
25、如果数据经过校验全部符合要求,大数据平台将继续处理这些数据,若部分或全部数据未能通过校验,大数据平台做出以下几项操作:
26、提示:向终端设备发送消息或显示提示,说明具体的校验问题;
27、预警:在大数据平台或接入平台上触发预警机制,通知相关人员或系统进行后续处理;
28、拒绝接入:对于严重不符合要求的数据,大数据平台拒绝其接入。
29、在一个具体的可实施方案中,所述基于所述识别结果计算误唤醒的比例包括:
30、所述音频识别模型输出的识别结果包括标准唤醒词、近似唤醒词以及非唤醒词内容;
31、使用正则表达式进行匹配,找到所述音频识别模型输出的识别结果中的标准唤醒词和近似唤醒词的条数,并计算识别结果中带有唤醒词或近似唤醒词的条数;
32、使用以下公式计算误唤醒的比例:
33、
34、在一个具体的可实施方案中,所述数据监控包括:
35、生成数据报表看板,所述数据报表看板包含误唤醒比例的每日统计数据,并具有分权限管控功能;
36、所述数据报表看板用于查看每日的误唤醒比例、分析数据变化趋势和进行数据波动的监控。
37、第二方面,本技术提供一种从海量端侧设备唤醒数据中判断误唤醒比例的系统,采用如下的技术方案:
38、一种从海量端侧设备唤醒数据中判断误唤醒比例的系统,包括:
39、数据获取模块,用于获取唤醒数据,所述唤醒数据包括唤醒音频和唤醒日志;
40、上报判断模块,用于基于预设规则判断所述唤醒数据是否满足上报需求,若是满足,则将所述唤醒数据上报至云端的大数据平台;
41、数据处理模块,用于云端对上报的所述唤醒数据进行基础校验并进行预处理;
42、数据抽取模块,用于所述大数据平台定时从上报的所述唤醒数据中抽取若干数量的唤醒成功日志及其对应的唤醒音频,若是找不到所述唤醒成功日志,从上报链中排查原因直至解决;
43、数据识别模块,用于将所述唤醒成功日志对应的唤醒音频输入预设的音频识别模型中,所述音频识别模型输出识别结果;
44、比例计算模块,用于基于所述识别结果计算误唤醒的比例,重复执行计算误唤醒比例的操作并进行数据监控。
45、第三方面,本技术提供一种电子设备,所述设备包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如第一方面所述的一种从海量端侧设备唤醒数据中判断误唤醒比例的方法。
46、第四方面,本技术提供一种计算机可读存储介质,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如第一方面所述的一种从海量端侧设备唤醒数据中判断误唤醒比例的方法。
47、综上所述,本技术的有益效果至少包括:
48、(1)通过自动化的数据上报、校验、日志抽取和音频识别流程,大大提高了处理效率,降低了人工成本,使得数据处理更为快速和高效。
49、(2)通过制定严格的数据上报规范和格式要求,以及在大数据平台进行的基础校验和预处理,确保了数据的完整性、准确性和一致性,从而提高了数据的质量和可靠性。
50、(3)每天定时执行的误唤醒比例计算和数据报表生成,以及分权限管控的数据看板,实现了对数据的连续性监控和趋势分析,使得系统能够实时掌握误唤醒比例的变化和趋势,从而及时发现和解决问题,持续优化系统性能。
51、通过自动化上报、数据校验、日志抽取、音频匹配、音频识别和误唤醒比例计算,实现了数据的连续性、自动化处理和监控。与现有技术相比,显著提高了效率、降低了人工成本、提高了数据完整性和准确性,同时实现了连续数据监控和自动化误唤醒比例计算,有效解决了手动处理、数据获取不全和数据不连续的问题。
52、上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,并可依照说明书的内容予以实施,以下以本技术的较佳实施例并配合附图详细说明如后。
1.一种从海量端侧设备唤醒数据中判断误唤醒比例的方法,其特征在于,所述方法包括:
2.根据权利要求1所述的从海量端侧设备唤醒数据中判断误唤醒比例的方法,其特征在于,所述获取唤醒数据包括:
3.根据权利要求1所述的从海量端侧设备唤醒数据中判断误唤醒比例的方法,其特征在于,所述基于预设规则判断所述唤醒数据是否满足上报需求,若是满足,则将所述唤醒数据上报至云端的大数据平台包括:
4.根据权利要求1所述的从海量端侧设备唤醒数据中判断误唤醒比例的方法,其特征在于,所述云端对上报的所述唤醒数据进行基础校验包括:
5.根据权利要求4所述的从海量端侧设备唤醒数据中判断误唤醒比例的方法,其特征在于,所述云端对上报的所述唤醒数据进行基础校验还包括:
6.根据权利要求1所述的从海量端侧设备唤醒数据中判断误唤醒比例的方法,其特征在于,所述基于所述识别结果计算误唤醒的比例包括:
7.根据权利要求1所述的从海量端侧设备唤醒数据中判断误唤醒比例的方法,其特征在于,所述数据监控包括:
8.一种从海量端侧设备唤醒数据中判断误唤醒比例的系统,其特征在于,包括:
9.一种电子设备,其特征在于,所述设备包括处理器和存储器;所述存储器中存储有程序,所述程序由所述处理器加载并执行以实现如权利要求1至7任一项所述的一种从海量端侧设备唤醒数据中判断误唤醒比例的方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有程序,所述程序被处理器执行时用于实现如权利要求1至7任一项所述的一种从海量端侧设备唤醒数据中判断误唤醒比例的方法。