一种基于语音识别和图像识别技术的AI智能报警主机的制作方法

专利2022-05-10 53

一种基于语音识别和图像识别技术的ai智能报警主机
技术领域
1.本发明涉及ai智能主机技术领域，特别涉及一种基于语音识别和图像识别技术的ai智能报警主机。

背景技术：

2.报警系统是用物理方法或电子技术，自动探测发生在布防监测区域内的侵入行为，产生报警信号，并提示值班人员发生报警的区域部位，显示可能采取对策的系统。报警主机是预防抢劫、盗窃等意外事件的重要设施。现有的报警主机主要以一键报警主机为主，设备上只有简单的操作按钮，遇到突发情况时，需要按下相关按钮，主机立即拨打提前设置的电话号码。
3.现有的报警主机可以满足部分的报警需求。但是其还是存在两点缺陷：
4.第一点，需要人为主动按下按钮才能实现报警，遇到突发情况时，受到威胁的人可能无法按下按钮；
5.第二点，现有报警主机一般没有配备摄像头，当出现险情后只能进行语音对讲，无法看到现场情况，无法第一时间得到案发现场的取证记录，间接的给后续的救援与审理带来一定的困难。

技术实现要素：

6.本发明的目的在于提供一种基于语音识别和图像识别技术的ai智能报警主机，具备能在第一时间报警，同时摄像头识别结果以及报警前后时间的录像便后续调查取证的优点，以解决上述背景技术中提出的问题。
7.为实现上述目的，本发明提供如下技术方案：
8.一种基于语音识别和图像识别技术的ai智能报警主机，其特征在于，包括报警主机和ai摄像头，其中ai摄像头将采集到的的音视频数据传输到报警主机中，所述报警主机包括中央处理模块、警示灯模块、报警模块、通信模块、喇叭模块、拾音器模块和ai摄像头模块，所述警示灯模块、报警模块、通信模块、喇叭模块和拾音器模块均与中央处理模块的输出端连接，中央处理模块还与ai摄像头模块电连接，ai摄像头模块内置推流模块、图像识别模块和音频识别模块。
9.进一步的，所述音频识别模块包括音频捕获模块、音频转换模块、音频编码器和nn模块，音频捕获模块的输入端连接ai摄像头模块，音频捕获模块的输出端连接音频转换模块，音频转换模块通过音频编码器输出主音频和替补音频。
10.进一步的，所述音频捕获模块的输出端还通过queue队列连接nn模块和音频编码器，并进行音频录制。
11.进一步的，所述图像识别模块包括视频捕获模块、fr通道、ds1通道、图像缓冲模块、畸变矫正模块、2d图形操作模块、2d图形渲染模块和编码模块，所述视频捕获模块的输入端连接ai摄像头模块，视频捕获模块的输出端通过fr通道联合图像缓冲模块连接畸变矫
正模块，畸变矫正模块的输出端联合图像缓冲模块连接2d图形操作模块，2d图形操作模块与2d图形渲染模块电连接，2d图形操作模块还通过queue队列连接编码模块，编码模块的输出端连接推送模块。
12.进一步的，所述2d图形操作模块和2d图形渲染模块均电连接有2d图形绘制模块，音频识别模块通过queue队列连接2d图形绘制模块。
13.进一步的，所述视频捕获模块的输出端还通过ds1通道联合图像缓冲模块连接2d图形操作模块，同时此2d图形操作模块的输出端通过queue队列连接nn模块。
14.进一步的，所述视频捕获模块的输出端连接的fr通道和ds1通道存在差异，其中fr通道是视频捕获模块捕获视频帧中分别率最大的通道，fr通道流过的图像帧用于视频推流，ds1通道用于nn模块，进行识别。
15.进一步的，所述推流模块中不仅进行图像与音频现场的推送，同时将获取的图像与音频推送到网络中。
16.进一步的，所述ai摄像头内置语音识别算法和图像识别算法。
17.与现有技术相比，本发明的有益效果是：本发明提出的基于语音识别和图像识别技术的ai智能报警主机，包括报警主机和ai摄像头，其中ai摄像头将采集到的的音视频数据传输到报警主机中，报警主机包括中央处理模块、警示灯模块、报警模块、通信模块、喇叭模块、拾音器模块和ai摄像头模块， ai摄像头模块能智能识别危险场景，主动上报险情，同时其内设的算法模型可以是被语音识别呼救声和尖叫声的，其内设的算法模型还能图像识别特殊场景，这样能在第一时间报警，有效避免在遇到突发事件，伤员无法触发报警主机的情况，同时摄像头识别结果以及报警前后时间的录像可以保存在本地或者云端，以便后续调查取证。
附图说明
18.图1为本发明的整体结构框图；
19.图2为本发明的ai摄像头原理框图；
20.图3为本发明的音频识别模块原理框图；
21.图4为本发明的图像识别模块原理框图；
22.图5为本发明的主动报警原理框图；
23.图6为本发明的编码与推流的框图。
具体实施方式
24.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
25.请参阅附图1
‑
附图6：
26.一种基于语音识别和图像识别技术的ai智能报警主机，包括报警主机和ai摄像头，其中ai摄像头将采集到的的音视频数据传输到报警主机中，报警主机包括中央处理模块、警示灯模块、报警模块、通信模块、喇叭模块、拾音器模块和ai摄像头模块，警示灯模块、
报警模块、通信模块、喇叭模块和拾音器模块均与中央处理模块的输出端连接，中央处理模块还与ai摄像头模块电连接，ai摄像头模块内置推流模块、图像识别模块和音频识别模块，推流模块中不仅进行图像与音频现场的推送，同时将获取的图像与音频推送到网络中；如附图1所示，报警主机以中央处理模块为中心，中央处理模块与警示灯模块、报警模块、通信模块、喇叭模块、拾音器模块、摄像头模块相接，其中中央处理模块主要负责各模块的调度，如ai摄像头侦测到相关危险后通知中央处理模块，中央处理模块调用通信模块和报警模块通知相关人员，其中警示灯模块显示设备当前状态，如红色表示正在报警，黄色表示设备故障，其中报警模块被激活即当按键报警或ai摄像头识别到危险后，报警模块会报警或联系相关值班人员，其中通信模块主要由以太网、4g通信模块或5g 通信模块组成，为上层提供网络传输服务，其中喇叭模块主要用于报警时播放相关警示语音，其中拾音器模块用于采集现场的声音，其中ai摄像头模块内置相关识别算法对现场图像和语音进行侦测，一旦发现危险，立即通知中央处理模块调用报警模块报警，同时会实时将现场的图像上传到网络。当按下按钮或者摄像头检侦测到危险场景时，ai摄像头将启动信号传输给中央处理模块，接收到启动信号后，开启警示灯、喇叭、拾音器；通信模块将报警信号以及影音信号传输至客户端，客户端立即弹窗提示报警，并且调起摄像头，对现场情况做到全方位监控。
27.如附图3所示，音频识别模块包括音频捕获模块、音频转换模块、音频编码器和nn模块，音频捕获模块的输入端连接ai摄像头模块，音频捕获模块的输出端连接音频转换模块，音频转换模块通过音频编码器输出主音频和替补音频，其中音频捕获模块用于从音频捕获设备捕获音频pcm数据，其中音频转换模块对输入音频进行音频重采样；音频捕获模块的输出端还通过 queue队列连接nn模块和音频编码器，并进行音频录制。
28.如附图4所示，图像识别模块包括视频捕获模块、fr通道、ds1通道、图像缓冲模块、畸变矫正模块、2d图形操作模块、2d图形渲染模块和编码模块，视频捕获模块的输入端连接ai摄像头模块，视频捕获模块的输出端通过fr通道联合图像缓冲模块连接畸变矫正模块，畸变矫正模块的输出端联合图像缓冲模块连接2d图形操作模块，2d图形操作模块与2d图形渲染模块电连接，2d图形操作模块还通过queue队列连接编码模块，编码模块的输出端连接推送模块，其中视频捕获模块捕获ai摄像头模块中的视频帧，其中畸变矫正模块可以对输入的图像进行几何畸变矫正，其中2d图形操作模块提供 2d图形操作，包括矩形填充、位图复制、图像缩放、图像混合，其中2d图形渲染模块提供简单的2d图形api，包括绘图、填充、字体渲染和图像加载，其中编码模块可以将视频帧编码为h264/h265码流，其中nn模块加载指定神经网络模型后，调用底层的npu对输入的指定格式图像帧进行识别。2d 图形操作模块和2d图形渲染模块均电连接有2d图形绘制模块，音频识别模块通过queue队列连接2d图形绘制模块。视频捕获模块的输出端还通过ds1 通道联合图像缓冲模块连接2d图形操作模块，同时此2d图形操作模块的输出端通过queue队列连接nn模块。
29.视频捕获模块的输出端连接的fr通道和ds1通道存在差异，其中fr通道是视频捕获模块捕获视频帧中分别率最大的通道，fr通道流过的图像帧用于视频推流，ds1通道用于nn模块，进行识别。
30.ai摄像头内置语音识别算法和图像识别算法，其中语音识别算法可以识别呼救声和尖叫声，图像识别算法，可以识别特殊场景以及高危人物人脸识别，一旦侦测到相关危险场景将启动信号传输给中央处理模块，同时将报警信号和影音信号通过通信模块传输至客
户端，此外，识别的图像以及报警相关视频可以保存到本地或云端以便后续取证。
31.本基于语音识别和图像识别技术的ai智能报警主机，包括报警主机和 ai摄像头，其中ai摄像头将采集到的的音视频数据传输到报警主机中，报警主机包括中央处理模块、警示灯模块、报警模块、通信模块、喇叭模块、拾音器模块和ai摄像头模块，ai摄像头模块内置推流模块、图像识别模块和音频识别模块，推流模块中不仅进行图像与音频现场的推送，同时将获取的图像与音频推送到网络中，ai摄像头内置语音识别算法和图像识别算法，其中语音识别算法可以识别呼救声和尖叫声，图像识别算法，可以识别特殊场景以及高危人物人脸识别，一旦侦测到相关危险场景将启动信号传输给中央处理模块，同时将报警信号和影音信号通过通信模块传输至客户端，此外，识别的图像以及报警相关视频可以保存到本地或云端以便后续取证；其中报警主机以中央处理模块为中心，中央处理模块与警示灯模块、报警模块、通信模块、喇叭模块、拾音器模块、摄像头模块相接，其中中央处理模块主要负责各模块的调度，如ai摄像头侦测到相关危险后通知中央处理模块，中央处理模块调用通信模块和报警模块通知相关人员，ai摄像头模块内置相关识别算法对现场图像和语音进行侦测，一旦发现危险，立即通知中央处理模块调用报警模块报警，同时会实时将现场的图像上传到网络。音频识别模块包括音频捕获模块、音频转换模块、音频编码器和nn模块，音频识别模块的工作原理为，音频捕获模块从音频捕获设备捕获音频pcm数据后，输入到音频转换模块进行音频重采样，接着将重新采样的数据输入到queue队列，等待 nn模块的识别，识别确认后将重新采样的数据输入到音频编码器进行编码，编码后的数据通过主音频模块推流到网络中。图像识别模块包括视频捕获模块、fr通道、ds1通道、图像缓冲模块、畸变矫正模块、2d图形操作模块、 2d图形渲染模块和编码模块，图像识别模块的工作原理为，ai摄像头通过视频捕获模块捕获视频帧后，视频捕获模块将图像帧输入到畸变矫正模块进行几何畸变矫正，矫正后的数据帧输入到2d图形操作模块中进行旋转，然后将数据帧输入到2d图形渲染模块进行绘图和字体渲染等操作，接着将上一步的数据帧再输入一个2d图形操作模块进行缩放将缩放好的数据帧存储到queue 队列，等待编码模块将其编码为h264/h265码流，最后将码流推送到网络中。
32.本基于语音识别和图像识别技术的ai智能报警主机，主动报警原理为，当出现险情时，视频捕获模块捕获视频帧，接着将fr通道中的图像帧输入到畸变矫正模块进行几何畸变矫正，矫正后的数据帧输入到2d图形操作模块中进行旋转，然后在2d图形渲染模块整合nn模块识别的结果，再经过2d图形操作模块进行缩放，存储到queue队列等待编码模块将其编码，最后将编码好的数据推动到网络中，同时ds1通道中的图像帧经过2d图形操作模块缩放和旋转，然后存储到queue队列，然后输入到nn模块进行识别，并nn 模块识别的结果输入到2d图形绘制模块进行绘制，在进行图像识别的过程中还进行语音识别，具体的来说，音频捕获模块从音频捕获设备捕获音频pcm 数据后，经过音频转换模块进行音频重采样，然后输入到音频编码器进行编码，最后将编码后的数据推流到网络中。本ai智能报警主机结合ai智能摄像头，智能识别危险场景，主动上报险情，同时其内设的算法模型可以是被语音识别呼救声和尖叫声的，其内设的算法模型还能图像识别特殊场景，这样能在第一时间报警，有效避免在遇到突发事件，伤员无法触发报警主机的情况，同时摄像头识别结果以及报警前后时间的录像可以保存在本地或者云端，以便后续调查取证。
33.综上所述，本发明提出的基于语音识别和图像识别技术的ai智能报警主机，包括
报警主机和ai摄像头，其中ai摄像头将采集到的的音视频数据传输到报警主机中，报警主机包括中央处理模块、警示灯模块、报警模块、通信模块、喇叭模块、拾音器模块和ai摄像头模块，ai摄像头模块能智能识别危险场景，主动上报险情，同时其内设的算法模型可以是被语音识别呼救声和尖叫声的，其内设的算法模型还能图像识别特殊场景，这样能在第一时间报警，有效避免在遇到突发事件，伤员无法触发报警主机的情况，同时摄像头识别结果以及报警前后时间的录像可以保存在本地或者云端，以便后续调查取证。
34.需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
35.以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

转载请注明原文地址:https://doc.8miu.com/read-1550194.html

专利

最新回复(0)