基于强化学习的智能决策方法及系统与流程

专利2022-05-09 82

本发明涉及智慧大脑领域，尤其涉及一种基于强化学习的智能决策方法及系统。

背景技术：

随着技术的发展和城市数据建设的跟进，大数据对于城市管理发展的影响日益显现，越来越多的城市通过挖掘数据金矿帮助城市发展决策管理。在城市运行和经济发展中，大数据被视为支撑城市发展的智慧大脑。城市的管理和运营需要科学决策，涓滴汇流而来的数据，正在成为城市管理者的有效参考。市政、警务、消防、交通、通信、商业被融合打通，汇集在统一的大数据平台上，并在对海量数据进行分析后，形成智慧应用。

然而，大数据的成熟应用尚需时日，从目前来看，应用大数据，突破瓶颈依然需要时间，其中重点之一，就是对海量数据进行挖掘时如何建模。由于数据挖掘的建模非常繁琐，需要花费大量时间，无法一蹴而就。目前有了数据只是第一步，寻找数据维度之间的相关性，总结规律，需要经历很长时间，还需要通过实践来检验算法模型，同时适应新数据的涌入，发展大数据没有捷径，需要一砖一瓦累积起来。

例如，在城市的超市管理方面，遍布超市各个区域的摄像部件不间断拍摄了大量的视频数据，而超市每一段时间内的丢失商品数量也在持续的人工统计或者自动统计中，但是，这两项不同类型的海量数据之间的数据关联性仍缺乏针对性的数据挖掘方案，导致反应对应关系的智能化模块一直无法有效建立。

技术实现要素：

为了解决上述问题，本发明提供了一种基于强化学习的智能决策方法及系统，采用卷积神经网络完成同一超市内海量视频数据以及海量商品录入数据之间的对应关系的建模，尤为重要的是，将预设时间长度内的丢失商品数量的倒数作为对所述卷积神经网络进行强化学习的奖励信号以完成对所述卷积神经网络的强化学习操作，从而为每一超市设定时刻为保证最少商品损失所需派遣到各个区域的安保人员数量提供人工智能解析方案。

为此，本发明至少需要具备以下三处关键的发明点：

（1）利用强化学习后的深度卷积神经网络对不同面积的超市在设定时刻派遣到各个区域的各个安保人员数量进行解析，以保证派遣后的超市商品丢失数量最少；

（2）为不同超市建立不同的基于强化学习的深度卷积神经网络，超市面积越大，均匀划分为固定面积的各个区域的数量越多，所述深度卷积神经网络的输入层的输入数据越多、隐含层的数量越多，从而为不同面积超市提供相同智能化水平的人工智能安防机制；

（3）将每一份学习数据对应的丢失商品的数量的倒数作为对深度卷积神经网络进行强化学习的奖励信号对深度卷积神经网络进行强化学习操作，从而保证了深度卷积神经网络的学习效果。

根据本发明的第一方面，提供了一种基于强化学习的智能决策系统，所述系统包括：

网络建立模块，用于建立卷积神经网络，所述卷积神经网络的输入层的设定数量的多个输入数据为同一超市内相等面积的设定数量的多个分区域分别部署的多个安保人员数量，所述卷积神经网络的输出层的单个输出数据为所述超市在完成上述部署后预设时间长度范围内的丢失商品的数量；

数据采集模块，用于采集固定数量的多份学习数据，每一份学习数据为所述同一超市内相等面积的设定数量的多个分区域在某一个历史时刻分别部署的多个安保人员数量，所述卷积神经网络的输出层的单个输出数据为所述历史时刻后预设时间长度范围内的丢失商品的数量；

强化学习模块，用于将每一份学习数据对应的丢失商品的数量的倒数作为对所述卷积神经网络进行强化学习的奖励信号对所述卷积神经网络进行强化学习操作，以分时逐份完成所述固定数量的多份学习数据对所述卷积神经网络的强化学习操作，以获得强化学习后的卷积神经网络；

数量解析模块，用于采用所述强化学习后的卷积神经网络确定为使得所述强化学习后的卷积神经网络的输出层的单个输出数据即丢失商品的数量最少所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量，以作为所述强化学习后的卷积神经网络的输入层的设定数量的多个输入数据；

其中，所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层；

其中，所述同一超市内每一个分区域的面积固定，所述设定数量的数值越大，所述多个隐含层的数量越多。

根据本发明的第二方面，提供了一种基于强化学习的智能决策系统，所述系统包括存储器以及一个或多个处理器，所述存储器存储有计算机程序，所述计算机程序被配置成由所述一个或多个处理器执行以完成以下步骤：

建立卷积神经网络，所述卷积神经网络的输入层的设定数量的多个输入数据为同一超市内相等面积的设定数量的多个分区域分别部署的多个安保人员数量，所述卷积神经网络的输出层的单个输出数据为所述超市在完成上述部署后预设时间长度范围内的丢失商品的数量；

采集固定数量的多份学习数据，每一份学习数据为所述同一超市内相等面积的设定数量的多个分区域在某一个历史时刻分别部署的多个安保人员数量，所述卷积神经网络的输出层的单个输出数据为所述历史时刻后预设时间长度范围内的丢失商品的数量；

将每一份学习数据对应的丢失商品的数量的倒数作为对所述卷积神经网络进行强化学习的奖励信号对所述卷积神经网络进行强化学习操作，以分时逐份完成所述固定数量的多份学习数据对所述卷积神经网络的强化学习操作，以获得强化学习后的卷积神经网络；

采用所述强化学习后的卷积神经网络确定为使得所述强化学习后的卷积神经网络的输出层的单个输出数据即丢失商品的数量最少所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量，以作为所述强化学习后的卷积神经网络的输入层的设定数量的多个输入数据；

其中，所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层；

其中，所述同一超市内每一个分区域的面积固定，所述设定数量的数值越大，所述多个隐含层的数量越多。

根据本发明的第三方面，提供了一种基于强化学习的智能决策方法，所述方法包括：

其中，所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层；

其中，所述同一超市内每一个分区域的面积固定，所述设定数量的数值越大，所述多个隐含层的数量越多。

根据本发明的第四方面，提供了一种计算机可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序在被执行时实现如上述的基于强化学习的智能决策方法的各个步骤。

附图说明

以下将结合附图对本发明的实施方案进行描述，其中：

图1为根据本发明的基于强化学习的智能决策方法及系统的技术流程图。

图2为根据本发明的实施例1示出的基于强化学习的智能决策系统的结构示意图。

图3为根据本发明的实施例2示出的基于强化学习的智能决策系统的结构示意图。

图4为根据本发明的实施例3示出的基于强化学习的智能决策系统的结构示意图。

图5为根据本发明的实施例4示出的基于强化学习的智能决策系统的结构示意图。

图6为根据本发明的实施例5示出的基于强化学习的智能决策系统的结构示意图。

图7为根据本发明的实施例6示出的基于强化学习的智能决策系统的结构示意图。

图8为根据本发明的实施例7示出的基于强化学习的智能决策方法的步骤流程图。

图9为根据本发明的实施例8示出的计算机可读存储介质的结构示意图。

具体实施方式

在城市基础建设和5g趋向商用的背景之下，物联网、人工智能和大数据等技术的发展使得数据智能渗透率迅速增加，“智慧”一词，不再仅仅用来形容人类，还可以形容一座城市或一个国家。

从政府决策与服务，到人们衣食住行的生活方式，再到城市的产业布局和规划，以及城市的运营和管理方式，都将在大数据的支撑下走向“智慧化”。大数据遍布新型智慧城市的方方面面，成为新型智慧城市各领域都能够实现“智慧化”的关键性支撑技术。

做一个形象的比喻，如果将智慧城市比喻为人，将组成智慧城市感知功能的传感器比作人的五官，将连接传感器的网络比作神经，将控制和存储信息的云技术比作中枢，那么大数据就是智慧城市的核心大脑。

然而，智慧大脑作为一种新的应用技术，仍未完全有效铺设到城市的各个具体运营和管理领域。例如，在城市的超市管理方面，遍布超市各个区域的摄像部件不间断拍摄了大量的视频数据，而超市每一段时间内的丢失商品数量也在持续的人工统计或者自动统计中，但是，这两项不同类型的海量数据之间的数据关联性仍缺乏针对性的数据挖掘方案，导致反应对应关系的智能化模块一直无法有效建立。

为了克服上述不足，本发明搭建了一种基于强化学习的智能决策方法及系统，将强化学习技术和神经网络技术同时应用到每一个超市的安保资源布置中，分别实现同一超市内海量视频数据以及海量商品录入数据之间的对应关系的现场建模以及模型优化，从而为智慧大脑到城市超市管理领域的应用提供有效的解决方案。

如图1所示，给出了根据本发明示出的基于强化学习的智能决策方法及系统的技术流程图。

如图1所示，本发明的具体的技术流程如下：

首先，完成对城市内同一超市内海量视频数据以及海量商品录入数据之间的对应关系的现场建模，本发明中采用同一超市的历史数据基于卷积神经网络实现上述二种不同类型的海量数据的对应关系的建模操作，所述历史数据包括超市内各个区域的各个安保人员以及部署完上述各个安保人员后预设时间长度内的超市整体的失窃商品数量；

其次，采用强化学习模式完成对建立的卷积神经网络的训练，以及，采用失窃商品数量的倒数作为对卷积神经网络进行强化学习的奖励信号即反馈信号完成对卷积神经网络的定制强化学习处理，从而对卷积神经网络的内部结构进行优化；

最后，采用强化学习后的卷积神经网络解析出保证超市整体在预设时间长度内失窃商品数量最少而需要派遣到各个区域的各个安保人员数量，从而保证有限的安保人员的利用率，为超市的智能化管理提供有效的解决方案，为城市智慧大脑的建设进行具体应用领域的补缺。

本发明的关键点在于，采用卷积神经网络为同一超市内海量视频数据以及海量商品录入数据之间的对应关系的建模提供解决入口，采用强化学习模式为建立的模型提供优化策略，并为不同面积的超市定制不同的强化学习后的卷积神经网络模型，从而为城市内任一超市的任一时刻的安保资源的分配提供有价值的参考数据。

下面，将对本发明的基于强化学习的智能决策方法及系统以实施例的方式进行具体说明。

实施例1

图2为根据本发明的实施例1示出的基于强化学习的智能决策系统的结构示意图。

如图2所示，所述基于强化学习的智能决策系统包括以下部件：

其中，所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层；

其中，所述同一超市内每一个分区域的面积固定，所述设定数量的数值越大，所述多个隐含层的数量越多；

以及，采用的强化学习模式可以基于q-learning算法、策略梯度算法以及其他常用算法；

其中，强化学习是从动物学习、参数扰动自适应控制等理论发展而来，其基本原理是：如果客体的某个行为策略导致环境正的奖赏（强化信号），那么客体以后产生这个行为策略的趋势便会加强，客体的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。

强化学习把学习看作试探评价过程，客体选择一个动作用于环境，环境接受该动作后状态发生变化，同时产生一个强化信号（奖或惩）反馈给客体，客体根据强化信号和环境当前状态再选择下一个动作，选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值，而且影响环境下一时刻的状态及最终的强化值。

强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是客体对所产生动作的好坏作一种评价，而不是告诉客体如何去产生正确的动作。由于外部环境提供了很少的信息，客体必须靠自身的经历进行学习。通过这种方式，客体在行动一一评价的环境中获得知识，改进行动方案以适应环境。

实施例2

图3为根据本发明的实施例2示出的基于强化学习的智能决策系统的结构示意图。

如图3所示，所述基于强化学习的智能决策系统还包括：

画面捕获模块，与所述数据采集模块连接，用于在所述同一超市内相等面积的设定数量的多个分区域内分别执行实时画面采集，以获得多个实时捕获画面，并将所述多个实时捕获画面发送给所述数据采集模块以用于识别所述多个分区域在某一个历史时刻分别部署的多个安保人员数量；

其中，所述画面捕获模块可以包括多个摄像模块，分别设置在所述同一超市内相等面积的设定数量的多个分区域内，用于获得多个实时捕获画面。

实施例3

图4为根据本发明的实施例3示出的基于强化学习的智能决策系统的结构示意图。

如图4所示，所述基于强化学习的智能决策系统还包括：

无线通信模块，用于将所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量作为参考派遣数量集合无线发送给远端的超市管理服务器或者超市管理人员的手持终端；

其中，所述无线通信模块基于的无线通信链路可以是zigbee通信链路、时分双工通信链路或者频分双工通信链路。

实施例4

图5为根据本发明的实施例4示出的基于强化学习的智能决策系统的结构示意图。

如图5所示，所述基于强化学习的智能决策系统还包括：

内容存储模块，用于接收所述强化学习后的卷积神经网络并存储所述强化学习后的卷积神经网络；

其中，所述内容存储模块还用于存储所述设定数量与所述多个隐含层的数量的映射关系；

其中，所述内容存储模块可以采用包括sdram存储芯片的各种现场存储芯片的形式来实现。

实施例5

图6为根据本发明的实施例5示出的基于强化学习的智能决策系统的结构示意图。

如图6所示，所述基于强化学习的智能决策系统还包括：

现场计时模块，分别与所述系统的各个模块连接，用于为所述各个模块分别提供现场计时服务；

其中，所述现场计时模块可以内置时钟发生单元，用于为所述现场计时模块的计时动作提供参考时钟信号。

在上述实施例的任一实施例中，可选地，在所述基于强化学习的智能决策系统中：

每一份学习数据为所述同一超市内相等面积的设定数量的多个分区域在某一个历史时刻分别部署的多个安保人员数量，所述卷积神经网络的输出层的单个输出数据为所述历史时刻后预设时间长度范围内的丢失商品的数量包括：多份学习数据分别对应的多个历史时刻为多个不同日期的同一设定时刻；

其中，所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量的部署时间为当天的所述同一设定时刻。

实施例6

图7为根据本发明的实施例6示出的基于强化学习的智能决策系统的结构方框图。

如图7所示，所述基于强化学习的智能决策系统包括存储器以及一个或多个处理器，示例性地，如图7所示，包括n个处理器，n为大于等于1的自然数，所述存储器存储有计算机程序，所述计算机程序被配置成由所述一个或多个处理器执行以完成以下步骤：

其中，所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层；

其中，所述同一超市内每一个分区域的面积固定，所述设定数量的数值越大，所述多个隐含层的数量越多。

实施例7

图8为根据本发明的实施例7示出的基于强化学习的智能决策方法的步骤流程图。

如图8所示，所述基于强化学习的智能决策方法包括：

其中，所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层；

其中，所述同一超市内每一个分区域的面积固定，所述设定数量的数值越大，所述多个隐含层的数量越多。

实施例8

图9为根据本发明的实施例8示出的计算机可读存储介质的结构示意图。

如图9所示，所述计算机可读存储介质90其上存储有非暂时性计算机可读指令91。当该非暂时性计算机可读指令91由处理器运行时，执行前述的本发明的实施例7的基于强化学习的智能决策方法的全部或部分步骤。

另外，城市智慧大脑能够基于物联网、云计算、大数据等信息技术，以城市为单元，结合地理信息，对城市运行的各类信息实现一张图的综合监管，向城市管理者进行科学有效的决策辅助支撑，实现“以数据信息为基础，以指挥调度为核心，以决策指挥为目标”的系统构建。城市智慧大脑集成地理信息、gps数据、建筑物三维数据、统计数据、摄像头采集画面等多类数据，把市政、警务、消防、交通、通讯、商业等各部门各类型的数据融合打通，汇集在统一的大数据平台上。

一座城市离不开水、电、气、路，它们无限交织，为城市运转提供源源不断的资源。而今，还有一张巨大的无形之网：数据。数据资源成为城市最重要的资源，有效运用数据实现城市的科学治理和智慧决策，被称之为“城市大脑”。

城市智慧大脑，能够将城市运行核心系统的各项关键数据进行可视化呈现，对包括应急指挥、城市管理、公共安全、环境保护、智能交通、基础设施等领域进行管理决策支持，进而实现城市智慧式管理和运行。

城市智慧大脑通过打通各个行业领域的数据，包括对市政、警务、消防、交通、通信、商业等各个智慧应用横向融合打通，为整个城市的经营管理决策提供服务，驱动城市治理体系和治理能力现代化，使民生服务更到位、城市环境更友好、经济运行更合理、行政管理更高效、万众创新更活跃、社会生活更和谐。

城市智慧大脑的本质是信息共享，关键是大数据融合，用数据驱动城市管理和发展。给城市装上一个智慧大脑，城市也能像人一样智慧起来，由大数据帮助城市来思考、决策，使得城市能够自我调节，与人类实现良性互动，让所有的城市数据都通过这个大脑进行最合理的配置和调度，从而有效提升城市交通的承载力和运行效率，是符合现代城市管理和运行要求的。

在城市的智慧大脑中，海量数据被集中输入，这些数据成为城市大脑智慧的起源。有了丰富的数据之后，城市大脑便构建算法模型，然后自动调配公共资源。相比人脑，该大脑的优势点是：全局分析、响应速度快、智能化。并且人工智能拥有人类无法比拟的一个天然强项，它可通过机器学习不断迭代及依靠外部系统插件等进行优化，随着运行时间增加可计算出更“聪明”的方案，处理问题变得越来越顺手。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置/电子设备/计算机可读存储介质/计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

技术特征：

1.一种基于强化学习的智能决策系统，其特征在于，所述系统包括：

其中，所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层；

其中，所述同一超市内每一个分区域的面积固定，所述设定数量的数值越大，所述多个隐含层的数量越多。

2.如权利要求1所述的基于强化学习的智能决策系统，其特征在于，所述系统还包括：

画面捕获模块，与所述数据采集模块连接，用于在所述同一超市内相等面积的设定数量的多个分区域内分别执行实时画面采集，以获得多个实时捕获画面，并将所述多个实时捕获画面发送给所述数据采集模块以用于识别所述多个分区域在某一个历史时刻分别部署的多个安保人员数量。

3.如权利要求2所述的基于强化学习的智能决策系统，其特征在于，所述系统还包括：

无线通信模块，用于将所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量作为参考派遣数量集合无线发送给远端的超市管理服务器或者超市管理人员的手持终端。

4.如权利要求3所述的基于强化学习的智能决策系统，其特征在于，所述系统还包括：

内容存储模块，用于接收所述强化学习后的卷积神经网络并存储所述强化学习后的卷积神经网络；

其中，所述内容存储模块还用于存储所述设定数量与所述多个隐含层的数量的映射关系。

5.如权利要求4所述的基于强化学习的智能决策系统，其特征在于，所述系统还包括：

现场计时模块，分别与所述系统的各个模块连接，用于为所述各个模块分别提供现场计时服务。

6.如权利要求1-5任一所述的基于强化学习的智能决策系统，其特征在于：

每一份学习数据为所述同一超市内相等面积的设定数量的多个分区域在某一个历史时刻分别部署的多个安保人员数量，所述卷积神经网络的输出层的单个输出数据为所述历史时刻后预设时间长度范围内的丢失商品的数量包括：多份学习数据分别对应的多个历史时刻为多个不同日期的同一设定时刻。

7.如权利要求6所述的基于强化学习的智能决策系统，其特征在于：

所需要的所述同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量的部署时间为当天的所述同一设定时刻。

8.一种基于强化学习的智能决策系统，其特征在于，所述系统包括存储器以及一个或多个处理器，所述存储器存储有计算机程序，所述计算机程序被配置成由所述一个或多个处理器执行以完成以下步骤：

其中，所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层；

其中，所述同一超市内每一个分区域的面积固定，所述设定数量的数值越大，所述多个隐含层的数量越多。

9.一种基于强化学习的智能决策方法，其特征在于，所述方法包括：

其中，所述卷积神经网络为深度卷积神经网络且包括一个输出层、一个输入层以及多个隐含层；

其中，所述同一超市内每一个分区域的面积固定，所述设定数量的数值越大，所述多个隐含层的数量越多。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有计算机程序，所述计算机程序为在被执行时实现如权利要求9所述方法的各个步骤的指令。

技术总结
本发明涉及一种基于强化学习的智能决策系统，所述系统包括：强化学习模块，用于将每一份学习数据对应的丢失商品的数量的倒数作为对卷积神经网络进行强化学习的奖励信号进行强化学习，以分时逐份完成固定数量的多份学习数据的强化学习；数量解析模块，用于采用强化学习后的卷积神经网络确定为使得强化学习后的卷积神经网络的输出层的单个输出数据即丢失商品的数量最少所需要的输入数据即同一超市内相等面积的设定数量的多个分区域应该分别部署的多个安保人员数量。本发明还涉及一种基于强化学习的智能决策方法。通过本发明，能够采用基于强化学习的卷积神经网络完成对同一超市内海量视频数据以及海量商品录入数据之间的对应关系的建模。

技术研发人员：李启娟
受保护的技术使用者：特斯联科技集团有限公司
技术研发日：2021.04.15
技术公布日：2021.08.03

转载请注明原文地址:https://doc.8miu.com/read-7972.html

专利

最新回复(0)