多仓储机器人动态调度系统及方法

专利2025-05-03  11


本发明涉及多机器人仓储调度规划技术,属于物流调度及人工智能,具体涉及多仓储机器人动态调度系统及方法。


背景技术:

1、近年来,人工智能技术飞速发展,在众多领域都取得了重大的应用成果,推动着各行业不断向智能化转型,物流仓储领域也不例外。为了提高物流系统的智能化程度和作业效率,移动机器人参与仓储拣选的多仓储机器人动态调度系统及其相关调度算法被广泛研究与应用。然而目前的多仓储机器人调度算法大多只能解决时间窗内的静态多机调度问题,在更加接近实际作业环境的动态多机调度问题中仍然存在许多局限性。

2、本发明涉及到的动态多仓储机器人调度系统用于解决多移动机器人如何相互协作地高效完成货架搬运任务,并且满足动态变化的货架搬运集合需求的仓储调度问题,该系统由多台移动机器人、多个移动式货架、多个存储位、多个拣选站和集中式计算中心构成,移动机器人需要搬运货架到拣选站来提供需要的货物,也需要将完成拣选的货架运送回存储位。由于每个机器人每次只能运输一个货架,所以他们在经过拣选站后必须把完成拣选的货架放到存储位,才可以去搬运新的货架。为了合理利用有限资源,需要设计高效可靠的优化调度方法,提高系统的供货效率。

3、传统组合优化算法在解决物流仓储调度问题中有较多研究,例如种群算法、动态规划算法、启发式搜索算法等。但是这类算法存在迭代时间长、收敛速度慢或者求解质量难以满足要求的问题。受到求解效率问题的限制,目前的传统组合优化算法解决动态多仓储机器人调度问题都依赖于时间窗的方法,将动态问题简化为多个静态的时间片段,求解接下来一段时间要执行的动作序列。这种方法可以实现在静态任务中的应用,但是在环境变化时不能及时响应,自适应能力差,因此影响系统的调度效率。近年来,人工智能的研究取得了许多突破性的成果,在物流调度等重要应用领域也逐渐展露出不可估量的潜力。然而,目前智能学习类算法大多都仅限于在标准化的旅行商、作业车间调度、车辆路径等经典的组合优化问题上获得了不错的效果,但是在多仓储机器人调度问题的应用案例非常稀少,关于人工智能学习类算法在动态多仓储机器人调度问题中如何应用更是亟待研究。


技术实现思路

1、本发明针对现有技术存在的问题,对动态多机调度问题进行建模,构造任务图并采用深度强化学习算法进行训练,提供了能够解决动态多仓储机器人调度问题的多仓储机器人动态调度系统及方法。

2、本发明的多仓储机器人动态调度方法,包括以下步骤:

3、步骤1:建立动态多智能体总调度模型:建立与多货架物流仓储系统相关的网格化地图模型,定义机器人与仓储调度系统的交互模型,设定动态多仓储机器人调度系统的优化目标;

4、步骤2:构建初始状态,建立初始任务图和机器人初始状态列表;根据网格化地图模型,建立初始时刻的任务图,建立并初始化每个机器人状态列表,包括机器人繁忙状态列表、机器人货架搬运进程计数列表和机器人历史路程列表;

5、步骤3:建立由策略网络和价值网络构成的基于注意力机制的层次化神经网络模型;其中策略网络为层级结构,分别由机器人编号策略网络和位置策略网络两层神经网络构成;

6、步骤4:随机生成一批问题实例,设为m个;定义步骤2中的初始状态;根据步骤3中建立的层次化神经网络模型,初始化神经网络参数和掩码,初始化训练步数t和回合数为0;初始化平均奖励为0;

7、步骤5:将步骤4中m个问题实例所对应的机器人目前的状态观测结果输入给步骤3建立的策略网络;策略网络输出每个问题实例对应的动作策略分布概率πj;j=1,2,...,m;其中,机器人编号策略网络输出所选择机器人的概率位置策略网络输出所选择位置的概率策略网络最终输出为:

8、

9、其中,θt、θt,1和θt,2分别表示训练步数t下策略网络、机器人编号策略网络以及位置策略网络的网络参数;表示层次神经网络参数θt时,在状态sj下通过动作策略分布概率πj选择动作时,网络所选择的动作的概率值;

10、步骤6:运行步骤4中的价值网络:输入步骤4中的m个问题实例所对应的状态观测结果给价值网络,输出对当前状态观测结果的价值估计v(st,ω);

11、步骤7:更新状态观测结果:更新步骤2中的任务图;根据设定的交互模型,更新步骤2中的机器人状态列表:更新机器人繁忙状态列表、机器人货架搬运进程计数列表和机器人历史路程列表;训练步数自增1;

12、步骤8:根据步骤7中更新前后的状态,计算第t训练步数状态转移到第t+1训练步数状态的即时奖励rt;

13、步骤9:运行步骤4中的价值网络;输入更新后的状态观测结果给价值网络,输出训练步数为t+1时的价值估计结果v(st+1,ω);

14、步骤10:根据步骤9的训练步数为t时价值估计结果、步骤8的即时奖励和步骤9的训练步数为t+1时的价值估计结果,按照下式计算每个问题实例的时序差分奖励δt;

15、δt=rt+v(st+1,ω)-v(st,ω)

16、步骤11:根据步骤6中被选择动作的概率步骤12的时序差分奖励,更新策略网络参数:

17、

18、其中,θt+1表示t+1时的策略网络参数,j表示问题实例序号,δt,j(πj)表示在动作策略分布概率πj下的时序差分奖励值,表示策略网络参数θt的梯度;

19、更新价值网络参数:

20、

21、其中,ωt+1表示训练步数t+1下价值网络的参数,表示训练步数t下价值网络参数ωt的梯度;

22、步骤12:执行步骤4到步骤11直至达到训练最大回合数,结束训练;保存层次化神经网络模型文件和训练过程文件;

23、步骤13:利用训练完成的策略网络,根据观测的系统当前状态动态地计算出每个仓储移动机器人下一步的搬运指令,仓储机器人每完成一次搬运动作,就执行下一步搬运任务指令,从而实现整个多仓储机器人系统的动态调度任务。

24、较佳的,所述步骤1具体包括:

25、所述网格化地图模型包括:定义初始仓储环境参数:仓储系统地图大小,初始时刻的仓储机器人数量、货架数量、存储位数量,以及初始时刻仓储机器人位置、货架位置和存储位位置;根据上述仓储环境参数确定网格化地图模型,网格化地图模型中的每个网格存储着对应位置的节点元素信息,节点元素共有4种类型,分别为:移动机器人、移动货架、存储位和拣选站;

26、所述交互模型包括:选择不繁忙的机器人执行任务;如果所有机器人都处于繁忙状态,则全部机器人都更新为不繁忙状态;如果机器人当前在搬运货架,则下一步该机器人必须前往拣选站;如果机器人当前在从拣选站搬回货架,则下一步该机器人必须去存储位;如果机器人在存储位或者为初始时刻,则该机器人必须搬运货架;

27、所述系统的优化目标包括:假设所有机器人都匀速运动,动态多机器人仓储调度系统的总目标为:最小化平均每个机器人搬完一个货架所需要的时间。

28、较佳的,所述步骤2中,建立任务图的方法包括:任务图为一个四层深度的网格化深度地图,其中,第一层地图存储4种节点元素所处的初始位置;第二层地图存储每个机器人的当前位置;第三层地图存储每个机器人已经花费的代价;第四层存储每个机器人的编号。

29、较佳的,所述机器人编号策略网络和位置策略网络结构相同且共享网络参数;机器人编号策略网络和位置策略网络结构均由编码器与解码器两部分结构组成;其中,编码器由线性层、多头注意力神经网络顺序组成,解码器由线性聚合层、多头注意力网络、线性层、softmax层以及掩码顺序组成;处理数据流程包括:

30、(1)任务图作为输入给机器人编号策略网络,根据当前机器人繁忙状态生成机器人掩码,用于控制机器人编号策略网络中的多头注意力层的注意力范围,并限制可选择的机器人范围;机器人编号策略网络输出网格地图中每个机器人所在位置被选择的概率分布,根据该概率分布随机选择一个坐标,当前处于该坐标位置的机器人即为机器人编号策略网络所选择的机器人;

31、(2)根据机器人编号策略网络所选择的机器人编号,查询该机器人搬运状态,根据该机器人搬运状态生成位置掩码:即可选择的有效位置范围,将任务图中第三层的其他机器人所在位置信息去除得到位置任务图,位置任务图输入给位置策略网络,位置掩码控制位置策略网络的多头注意力层的注意力范围,并限制输出的位置范围;位置策略网络输出网格地图中执行任务的机器人所在位置被选择的概率分布,根据该概率分布随机选择一个坐标;查询任务图第一层中该坐标下元素属性类型,如果元素属性类型为货架或者拣选站或者存储位,则机器人下一步将前往该坐标。

32、较佳的,所述策略网络的掩码包括两类,分别为:机器人编号掩码和位置掩码;所有类型的掩码尺寸都和网格化地图尺寸相同,不含深度信息;每个掩码位对应网格化地图模型的一个位置,如果掩码位元素值为1则表示对应的动作不允许执行,如果掩码位元素值为0则表示对应的动作允许执行;每种掩码的具体生成方式如下:

33、(1)机器人掩码:查询每个机器人当前的繁忙状态列表;如果该机器人不繁忙,则该机器人在地图中对应位置的机器人掩码位元素值为0,否则为1;

34、(2)位置掩码:查询机器人策略网络输出的机器人编号i对应的机器人货架搬运进程计数值如果则搬运任务集合中的货架所在位置的位置掩码为0,其余位置掩码为1;如果则拣选站所在位置的位置掩码为0,其余位置掩码为1;如果且正在搬运的货架不在搬运任务集合中,则存储位所在位置的位置掩码也为0,其余位置掩码为1;如果则存储位所在位置的位置掩码为0,其余位置掩码都为1。

35、较佳的,所述价值网络由编码器与解码器两部分结构组成;其中,编码器由线性层、n层多头注意力神经网络组成,解码器由线性聚合层、多头注意力网络和线性层组成;价值网络用于估计输入状态的价值,其神经网络参数定义为ω。

36、较佳的,其中状态观测结果是指:当训练步数为0时,状态观测结果为步骤2中的初始任务图;当训练步数不为0时,为上一步动作与环境交互后更新的初始任务图。

37、较佳的,所述步骤8中,根据任务图的第三层获得第t训练步数和第t+1训练步数时每个机器人走过的总曼哈顿距离长度φi,t和φi,t+1,查询第t训练步数和第t+1训练步数时状态列表中机器人i的货架搬运进程计数值和假设机器人的移动速度为v,则即时奖励rt的计算方法为:

38、

39、其中,ε为常数,用于防止分母为0。

40、一种多仓储机器人动态调度系统,其特征在于,包括多台仓储搬运机器人、多个移动式货架、多个存储位、多个拣选站和集中式计算中心;其中,集中式计算中心用于实现上述步骤1至步骤13的方法,完成动态调度任务。

41、较佳的,将动态多仓储机器人调度系统根据位置区域分解为多个地图尺寸的动态多仓储机器人子调度系统;相应地,将建立的动态多智能体总调度模型也根据位置区域进行分解,划分为多个小规模子动态多智能体调度模型:将总网格化地图模型划分为多个小规模的网格化子图模型,位置相近的机器人、货架、存储位和拣选站在一个网格化子图模型中,网格化子图模型内的机器人负责其所处网格化子图区域内的搬运任务;所述集中式计算中心根据步骤1至步骤13的方法对子调度系统进行动态任务调度。

42、本发明具有如下有益效果:

43、(1)本发明设计了任务图的表征方式,面向复杂的高动态多机调度问题建模,能够有效克服传统学习类方法泛化和扩展能力差的问题,有效适应问题规模的变化。实际的仓储调度环境都是不断动态变化的,问题的规模,如机器人数量、需要搬运的货架数量、存储位数量都在不断变化。传统方法针对不同的问题规模需要训练不同的神经网络模型,对计算资源浪费严重,模型的扩展性差。本发明提出的方法一套模型可以解决各种不同地图尺寸的动态调度问题。

44、(2)本发明设计了可以求解多仓储机器人调度问题的注意力层次化深度神经网络结构,有效降低动作空间维数,提高学习效率。通过对复杂的动态调度问题进行任务分解,可以有效降低动作空间过于复杂、维数爆炸的问题,有利于提高深度强化学习算法的学习效率和收敛性,从而提高动态仓储调度系统的作业效率。网络结构依据实际的调度作业顺序进行划分,通过各层掩码控制动作空间,能够处理动态系统下的变动作空间问题。调度系统采用事件触发的方式触发调度求解算法的运行,而非每隔固定周期求解一次,能够减少计算资源浪费,同时也有利于加速训练时数据采样,加快学习进程。

45、(3)本发明提出了多仓储机器人调度系统分解方法,能够有效解决节点规模大导致深度强化学习维度爆炸难以训练的问题,提高模型的扩展能力,并且以地理位置划分系统能够尽可能避免损失最优性。而且本发明提出的基于任务图表征下的深度强化学习方法,借助神经网络部署时推理速度远比传统优化算法求解速度快的特点,能够根据动态环境状态不断调整任务指令,响应速度快,有利于提高调度系统的柔性。


技术特征:

1.多仓储机器人动态调度方法,其特征在于,包括以下步骤:

2.如权利要求1所述的多仓储机器人动态调度方法,其特征在于,所述步骤1具体包括:

3.如权利要求2所述的多仓储机器人动态调度方法,其特征在于,所述步骤2中,建立任务图的方法包括:任务图为一个四层深度的网格化深度地图,其中,第一层地图存储4种节点元素所处的初始位置;第二层地图存储每个机器人的当前位置;第三层地图存储每个机器人已经花费的代价;第四层存储每个机器人的编号。

4.如权利要求3所述的多仓储机器人动态调度方法,其特征在于,所述机器人编号策略网络和位置策略网络结构相同且共享网络参数;机器人编号策略网络和位置策略网络结构均由编码器与解码器两部分结构组成;其中,编码器由线性层、多头注意力神经网络顺序组成,解码器由线性聚合层、多头注意力网络、线性层、softmax层以及掩码顺序组成;处理数据流程包括:

5.如权利要求4所述的多仓储机器人动态调度方法,其特征在于,所述策略网络的掩码包括两类,分别为:机器人编号掩码和位置掩码;所有类型的掩码尺寸都和网格化地图尺寸相同,不含深度信息;每个掩码位对应网格化地图模型的一个位置,如果掩码位元素值为1则表示对应的动作不允许执行,如果掩码位元素值为0则表示对应的动作允许执行;每种掩码的具体生成方式如下:

6.如权利要求5所述的多仓储机器人动态调度方法,其特征在于,所述价值网络由编码器与解码器两部分结构组成;其中,编码器由线性层、n层多头注意力神经网络组成,解码器由线性聚合层、多头注意力网络和线性层组成;价值网络用于估计输入状态的价值,其神经网络参数定义为ω。

7.如权利要求1所述的多仓储机器人动态调度方法,其特征在于,其中状态观测结果是指:当训练步数为0时,状态观测结果为步骤2中的初始任务图;当训练步数不为0时,为上一步动作与环境交互后更新的初始任务图。

8.如权利要求1所述的多仓储机器人动态调度方法,其特征在于,所述步骤8中,根据任务图的第三层获得第t训练步数和第t+1训练步数时每个机器人走过的总曼哈顿距离长度φi,t和φi,t+1,查询第t训练步数和第t+1训练步数时状态列表中机器人i的货架搬运进程计数值和假设机器人的移动速度为v,则即时奖励rt的计算方法为:

9.一种用于实现权利要求1-8任一权利要求所述方法的多仓储机器人动态调度系统,其特征在于,包括多台仓储搬运机器人、多个移动式货架、多个存储位、多个拣选站和集中式计算中心;其中,集中式计算中心用于实现上述步骤1至步骤13的方法,完成动态调度任务。

10.如权利要求9所述的多仓储机器人动态调度系统,其特征在于,将动态多仓储机器人调度系统根据位置区域分解为多个地图尺寸的动态多仓储机器人子调度系统;相应地,将建立的动态多智能体总调度模型也根据位置区域进行分解,划分为多个小规模子动态多智能体调度模型:将总网格化地图模型划分为多个小规模的网格化子图模型,位置相近的机器人、货架、存储位和拣选站在一个网格化子图模型中,网格化子图模型内的机器人负责其所处网格化子图区域内的搬运任务;所述集中式计算中心根据步骤1至步骤13的方法对子调度系统进行动态任务调度。


技术总结
本发明公开了多仓储机器人动态调度系统及方法,属于物流调度及人工智能技术领域,构建了多仓储机器人动态调度系统和调度模型和基于注意力机制的层次化神经网络结构,对多仓储机器人调度任务结构进行分解,有效降低多仓储机器人调度问题的动作空间维度,避免维数灾难,提高强化学习算法的学习效率;采用深度强化学习算法训练层次化神经网络模型,提高调度系统计算求解速度;调度系统采用事件触发的方式触发调度求解算法的运行条件,求解周期时间不固定,能够减少计算资源浪费,有利于加速训练时数据采样,加快学习进程;充分利用神经网络部署时推理速度快的优点,可根据动态环境状态实时生成任务指令,缩减调度周期所需时间,提高调度系统的柔性。

技术研发人员:邓方,周轩,石翔,褚文清,张乐乐,董伟,赵佳晨,李洪波
受保护的技术使用者:北京理工大学
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1819507.html

最新回复(0)