本发明涉及机器人控制,特别是指一种受并行推理机制启发的机器人运动规划和避障决策方法。
背景技术:
1、随着自主机器人系统的迅速发展和广泛部署,机器人在各个领域的作用日益凸显。机器人因其功能多样、安全高效等特点,目前广泛代替人类执行繁杂而危险的任务,如情报侦察、协助医疗手术、物流运输等。许多机器人都涉及在受限环境中执行任务,如复杂环境快速穿越、自动驾驶过程中的突发情况、生产线上的零部件装配等。这些情景对机器人的运动规划能力提出了极高的要求,其中包括如何安全高效地规划路径、快速避障、并实时调整和控制运动轨迹。对于要求高效率和高精度的工作场景,其操作环境通常具有高维度、连续性以及高度不确定性,涉及大量状态变量、复杂决策空间以及动态障碍物。
2、因此,在动态的高维连续环境中,基于采样的规划方法是一个关键手段。机器人基于采样通过动作决策实现高效规划和快速避障主要面临以下挑战:
3、其一,在高维连续环境中,如何克服探索-利用权衡困境,做出快速而精准的机动决策。机器人通过探索环境收集更多信息来学习利用策略,但学习探索策略需要良好的利用来评估探索。这需要一个灵活权衡机制来确定机器人何时利用已有信息,以及何时探索环境。然而,传统采样的规划方法通常使用均匀采样策略,即无差别地探索整个空间以获得新信息,未能充分利用实际问题本身的结构信息。尽管启发式偏置采样方法利于平衡探索和利用,但由于是手工设计用于解决特定任务,因此在应对新问题时效果不佳,无法有效推广。
4、其二,在动态不确定的环境中,机器人如何结合经验知识不断更新,并实现在复杂地形下的精准避障。当面临速度快或距离近的障碍时,机器人必须能快速精准的做出决策避开障碍。传统采样的规划方法独立地处理每个任务,未能充分利用以往的经验和已建立的数据模型。基于学习的规划方法已成为增强运动规划性能的主要途径。
5、为了应对这两个重大挑战,需要探索更智能的采样方法平衡探索利用困境,以及能动态应对环境中的不确定性。
6、目前基于学习的规划方法主要可分为:基于强化学习、基于模仿学习、以及类脑学习等。基于强化学习的规划方法通常具有随机性,尤其是对于复杂的任务,通常需要花费大量时间。因此,有研究在学习过程中引入模仿学习进行人为引导。然而,机器人在学习过程中需要大量的示例样本和人工标记,并且在面对新环境时,需要收集更多的数据。这导致机器人无法从非常有限的示例样本中进行学习。近年来,类脑学习已经取得了令人瞩目的进展,如对情景记忆的模仿和注意力机制的应用等。受人类认知资源合理分配的启发,rr-rl2能够在给定的约束条件下做出最合理的决策。与传统规划方法相比,单策略引导的类脑学习方法具有一定优势。但是未能考虑多策略引导的协调学习,并且忽视优化示例样本的收集;所学习的模型在面临机动决策时,仍难以平衡探索和利用的困境。
7、已有方法不足在于:1)机器人学习需要大量数据,并且只能针对特定的环境与任务,未能充分利用经验知识;2)难以平衡探索和利用困境;3)在示例样本的收集过程中,忽视对其优化;4)未能借鉴人脑多策略协调机制,引入多策略引导的协调学习。
技术实现思路
1、为了解决现有技术存在的需要大量样本、在复杂地形中规划和避障的准确率低的技术问题,本发明实施例提供了一种受并行推理机制启发的机器人运动规划和避障决策方法、机器人运动规划和避障决策设备及存储介质。所述技术方案如下:
2、一方面,提供了一种受并行推理机制启发的机器人运动规划和避障决策方法,该方法由机器人运动规划和避障决策设备实现,该方法包括:
3、s1、所述机器人控制端获取机器人的当前位置以及目标位置,根据所述机器人的当前位置以及目标位置;
4、s2、所述机器人确定推理缓冲区以及策略集,所述推理缓冲区以及所述策略集均包括多个非学习的规划方法以及一个基于学习的规划方法bu;
5、s3、所述机器人控制端计算所述推理缓冲区中每个规划方法的事前可靠性;
6、s4、所述机器人控制端根据每个规划方法的事前可靠性,选择局部最优行为策略,将所述局部最优行为策略发送给所述机器人;
7、s5、所述机器人接收到所述局部最优行为策略后,在所述局部最优行为策略的指导下,得到目标路径,并执行目标路径,将所述目标路径作为训练样本填充进训练缓冲区中,当训练缓冲区到达一定数量,所述机器人对bu进行一次更新学习;
8、s6、所述机器人若接收到bu作为局部最优行为策略,根据候选状态进行建模,得到相关性状态模型;所述机器人在所述相关性状态模型的基础上设计一个神经约束观察函数;
9、s7、根据神经约束观察函数计算候选状态的观测值,并确定出最大观测值;
10、s8、如果所述最大观测值大于预设阈值,则将所述最大观测值对应的候选状态扩展为下一个状态;如果所有观测值均小于或等于预设阈值,则所述机器人采样新的临时探测状态,重复执行s7-s8,直至确定下一个状态;
11、s9、所述机器人在策略bu的指导下,不断扩展新的状态,直至到达终点,得到目标路径,并执行目标路径。
12、另一方面,提供一种机器人运动规划和避障决策设备,所述机器人运动规划和避障决策设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述受并行推理机制启发的机器人运动规划和避障决策方法中的任一项方法。
13、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述受并行推理机制启发的机器人运动规划和避障决策方法中的任一项方法。
14、本发明实施例提供的技术方案带来的有益效果至少包括:
15、本发明实施例中,机器人控制端获取机器人的当前位置以及目标位置,根据机器人的当前位置以及目标位置;机器人确定推理缓冲区以及策略集,推理缓冲区以及策略集均包括多个非学习的规划方法以及一个基于学习的规划方法bu;机器人控制端计算推理缓冲区中每个规划方法的事前可靠性;机器人控制端根据每个规划方法的事前可靠性,选择局部最优行为策略,将局部最优行为策略发送给机器人;机器人接收到局部最优行为策略后,在局部最优行为策略的指导下,得到目标路径,并执行目标路径,将目标路径作为训练样本填充进训练缓冲区中,当训练缓冲区到达一定数量,机器人对bu进行一次更新学习;机器人若接收到bu作为局部最优行为策略,根据候选状态进行建模,得到相关性状态模型;机器人在相关性状态模型的基础上设计一个神经约束观察函数;根据神经约束观察函数计算候选状态的观测值,并确定出最大观测值;如果最大观测值大于预设阈值,则将最大观测值对应的候选状态扩展为下一个状态;如果所有观测值均小于或等于预设阈值,则机器人采样新的临时探测状态,重复执行上述步骤,直至确定下一个状态;机器人在策略bu的指导下,不断扩展新的状态,直至到达终点,得到目标路径,并执行目标路径。采用本发明,充分利用经验知识,无需大量样本数据,借鉴人脑多策略协调机制,引入多策略引导的协调学习,使机器人在复杂环境中准确地到达目标位置,在没有大规模数据以及大算力的条件下,针对复杂地形进行高效规划和精准避障。
1.一种基于并行推理机制的机器人运动规划和避障决策方法,其特征在于,所述方法由基于并行推理机制的机器人运动规划和避障决策系统实现,所述基于并行推理机制的机器人运动规划和避障决策系统包括机器人控制端以及机器人;
2.根据权利1要求所述的方法,其特征在于,所述s2的机器人确定推理缓冲区以及策略集,所述推理缓冲区以及所述策略集均包括多个非学习的规划方法以及一个基于学习的规划方法bu,包括:
3.根据权利要求所述的方法,其特征在于,所述s3的所述机器人控制端计算所述推理缓冲区中每个规划方法的事前可靠性,包括:
4.根据权利要求1所述的方法,其特征在于,所述s4的机器人控制端根据每个规划方法的事前可靠性,选择局部最优行为策略,包括:
5.根据权利要求1所述的方法,其特征在于,所述s5的机器人接收到所述局部最优行为策略后,在所述局部最优行为策略的指导下,得到目标路径,并执行目标路径,将所述目标路径作为训练样本填充进训练缓冲区中,包括:
6.根据权利要求1所述的方法,其特征在于,所述s6的根据候选状态进行建模,得到相关性状态模型,包括:
7.根据权利要求1所述的方法,其特征在于,所述s6的机器人在所述相关性状态模型的基础上设计一个神经约束观察函数,包括:
8.根据权利要求7所述的方法,其特征在于,所述价值函数v(s)的计算公式如下式:
9.一种机器人运动规划和避障决策设备,其特征在于,所述机器人运动规划和避障决策设备包括:
10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至8任一项所述的方法。
