一种基于强化学习的无人船路径规划方法、系统、计算机设备及存储介质

专利2025-11-03  25


本发明涉及无人船路径规划,特别是涉及一种基于强化学习的无人船路径规划方法、系统、计算机设备及存储介质。


背景技术:

1、无人船路径规划技术是指利用计算机科学、人工智能和控制理论等相关领域的知识,对无人船在海洋环境中的路径选择和行为决策进行优化和管理的技术。该技术旨在使无人船能够在海洋环境中自主、智能地完成各种任务,例如巡航、目标跟踪、海洋勘测等。无人船路径规划技术通常涉及多种方法和算法,其中包括传统的基于规则、启发式算法,以及近年来越来越受关注的基于强化学习的方法。

2、传统的无人船路径规划方法主要依赖于基于规则的、基于启发式的或者基于优化算法的策略,这些方法在面对复杂多变的海洋环境时存在一些局限性。首先,基于规则的方法需要人工设计大量规则来应对不同情况,这种方法难以适应环境的变化和船舶行为的多样性。其次,基于启发式的方法虽然能够通过一些经验性的启发信息来辅助路径规划,但其通用性和适应性较差,难以处理复杂的海洋环境和任务需求。此外,基于优化算法的方法虽然能够通过数学优化技术来搜索最优路径,但通常需要大量计算资源和时间,并且可能陷入局部最优解。因此,这些传统方法在实际应用中往往面临着效率低、鲁棒性差等问题,需要新的方法来克服这些局限性。

3、综上,传统方法往往依赖于人工设计的规则、启发式算法或优化算法,这些方法在实际应用中可能面临以下技术问题:

4、1.缺乏智能决策能力:传统方法通常需要事先设计大量的规则或者启发式算法来指导路径规划,缺乏对复杂多变的海洋环境进行智能决策的能力。因此,面对未知或变化的环境时,路径规划效果可能不尽如人意,无法及时适应环境变化。

5、2.处理动态障碍物困难:传统方法难以有效处理海洋环境中的动态障碍物,如其他船只、浮冰、海流等。这些障碍物的位置、形状和运动状态可能随时发生变化,传统方法往往无法实时感知并进行路径调整,容易导致碰撞或者路径冲突。

6、3.计算复杂度高:基于优化算法的传统方法通常需要大量的计算资源和时间来搜索最优路径,尤其是在海洋环境中,由于数据量大、计算复杂度高,导致路径规划效率低下,无法满足实时性和实用性的要求。

7、4.缺乏通用性和适应性:传统方法往往需要针对特定的海洋环境和任务需求进行定制化设计,缺乏通用性和适应性。一旦环境或任务发生变化,可能需要重新设计规则或算法,增加了开发和维护的成本和难度。


技术实现思路

1、发明目的:为解决传统方法在实际应用中面临的技术问题,本发明提出了一种基于强化学习的无人船路径规划方法、系统、计算机设备及存储介质,解决了传统无人船路径规划方法在应对复杂海洋环境和动态障碍物时存在的一系列技术问题,实现在复杂多变的海洋环境中智能、高效地完成路径规划任务。

2、技术方案:一种基于强化学习的无人船路径规划方法,包括以下步骤:

3、步骤1:获取待路径规划的海图文件,对该海图文件进行处理,得到graph数据结构的地图;

4、步骤2:在确定起点坐标和终点坐标的情况下,利用a*算法对graph数据结构的地图进行全局路径规划,得到最优路径,所述最优路径被表示为一系列连续的路径点;

5、步骤3:利用道格拉斯-普克算法,对最优路径进行压缩,得到压缩后的最优路径;

6、步骤4:在压缩后的最优路径上引入位置、大小和运动状态动态更新的障碍物,得到环境模型;

7、步骤5:基于环境模型,获取距离无人船一定范围内的局部视图,所述局部视图包括临时目标和距离无人船一定范围内的环境信息;所述临时目标为局部视图的边缘指向压缩后的最优路径上的路径点的方向上的一个点;

8、步骤6:置于无人船内的强化学习智能体获取局部视图,从局部视图中提取当前环境信息,强化学习智能体基于当前环境信息和无人船当前运动状态,调整运动状态,使无人船朝着临时目标的方向移动;所述运动状态包括航向和速度。

9、进一步的,所述的对该海图文件进行处理,得到graph数据结构的地图,具体包括:

10、对该海图文件进行解析,得到多种矢量图形数据;

11、对多种矢量图形数据进行数据裁切,生成多边形障碍物数据;

12、对多边形障碍物数据进行栅格化处理,得到栅格化地图;

13、将栅格化地图处理成graph数据结构的地图。

14、进一步的,步骤2具体包括:

15、利用a*算法,基于graph数据结构的地图,综合考虑路径长度和启发式函数,得到从起点到终点的最短路径。

16、进一步的,步骤3具体包括:

17、通过计算最优路径上各路径点到线段的垂直距离,将垂直距离最大的路径点作为关键的路径点;所述线段为起点和终点组成的直线段;

18、将最优路径分为两个部分,第一部分为起点到关键点,第二部分为关键点到终点;

19、利用道格拉斯-普克算法,对这两个部分进行递归处理,得到压缩后的最优路径。

20、进一步的,所述强化学习智能体是基于深度强化学习算法对智能体训练得到的。

21、进一步的,所述深度强化学习算法,具体包括:

22、以dqn算法为基础框架,其中,使用的探索率按照以下速率减小,直至达到目标探索率;

23、

24、其中,采用优先经验回放以及为每个样本分配重要性采样权重。

25、本发明公开了一种基于强化学习的无人船路径规划系统,包括:

26、海图文件处理模块,用于获取待路径规划的海图文件,对该海图文件进行处理,得到graph数据结构的地图;

27、全局路径规划模块,用于在确定起点坐标和终点坐标的情况下,利用a*算法对graph数据结构的地图进行全局路径规划,得到最优路径,所述最优路径被表示为一系列连续的路径点;

28、路径压缩模块,用于利用道格拉斯-普克算法,对最优路径进行压缩,得到压缩后的最优路径;

29、环境模型构建模块,用于在压缩后的最优路径上引入位置、大小和运动状态动态更新的障碍物,得到环境模型;

30、强化学习智能体模块,用于获取距离无人船一定范围内的局部视图,所述局部视图包括临时目标和距离无人船一定范围内的环境信息;所述临时目标为局部视图的边缘指向中间目标的方向上的一个点;以及用于从局部视图中提取当前环境信息,强化学习智能体基于当前环境信息和无人船当前运动状态,调整运动状态,使无人船朝着临时目标的方向移动;所述运动状态包括航向和速度。

31、进一步的,在所述全局路径规划模块中,执行以下步骤:

32、利用a*算法,基于graph数据结构的地图,综合考虑路径长度和启发式函数,得到从起点到终点的最短路径;

33、在所述路径压缩模块中,执行以下步骤:

34、通过计算最优路径上各路径点到线段的垂直距离,将垂直距离最大的路径点作为关键的路径点;所述线段为起点和终点组成的直线段;

35、将最优路径分为两个部分,第一部分为起点到关键点,第二部分为关键点到终点;

36、利用道格拉斯-普克算法,对这两个部分进行递归处理,得到得到压缩后的最优路径;

37、所述强化学习智能体是利用深度强化学习算法对智能体训练得到的;

38、所述深度强化学习算法,具体包括:

39、以dqn算法为基础框架,其中,使用的探索率按照以下速率减小,直至达到目标探索率;

40、

41、其中,采用优先经验回放以及为每个样本分配重要性采样权重。

42、本发明公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现一种基于强化学习的无人船路径规划方法的步骤。

43、本发明公开了一种存储介质,所述存储介质存储有无人船路径规划程序,所述无人船路径规划程序被至少一个处理器执行时实现一种基于强化学习的无人船路径规划方法的步骤。

44、有益效果:与现有技术相比,本发明具有以下优点:

45、(1)本发明方法通过强化学习算法,与环境的交互学习到最优的路径规划策略,无需事先手动设计规则或者启发式算法,更具通用性和适应性;

46、(2)本发明方法通过强化学习算法能够实现自主智能决策,根据环境的变化动态调整船舶的行为,具有较强的鲁棒性和灵活性;

47、(3)本发明方法通过强化学习算法能够处理连续状态空间和动作空间的问题,能够应对复杂多变的海洋环境和任务需求;

48、(4)针对无人船在复杂海洋环境中的路径规划问题,通过本发明方法,无人船能够根据实时的环境信息和任务需求,灵活地选择最优路径,并在遇到障碍物或其他动态情况时做出相应的调整和决策,从而保证了船舶在航行过程中的安全性和效率性;

49、(5)本发明方法通过智能体与环境的交互,学习并优化航行策略,实现无人船在复杂海洋环境中安全高效的航行,具有自主性高、适应性强、学习能力强和实时性好等优势,能够提高无人船的航行效率和安全性,为海洋航行提供了智能化解决方案。


技术特征:

1.一种基于强化学习的无人船路径规划方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的一种基于强化学习的无人船路径规划方法,其特征在于:所述的对该海图文件进行处理,得到graph数据结构的地图,具体包括:

3.根据权利要求1所述的一种基于强化学习的无人船路径规划方法,其特征在于:步骤2具体包括:

4.根据权利要求1所述的一种基于强化学习的无人船路径规划方法,其特征在于:步骤3具体包括:

5.根据权利要求1所述的一种基于强化学习的无人船路径规划方法,其特征在于:所述强化学习智能体是基于深度强化学习算法对智能体训练得到的。

6.根据权利要求1所述的一种基于强化学习的无人船路径规划方法,其特征在于:所述深度强化学习算法,具体包括:

7.一种基于强化学习的无人船路径规划系统,其特征在于:包括:

8.根据权利要求7所述的一种基于强化学习的无人船路径规划系统,其特征在于:

9.一种计算机设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至6任意一项所述的一种基于强化学习的无人船路径规划方法的步骤。

10.一种存储介质,其特征在于,所述存储介质存储有无人船路径规划程序,所述无人船路径规划程序被至少一个处理器执行时实现权利要求1至6任意一项所述的一种基于强化学习的无人船路径规划方法的步骤。


技术总结
本发明公开了一种基于强化学习的无人船路径规划方法、系统、计算机设备及存储介质,包括:对待路径规划的海图文件进行处理,得到Graph数据结构的地图;在确定起点坐标和终点坐标的情况下,利用A*算法进行全局路径规划,得到最优路径;对最优路径进行压缩,得到压缩后的最优路径;在压缩后的最优路径上引入障碍物,得到环境模型;基于环境模型,获取距离无人船一定范围内的局部视图,局部视图包括临时目标和距离无人船一定范围内的环境信息;置于无人船内的强化学习智能体获取局部视图,从局部视图中提取当前环境信息,强化学习智能体基于当前环境信息和无人船当前运动状态,调整运动状态,使无人船朝着临时目标的方向移动。

技术研发人员:李永正,侯盼盼,王璧蔚,徐龙堂,何晓宁,陈鸽
受保护的技术使用者:江苏科技大学
技术研发日:
技术公布日:2024/6/26
转载请注明原文地址:https://doc.8miu.com/read-1824400.html

最新回复(0)