本发明涉及能源管理,具体涉及一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略。
背景技术:
1、“仿蝠鲼潜水器”作为一项创新性的科技成果,具有广阔的前景和巨大的潜力。它不仅提供了新的思路和工具,还为维护海洋权益做出了重要贡献。然而单一的锂电池形式难以支撑潜水器在深远海进行长时隐蔽性工作,所以为提高其续航能力,针对仿生鱼潜水器的性能要求以及工作环境,设计搭载了多种储能供能设备。具体的,仿生鱼背部搭载了太阳能俘能系统,用于捕获太阳能;在其腹部安装了海流能摩擦发电装置,用于捕获海流能;最后在两侧扑翼机构上搭载了可弯折柔性锂电池;结合柔性与常规锂电池,实现了多源俘能能量的分布式存储。该多源俘能-储能系统通过俘获深远海多体系可再生能源,大幅提升了水下无人装备在深远海的探索的半径。
2、然而,面对复杂多变的深海环境以及多模态的任务需求,传统的基于经验的控制策略已很难适应,无法进行多源俘能储能系统之间的互相协调,更无法针对不同环境不同工况设计出对应的最优控制策略,从而导致控制策略的精度比较低。
3、因此,需要提供一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略以解决上述问题。
技术实现思路
1、本发明提供一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,以解决现有的基于经验的控制策略已很难适应,无法进行多源俘能储能系统之间的互相协调,更无法针对不同环境不同工况设计出对应的最优控制策略,从而导致控制策略的精度比较低问题。
2、本发明的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略采用如下技术方案,包括:
3、获取仿蝠鲼潜水器在水下航行时每个时刻的相关参数,相关参数包括:光强、航速以及仿蝠鲼潜水器的太阳能发电模块、海流能发电模块、电池组模块对应的输出功率;
4、建立负载预测模型,将当前时刻的相关参数作为负载预测模型的输入,预测仿蝠鲼潜水器在下一时刻的总负载功率;
5、基于负载预测模型预测的仿蝠鲼潜水器在高速机动模态工况下的下一时刻的总负载功率,构建高速机动模态工况下对应的损失函数,基于高速机动模态工况下对应的损失函数构建仿蝠鲼潜水器在高速机动模态工况下的动作策略网络模型;
6、基于仿蝠鲼潜水器在长时自持模态工况以及底栖驻留模态工况对应的航行距离,构建仿蝠鲼潜水器在长时自持模态工况、底栖驻留模态工况下对应的损失函数,基于长时自持模态工况、底栖驻留模态工况下对应的损失函数,构建仿蝠鲼潜水器在长时自持模态工况、底栖驻留模态工况下对应的动作策略网络模型;
7、采用强化学习算法对每种模态工况下的动作策略网络模型进行优化得到目标动作策略网络模型;
8、将当前模态工况下的电池组模块的荷电状态值、光强、航速以及仿蝠鲼潜水器在当前时刻所采取的动作,输入当前模态工况下对应的目标动作策略网络模型,预测出仿蝠鲼潜水器在当前模态工况下的下一时刻采取的动作,并根据仿蝠鲼潜水器在当前模态工况下的下一时刻采取的动作对仿蝠鲼潜水器进行动作控制。
9、优选地,长时自持模态工况下对应的损失函数的表达式为:
10、
11、式中,表示长时自持模态工况下对应的损失函数值;
12、表示仿蝠鲼潜水器在长时自持模态工况下的最远航行距离。
13、优选地,高速机动模态工况下对应的损失函数的表达式为:
14、
15、式中,表示高速机动模态工况下对应的损失函数值;
16、表示负载预测模型预测的仿蝠鲼潜水器在下一时刻的总负载功率;
17、表示仿蝠鲼潜水器在高速机动模态工况下的下一时刻输出的总功率;
18、表示太阳能发电模块的输出功率;
19、表示海流能发电模块的输出功率;
20、表示电池组模块的输出功率。
21、优选地,底栖驻留模态工况下对应的损失函数的表达式为:
22、
23、式中,表示底栖驻留模态工况下对应的损失函数值;
24、表示仿蝠鲼潜水器在底栖驻留模态工况下的最远航行距离。
25、优选地,构建仿蝠鲼潜水器在每种模态工况下对应的动作策略网络模型的步骤:
26、构建初始动作策略网络模型:将每种模态工况下对应的损失函数作为网络模型的损失函数,得到每种模态工况下对应的初始动作策略网络模型;
27、对初始动作策略网络模型进行训练:将仿蝠鲼潜水器在每种模态工况下的电池组模块的荷电状态值、光强、航速以及仿蝠鲼潜水器在当前时刻采取的动作当作该模态工况下对应的初始动作策略网络模型输入,该模态工况下仿蝠鲼潜水器的下一时刻采取的动作当作该模态工况下对应的初始动作策略网络模型输出,对每种模态工况下的初始动作策略网络模型进行训练,得到每种模态工况下训练好的动作策略网络模型;
28、将训练好的动作策略网络模型作为每种模态工况下对应的动作策略网络模型。
29、优选地,对每种模态工况下的动作策略网络模型进行优化时,强化学习算法的奖励函数的表达式为:
30、
31、式中,表示对第种模态工况下训练好的动作策略网络模型进行优化时,强化学习算法的奖励函数;
32、表示折扣因子;
33、表示仿蝠鲼潜水器在第种模态工况下的第时刻的系统状态下,采取的动作和环境交互后获得的奖励值;
34、表示第k个时刻。
35、优选地,仿蝠鲼潜水器在每种模态工况的系统状态下,采取的动作和环境交互后获得的奖励值的步骤为:
36、在仿蝠鲼潜水器的模态工况为长时自持模态工况时,采取的动作和环境交互后的奖励值的表达式为:
37、
38、
39、
40、在仿蝠鲼潜水器的模态工况为高速机动模态工况时,采取的动作和环境交互后的奖励值的表达式为:
41、
42、在仿蝠鲼潜水器的模态工况为底栖驻留模态工况时,采取的动作和环境交互后的奖励值的表达式为:
43、
44、
45、
46、式中,表示仿蝠鲼潜水器在长时自持模态工况下的第时刻的系统状态下,采取的动作和环境交互后获得的奖励值;
47、表示仿蝠鲼潜水器在高速机动模态工况下的第时刻的系统状态下,采取的动作和环境交互后获得的奖励值;
48、表示仿蝠鲼潜水器在底栖驻留模态工况下的第时刻的系统状态下,采取的动作和环境交互后获得的奖励值;
49、表示仿蝠鲼潜水器在长时自持模态工况下航行距离的变化趋势;
50、表示仿蝠鲼潜水器在高速机动模态工况下对应的动作策略网络模型的损失函数的变化趋势;
51、表示仿蝠鲼潜水器在底栖驻留模态工况下航行距离的变化趋势;
52、表示仿蝠鲼潜水器在长时自持模态工况下的奖励项;
53、表示仿蝠鲼潜水器在长时自持模态工况下的细节惩罚项;
54、表示仿蝠鲼潜水器在底栖驻留模态工况下的奖励项;
55、表示仿蝠鲼潜水器在底栖驻留模态工况下的细节惩罚项;
56、表示电池组模块的荷电状态值。
57、优选地,仿蝠鲼潜水器在长时自持模态工况下的采取的动作的表达式为:
58、
59、式中,表示仿蝠鲼潜水器在长时自持模态工况下的采取的动作;
60、表示仿蝠鲼潜水器在长时自持模态工况下太阳能发电模块的发电时的动作值;
61、表示仿蝠鲼潜水器在长时自持模态工况下太阳能发电模块的关闭时的动作值;
62、表示仿蝠鲼潜水器在长时自持模态工况下海流能发电模块的发电时的动作值;
63、表示仿蝠鲼潜水器在长时自持模态工况下海流能发电模块的关闭时的动作值;
64、表示仿蝠鲼潜水器在长时自持模态工况下电池组模块的充电时的动作值;
65、表示仿蝠鲼潜水器在长时自持模态工况下电池组模块的放电时的动作值。
66、优选地,仿蝠鲼潜水器在高速机动模态工况下的采取的动作的表达式为:
67、
68、式中,表示仿蝠鲼潜水器在高速机动模态工况下采取的动作;
69、表示仿蝠鲼潜水器在高速机动模态工况下太阳能发电模块的发电时的动作值;
70、表示仿蝠鲼潜水器在高速机动模态工况下太阳能发电模块的关闭时的动作值;
71、表示仿蝠鲼潜水器在高速机动模态工况下海流能发电模块的发电时的动作值;
72、表示仿蝠鲼潜水器在高速机动模态工况下海流能发电模块的关闭时的动作值;
73、表示仿蝠鲼潜水器在高速机动模态工况下电池组模块的充电时的动作值;
74、表示仿蝠鲼潜水器在高速机动模态工况下电池组模块的放电时的动作值。
75、优选地,仿蝠鲼潜水器在底栖驻留模态工况下的采取的动作的表达式为:
76、
77、式中,表示仿蝠鲼潜水器在底栖驻留模态工况下的采取的动作;
78、表示仿蝠鲼潜水器在底栖驻留模态工况下太阳能发电模块的关闭时的动作值;
79、表示仿蝠鲼潜水器在底栖驻留模态工况下海流能发电模块的发电时的动作值;
80、表示仿蝠鲼潜水器在底栖驻留模态工况下海流能发电模块的关闭时的动作值;
81、表示仿蝠鲼潜水器在底栖驻留模态工况下电池组模块的充电时的动作值;
82、表示仿蝠鲼潜水器在底栖驻留模态工况下电池组模块的放电时的动作值。
83、本发明的有益效果是:
84、基于仿蝠鲼潜水器在水下航行时的当前时刻的相关参数,并利用负载预测模型对下一时刻的总负载功率进行预测,提前对能源控制策略进行调整,提高系统的动态响应能力;然后,基于负载预测模型预测的仿蝠鲼潜水器在高速机动模态工况下的下一时刻的总负载功率,构建高速机动模态工况下的动作策略网络模型,基于仿蝠鲼潜水器在长时自持模态工况以及底栖驻留模态工况对应的航行距离,构建仿蝠鲼潜水器在长时自持模态工况、底栖驻留模态工况下对应的动作策略网络模型,然后,利用强化学习算法对动作策略网络模型进行优化,使得优化后的目标动作策略网络模型输出最优的控制策略。即本发明使仿蝠鲼潜水器的能源系统在面对复杂的模态工况时也可满足多目标任务需求;由于能源控制策略由算法自主决定,无需人为干涉,所以相比传统的逻辑策略大大降低了设计成本和出错的概率,从而提高了能源的控制精度。
1.一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,包括:
2.根据权利要求1所述的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,长时自持模态工况下对应的损失函数的表达式为:
3.根据权利要求1所述的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,高速机动模态工况下对应的损失函数的表达式为:
4.根据权利要求1所述的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,底栖驻留模态工况下对应的损失函数的表达式为:
5.根据权利要求1所述的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,构建仿蝠鲼潜水器在每种模态工况下对应的动作策略网络模型的步骤:
6.根据权利要求1所述的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,对每种模态工况下的动作策略网络模型进行优化时,强化学习算法的奖励函数的表达式为:
7.根据权利要求6所述的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,仿蝠鲼潜水器在每种模态工况的系统状态下,采取的动作和环境交互后获得的奖励值的步骤为:
8.根据权利要求1所述的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,仿蝠鲼潜水器在长时自持模态工况下的采取的动作的表达式为:
9.根据权利要求1所述的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,仿蝠鲼潜水器在高速机动模态工况下的采取的动作的表达式为:
10.根据权利要求1所述的一种仿蝠鲼潜水器多源俘能储能系统的能源控制策略,其特征在于,仿蝠鲼潜水器在底栖驻留模态工况下的采取的动作的表达式为: