一种城轨储能系统基于模糊逻辑引导的智能体学习方法与流程

专利2026-03-02 10

本发明涉及城轨交通，尤其是涉及一种城轨储能系统基于模糊逻辑引导的智能体学习方法。

背景技术：

1、随着再生制动技术在城市轨道交通列车上的广泛应用，如何充分利用列车再生制动能量是城轨交通节能领域的关键问题之一。

2、地面式储能系统可将牵引供电系统内剩余的再生制动能量吸收存储，并在有牵引需求时将其释放，由此实现城轨列车再生制动能量的高效利用。有效地降低城市轨道交通系统的运行能耗和运营成本，推动城轨交通绿色高效发展目标的实现。城轨地面式储能系统一般由储能元件及储能变流器(常见双向dc-dc变换器)构成。能量管理策略作为储能系统顶层控制策略，直接决定储能系统运行状态包括储能变流器启停、投入功率、充放电模式切换等等，其核心目标旨在吸收列车剩余再生制动能量，并在列车牵引时进行释放以达成节能目标。针对城轨牵引供电系统强非线性时变工况的特性，深度强化学习凭借其对环境强大感知能力以及对策略不断学习的特性，非常适合储能系统控制及能量管理侧的应用。然而由于牵引供电系统的不完全可观性，以及城轨列车短距运行启停频繁的特点导致再生制动能量产消迅速、分布不均，这给基于深度强化学习的能量管理策略在实际部署以及训练过程中智能体(agent)在环境探索、奖励获取以及动作执行方面带来了极大的困难。

3、基于城轨牵引供电系统实际环境特性以及地面式储能系统控制特性的角度出发，以节能性为导向提出了一种基于模糊逻辑引导的深度强化学习智能体学习方法。该方法能够有效适应城轨再生制动能量高效利用对深度强化学习应用于储能系统控制时所提出的要求，解决深度强化学习智能体在环境探索、策略学习以及动作执行时所遇到的困难。

技术实现思路

1、本发明的目的是提供一种城轨储能系统基于模糊逻辑引导的智能体学习方法，提出基于模糊逻辑引导的智能体学习方法，从而有效解决在过去将深度强化学习应用于城轨储能系统控制优化问题时所面临的智能体对优秀策略学习效率低下、优化控制效果不理想的问题，基于实际线路作为案例，对所提出的方法进行了仿真分析并验证了该方法的有效性。

2、为实现上述目的，本发明提供了一种城轨储能系统基于模糊逻辑引导的智能体学习方法，包括以下步骤：s1、将深度强化学习用于储能系统优化控制，在完全以节能效果作为优化目标时定义智能体奖励；s2、配置储能装置的城轨牵引供电系统可观测量间的能量分布及路径；s3、模糊逻辑引导规则制定；s4、基于模糊逻辑引导规则的智能体学习方法，模糊逻辑引导规则制定包括充电引导规则、放电引导规则与基于模糊逻辑引导规则的智能体学习方法。

3、优选的，在步骤s1中，奖励设计是深度强化学习中最重要的问题之一，将深度强化学习算法应用于储能系统能量管理策略优化问题时，将深度强化学习用于储能系统优化控制，在完全以节能效果作为优化目标时定义智能体奖励如下：

4、

5、式中e为当前普遍定义的节能率用于评价配置储能系统所带来的节能收益，esub_noess和esub_ess分别为配置储能系统前后的变电站输出总能量，δe％即为应用深度强化学习算法优化储能系统控制时智能体每次探索步长内的节能率；

6、优选的，在步骤s2中，一个包含多个牵引变电站和多套地面式储能系统的牵引供电区间，其中在变电站2和变电站4分别配置了地面式超级电容储能系统；注意由于储能系统可基于电压控制作为基本策略，电压外环的设计在实际应用场景下很难由于储能放电造成网压抬升至制动电阻启动电压；此外储能装置设计一般都会配置过压保护功能，因此，可观测主体的能流路径分布其公式形式如下

7、

8、联立上式方程可进一步推导得到

9、

10、上式中定义eess为储能系统的整体能量变化，即充放电量之差，esys定义为系统能耗，即系统内可观测主体的整体能量变化，esub-train与eess-train之和即为供电区间内剩余的列车牵引所需能量，即考虑列车交互后剩余需要外电源提供的能量；基于式(3)所推导的能量关系，系统能耗esys越小则理论上储能系统可能吸收到的剩余再生制动能量etrain-ess越大；若esys为负则说明储能系统一定吸收到了剩余再生制动能量；由此基于可观测量间的能量关系，即可大致推定储能系统对再生制动能量的吸收情况；并且上述能量关系是基于能量守恒原则推导展开，因此环境内任意特性的变化均不会影响此关系的推导过程，并且在任意时间步长内也一定满足式(3)中的关系；

11、定义环境状态s如式(4)所示，式中sd和sind分别表示直接状态和间接状态，共同构成智能体的状态空间；其中直接状态即为智能体动作步长内上述可观测主体的能量变化情况，以及所有储能系统的整体soc情况；基于上述推导得到的能量关系，sd将参与指导智能体奖励设计，为不可替状态；sind则用于增强智能体对环境的感知程度，可基于实际运行工况以及智能体执行机构的能力自由选取可观测主体各维度的信息，例如各牵引变电站电压和电流、各储能投入功率；n和m分别代表供电区间内可观测主体的数量，即牵引变电站数量以及储能装置数量。

12、优选的，在步骤s2中，在步骤s2中，

13、

14、直接状态sd中δesub定义为智能体行动步长内所选定的供电区间内所有变电站的能耗，δeess为步长内所有储能系统的整体能量变化，δesys即为步长内的系统能耗；

15、在储能系统控制过程中，通过式(3)实时计算系统能耗的大小、正负关系以及变化情况，可大致推定储能系统对再生制动能量的吸收情况，可为智能体学习策略的过程中提供一定的目标与执导。

16、优选的，在步骤s3中，模糊逻辑引导规则制定包括s3.1充电引导规则与s3.2放电引导规则；智能体对储能系统进行优化控制的过程中，在优化步长内储能系统处于净充电状态时，即δeess大于等于0；基于时间步长内的系统能耗δesys可以判断再生制动能量的吸收情况，

17、s3.1.1当δesys为负时则储能系统必然对再生制动能量进行了吸收，这符合我们对储能系统控制效果的预期，因此此时应当给予智能体相应的奖励；

18、

19、基于相同的设计思路进行储能系统放电引导规则，在优化步长t内储能系统处于净放电状态时，即δeess小于0；

20、s3.1.2当δesys非负且较大时，结合图3及式(3)表征此时系统内必然存在牵引能量需求，而储能系统处于净充电状态显然不符合我们的预期，此时应当给予智能体惩罚；

21、s3.1.3当δesys非负且较小时，如果系统内存在牵引需求则让储能系统处于净充电状态同样不符合控制的预期；此时给予智能体惩罚；

22、s3.1.4当δesys非负且较小，并且同时满足δeess较大时；如果系统内存在剩余制动能量，说明储能系统在充电时吸收了较多来自牵引变电站的能量，而有效对再生制动能量的吸收较小即δetrain-ess较小；否则基于式(3)，δesub-train与δeess-train之和较大，这与存在剩余制动能量本身是矛盾的，因此此时应当给予智能体惩罚；

23、s3.1.5当δesys非负且较小，并且同时满足δeess较小时，如果系统内存在剩余再生制动能量，说明储能系统同样未能有效吸收，剩余部分将最终损失在制动电阻上，此时给予智能体惩罚；

24、因此基于s3.1.2-s3.1.5，可得

25、

26、s3.2.1当δesub较大时说明系统内牵引需求较大，此时储能系统将充电阶段吸收的剩余再生制动能量释放即达成了节能的目的，同时还为变电站分担了能量消耗，这符合我们对储能系统优化控制效果的预期，因此应当给予智能体奖励；

27、区别于充电引导判断中对δesys正负关系的明确定义，δesub较大或较小是一个相对概念且与优化步长的选择有关；因此为了量化净放电状态下δesub大小的具体程度，定义能量消耗比如式(7)，能量消耗比界限的取值可根据实际线路情况与经验值确定，一般可取70％；

28、

29、因此基于条件s3.2.1，可得

30、

31、当δesub较小时同样存在两种情况：

32、s3.2.2系统内存在较小的牵引需求即储能放电量足够覆盖，此时可以考虑适当弱化储能系统放电能力让其在牵引需求较大时投入放电；

33、s3.2.3系统内存在剩余再生制动能量，此时储能系统处于净放电状态显然不符合预期优化结果；

34、因此基于s3.2.2、s3.2.3，可得

35、

36、优选的，在步骤s4中，基于以上得到的结论来制定奖惩规则引导智能代理加强或弱化储能系统的充放电控制，从而实现对真正的剩余再生制动能量的最大化吸收；制定的充电模糊引导规则有三个输入一个输出，输出即为“投喂”给智能代理的奖励。

37、因此，本发明采用上述一种城轨储能系统基于模糊逻辑引导的智能体学习方法，提出基于模糊逻辑引导的智能体学习方法，从而有效解决在过去将深度强化学习应用于城轨储能系统控制优化问题时所面临的智能体对优秀策略学习效率低下、优化控制效果不理想的问题。基于实际线路作为案例，对所提出的方法进行了仿真分析并验证了该方法的有效性。

38、下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

技术特征：

1.一种城轨储能系统基于模糊逻辑引导的智能体学习方法，其特征在于：包括以下步骤，s1、将深度强化学习用于储能系统优化控制，在完全以节能效果作为优化目标时定义智能体奖励；s2、配置储能装置的城轨牵引供电系统可观测量间的能量分布及路径；s3、模糊逻辑引导规则制定；s4、基于模糊逻辑引导规则的智能体学习方法，模糊逻辑引导规则制定包括充电引导规则、放电引导规则与基于模糊逻辑引导规则的智能体学习方法。

2.根据权利要求1所述的一种城轨储能系统基于模糊逻辑引导的智能体学习方法，其特征在于，在步骤s1中，奖励设计是深度强化学习中最重要的问题之一，将深度强化学习算法应用于储能系统能量管理策略优化问题时，将深度强化学习用于储能系统优化控制，在完全以节能效果作为优化目标时定义智能体奖励如下：

3.根据权利要求1所述的一种城轨储能系统基于模糊逻辑引导的智能体学习方法，其特征在于：在步骤s2中，一个包含多个牵引变电站和多套地面式储能系统的牵引供电区间，其中在变电站2和变电站4分别配置了地面式超级电容储能系统；注意由于储能系统可基于电压控制作为基本策略，电压外环的设计在实际应用场景下很难由于储能放电造成网压抬升至制动电阻启动电压；此外储能装置设计一般都会配置过压保护功能，因此，可观测主体的能流路径分布其公式形式如下

4.根据权利要求1所述的一种城轨储能系统基于模糊逻辑引导的智能体学习方法，其特征在于，在步骤s2中，

5.根据权利要求1所述的一种城轨储能系统基于模糊逻辑引导的智能体学习方法，其特征在于，在步骤s3中，模糊逻辑引导规则制定包括s3.1充电引导规则与s3.2放电引导规则；智能体对储能系统进行优化控制的过程中，在优化步长内储能系统处于净充电状态时，即δeess大于等于0；基于时间步长内的系统能耗δesys可以判断再生制动能量的吸收情况，

6.根据权利要求1所述的一种城轨储能系统基于模糊逻辑引导的智能体学习方法，其特征在于，在步骤s4中，基于以上得到的结论来制定奖惩规则引导智能代理加强或弱化储能系统的充放电控制，从而实现对真正的剩余再生制动能量的最大化吸收；制定的充电模糊引导规则有三个输入一个输出，输出即为“投喂”给智能代理的奖励。

技术总结
本发明公开了一种城轨储能系统基于模糊逻辑引导的智能体学习方法，包括以下步骤：将深度强化学习用于储能系统优化控制，在完全以节能效果作为优化目标时定义智能体奖励；配置储能装置的城轨牵引供电系统可观测量间的能量分布及路径；模糊逻辑引导规则制定；基于模糊逻辑引导规则的智能体学习方法；本发明采用上述的一种城轨储能系统基于模糊逻辑引导的智能体学习方法，提出基于模糊逻辑引导的智能体学习方法，从而有效解决在过去将深度强化学习应用于城轨储能系统控制优化问题时所面临的智能体对优秀策略学习效率低下、优化控制效果不理想的问题，基于实际线路作为案例，对所提出的方法进行了仿真分析并验证了该方法的有效性。

技术研发人员：李炎,钟志宏,杨中平,林飞,孙湖,方晓春
受保护的技术使用者：北京北交本有科技有限公司
技术研发日：
技术公布日：2024/6/26

转载请注明原文地址:https://doc.8miu.com/read-1828381.html

专利

最新回复(0)