1.本发明涉及电力电网技术领域,更具体地说,涉及一种基于价格需求响应的确定方法及系统。
背景技术:
2.智能电网是一种典型的信息物理系统,它将先进的检测、控制和通信技术集成到物理电力系统中,以提供可靠的能源供应,促进负载的主动参与,确保电网系统的稳定运行。基于智能电网信息物理融合的特征,电力需求响应(demand response)已经成为能源管理(energy management)领域的一个研究热点,其目的是根据时变的电价或奖励/惩罚激励来改变负载的能源使用模式,从而实现需求侧能源成本降低等目标。换句话说,电力需求响应是一种通过价格或激励手段重塑负载能源使用方式的手段,以实现更有效的能源管理。
3.目前,已有的研究工作主要关注需求响应的两个分支,即基于价格需求响应(price
‑
baseddemand response)和基于激励需求响应(incentive
‑
based demand response)。其中,基于价格需求响应作为一种常用的需求响应,期望通过根据与时间有关的电价定价机制,如分时定价机制和实时定价机制来改变终端用户的能源使用模式。
4.现有基于价格需求响应多是基于一个确定性的价格机制,比如分时电价定价机制、日前电价定价机制或线性价格模型等。然而确定性的价格机制无法真实地刻画动态电力市场的不确定性和灵活性,因此现有基于价格需求响应的准确性不高。
技术实现要素:
5.有鉴于此,本发明公开一种基于价格需求响应的确定方法及系统,以实现真实的刻画动态电力市场的不确定性和灵活性,提高基于价格需求响应的准确性。
6.一种基于价格需求响应的确定方法,包括:
7.将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;
8.监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个所述当前时刻的目标零售电价制定动作;
9.计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;
10.基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数,所述基准动作值函数为上一次迭代得到的动作值函数;
11.判断当前时刻是否达到终端时刻;
12.如果是,则判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值;
13.如果是,则将所述目标动作值函数作为最优动作值函数,并根据所述最优动作值函数确定最优零售电价策略;
14.根据所述最优零售电价策略计算可调度负载的最优能源消耗量。
15.可选的,所述电价选取概率—贪婪策略的具体含义为:从行动集合中以ε的概率随机选取一个零售电价,或者以1
‑
ε的概率选取与最大的动作值函数所对应的零售电价,ε表示电价选取概率。
16.可选的,所述收益立即回报r
t
的表达式如下:
17.r
t
=ρu
t
‑
(1
‑
ρ)c
t
;
18.式中,ρ∈[0,1]是权重参数,表示电力公司的收益和负载单元的综合成本的相对社会价值,u
t
表示t时刻电力公司的净收益,c
t
表示t时刻负载侧的综合成本。
[0019]
可选的,t时刻电力公司的净收益u
t
的表达式如下:
[0020][0021]
式中,为不可调度负载集合,表示不可调度负载在t时刻接收到的零售电价,表示不可调度负载在t时刻的能源消耗量,上标n表示不可调度负载标识,下标n表示负载单元索引指标,下标t表示时间索引指标,表示可调度负载在t时刻的能源消耗量,上标d表示可调度负载标识,为可调度负载集合,表示可调度负载在t时刻接收到的零售电价,η
t
表示可调度负载在t时刻的批发电价,并且满足并且满足表示电力公司在t时刻向电网运营商购买的总电能,上标tot表示总电能标识;
[0022]
t时刻负载侧的综合成本c
t
的表达式如下:
[0023][0024]
式中,表示可调度负载在t时刻由能耗需求减少而造成的不满意程度。
[0025]
可选的,不满意程度的表达式如下:
[0026][0027]
式中,表示可调度负载在t时刻由能耗需求减少而造成的不满意程度,和表示两个依赖于可调度负载的不满意系数,表示可调度负载的需求减少量,表示可调度负载在t时刻的能源需求,上标d表
示可调度负载标识,为可调度负载集合,表示可调度负载在t时刻的能源消耗量。
[0028]
可选的,可调度负载的需求减少量满足如下不等式:
[0029][0030]
式中,和分别表示可调度负载的最小需求减少量和最大需求减少量,且均为已知量。
[0031]
可选的,所述目标动作值函数的表达式如下:
[0032][0033]
式中,q
k
(s
t
,a
t
)为所述目标动作值函数,表示在第k次迭代从所有负载单元的状态s
t
出发,执行目标零售电价制定动作a
t
的累积未来折扣回报,定义为其中γ表示折扣因子,∈∈[0,1]是学习率,表示新获得的q
k
值对q
k
‑1值的覆盖程度,q
k
‑1(s
t
,a
t
)表示所述基准动作值函数,s
t 1
表示t 1时刻所有负载单元的状态,a
t 1
表示t 1时刻的零售电价制定动作,q
k
‑1(s
t 1
,a
t 1
)表示k
‑
1次迭代从所有负载的状态s
t 1
出发,执行a
t 1
的累积未来折扣回报。
[0034]
可选的,所述最优零售电价策略的表达式如下:
[0035][0036]
式中,π
*
(s
t
)为最优零售电价策略,q
*
(s
t
,a
t
)为最优动作值函数,a为行动集合,a={a1,a2,
…
,a
t
},时刻t的取值范围为:t=1,2,...,t,t表示时间间隔的总个数,s
t
表示t时刻所有负载单元的状态,a
t
表示t时刻的零售电价制定动作。
[0037]
可选的,最优能源消耗量的表达式如下:
[0038][0039]
式中,表示最优能源消耗量,下标n表示负载单元索引指标,下标t表示时间索引指标,上标d表示可调度负载标识,表示可调度负载在t时刻的能源需求,表示可调度负载在t时刻接收到的零售电价,η
t
表示可调度负载在t时刻的批发电价,并且满足μ
t
为电价弹性系数,表示在t时刻能源需求随着零售电价变化而变化的比率。
[0040]
可选的,所述确定方法还包括:对所述动作值函数进行初始化,具体包括:
[0041]
获取已知的先验参数数据,将所述先验参数数据带入预先确定的所述动作值函
数,并对所述动作值函数进行初始化,所述动作值函数的初始值为0。
[0042]
一种基于价格需求响应的确定系统,包括:
[0043]
建模单元,用于将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;
[0044]
动作选择单元,用于监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个所述当前时刻的目标零售电价制定动作;
[0045]
回报计算单元,用于计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;
[0046]
函数更新单元,用于基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数,所述基准动作值函数为上一次迭代得到的动作值函数;
[0047]
第一判断单元,用于判断当前时刻是否达到终端时刻;
[0048]
第二判断单元,用于在所述第一判断单元判断为是的情况下,判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值;
[0049]
电价策略确定单元,用于在所述第二判断单元判断为是的情况下,将所述目标动作值函数作为最优动作值函数,并根据所述最优动作值函数确定最优零售电价策略;
[0050]
能耗计算单元,用于根据所述最优零售电价策略计算可调度负载的最优能源消耗量。
[0051]
从上述的技术方案可知,本发明公开了一种基于价格需求响应的确定方法及系统,将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,监测当前时刻所有负载单元的状态记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个当前时刻的目标零售电价制定动作,计算执行目标零售电价制定动作之后的收益立即回报,监测当前时刻的下一时刻的所有负载单元的状态并记为第二状态,基于第一状态、第二状态、目标零售电价制定动作和收益立即回报,将上一次迭代得到基准动作值函数更新为目标动作值函数,在当前时刻达到终端时刻,且目标动作值函数与基准动作值函数的差值绝对值不大于差值阈值时,将目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据最优动作值函数确定最优零售电价策略,进而根据最优零售电价策略计算可调度负载的最优能源消耗量,从而实现基于价格需求响应的确定。本发明将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,在根据最优动作值函数确定最优零售电价策略时,不仅考虑了当前电价对负载即时响应的影响,还考虑了未来一段时间内当前电价对负载响应的影响,因此可以真实地刻画动态电力市场的不确定性和灵活性,从而提高了基于价格需求响应的准确性。
附图说明
[0052]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
[0053]
图1为本发明实施例公开的一种基于价格需求响应的确定方法流程图;
[0054]
图2为本发明实施例公开的一种基于价格需求响应的确定系统的结构示意图。
具体实施方式
[0055]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0056]
本发明实施例公开了一种基于价格需求响应的确定方法及系统,将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,监测当前时刻所有负载单元的状态记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个当前时刻的目标零售电价制定动作,计算执行目标零售电价制定动作之后的收益立即回报,监测当前时刻的下一时刻的所有负载单元的状态并记为第二状态,基于第一状态、第二状态、目标零售电价制定动作和收益立即回报,将上一次迭代得到基准动作值函数更新为目标动作值函数,在当前时刻达到终端时刻,且目标动作值函数与基准动作值函数的差值绝对值不大于差值阈值时,将目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据最优动作值函数确定最优零售电价策略,进而根据最优零售电价策略计算可调度负载的最优能源消耗量,从而实现基于价格需求响应的确定。本发明将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,在根据最优动作值函数确定最优零售电价策略时,不仅考虑了当前电价对负载即时响应的影响,还考虑了未来一段时间内当前电价对负载响应的影响,因此可以真实地刻画动态电力市场的不确定性和灵活性,从而提高了基于价格需求响应的准确性。
[0057]
需要特别说明的是,本发明所要保护的基于价格需求响应具体为:居民区零售电力市场的基于价格需求响应的问题。零售电力市场包含一个电力公司和有限集合的负载单元,其中,n指的是该零售电力市场中负载单元的总个数。在实际应用中,上层电力公司为所有服务的下层负载单元制定零售电价,当下层负载单元收到零售电价信号时,对电价做出实时响应,从而决定自己的能源消耗策略并将其传递给电力公司。因此在居民区零售电力市场框架下,基于价格需求响应的目标是在有限的时间周期内,根据动态零售电价协调有限集合的负载单元的能源消耗行为,从而使电力系统的社会效益(包括电力公司的效益和负载侧的综合成本)最大化,其中t表示时间间隔的总个数。
[0058]
参见图1,本发明实施例公开的一种基于价格需求响应的确定方法流程图,该方法应用于电力公司中的处理器,该确定方法包括:
[0059]
步骤s101、将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;
[0060]
步骤s102、监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个所述当前时刻的目标零售电价制定动作;
[0061]
由于初始状态s
t
指的是时间索引指标以及t时刻所有负载单元的能源需求e
t
等信息,且该信息作为先验参数数据已经全部存储在计算机中,因此只需要随机选取初始时刻
t,便可查询初始化参数数据获取初始的状态。
[0062]
本实施例中,监测初始状态s
t
,并在可允许的零售电价范围之内利用电价选取概率—贪婪策略选择一个当前时刻的目标零售电价制定动作a
t
,将电价选取概率用ε表示,电价选取概率—贪婪策略是电价选取的一个准则,具体含义是:从行动集合a中以ε的概率随机选取一个零售电价θ
t
,或者以1
‑
ε的概率选取与最大的动作值函数所对应的零售电价θ
t
。
[0063]
步骤s103、计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;
[0064]
本实施例中,在计算收益立即回报之后,还会监测当前时刻t的下一个时刻,即t 1时刻所有负载单元的状态s
t 1
。
[0065]
其中,根据公式(1)计算收益立即回报,公式(1)如下:
[0066]
r
t
=ρu
t
‑
(1
‑
ρ)c
t
(1);
[0067]
式中,ρ∈[0,1]是权重参数,表示电力公司的收益和负载单元的综合成本的相对社会价值,u
t
表示t时刻电力公司的净收益,c
t
表示t时刻负载侧的综合成本。
[0068]
u
t
的表达式如公式(2)所示,公式(2)如下:
[0069][0070]
式中,为不可调度负载集合,表示不可调度负载在t时刻接收到的零售电价,表示不可调度负载在t时刻的能源消耗量,上标n表示不可调度负载标识,下标n表示负载单元索引指标,下标t表示时间索引指标,表示可调度负载在t时刻的能源消耗量,上标d表示可调度负载标识,为可调度负载集合,表示可调度负载在t时刻接收到的零售电价,η
t
表示可调度负载在t时刻的批发电价,并且满足并且满足表示电力公司在t时刻向电网运营商购买的总电能,上标tot表示总电能标识。
[0071]
c
t
的表达式如公式(3)所示,公式(3)如下:
[0072][0073]
式中,表示可调度负载在t时刻由能耗需求减少而造成的不满意程度。
[0074]
步骤s104、基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数;
[0075]
其中,基准动作值函数为上一次迭代得到的动作值函数;
[0076]
目标动作值函数q
k
(s
t
,a
t
)的表达式如公式(4)所示,公式(4)如下:
[0077][0078]
式中,q
k
(s
t
,a
t
)为目标动作值函数,表示在第k次迭代从所有负载单元的状态s
t
出发,执行目标零售电价制定动作a
t
的累积未来折扣回报,定义为其中γ表示折扣因子,∈∈[0,1]是学习率,表示新获得的q
k
值对q
k
‑1值的覆盖程度,q
k
‑1(s
t
,a
t
)表示所述基准动作值函数,s
t 1
表示t 1时刻所有负载单元的状态,a
t 1
表示t 1时刻的零售电价制定动作,q
k
‑1(s
t
‑1,a
t 1
)表示k
‑
1次迭代从所有负载的状态s
t 1
出发,执行a
t 1
的累积未来折扣回报。
[0079]
步骤s105、判断当前时刻是否达到终端时刻,如果是,则执行步骤s106;
[0080]
其中,在当前时刻t没有到达终端时刻t时,则返回步骤s102。
[0081]
步骤s106、判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值,如果是,则继续执行步骤s107;
[0082]
本实施例中,当|q
k
‑
q
k
‑1|≤δ成立时,继续执行步骤s108,反之,则返回步骤s102,其中,q
k
‑1为基准动作值函数,q
k
为目标动作值函数,δ为差值阈值。
[0083]
步骤s107、将所述目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据所述最优动作值函数确定最优零售电价策略;
[0084]
具体的,最优零售电价策略如公式(5)所示,公式(5)如下:
[0085][0086]
式中,π
*
(s
t
)为最优零售电价策略,q
*
(s
t
,a
t
)为最优动作值函数,a为行动集合,a={a1,a2,
…
,a
t
}。
[0087]
步骤s108、根据所述最优零售电价策略计算可调度负载的最优能源消耗量。
[0088]
其中,最优能源消耗量的表达式如公式(6)所示,公式(6)如下:
[0089][0090]
式中,表示最优能源消耗量,下标n表示负载单元索引指标,下标t表示时间索引指标,上标d表示可调度负载标识,表示可调度负载在t时刻的能源需求,表示可调度负载在t时刻接收到的零售电价,η
t
表示可调度负载在t时刻的批发电价,并且满足μ
t
为电价弹性系数,表示在t时刻能源需求随着零售电价变化而变化的比率。
[0091]
综上可知,本发明公开了一种基于价格需求响应的确定方法,将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,监测当前时刻所有负载单元的状态记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个当前时刻的目
标零售电价制定动作,计算执行目标零售电价制定动作之后的收益立即回报,监测当前时刻的下一时刻的所有负载单元的状态并记为第二状态,基于第一状态、第二状态、目标零售电价制定动作和收益立即回报,将上一次迭代得到基准动作值函数更新为目标动作值函数,在当前时刻达到终端时刻,且目标动作值函数与基准动作值函数的差值绝对值不大于差值阈值时,将目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据最优动作值函数确定最优零售电价策略,进而根据最优零售电价策略计算可调度负载的最优能源消耗量,从而实现基于价格需求响应的确定。本发明将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,在根据最优动作值函数确定最优零售电价策略时,不仅考虑了当前电价对负载即时响应的影响,还考虑了未来一段时间内当前电价对负载响应的影响,因此可以真实地刻画动态电力市场的不确定性和灵活性,从而提高了基于价格需求响应的准确性。
[0092]
另外,本发明利用强化学习算法在未知的电力市场环境(即零售电价以及负载能耗是不确定和随机的)中解决基于价格的需求响应问题。
[0093]
为进一步优化上述实施例,在步骤s102之前,还需要对动作值函数进行初始化,对动作值函数进行初始化的过程包括:
[0094]
获取已知的先验参数数据,将所述先验参数数据带入预先确定的动作值函数,并对所述动作值函数进行初始化。
[0095]
其中,先验参数数据包括:负载单元的能源需求e
t
、不满意系数和电价弹性系数μ
t
、批发电价η
t
以及权重参数ρ等,t表示时刻。
[0096]
动作值函数的初始值为0,即q
k
(s
t
,a
t
)=0,此时,迭代次数k的取值为1,即k=1,时刻t的取值为1,即t=1,也就是说,q0(s,a)=0。
[0097]
本实施例中,时刻t的取值范围为:t=1,2,...,t,t表示时间间隔的总个数。
[0098]
动作值函数中的变量参数包括:s
t
和a
t
,s
t
表示t时刻所有负载单元的状态,即t时刻所有负载单元的能源需求e
t
、能源消耗p
t
以及时间索引指标t;a
t
表示t时刻的零售电价制定动作,即t时刻电力公司为所有负载单元制定的零售电价θ
t
。
[0099]
需要说明的是,由于电力系统模型涉及到电力公司和负载单元之间的信息交互,因此,为便于理解本发明所要保护的技术方案,下面介绍电力公司和负载单元之间的数学模型。
[0100]
根据用户的偏好以及负载的能耗特性,通常将负载分为两类,即可调度负载和不可调度负载也就是说
[0101]
(一)可调度负载:一般可调度负载的能耗表示如公式(7)所示,公式(7)如下:
[0102][0103]
式中,和分别表示可调度负载在t时刻的能源消耗和能源需求,其中,能源需求指的是负载单元在收到零售电价信号之前期望消耗的电能,而能源消耗信息指的是负载单元在接收到零售电价信号之后真实消耗的电能,下标n表示负载单元索引
指标,下标t表示时间索引指标,上标d表示可调度负载标识。μ
t
为电价弹性系数,表示在t时刻能源需求随着零售电价变化而变化的比率。和η
t
分别表示可调度负载在t时刻接收到的零售电价和t时刻的批发电价,并且满足
[0104]
公式(7)表示可调度负载的真实能耗不仅仅依赖于能源需求信息,还依赖于零售电价变化而导致的能源需求的减少量。当可调度负载单元n真实的能耗量为时,意味着剩下的没有被满足,因此会导致负载用户的不满意。
[0105]
为了刻画这种不满意程度,定义公式(8)所示的不满意函数,公式(8)如下:
[0106][0107]
式中,表示可调度负载在t时刻由能耗需求减少而造成的不满意程度,和表示两个依赖于可调度负载的不满意系数,表示可调度负载的需求减少量,表示可调度负载在t时刻的能源需求,上标d表示可调度负载标识,为可调度负载集合,表示可调度负载在t时刻的能源消耗量。
[0108]
公式(8)表明较大的需求减少会导致负载单元较高的不满意程度。
[0109]
此外,可调度负载的需求减少量不能超过其可允许范围,具体如不等式(9)所示,不等式(9)如下:
[0110][0111]
式中,和分别表示可调度负载的最小需求减少量和最大需求减少量,且均为已知量。一旦和已知后,可相应地确定可调度负载n真实能源消耗的范围。
[0112]
(二)不可调度负载:一般来说,不可调度负载的能源需求是不可以被随意转移和削减的,所以这些负载的能源需求在任何时候都必须严格满足。
[0113]
因此,对本发明中满足公式(10),公式(10)如下:
[0114][0115]
式中,和分别表示不可调度负载在t时刻的能源消耗和能源需求,其中上标n表示不可调度负载标识。
[0116]
因此,从负载的角度来看,其目标是通过决定所有负载的最优能耗组合以最大程度地降低负载侧的综合成本,即
[0117][0118]
其中,p表示所有参与负载单元在整个时间周期t内的能耗向量,表示不可调度负载在t时刻接收到的零售电价。
[0119]
可以看出,上式由两部分组成,分别对应两种类型的负载。具体来说,第一项表示不可调度负载向电力公司购买电能的电力成本,第二项表示可调度负载向电力公司购买电能的电力成本和不满意成本。
[0120]
为了后续讨论和书写方便,将t时刻负载侧的综合成本定义为c
t
,因此上式可以进一步记作
[0121]
电力公司作为终端用户和电力生产商之间的中间商,首先以批发价从电网运营商购买电能,然后以零售价格将所购买的电能出售给负载侧不同类型的负载单元。因此电力公司的目标是通过在批发和零售市场中进行交易来最大化收益,其数学模型可表述为:
[0122][0123]
其中,θ表示电力公司在整个时间周期t内为所有负载单元制定的零售电价向量;表示电力公司在t时刻向电网运营商购买的总电能,其中上标tot表示总电能标识,θ
n
和分别表示电力公司为负载单元所制定的零售电价的下界和上界。可以看出,数学模型中的目标函数由三项组成,其中,表示电力公司向不可调度负载单元出售电能的收益,表示电力公司向可调度负载单元出售电能的收益,表示电力公司向电网运营商购买电能的电力成本。同样地,为了表示方便,将t时刻电力公司的净收益定义为u
t
,因此上式中的目标函数进一步记作
[0124]
通常在不考虑电能损耗并遵循功率平衡准则时,任意时刻,电力公司的总购买电能等于负载侧的总能耗,即如公式(11)所示,公式(11)如下:
[0125][0126]
在对电力公司和负载单元建模的过程中,可以发现基于价格的需求响应和电力公
司的收益以及负载单元的成本紧密相关。因此从社会角度出发,系统的目标是最大化包含电力公司收益和负载综合成本的社会效益,即公式(12)所示,公式(12)如下:
[0127][0128]
其中,ρ∈[0,1]是权重参数,表示电力公司的收益和负载单元的综合成本的相对社会价值。ρ越大,意味着从社会角度出发,更关心电力公司的收益;反之,则更关心负载的综合成本对社会收益的影响。
[0129]
为在未知的电力市场环境中制定一个能够适应负载灵活变化的动态零售电价,本发明首先利用强化学习框架对零售电力市场建模。
[0130]
具体地,电力公司作为智能体;所有的负载单元作为环境;零售电价被作为智能体作用在环境上的动作;负载的能源需求、能源消耗以及时间作为状态;社会效益(即电力公司收益和负载单元综合成本的加权求和)作为回报。
[0131]
其次,采用马尔可夫决策过程对动态零售电价定价问题建模,这通常也是使用强化学习算法的第一步。不失一般性,马尔可夫决策过程用一个五元组<s,a,r,p,γ>表示,其中每个元素的意义如下:
[0132]
1)状态集合:s={s1,s2,
…
,s
t
},其中s
t
=(e
t
,p
t
,t)表示t时刻的状态,由t时刻所有负载单元的能源需求e
t
,能源消耗p
t
以及时间索引指标t组成。
[0133]
2)行动集合:a={a1,a2,
…
,a
t
},其中a
t
=θ
t
表示t时刻智能体的动作,即t时刻电力公司为所有负载单元制定的零售电价θ
t
。
[0134]
3)回报集合:r={r1,r2,
…
,r
t
},其中r
t
=ρu
t
‑
(1
‑
ρ)c
t
表示t时刻系统的回报,即当前时刻的社会效益。
[0135]
4)状态转移矩阵:其中
[0136]
表示在状态s采取动作a后,环境转移到下一时刻状态s
′
的概率。由于负载的能源需求和能源消耗受许多因素影响,因此很难获得其状态转移概率。在本发明中电力市场环境是未知的,因此采用无模型的q
‑
learning方法来解决动态零售定价问题。
[0137]
5)折扣因子:γ∈[0,1]表示后续回报相对于当前回报的重要性。
[0138]
定义策略π:s
→
a,即状态到动作的映射,则零售电价的定价问题转化为寻找一个最优的策略π
*
使系统的累积回报最大,即由于系统的目标是使整个时间周期内的社会效益最大,且任意时刻回报的社会价值是相等的,因此在本发明中取γ=1。
[0139]
将电力公司的动态零售电价定价问题建模成马尔可夫决策过程以后,用q
‑
learning算法(一种无模型的强化学习算法)来分析电力公司如何在与所有负载单元交互的同时选择最优的零售电价从而实现电力系统目标。
[0140]
q
‑
learning算法的基本原理是给每一个状态
‑
动作对(s,a)分配一个动作值函数(action
‑
value function)q(s,a),然后在每一次迭代中更新该函数,从而获得最优的动作
值函数q
*
(s,a)。最优的动作值函数定义为从状态s出发,采取动作a,之后采取最优策略π
*
的最大累积未来折扣回报,且满足贝尔曼方程,即
[0141][0142]
其中s
′
∈s,a
′
∈a分别表示下一时刻的状态和所采取的动作,r(s,a)表示从状态s出发,采取动作a之后的立即回报,q
*
(s
′
,a
′
)表示从状态s
′
出发,执行动作a
′
,之后采取最优策略π
*
的最大累积未来折扣回报。γ∈[0,1]表示折扣因子,表示在该算法不仅考虑了当前零售电价对负载即时响应的影响,也同时反映了未来一段时间内其对负载响应的影响。因此,一旦获得最优的动作值函数q
*
(s
t
,a
t
),便可以根据下式直接获得公式(5)所示的最优零售电价策略。
[0143]
与上述方法实施例相对应,本发明还公开了一种基于价格需求响应的确定系统。
[0144]
参见图2,本发明实施例公开的一种基于价格需求响应的确定系统的结构示意图,该系统应用于电力公司中的处理器,该系统包括:
[0145]
建模单元201,用于将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;
[0146]
动作选择单元202,用于监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个所述当前时刻的目标零售电价制定动作;
[0147]
回报计算单元203,用于计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;
[0148]
函数更新单元204,用于基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数,所述基准动作值函数为上一次迭代得到的动作值函数;
[0149]
第一判断单元205,用于判断当前时刻是否达到终端时刻;
[0150]
第二判断单元206,用于在所述第一判断单元205判断为是的情况下,判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值;
[0151]
电价策略确定单元207,用于在所述第二判断单元206判断为是的情况下,将所述目标动作值函数作为最优动作值函数,并根据所述最优动作值函数确定最优零售电价策略;
[0152]
能耗计算单元208,用于根据所述最优零售电价策略计算可调度负载的最优能源消耗量。
[0153]
需要特别说明的是,系统实施例中各组成部分的具体工作原理,请参见方法实施例对应部分,此处不再赘述。
[0154]
综上可知,本发明公开了一种基于价格需求响应的确定系统,将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,监测当前时刻所有负载单元的状态记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个当前时刻的目标零售电价制定动作,计算执行目标零售电价制定动作之后的收益立即回报,监测当前时刻的下一时刻的所有负载单元的状态并记为第二状态,基于第一状态、第二状态、目标零售电价制定动作和收益立即回报,将上一次迭代得到基准动作值函数更新为目标动作值函
数,在当前时刻达到终端时刻,且目标动作值函数与基准动作值函数的差值绝对值不大于差值阈值时,将目标动作值函数作为最优动作值函数,采用马尔可夫决策过程根据最优动作值函数确定最优零售电价策略,进而根据最优零售电价策略计算可调度负载的最优能源消耗量,从而实现基于价格需求响应的确定。本发明将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,在根据最优动作值函数确定最优零售电价策略时,不仅考虑了当前电价对负载即时响应的影响,还考虑了未来一段时间内当前电价对负载响应的影响,因此可以真实地刻画动态电力市场的不确定性和灵活性,从而提高了基于价格需求响应的准确性。
[0155]
需要特别说明的是,本发明所列的需求侧能源管理领域外,本发明还可以应用于智能电网中其他未知环境下的决策问题,如供需两侧电力平衡以及最优发电机组排程问题等。
[0156]
本发明中马尔可夫决策过程中的状态空间、动作空间以及回报的定义不唯一,可以根据系统或个体的其他目标重新定义;此外q
‑
learning算法中学习速率的选取对算法的收敛性有很大影响,因此可以对学习速率的选取做进一步分析和讨论。
[0157]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0158]
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
[0159]
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
技术特征:
1.一种基于价格需求响应的确定方法,其特征在于,包括:将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率
‑
贪婪策略选择一个所述当前时刻的目标零售电价制定动作;计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数,所述基准动作值函数为上一次迭代得到的动作值函数;判断当前时刻是否达到终端时刻;如果是,则判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值;如果是,则将所述目标动作值函数作为最优动作值函数,并根据所述最优动作值函数确定最优零售电价策略;根据所述最优零售电价策略计算可调度负载的最优能源消耗量。2.根据权利要求1所述的确认方法,其特征在于,所述电价选取概率
‑
贪婪策略的具体含义为:从行动集合中以ε的概率随机选取一个零售电价,或者以1
‑
ε的概率选取与最大的动作值函数所对应的零售电价,ε表示电价选取概率。3.根据权利要求1所述的确认方法,其特征在于,所述收益立即回报r
t
的表达式如下:r
t
=ρu
t
‑
(1
‑
ρ)c
t
;式中,ρ∈[0,1]是权重参数,表示电力公司的收益和负载单元的综合成本的相对社会价值,u
t
表示t时刻电力公司的净收益,c
t
表示t时刻负载侧的综合成本。4.根据权利要求3所述的确认方法,其特征在于,t时刻电力公司的净收益u
t
的表达式如下:式中,为不可调度负载集合,表示不可调度负载在t时刻接收到的零售电价,表示不可调度负载在t时刻的能源消耗量,上标n表示不可调度负载标识,下标n表示负载单元索引指标,下标t表示时间索引指标,表示可调度负载在t时刻的能源消耗量,上标d表示可调度负载标识,为可调度负载集合,表示可调度负载在t时刻接收到的零售电价,η
t
表示可调度负载在t时刻的批发电价,并且满足并且满足表示电力公司在t时刻向电网运营商购买的总电能,上标tot表示总电能标识;t时刻负载侧的综合成本c
t
的表达式如下:
式中,表示可调度负载在t时刻由能耗需求减少而造成的不满意程度。5.根据权利要求4所述的确认方法,其特征在于,不满意程度的表达式如下:式中,表示可调度负载在t时刻由能耗需求减少而造成的不满意程度,和表示两个依赖于可调度负载的不满意系数,表示可调度负载的需求减少量,表示可调度负载在t时刻的能源需求,上标d表示可调度负载标识,为可调度负载集合,表示可调度负载在t时刻的能源消耗量。6.根据权利要求5所述的确认方法,其特征在于,可调度负载的需求减少量满足如下不等式:式中,和分别表示可调度负载的最小需求减少量和最大需求减少量,且均为已知量。7.根据权利要求1所述的确认方法,其特征在于,所述目标动作值函数的表达式如下:式中,q
k
(s
t
,a
t
)为所述目标动作值函数,表示在第k次迭代从所有负载单元的状态s
t
出发,执行目标零售电价制定动作a
t
的累积未来折扣回报,定义为其中γ表示折扣因子,∈∈[0,1]是学习率,表示新获得的q
k
值对q
k
‑1值的覆盖程度,q
k
‑1(s
t
,a
t
)表示所述基准动作值函数,s
t 1
表示t 1时刻所有负载单元的状态,a
t 1
表示t 1时刻的零售电价制定动作,q
k
‑1(s
t 1
,a
t 1
)表示k
‑
1次迭代从所有负载的状态s
t 1
出发,执行a
t 1
的累积未来折扣回报。8.根据权利要求1所述的确认方法,其特征在于,所述最优零售电价策略的表达式如下:式中,π
*
(s
t
)为最优零售电价策略,q
*
(s
t
,a
t
)为最优动作值函数,a为行动集合,a={a1,a2,
…
,a
t
},时刻t的取值范围为:t=1,2,...,t,t表示时间间隔的总个数,s
t
表示t时刻所有负载单元的状态,a
t
表示t时刻的零售电价制定动作。9.根据权利要求1所述的确认方法,其特征在于,最优能源消耗量的表达式如下:
式中,表示最优能源消耗量,下标n表示负载单元索引指标,下标t表示时间索引指标,上标d表示可调度负载标识,表示可调度负载在t时刻的能源需求,表示可调度负载在t时刻接收到的零售电价,η
t
表示可调度负载在t时刻的批发电价,并且满足μ
t
为电价弹性系数,表示在t时刻能源需求随着零售电价变化而变化的比率。10.根据权利要求1所述的确认方法,其特征在于,所述确定方法还包括:对所述动作值函数进行初始化,具体包括:获取已知的先验参数数据,将所述先验参数数据带入预先确定的所述动作值函数,并对所述动作值函数进行初始化,所述动作值函数的初始值为0。11.一种基于价格需求响应的确定系统,其特征在于,包括:建模单元,用于将电力公司的动态零售电价定价问题建模为马尔可夫决策过程;动作选择单元,用于监测当前时刻所有负载单元的状态,记为第一状态,并在可允许的零售电价范围内利用电价选取概率—贪婪策略选择一个所述当前时刻的目标零售电价制定动作;回报计算单元,用于计算执行所述目标零售电价制定动作之后的收益立即回报,并监测所述当前时刻的下一时刻的所有负载单元的状态,并记为第二状态;函数更新单元,用于基于所述第一状态、所述第二状态、所述目标零售电价制定动作和所述收益立即回报,将基准动作值函数更新为目标动作值函数,所述基准动作值函数为上一次迭代得到的动作值函数;第一判断单元,用于判断当前时刻是否达到终端时刻;第二判断单元,用于在所述第一判断单元判断为是的情况下,判断所述目标动作值函数与所述基准动作值函数的差值绝对值是否不大于差值阈值;电价策略确定单元,用于在所述第二判断单元判断为是的情况下,将所述目标动作值函数作为最优动作值函数,并根据所述最优动作值函数确定最优零售电价策略;能耗计算单元,用于根据所述最优零售电价策略计算可调度负载的最优能源消耗量。
技术总结
本发明公开了一种基于价格需求响应的确定方法及系统,将电力公司的动态零售电价定价问题建模为马尔可夫决策过程,根据当前时刻所有负载单元的状态、利用电价选取概率—贪婪策略确定零售电价制定动作、获取收益立即回报和下一时刻所有负载单元的状态,将上一次迭代得到基准动作值函数更新为目标动作值函数,在当前时刻达到终端时刻且目标动作值函数与基准动作值函数的差值绝对值不大于差值阈值时,将目标动作值函数作为最优动作值函数,根据最优动作值函数确定最优零售电价策略,进而计算可调度负载的最优能源消耗量。本发明确定动作值函数时,同时考虑当前电价对负载即时响应以及未来一段时间内响应的影响,因此提高基于价格需求响应的准确性。需求响应的准确性。需求响应的准确性。
技术研发人员:秦家虎 万艳妮
受保护的技术使用者:中国科学技术大学
技术研发日:2021.04.06
技术公布日:2021/6/29
转载请注明原文地址:https://doc.8miu.com/read-14665.html