本发明涉及储能、电力现货市场,尤其涉及一种基于储能系统参与日前交易市场的优化调度方法。
背景技术:
1、随着能源需求的不断增加和可再生能源(如太阳能、风能等)的快速发展,电能供应的不稳定性和间歇性问题日益突出,同时电能产生的波动也给电网的稳定运行带来了挑战。而储能系统作为一种平衡能源供需、提高电能系统可靠性的重要手段,其可以通过与电网的互动实现电能的优化调度和智能分配,从而成为智能电网的重要组成部分之一。然而传统的储能智能调度模型一方面依赖于预设的规则或阈值,一方面受到大量的人工干预,因此其很难在实际运行环境中做出快速准确的决策,最终导致储能系统出现效率低下和不可靠的问题。
2、传统的储能系统技术有如下特点、缺陷:
3、第一类规则控制算法。基于规则的控制算法往往依赖于预设的规则和阈值,这些规则和阈值通常是基于经验或历史数据设定的,缺乏灵活性和适应性。当电力系统运行状态发生变化时,这些规则可能不再适用,导致储能系统的调度效果下降。
4、第二类预测控制算法。预测控制算法依赖于对电力系统未来状态的预测,但电力系统的运行状态往往受到多种因素的影响,包括天气、负荷变化、设备故障等,这些因素的变化难以准确预测。因此,预测控制算法在实际应用中可能面临预测精度不足的问题,从而影响储能系统的调度效果。
5、第三类最优控制算法。最优控制算法虽然能够实现对储能系统最优调度的目标,但通常需要建立复杂的数学模型,并对模型进行求解。然而,电力系统的运行状态往往非常复杂,难以用简单的数学模型进行描述。此外,最优控制算法的求解过程也可能面临计算量大、求解时间长等问题,难以满足实时调度的需求。
技术实现思路
1、本发明旨在解决背景技术中的问题。发明了一种基于储能系统参与日前交易市场的优化调度方法。所述方法包括以下步骤:s1,搭建储能系统参与日前交易市场的规则约束环境,所述规则约束环境包括:储能状态约束、充放电功率约束;
2、s2,建立改进的ddpg算法,包括以下步骤:
3、s2.1、设置初始化状态s:设置ddpg算法的状态为一维列表[t,et],其包含两个元素:时间t,t时刻储能系统能量状态et;
4、s2.2、定义动作空间a:动作空间由储能系统的充、放电功率的n个连续值组成,表达式为:a={a1,a2,...,an};
5、其取值范围为[-pmax,pmax],-p、p分别表示充、放电的功率值,且根据日前市场的申报规则,将p值的精度设置为0.01;
6、s2.3、设定模型的参数st:所述参数st包括:储能系统的额定容量、储能系统的最大充电功率、储能系统的起始soc、储能系统的结束soc、储能系统的充电效率、储能系统的放电效率、储能系统的最小soc、储能系统的最大soc、输配电价、政府基金及附加、日前价格、补偿价格、补偿系数;
7、s2.4、构造及改进网络:
8、初始化当前actor、critic网络,然后把当前actor网络和critic网络的网络参数分别复制给目标actor和critic网络;
9、改进actor、critic网络:用transformer模型架构替换actor、critic架构;
10、在critic结构的基础上增加一个辅助网络用于估计q值的不确定性,计算多个critic的标准差值,用标准差值来反映q值的不确定性,具体计算公式为:
11、
12、使用的损失函数为:
13、loss(θi)=τl(θi)+(1-τ)lstd(θ)+βc(θi)
14、其中:
15、l(θi)为单个critic网络的损失函数值,θi为critic网络的参数值;
16、r(st,at)为处于状态st采取动作at所获得的奖励值;
17、γ为探索率,其范围为(0,1);为下一时刻的q′值,q(st,at|θi)为当前时刻的q值;
18、lstd(θ)为多个critic网络损失函数的标准差;
19、为目标网络q值的标准差;
20、qstd(s,a|θ)为当前网络q值的标准差;
21、c(θi)=(qi(s,a|θi)-qstd(s,a|θ))2,τ,β∈(0,1);
22、s3,生成样本:使用当前actor网络与构造的日前交易市场的规则约束环境进行交互,即将储能系统的状态s输入到当前actor网络,得到动作a,此时环境会返回给下一时刻的状态s′和奖励r;
23、s4,更新当前critic网络:包括一下步骤:从经验池里面取出一个样本(s,a,r,s′)进行训练,将(s,a,r,s′)中的s和a输入到当前critic网络中,得到当前的q值q(s,a),将(s,a,r,s′)中的s′输入到目标actor网络中,得到动作a′,将s′和a′一起输入到目标critic网络中,得到q(s′,a′),计算目标q值为:
24、q′=r+γq(s′,a′)
25、将q′看成标签,更新当前critic网络使得输出q值接近标签q′值,即需要使用梯度下降法最小化更新当前critic网络的所有参数θ,即更新当前critic网络;
26、s5,更新当前actor网络:包括一下步骤:利用actor网络计算出状态下s的动作anew,在当前critic网络里给出q值q(s,anew),更新actor网络使得q值输出q(s,anew)最大,即最大化q(s,anew),具体的计算方式是,用符合函数的求导法则,求(q对动作a的梯度)*(动作a对参数ω的梯度):
27、
28、然后用梯度上升更新actor网络的所有参数ω:
29、
30、其中,0≤α≤1
31、s6,对目标actor网络和目标critic网络进行软更新:引入一个学习率τ,将旧的目标网络参数和新的对应网络参数做加权平均,然后赋值给目标网络,
32、target actor网络更新过程:
33、ω′←τω+(1-τ)ω′
34、target critic网络更新过程:
35、θ′←τθ+(1-τ)θ′
36、学习率τ∈(0,1),一般取的比较小,比如0.1或0.01,甚至0.005。
37、s7,使用当前actor网络根据步骤s2采样。
38、进一步地,所述步骤s1中储能状态约束的计算方式为:日前申报电量的计算公式为:其中表示储能系统在t时刻的日前电量,分别表示储能系统在日前市场中t-1时刻充进、放出的电量,日前申报电量需要满足储能系统最大、最小能量值的约束,即的计算公式为:其中δt为时间,ηin为充电效率,为日前市场中的充电功率,的计算公式为:其中δt为时间,ηout为充电效率,为日前市场中的放电功率。
39、进一步地,所述步骤s1中充放电功率约束的计算方式为:
40、
41、即储能系统在日前市场中,不能在某一时刻点同时进行充电、放电动作,且还需满足充电、放电的功率分别在该储能系统的最大、最小功率值范围内。
42、进一步地,所述步骤s2.3中的日前价格、补偿价格、补偿系数为每日24时刻点的数据。
43、基于以上改进的ddpg算法的储能系统能解决上述技术问题的关键在于:第一,基于actor-critic框架。改进的ddpg算法使用两个transformer网络—actor和critic。actor负责生成动作,而critic负责评估这些动作的潜在价值。这种结构使得算法能够评估当前策略并指导actor网络学习更好的策略。第二,处理连续动作空间。ddpg算法专为连续动作空间设计,这使得它能够生成精细的控制信号,如储能系统的充放电功率,这在储能系统的运行中是非常关键的。第三,确定性策略。ddpg的actor网络生成确定性动作,这意味着在给定状态下,它会输出一个确定的最优动作,这对于需要精确控制的应用场景非常重要。第四,使用策略梯度。ddpg使用策略梯度方法来更新actor网络,这是一种直接优化策略的方法,可以基于梯度上升来改进策略。第五,经验回放。通过引入经验回放机制,ddpg算法可以从过去的经验中学习,这有助于算法从历史数据中提取更多信息,提高学习效率。第六,目标网络。ddpg算法使用目标网络来平滑价值函数的估计,减少训练过程中的不稳定性,提高学习过程的稳健性。第七,探索与利用的平衡。ddpg算法通过噪声探索机制(如ornstein-uhlenbeck过程)在探索新动作和利用已知好动作之间取得平衡。第八,无需模型。ddpg算法是一种无模型算法,它不依赖于环境的动态模型,而是直接从与环境的交互中学习,这使得它能够适应环境的不确定性和变化。
44、本发明达到的社会效果:第一,提高能源利用效率。本发明提供的改进ddpg算法可以帮助储能系统更智能地进行充放电操作,减少能源浪费,从而提高能源的整体利用效率。第二,支持需求侧管理。本发明提供的改进ddpg算法可以帮助实现需求侧管理,通过调整储能系统的充放电策略,响应电网的需求,优化电力资源分配。
45、本发明达到的经济效果:第一,降低运营成本。本发明提供的改进ddpg算法通过优化充放电策略,可以减少储能系统的运行成本,如减少电池的充放电次数,延长电池寿命,降低维护成本。第二,提高经济效益。本发明提供的改进ddpg算法可以通过智能充放电策略在电价较低时充电,在电价较高时放电,实现峰谷电价差套利,从而提高储能系统的经济效益。
46、本发明达到的技术效果:第一,数据驱动。本发明使用的改进的ddpg算法具有较好的鲁棒性,能够处理不确定性和噪声,即使是在数据不完整或有噪声的情况下也能自动调整、生成策略,从而适应电价有大幅波动的市场环境。第二,实时决策。本发明使用的改进ddpg算法可以快速响应变化的电力市场,如实时电价的大幅波动。并且自动化的决策过程大大减少了人工的干预,从而提高操作的效率和可靠性。不需要针对特定场景进行大量手动调整,可以轻松地将新的约束或目标集成到强化学习模型中,以适应不断变化的业务需求或政策变化。
1.一种基于储能系统参与日前交易市场的优化调度方法,其特征在于,所述方法包括以下步骤:
2.根据权利要求1所述的一种基于储能系统参与日前交易市场的优化调度方法,其特征在于,所述步骤s1中储能状态约束的计算方式为:日前申报电量的计算公式为:其中表示储能系统在t时刻的日前电量,分别表示储能系统在日前市场中t-1时刻充进、放出的电量,日前申报电量需要满足储能系统最大、最小能量值的约束,即的计算公式为:其中δt为时间,ηin为充电效率,为日前市场中的充电功率,的计算公式为:其中δt为时间,ηout为充电效率,为日前市场中的放电功率。
3.根据权利要求1所述的一种基于储能系统参与日前交易市场的优化调度方法,其特征在于,所述步骤s1中充放电功率约束的计算方式为:
4.根据权利要求1所述的一种基于储能系统参与日前交易市场的优化调度方法,其特征在于,所述步骤s2.3中的日前价格、补偿价格、补偿系数为每日24时刻点的数据。
