一种基于储能系统参与日前交易市场的优化调度方法与流程

技术2026-04-03 21

本发明涉及储能、电力现货市场，尤其涉及一种基于储能系统参与日前交易市场的优化调度方法。

背景技术：

1、随着能源需求的不断增加和可再生能源(如太阳能、风能等)的快速发展，电能供应的不稳定性和间歇性问题日益突出，同时电能产生的波动也给电网的稳定运行带来了挑战。而储能系统作为一种平衡能源供需、提高电能系统可靠性的重要手段，其可以通过与电网的互动实现电能的优化调度和智能分配，从而成为智能电网的重要组成部分之一。然而传统的储能智能调度模型一方面依赖于预设的规则或阈值，一方面受到大量的人工干预，因此其很难在实际运行环境中做出快速准确的决策，最终导致储能系统出现效率低下和不可靠的问题。

2、传统的储能系统技术有如下特点、缺陷：

3、第一类规则控制算法。基于规则的控制算法往往依赖于预设的规则和阈值，这些规则和阈值通常是基于经验或历史数据设定的，缺乏灵活性和适应性。当电力系统运行状态发生变化时，这些规则可能不再适用，导致储能系统的调度效果下降。

4、第二类预测控制算法。预测控制算法依赖于对电力系统未来状态的预测，但电力系统的运行状态往往受到多种因素的影响，包括天气、负荷变化、设备故障等，这些因素的变化难以准确预测。因此，预测控制算法在实际应用中可能面临预测精度不足的问题，从而影响储能系统的调度效果。

5、第三类最优控制算法。最优控制算法虽然能够实现对储能系统最优调度的目标，但通常需要建立复杂的数学模型，并对模型进行求解。然而，电力系统的运行状态往往非常复杂，难以用简单的数学模型进行描述。此外，最优控制算法的求解过程也可能面临计算量大、求解时间长等问题，难以满足实时调度的需求。

技术实现思路

1、本发明旨在解决背景技术中的问题。发明了一种基于储能系统参与日前交易市场的优化调度方法。所述方法包括以下步骤：s1,搭建储能系统参与日前交易市场的规则约束环境,所述规则约束环境包括：储能状态约束、充放电功率约束；

2、s2,建立改进的ddpg算法，包括以下步骤：

3、s2.1、设置初始化状态s：设置ddpg算法的状态为一维列表[t,et]，其包含两个元素：时间t,t时刻储能系统能量状态et；

4、s2.2、定义动作空间a：动作空间由储能系统的充、放电功率的n个连续值组成，表达式为：a＝{a1,a2,...,an}；

5、其取值范围为[-pmax,pmax]，-p、p分别表示充、放电的功率值，且根据日前市场的申报规则，将p值的精度设置为0.01；

6、s2.3、设定模型的参数st：所述参数st包括：储能系统的额定容量、储能系统的最大充电功率、储能系统的起始soc、储能系统的结束soc、储能系统的充电效率、储能系统的放电效率、储能系统的最小soc、储能系统的最大soc、输配电价、政府基金及附加、日前价格、补偿价格、补偿系数；

7、s2.4、构造及改进网络：

8、初始化当前actor、critic网络，然后把当前actor网络和critic网络的网络参数分别复制给目标actor和critic网络；

9、改进actor、critic网络：用transformer模型架构替换actor、critic架构；

10、在critic结构的基础上增加一个辅助网络用于估计q值的不确定性，计算多个critic的标准差值，用标准差值来反映q值的不确定性，具体计算公式为：

11、

12、使用的损失函数为：

13、loss(θi)＝τl(θi)+(1-τ)lstd(θ)+βc(θi)

14、其中：

15、l(θi)为单个critic网络的损失函数值，θi为critic网络的参数值；

16、r(st,at)为处于状态st采取动作at所获得的奖励值；

17、γ为探索率，其范围为(0,1)；为下一时刻的q′值，q(st,at|θi)为当前时刻的q值；

18、lstd(θ)为多个critic网络损失函数的标准差；

19、为目标网络q值的标准差；

20、qstd(s,a|θ)为当前网络q值的标准差；

21、c(θi)＝(qi(s,a|θi)-qstd(s,a|θ))2，τ,β∈(0,1)；

22、s3，生成样本：使用当前actor网络与构造的日前交易市场的规则约束环境进行交互，即将储能系统的状态s输入到当前actor网络，得到动作a，此时环境会返回给下一时刻的状态s′和奖励r；

23、s4,更新当前critic网络：包括一下步骤：从经验池里面取出一个样本(s,a,r,s′)进行训练，将(s,a,r,s′)中的s和a输入到当前critic网络中，得到当前的q值q(s,a)，将(s,a,r,s′)中的s′输入到目标actor网络中，得到动作a′，将s′和a′一起输入到目标critic网络中，得到q(s′,a′)，计算目标q值为：

24、q′＝r+γq(s′,a′)

25、将q′看成标签，更新当前critic网络使得输出q值接近标签q′值，即需要使用梯度下降法最小化更新当前critic网络的所有参数θ，即更新当前critic网络；

26、s5,更新当前actor网络：包括一下步骤：利用actor网络计算出状态下s的动作anew，在当前critic网络里给出q值q(s,anew)，更新actor网络使得q值输出q(s,anew)最大，即最大化q(s,anew)，具体的计算方式是，用符合函数的求导法则，求(q对动作a的梯度)*(动作a对参数ω的梯度)：

27、

28、然后用梯度上升更新actor网络的所有参数ω：

29、

30、其中，0≤α≤1

31、s6,对目标actor网络和目标critic网络进行软更新：引入一个学习率τ，将旧的目标网络参数和新的对应网络参数做加权平均，然后赋值给目标网络，

32、target actor网络更新过程：

33、ω′←τω+(1-τ)ω′

34、target critic网络更新过程：

35、θ′←τθ+(1-τ)θ′

36、学习率τ∈(0,1)，一般取的比较小，比如0.1或0.01，甚至0.005。

37、s7，使用当前actor网络根据步骤s2采样。

38、进一步地，所述步骤s1中储能状态约束的计算方式为：日前申报电量的计算公式为：其中表示储能系统在t时刻的日前电量，分别表示储能系统在日前市场中t-1时刻充进、放出的电量，日前申报电量需要满足储能系统最大、最小能量值的约束，即的计算公式为：其中δt为时间，ηin为充电效率，为日前市场中的充电功率，的计算公式为：其中δt为时间，ηout为充电效率，为日前市场中的放电功率。

39、进一步地，所述步骤s1中充放电功率约束的计算方式为：

40、

41、即储能系统在日前市场中，不能在某一时刻点同时进行充电、放电动作，且还需满足充电、放电的功率分别在该储能系统的最大、最小功率值范围内。

42、进一步地，所述步骤s2.3中的日前价格、补偿价格、补偿系数为每日24时刻点的数据。

43、基于以上改进的ddpg算法的储能系统能解决上述技术问题的关键在于：第一，基于actor-critic框架。改进的ddpg算法使用两个transformer网络—actor和critic。actor负责生成动作，而critic负责评估这些动作的潜在价值。这种结构使得算法能够评估当前策略并指导actor网络学习更好的策略。第二，处理连续动作空间。ddpg算法专为连续动作空间设计，这使得它能够生成精细的控制信号，如储能系统的充放电功率，这在储能系统的运行中是非常关键的。第三，确定性策略。ddpg的actor网络生成确定性动作，这意味着在给定状态下，它会输出一个确定的最优动作，这对于需要精确控制的应用场景非常重要。第四，使用策略梯度。ddpg使用策略梯度方法来更新actor网络，这是一种直接优化策略的方法，可以基于梯度上升来改进策略。第五，经验回放。通过引入经验回放机制，ddpg算法可以从过去的经验中学习，这有助于算法从历史数据中提取更多信息，提高学习效率。第六，目标网络。ddpg算法使用目标网络来平滑价值函数的估计，减少训练过程中的不稳定性，提高学习过程的稳健性。第七，探索与利用的平衡。ddpg算法通过噪声探索机制(如ornstein-uhlenbeck过程)在探索新动作和利用已知好动作之间取得平衡。第八，无需模型。ddpg算法是一种无模型算法，它不依赖于环境的动态模型，而是直接从与环境的交互中学习，这使得它能够适应环境的不确定性和变化。

44、本发明达到的社会效果：第一，提高能源利用效率。本发明提供的改进ddpg算法可以帮助储能系统更智能地进行充放电操作，减少能源浪费，从而提高能源的整体利用效率。第二，支持需求侧管理。本发明提供的改进ddpg算法可以帮助实现需求侧管理，通过调整储能系统的充放电策略，响应电网的需求，优化电力资源分配。

45、本发明达到的经济效果：第一，降低运营成本。本发明提供的改进ddpg算法通过优化充放电策略，可以减少储能系统的运行成本，如减少电池的充放电次数，延长电池寿命，降低维护成本。第二，提高经济效益。本发明提供的改进ddpg算法可以通过智能充放电策略在电价较低时充电，在电价较高时放电，实现峰谷电价差套利，从而提高储能系统的经济效益。

46、本发明达到的技术效果：第一，数据驱动。本发明使用的改进的ddpg算法具有较好的鲁棒性，能够处理不确定性和噪声，即使是在数据不完整或有噪声的情况下也能自动调整、生成策略，从而适应电价有大幅波动的市场环境。第二，实时决策。本发明使用的改进ddpg算法可以快速响应变化的电力市场，如实时电价的大幅波动。并且自动化的决策过程大大减少了人工的干预，从而提高操作的效率和可靠性。不需要针对特定场景进行大量手动调整，可以轻松地将新的约束或目标集成到强化学习模型中，以适应不断变化的业务需求或政策变化。

技术特征：

1.一种基于储能系统参与日前交易市场的优化调度方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于储能系统参与日前交易市场的优化调度方法，其特征在于，所述步骤s1中储能状态约束的计算方式为：日前申报电量的计算公式为：其中表示储能系统在t时刻的日前电量，分别表示储能系统在日前市场中t-1时刻充进、放出的电量，日前申报电量需要满足储能系统最大、最小能量值的约束，即的计算公式为：其中δt为时间，ηin为充电效率，为日前市场中的充电功率，的计算公式为：其中δt为时间，ηout为充电效率，为日前市场中的放电功率。

3.根据权利要求1所述的一种基于储能系统参与日前交易市场的优化调度方法，其特征在于，所述步骤s1中充放电功率约束的计算方式为：

4.根据权利要求1所述的一种基于储能系统参与日前交易市场的优化调度方法，其特征在于，所述步骤s2.3中的日前价格、补偿价格、补偿系数为每日24时刻点的数据。

技术总结
本发明涉及储能、电力现货市场技术领域，尤其涉及一种基于储能系统参与日前交易市场的优化调度方法，为了解决传统的储能智能调度模型依赖于预设的规则或阈值，受到大量的人工干预，导致储能系统出现效率低下和不可靠的问题，本发明提供了一种基于人工智能的新能源场站面向现货市场的功率曲线寻优方法，包括以下步骤：包括搭建储能系统参与日前交易市场的规则约束环境,建立改进的DDPG算法，生成样本；目标网络的更新，本发明能够提高能源利用效率，支持需求侧管理，降低运营成本、提高经济效益。

技术研发人员：沈山山,陈佳俊,燕兆,商敬男,郭鹏飞
受保护的技术使用者：北京飔合科技有限公司
技术研发日：
技术公布日：2024/10/24

转载请注明原文地址:https://symbian.8miu.com/read-41937.html

专利

最新回复(0)