本发明主要涉及风力发电,具体涉及一种基于ddpg的阵列式高空风力发电量最大化调度方法。
背景技术:
1、随着风力发电技术的发展,人们寻求更高效、更稳定的风能利用方式。高空风能由于其风速快、稳定性好等特点,逐渐受到关注。高空风力发电技术存在更大的电力产生潜力,这主要归因于三个因素:一是随着海拔的提高,风速显著增加,增加了电力产生的潜力;二是高空的风流具有更好的稳定性和持续性,使得风力发电不再受地面风速波动的影响,进而实现更稳定的发电;三是由于高空风力发电不受地形影响,适用于各种复杂地形和海洋环境。
2、然而,如何在高空环境中充分利用风能,提高高空风力发电的效率和稳定性,仍然是一个需要解决的问题。为了实现风力发电系统的高效调度,近年来,深度强化学习(deepreinforcement learn ing,drl)技术得到了广泛关注。drl通过模拟智能体与环境的交互,学习最优的控制策略,从而在复杂的动态环境中实现高效决策。这种策略最大限度地利用风能,且需要对各种因素进行综合考虑,如风速、风向、飞行器的能量需求,以及可能影响电力传输效率的其他因素。目前这些复杂的任务需要高级的控制算法和大量的计算资源,才能保证系统的稳定性和电力产出的最大化。
技术实现思路
1、针对现有技术存在的技术问题,本发明提供一种提升发电效率和电力输出稳定性的基于ddpg的阵列式高空风力发电量最大化调度方法。
2、为解决上述技术问题,本发明提出的技术方案为:
3、一种基于ddpg的阵列式高空风力发电量最大化调度方法,包括步骤:
4、模拟高空风力发电系统的运行环境,建立系统环境模型,定义状态空间和动作空间,设计奖励函数;
5、构建双重网络架构和改进的深度确定性策略梯度算法对模型进行训练,得到最终的系统环境模型以应用于高空风电场进行风力发电量的智能调度;
6、其中构建双重网络架构和改进的深度确定性策略梯度算法对模型进行训练的具体过程为:
7、构建双重网络,分别为主网络和目标网络;其中主网络用于生成当前的策略和价值评估;目标网络用于通过软更新策略从主网络参数中复制;
8、通过经验回放机制存储和利用历史数据,优化目标策略网络和目标价值网络;
9、使用高空风力发电系统的监控系统监测高空风力发电系统的工作状态和环境变化,持续优化模型参数。
10、优选地,所述状态空间s包括风速vw、风向θw、飞艇位置pb、系留绳张力t、吊舱角度θc和风通道状态fc;
11、s=[vw,θw,pb,θc,fc,t] (1)。
12、优选地,所述动作空间a包括调整飞艇航向角αb、浮动平台位置pf和风电机组工作状态e;
13、e=[tg,beta,p] (2)
14、a=[αb,pf,e] (3)
15、所述风电机组工作状态e包括转速tg、桨距角beta和发电机功率p。
16、优选地,所述奖励函数根据风力发电系统的即时功率输出poutput进行计算,以最大化总功率输出为目标;
17、所述奖励函数r分为功率输出项poutput与系统稳定性惩罚项soutput,具体为:
18、
19、其中,λt是系留绳张力惩罚系数,t为当前系留绳的张力,tmax是系留绳允许的最大张力。
20、优选地,在模型训练过程中,使用经验回放缓冲区存储代理与环境交互的经验,从经验回访缓冲区随机采样一个小批量数据进行训练,目标值计算如下:
21、
22、其中,r为即时奖励,γ为折扣因子,s′为下一时间步的状态,qtarget为目标价值网络,是目标价值网络当前可学习参数,πtarget是目标策略网络;价值网络的更新如下:
23、
24、其中yi为目标q值,即为即时奖励和未来奖励的加权值,n为小批量数据的尺寸大小,qprimary为主要价值网络,si和ai分别是当前时刻的状态和动作。
25、优选地,通过梯度下降算法更新主要价值网络的参数θq,梯度更新的过程如下:
26、
27、其中αq是当前价值网络的学习率,是当前价值网络所计算的联合损失函数梯度。
28、优选地,通过软更新策略从主要价值网络中复制来更新目标策略网络的过程为:
29、θtarget-τ·θprimary+(1-τ)θtarget (8)
30、其中τ∈(0,1)是软更新速率参数。
31、本发明还公开了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器运行时执行如上所述方法的步骤。
32、本发明进一步公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时执行如上所述方法的步骤。
33、本发明还公开了一种计算机设备,包括相互连接的存储器和处理器,所述存储器上存储有计算机程序,所述计算机程序在被处理器运行时执行如上所述方法的步骤。
34、与现有技术相比,本发明的优点在于:
35、本发明的基于系留飞艇的阵列式高空风力发电系统的功率最大化调度方法,通过改进的深度确定性策略梯度(ddpg)算法,结合双重网络架构和实时监控系统,实现智能调度和优化;具体包括系统环境建模,定义全面的状态和动作空间;设计综合奖励函数,兼顾功率输出最大化和系统稳定性;构建主网络和目标网络,通过软更新机制提高训练稳定性;利用实时监控动态调整模型参数,确保系统在不同环境条件下高效运行;通过经验回放和批量学习优化控制变量,实现智能调度。该方法有效解决了传统高空风力发电系统在调度优化、系统稳定性和能效优化方面的不足,显著提高了发电效率和系统稳定性,具有广泛的应用前景和经济价值。
1.一种基于ddpg的阵列式高空风力发电量最大化调度方法,其特征在于,包括步骤:
2.根据权利要求1所述的基于ddpg的阵列式高空风力发电量最大化调度方法,其特征在于,所述状态空间s包括风速vw、风向θw、飞艇位置pb、系留绳张力t、吊舱角度θc和风通道状态fc;
3.根据权利要求2所述的基于ddpg的阵列式高空风力发电量最大化调度方法,其特征在于,所述动作空间a包括调整飞艇航向角αb、浮动平台位置pf和风电机组工作状态e;
4.根据权利要求2或3所述的基于ddpg的阵列式高空风力发电量最大化调度方法,其特征在于,所述奖励函数根据风力发电系统的即时功率输出poutput进行计算,以最大化总功率输出为目标;
5.根据权利要求4所述的基于ddpg的阵列式高空风力发电量最大化调度方法,其特征在于,在模型训练过程中,使用经验回放缓冲区存储代理与环境交互的经验,从经验回访缓冲区随机采样一个小批量数据进行训练,目标值计算如下:
6.根据权利要求5所述的基于ddpg的阵列式高空风力发电量最大化调度方法,其特征在于,通过梯度下降算法更新主要价值网络的参数θq,梯度更新的过程如下:
7.根据权利要求6所述的基于ddpg的阵列式高空风力发电量最大化调度方法,其特征在于,通过软更新策略从主要价值网络参数中复制来更新目标策略网络的过程为:
8.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器运行时执行如权利要求1-7中任意一项所述方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序在被处理器运行时执行如权利要求1-7中任意一项所述方法的步骤。
10.一种计算机设备,包括相互连接的存储器和处理器,所述存储器上存储有计算机程序,其特征在于,所述计算机程序在被处理器运行时执行如权利要求1-7中任意一项所述方法的步骤。