基于改进深度Q网络的无预测风电场拓扑优化方法及系统

    技术2024-12-23  47


    本发明涉及风电,具体涉及一种基于改进深度q网络的无预测风电场拓扑优化方法及系统。


    背景技术:

    1、随着风机装机容量的逐年增长,因风力发电的不确定性带来的各种问题逐渐凸显,其中电压稳定性问题是近些年来国内外关注研究的重点。由于风力发电具有很强的随机性和间歇性,风电场内很容易引起汇集系统电压的大幅度波动。其中集中送电的陆上风电场电压支撑能力较弱,在风电出力过大时,电压稳定问题更加突出,严重时可能导致风电场在无故障情况下就出现电压振荡失稳的现象。为此国内外学者就风电场的电压控制问题展开了大量研究,根据控制时间的不同,又可以将这些研究大致分为日前优化调控和日内实时调控两大部分。若不考虑日前控制阶段,则日内实时调控对风电场的无功支撑能力就会有极高的要求,为了降低日内风机调控难度,应当要考虑风电场的日前优化调控。

    2、文献(马明,杜婉琳,陶然,等. 基于鲁棒优化的风电场分层电压优化控制策略[j].天津大学学报(自然科学与工程技术版),2021,54(12):1309-1316.)使用风机的日前出力预测数据建立日前鲁棒优化模型,得到次日“最恶劣”场景下无功补偿装置应该做出的投切决策,以提高风电场内电压控制水平,但该方法不能做到在线应用,每次使用都需要进行重复建模和计算,浪费计算资源;文献(zhang j, liu y h, zhang d y, et al. multi-time-scale coordinative and complementary reactive power and voltage controlstrategy for wind farms cluster[c]// 2018 international conference on powersystem technology (powercon), november 6-8, 2018, guangzhou, china: 1927-1934.)设计了风电场集群多目标无功优化与电压控制策略,基于风电出力日前预测曲线,对离散式无功补偿设备的容量进行日前预优化,但该方法较依赖日前出力预测曲线,一旦预测误差较大,优化偏差往往难以接受;文献(wang m, wang t, mu y, et al. a volt-var optimal control for power system integrated with wind farms consideringthe available reactive power from ev chargers[c]//2016 ieee power and energysociety general meeting (pesgm), july 17-21, 2016, boston, ma: 1-5.)提出了一种电动汽车充电器的可用无功功率与风电场集成的电力系统电压-无功最优控制策略,根据前一天预测的负载和风力输出来最大限度地减少网损,但该方法在风电不确定性的基础上又引入了负载预测误差,其结果的精确性受不确定因素影响较大。由此可见,上述日前优化调控方案虽然都能一定程度上应对风电不确定性带来的负面影响,稳定风电场的电压水平或降低网损,但是这些方法均存在各自的局限性,且均需要风机的日前预测出力数据作为日前优化调控的研究基础。然而,每台风机的日前预测出力曲线较难得到,且风电的日前预测误差无法完全避免,该误差的引入会造成日前优化调控方案有效性的降低,从而增加了后续日内风机调控的难度。

    3、近些年来,强化学习因其不依赖具体模型参数的特点和强大的学习能力而广受青睐,其中dqn因适用于离散动作控制而被广泛应用于各种电力场景,例如将深度强化学习应用于电压稳定控制场景,以及使用多智能体q学习(multi agent q-learning)研究电力市场领域的综合能源市场交易优化。另外在电力系统紧急控制、需求响应和综合能源管理等领域,深度强化学习都得到了广泛的应用。然而,现有关于dqn应用于电力系统决策的研究中,随着所解决问题的复杂化,动作评分-价值q评估方法而导致的“维数灾”问题逐渐凸显,如何对dqn的动作空间降维成为一个备受关注的难题。


    技术实现思路

    1、本发明要解决的技术问题:针对现有技术的上述问题,提供一种基于改进深度q网络的无预测风电场拓扑优化方法及系统,本发明旨在通过dqn决策出风电场次日的拓扑重构方案来增强风电场对诸如山地、丘陵等复杂环境的适应性,以应对电压大幅波动问题,降低因动作开关改变而造成的大动作空间维度,解决动作评分-价值q评估导致的“维数灾”问题。

    2、为了解决上述技术问题,本发明采用的技术方案为:

    3、一种基于改进深度q网络的无预测风电场拓扑优化方法,包括下述步骤:

    4、s1,基于历史数据构建深度q网络的状态空间;

    5、s2,基于生成树解耦动作评分和价值q,构建输入为包含历史数据的状态、输出为各个动作开关的动作评分 q的深度q网络以建立动作评分 q到不同拓扑结构的价值q的映射关系来实现动作空间优化;

    6、s3,以最小化电压偏差和网损为优化评价目标构建奖励函数,基于优化后的状态空间以及奖励函数针对深度q网络使用基于多层次经验指导的经验回放策略进行训练以建立历史实际出力数据到风电场拓扑优化结果之间的映射关系,所述基于多层次经验指导的经验回放策略包括在经验回放池加入坏的经验指导智能体规避不可行动作的选择、加入好的经验指导智能体学习正确并优秀的动作选择策略。

    7、可选地,步骤s1包括:将深度q网络的学习过程用马可尔夫决策过程表示,每一个马尔可夫决策都会生成,其中表示当前的环境状态,表示在当前环境下智能体所做的决策,表示环境根据智能体所做决策给予的反馈奖励,表示下一个环境状态,从而基于历史数据构建深度q网络的状态空间如下:

    8、,

    9、,

    10、,

    11、,

    12、上式中,为t日包含历史数据的状态空间,表示台风机在t日之前三日的有功出力;表示台风机在t日之前三日的无功出力;表示t时刻的风电场拓扑状态,~为第1~n个开关的开关状态,闭合时开关状态取值为1、关断时开关状态取值为0;~为第1~台风机的有功出力;~为第1~台风机的无功出力。

    13、可选地,步骤s2中基于生成树解耦动作评分和价值q包括:

    14、s2.1,根据风电场拓扑状态定义动作空间为;

    15、s2.2,将风电场各风机作为无向图节点,风机间闭合的开关作为无向图中连接的通路,利用广度优先搜索算法对被处理成无向图的风电场进行遍历,得到各节点相互连通但无环路的生成树,该生成树集合就是满足径向拓扑约束条件的风电场拓扑结构集合a以用于判断深度q网络构成的智能体决策的动作空间是否满足风电场径向拓扑条件。

    16、可选地,步骤s3中以最小化电压偏差和网损为优化评价目标构建的奖励函数为:

    17、,

    18、,

    19、,

    20、,

    21、,

    22、,

    23、,

    24、上式中,为第日的奖励函数,和分别为奖励部分和惩罚部分,和分别为考虑网损和电压偏差的奖励,表示网损优化的奖励系数,;为预测日原拓扑状态下风电场的网损;为预测日采取智能体提供的拓扑重构方案后的风电场网损;表示电压优化的奖励系数,;表示预测日原拓扑状态下节点的电压标幺值与基准值之差;表示预测日采取智能体提供的拓扑重构方案后节点的电压标幺值与基准值之差;为深度q网络构成的智能体决策的动作空间不满足风电场径向拓扑条件的惩罚,为节点电压不满足约束条件的惩罚,表示预设的高惩罚值,;为深度q网络构成的智能体决策的动作空间,a表示满足径向拓扑约束条件的风电场拓扑结构集合;表示预设的高惩罚值,;和分别表示节点电压的上下限标幺值。

    25、可选地,步骤s3中基于优化后的状态空间针对深度q网络使用基于多层次经验指导的经验回放策略进行训练以建立历史实际出力数据到风电场拓扑优化结果之间的映射关系包括:

    26、s3.1,初始化经验回放池d;设置随机种子,随机初始化深度q网络的估计网络的参数,并将参数复制给深度q网络的目标网络使目标网络的参数,初始化循环变量为1;

    27、s3.2,随机抽取风电出力历史数据,对每次事件状态进行初始化,预处理得到状态对应的特征输入;

    28、s3.3,根据ε-greedy策略和输入到估计网络t日的状态空间选择动作空间,执行动作空间对风电场进行拓扑重构,计算出第日的奖励函数并得到下一个状态空间,然后将得到的经验按类型存放到经验回放池d的相应区域,所述经验回放池d包括用于存放不同类型的经验的多个区域,根据目标网络和估计网络进行计算并更新估计网络的参数,然后每隔一段时间将估计网络的参数复制给目标网络,使;

    29、s3.4,判断循环变量是否等于预设阈值,若等于预设阈值则判定深度q网络训练完毕结束并退出;否则,将循环变量加1,跳转步骤s3.2。

    30、可选地,步骤s3.3中经验回放池d包括用于存放不同类型的经验的多个区域为三个区域:第一个区域用于存放智能体决策的动作满足径向拓扑约束条件的经验,该层次的经验用于防止智能体在采样训练时丢失动作开关的组合状态为径向拓扑的记忆,从而导致在后续学习过程中执行动作选择策略时向违反拓扑约束条件的方向滑坡;第二个区域用于存放智能体决策的动作违反径向拓扑约束条件的经验,该层次的经验拥有高惩罚值,用于指导智能体在执行动作选择策略时有效规避不正确动作的选取;第三个区域用于存放获得高奖励值的优秀经验,该层次的经验用于指导智能体学习正确并优秀的动作选择策略。

    31、可选地,步骤s3之后还包括将风电场的历史实际出力数据输入训练好的深度q网络,从而得到深度q网络预测输出的风电场拓扑优化结果,并根据风电场拓扑优化结果调整风电场开关的组合状态以实现对风电场的调控。

    32、此外,本发明还提供一种基于改进深度q网络的无预测风电场拓扑优化系统,包括相互连接的微处理器和存储器,所述微处理器被编程或配置以执行所述基于改进深度q网络的无预测风电场拓扑优化方法。

    33、此外,本发明还提供一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序或指令,该计算机程序或指令被编程或配置以通过处理器执行所述基于改进深度q网络的无预测风电场拓扑优化方法。

    34、此外,本发明还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被编程或配置以通过处理器执行所述基于改进深度q网络的无预测风电场拓扑优化方法。

    35、和现有技术相比,本发明主要具有下述优点:本发明包括基于历史数据构建深度q网络的状态空间;解耦动作评分和价值q,构建输入为包含历史数据的状态、输出为各个动作开关的价值q的深度q网络;以最小化电压偏差和网损为优化评价目标构建奖励函数,针对深度q网络使用基于多层次经验指导的经验回放策略进行训练以建立历史实际出力数据到风电场拓扑优化结果之间的映射关系。本发明基于改进深度q网络的无预测风电场拓扑优化方法通过dqn决策出风电场次日的拓扑重构方案来增强风电场对诸如山地、丘陵等复杂环境的适应性,以应对电压大幅波动问题,降低因动作开关改变而造成的大动作空间维度,解决动作评分-价值q评估导致的“维数灾”问题。


    技术特征:

    1.一种基于改进深度q网络的无预测风电场拓扑优化方法,其特征在于,包括下述步骤:

    2.根据权利要求1所述的基于改进深度q网络的无预测风电场拓扑优化方法,其特征在于,步骤s1包括:将深度q网络的学习过程用马可尔夫决策过程表示,每一个马尔可夫决策都会生成,其中表示当前的环境状态,表示在当前环境下智能体所做的决策,表示环境根据智能体所做决策给予的反馈奖励,表示下一个环境状态,从而基于历史数据构建深度q网络的状态空间如下:

    3.根据权利要求1所述的基于改进深度q网络的无预测风电场拓扑优化方法,其特征在于,步骤s2中基于生成树解耦动作评分和价值q包括:

    4.根据权利要求1所述的基于改进深度q网络的无预测风电场拓扑优化方法,其特征在于,步骤s3中以最小化电压偏差和网损为优化评价目标构建的奖励函数为:

    5.根据权利要求1所述的基于改进深度q网络的无预测风电场拓扑优化方法,其特征在于,步骤s3中基于优化后的状态空间针对深度q网络使用基于多层次经验指导的经验回放策略进行训练以建立历史实际出力数据到风电场拓扑优化结果之间的映射关系包括:

    6.根据权利要求5所述的基于改进深度q网络的无预测风电场拓扑优化方法,其特征在于,步骤s3.3中经验回放池d包括用于存放不同类型的经验的多个区域为三个区域:第一个区域用于存放智能体决策的动作满足径向拓扑约束条件的经验,该层次的经验用于防止智能体在采样训练时丢失动作开关的组合状态为径向拓扑的记忆,从而导致在后续学习过程中执行动作选择策略时向违反拓扑约束条件的方向滑坡;第二个区域用于存放智能体决策的动作违反径向拓扑约束条件的经验,该层次的经验拥有高惩罚值,用于指导智能体在执行动作选择策略时有效规避不正确动作的选取;第三个区域用于存放获得高奖励值的优秀经验,该层次的经验用于指导智能体学习正确并优秀的动作选择策略。

    7.根据权利要求1所述的基于改进深度q网络的无预测风电场拓扑优化方法,其特征在于,步骤s3之后还包括将风电场的历史实际出力数据输入训练好的深度q网络,从而得到深度q网络预测输出的风电场拓扑优化结果,并根据风电场拓扑优化结果调整风电场开关的组合状态以实现对风电场的调控。

    8.一种基于改进深度q网络的无预测风电场拓扑优化系统,包括相互连接的微处理器和存储器,其特征在于,所述微处理器被编程或配置以执行权利要求1~7中任意一项所述基于改进深度q网络的无预测风电场拓扑优化方法。

    9.一种计算机可读存储介质,该计算机可读存储介质中存储有计算机程序或指令,其特征在于,该计算机程序或指令被编程或配置以通过处理器执行权利要求1~7中任意一项所述基于改进深度q网络的无预测风电场拓扑优化方法。

    10.一种计算机程序产品,包括计算机程序或指令,其特征在于,该计算机程序或指令被编程或配置以通过处理器执行权利要求1~7中任意一项所述基于改进深度q网络的无预测风电场拓扑优化方法。


    技术总结
    本发明公开了一种基于改进深度Q网络的无预测风电场拓扑优化方法及系统,本发明包括基于历史数据构建深度Q网络的状态空间;解耦动作评分和价值Q,构建输入为包含历史数据的状态、输出为各个动作开关评分的神经网络和动作评分到不同拓扑结构的价值Q的映射关系;以最小化电压偏差和网损为优化目标构建奖励函数,使用基于多层次经验指导的经验回放策略进行训练以建立风电场历史出力到拓扑优化结果之间的映射关系。本发明旨在通过DQN决策出风电场次日的拓扑重构方案来增强风电场对诸如山地、丘陵等复杂环境的适应性,以应对电压大幅波动问题,降低因动作开关改变而造成的大动作维度,解决动作评分‑价值Q评估导致的“维数灾”问题。

    技术研发人员:潘丽君,屈尹鹏,黄晟,沈非凡,张冀,廖武
    受保护的技术使用者:湖南大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24153.html

    最新回复(0)