本发明涉及电力电子的,尤其涉及一种基于强化学习的混合储能系统无差拍控制方法。
背景技术:
1、随着可再生能源的快速发展和能源系统的不断演进,直流微电网成为一个备受关注的领域,其具有高效、灵活、可再生能源集成等优势。其中通过混合储蓄能源短时间吸收/供应大量功率,来解决可再生能源(res,renewable energy sources)的间歇性和负载需求变化的问题,从而提供稳定的输出电压,是一个有效的解决方案。混合储能系统由电池和超级电容组成,通过双向转换器控制,对于双向转换器的控制是实现直流微电网稳定运行的关键。
2、在直流微电网的控制算法研究中,pid、模型预测控制和无差拍控制表现出了良好的控制效果。但此类传统控制算法不够精确,在处理系统损耗和参数不确定性时面临很大挑战。现有方法有通过建立双层模型预测控制,通过预测功率损耗提高控制精度。但该问题基本都是非线性问题,建立过程复杂繁琐,重要的是在求解过程中会导致计算负担的大大增加,难以进行实际工程应用;也有方法通过在控制方法中加入事件触发机制,减少开关损耗,但是并未考虑到导通损耗的影响;通过最小二乘法建立矩阵逆求解能减轻模型失配问题,但是也会导致计算负担大大增加。因此,考虑如何在不明显增大在线计算负担的前提下,消除或减小系统损耗对控制算法的影响是很有必要的。
3、近年来,机器学习在控制系统领域崭露头角,为解决复杂非线性系统控制问题提供了新的思路。传统控制方法在应对微电网系统的这些挑战时表现出限制,而深度强化学习通过在环境中学习和适应最优策略,使得系统能够更智能地调整和优化运行策略,提高系统的稳定性、可靠性。如果只使用强化学习通过数据训练产生控制占空比,此类解决方法可解释性差,也难以适应实际应用中负载功率和光伏功率频繁波动的需求,导致鲁棒性差。而在传统控制方法中加入强化学习,解决传统控制中参数不确定性、控制器增益自适应调整等一些问题有很大的优势。因此,使用强化学习解决功率变换器中的功率损耗和参数不确定性影响的问题,提升控制表现和电能质量,有望推动微电网控制技术的进一步演进。
4、例如申请号为202110939564.1的发明专利公开了一种含混合储能的光伏直流微电网协调控制方法,包括搭建光伏发电系统的控制策略,使其运行在mppt模式和cvc模式;将直流微电网的运行模式划分多个工作模式;建立低通滤波器模型,实现混合储能系统所承担的功率分配;通过超级电容与蓄电池各自承担的功率与端电压,计算出二者的工作电流;并通过储能装置的充放电电流参考值与实际工作电流进行比较,设计双向dc/dc变换器的控制方式;当直流微电网内光伏发电系统和储能装置不足以平抑系统中的功率波动、或储能装置故障无法参与调节时,通过双向dc/dc变换器将直流微电网并入大电网。该发明方法能够避免复杂的参数设定以及大量计算,控制灵活的同时考虑到了储能装置的使用寿命,提高了运行的经济性。
技术实现思路
1、针对现有技术中计算量较大的技术问题,本发明提出一种基于强化学习的混合储能系统无差拍控制方法,避免对系统损耗进行复杂的数学建模,提升控制效果,维持直流微电网母线电压的稳定。
2、为了达到上述目的,本发明的技术方案是这样实现的:一种基于强化学习的混合储能系统无差拍控制方法,其特征在于,具体步骤为:
3、s1:建立微电网混合储能系统模型;
4、s2:利用微电网混合储能系统模型,基于actor-critic网络构建深度确定性策略梯度智能体并进行训练参数设计;
5、s3:利用深度确定性策略梯度智能体对混合储能系统模型的参考电流值进行补偿;
6、s4:通过直流微电网产生大量数据对深度确定性策略梯度智能体进行训练,得到训练的模型;
7、s5:将训练的模型加入到无差拍控制器中,对混合储能系统模型的参考电流进行补偿,得到准确的参考电流;
8、s6:利用参考电流分别得到电池和超级电容双向转换器下一时刻的控制占空比,进而维持直流微电网母线电压的稳定。
9、步骤s1所述微电网混合储能系统模型包括混合储能系统、光伏电路和用户负载电路三部分组成,光伏电路和用户负载电路均与混合储能系统相连接;
10、混合储能系统包括电池、电感l1、开关s3和开关s2,电池的正极与电感l1的一端相连接,开关s3的一端和开关s2的一端均与电感l1的另一端相连接;开关s3的另一端与母线电压vbus的正极相连接,母线电压vbus的负极和电池的负极均与开关s2的另一端相连接;
11、混合储能系统还包括超级电容c、电感l2、开关s4和开关s5,超级电容c的一端与电感l2的一端相连接,开关s4的一端和开关s5的一端均与电感l2的另一端相连接,超级电容c的另一端和母线电压vbus的负极均与开关s4的另一端相连接,开关s5的另一端与母线电压vbus的正极相连接。用户负载电路包括并联连接的电容c1、负载电阻rl和恒功率负载cpl,电容c1的两端分别与母线电压vbus的负极和母线电压vbus的正极相连接;
12、光伏电路包括二极管、开关s1、电感l2和光伏板,二极管的输出端与母线电压vbus的正极相连接,二极管的输入端与开关s1的一端相连接,光伏板的一端和母线电压vbus的负极均与开关s1的另一端相连接,光伏板的另一端与电感l2的一端相连接,电感l2的另一端与二极管的输入端相连接;
13、混合储能系统中,电池和超级电容的双向转换器满足:
14、
15、其中,ib(t)为电池电流,vb(t)为电池电压,vbus(t)为母线电压值,db(t)为控制开关s2的占空比,isc(t)为超级电容电流值,vsc(t)为超级电容电压,dsc(t)为开关s4的占空比;
16、流入/流出电流ihess公式为:
17、
18、步骤s2所述基于actor-critic网络构建深度确定性策略梯度智能体的具体步骤为:
19、s21:构建深度确定性策略梯度智能体;
20、深度确定性策略梯度智能体由actor-critic网络构成,actor-critic网络包括actor当前网络μ、actor目标网络μ′、critic当前网络q和critic目标网络q′;
21、s22:定义跟踪电压误差和母线电压的延迟信号,基于跟踪电压误差、母线电压的延迟信号、电池电流值和超级电容电流值进行状态空间的定义;
22、定义跟踪电压误差为e=vref-vbus,其中vref表示母线电压根据用户需求设定的参考值;由于下一时刻控制表现与当前时刻状态有关,因此,加入跟踪电压误差e(t)和母线电压vbus的延迟信号作为补充状态,分别为延迟误差edel和延迟电压vbus_del,因此将ib和isc也作为状态量,状态空间定义为:
23、s={e,edel,vbus,vbus_del,ib,isc};
24、s23:基于跟踪电压误差设定奖励函数;
25、奖励函数的设定与跟踪电压误差有关,跟踪误差小,奖励越大,奖励函数定义为:
26、
27、其中,e(t)为t时刻的跟踪电压误差,η是平滑因子,纹波因子β和惩罚系数k为自定义参数,根据系统奖励情况设定。
28、步骤s3所述对混合储能系统的参考电流值进行补偿的具体方法为:
29、s31:将混合储能系统中的功率损耗和参数不确定性造成的干扰看作集中扰动,集中扰动偏差值为偏差φ(t),公式为:
30、
31、其中,pa_loss(t)为总的功率损耗,rdson为导通电阻,θ(t)为参数不确定性造成的参考电流偏差;
32、s32:利用损失函数l对critic当前网络q进行更新;
33、损失函数l为:
34、
35、其中,表示批处理样本大小,表示critic当前网络,sk和ak分别表示当前状态值和动作值,yk表示当前网络的结果值;
36、s33:actor网络输入为当前系统状态sk,输出为补偿值动作ak,网络参数θμ由策略梯度定理更新;
37、
38、其中,表示网格梯度,θμ表示actor当前网络,a表示当前动作值,s表示系统状态;
39、s34:目标网络和μ′采用软更新的方式计算更新。
40、步骤s34所述目标网络和μ′采用软更新的方式计算更新的公式为:
41、
42、其中,τ为软更新系数,设定为0.02,和αμ′分别表示critic和actor的目标网络。
43、步骤s5所述对混合储能系统参考电流进行补偿的具体方法为:
44、s51:将训练的模型部署到无差拍控制器中;
45、s52:通过传感器采集值和观测器获得下一时刻混合储能系统参考电流:
46、s53:将状态空间输入到智能体中,得到偏差值φ;
47、s54:通过深度确定性策略梯度智能体产生的偏差值φ与观测器观测电流ihess_ref相加,对混合储能系统参考电流进行补偿,得到理想的混合储能系统参考电流值;
48、s55:引入低通滤波器使得电池和超级电容分别提供参考电流的低频分量和高频分量。
49、步骤s52所述混合储能系统参考电流的表达式为:
50、
51、其中,c和l分别表示电容值和电感值,vref表示母线电压的参考值,vbus表示母线电压,ihess(t0)表示在t0时刻的混合储能系统电流值。
52、步骤s54所述混合储能系统参考电流值表达式为:
53、
54、步骤s55所述参考电流的低频分量和高频分量为:
55、
56、其中,flpf表示低通滤波器。
57、步骤s6所述电池和超级电容双向转换器下一时刻的控制占空比的表达式为:
58、
59、其中,ib(t0)表示t0时刻电池电流,isc(t0)表示t0时刻超级电容电流,ts为采样周期。
60、本发明的有益效果为:本发明提供了一种基于深度强化学习的直流微电网无差拍控制方法,适用于直流微电网的系统控制任务。通过观测器技术,能够根据可再生能源的间歇性和负载需求变化,预测下一个控制时刻的混合储能系统所需的参考电流值。同时通过ddpg智能体补偿由于功率损耗引起的偏差,使得预测值更加精准。根据下一时刻参考电流值,调节双向变换器,其中高频部分由超级电容供应/吸收,低频部分由电池供应/吸收,合理控制混合储能系统的充放电行为,维持用户侧母线电压稳定,保护电能安全。相比于传统的无差拍控制方法,本发明通过深度强化学习的方法补偿系统损耗造成的参考电流偏差问题,减小动态误差和调节时间,提升动态响应。此外,本发明避免了对系统损耗的非线性问题进行建模,能够减少控制系统的在线运算负担,符合实际工程应用。
1.一种基于强化学习的混合储能系统无差拍控制方法,其特征在于,具体步骤为:
2.根据权利要求1所述的基于强化学习的混合储能系统无差拍控制方法,其特征在于,步骤s1所述微电网混合储能系统模型包括混合储能系统、光伏电路和用户负载电路三部分组成,光伏电路和用户负载电路均与混合储能系统相连接;
3.根据权利要求2所述的基于强化学习的混合储能系统无差拍控制方法,其特征在于,步骤s2所述基于actor-critic网络构建深度确定性策略梯度智能体的具体步骤为:
4.根据权利要求2或3所述的基于强化学习的混合储能系统无差拍控制方法,其特征在于,步骤s3所述对混合储能系统的参考电流值进行补偿的具体方法为:
5.根据权利要求4所述的基于强化学习的混合储能系统无差拍控制方法,其特征在于,步骤s34所述目标网络q’和μ′采用软更新的方式计算更新的公式为:
6.根据权利要求5所述的基于强化学习的混合储能系统无差拍控制方法,其特征在于,步骤s5所述对混合储能系统参考电流进行补偿的具体方法为:
7.根据权利要求6所述的基于强化学习的混合储能系统无差拍控制方法,其特征在于,步骤s52所述混合储能系统参考电流的表达式为:
8.根据权利要求7所述的基于强化学习的混合储能系统无差拍控制方法,其特征在于,步骤s54所述混合储能系统参考电流值表达式为:
9.根据权利要求6-8中任意一项所述的基于强化学习的混合储能系统无差拍控制方法,其特征在于,步骤s55所述参考电流的低频分量和高频分量为:
10.根据权利要求9所述的基于强化学习的混合储能系统无差拍控制方法,其特征在于,步骤s6所述电池和超级电容双向转换器下一时刻的控制占空比的表达式为: