本发明涉及电力系统管理与电动汽车,尤其涉及一种基于强化学习的电动汽车可调充电量动态估计方法。
背景技术:
1、目前,电动汽车在全球范围内得到了迅速推广,由于其对电网的高依赖性,电动汽车的充电行为直接影响到电网的负荷平衡,多数电动汽车在晚上充电的特性与家庭用电高峰期重合,导致电网负荷尖峰更加显著,电网运营商采用时间分时电价等经济激励措施来引导电动汽车在非高峰时间段充电,以实现电网负荷的削峰填谷,一些地区部署了需求响应系统,通过远程控制或用户自主响应的方式调节电动汽车的充电时间和功率,现有技术主要通过改变电价来间接影响充电行为,缺乏对电动汽车充电行为的精确控制,传统充电策略无法有效应对高峰期电网负载的挑战,现有的充电策略多依赖于静态的调度模式,不够灵活,且难以最大化利用可再生能源。
技术实现思路
1、基于上述目的,本发明提供了一种基于强化学习的电动汽车可调充电量动态估计方法。
2、一种基于强化学习的电动汽车可调充电量动态估计方法,包括以下步骤:
3、s1,确定电动汽车参与削峰填谷下的最佳物理充电策略目标函数与约束条件;
4、s2,根据电动汽车物理充电方案确定的场景,建立ac网络架构,描述当前时刻下情景状态、电动汽车各时刻充电功率以及最大化累计奖励目标;
5、s3,构建动作输出模块actor网络,基于当前环境状态,输出电动汽车的充电功率调整决策;
6、s4,构建价值评估模块critic网络,评估当前行为的价值,并根据电网负荷波动来评价actor的决策;
7、s5,通过交互式学习不断更新actor和critic网络的参数,critic更新使用时间差分学习方法更新价值函数估计,actor更新基于策略梯度方法更新策略网络,以增加获取高奖励行为的概率,最终输出概率最大的值为最终充电方案,达到削峰填谷效果。
8、进一步的,所述s1具体包括:
9、s11,确定目标函数:电动汽车evi在tiin时刻接入电网,充电桩获取电动汽车充电信息及出行信息,以平缓电网运行负荷波动为优化目标,目标函数的计算公式为:
10、
11、其中,qgrid,t表示t时刻电网运行负荷,按照最佳充电方案,电动汽车i在时刻t下的充电功率,qavg表示电动汽车集群按照最佳充电方案充电时,电网总运行负荷在一天内的负荷均值;
12、s12,确定约束条件:电动汽车充电过程的约束条件包括:
13、s121,充电功率约束:
14、s122,充电时间约束:
15、s123,离网时刻soc下界:
16、其中,ci表示电池容量,di表示下一旅程预计出行里程,wi表示电动汽车单位公里耗电量;
17、s124,若电动汽车入网后为其下发的充电方案为本次入网不充电,则保证其soc在下一段旅程结束时不低于socimin,即
18、s13,优化充电方案:根据电动汽车集群的入网时刻、离网时刻、离网soc下界soc、最迟充电时间tsj进行优化,得到电动汽车集群的最佳充电方案。
19、进一步的,所述s2具体包括:
20、s21,定义状态:状态st是对当前时刻t下情景的描述,一个状态切面t即为第t辆电动汽车并网后的状态,对于时刻t,根据电动汽车入网时刻tin、离网时刻tout、最低荷电率阈值soct,min、期望荷电率soct,exc、离网soc下界soct、最迟充电时间tsj确定最佳充电方案,计算公式为:
21、st=[tin,tout,soct,min,soct,exc,soct,tsj];
22、s22,定义动作:动作st是当前时刻t下智能体从环境中观测到状态at后,向环境做出的反应,动作应为电动汽车各时刻充电功率p,计算公式为:
23、at=[p1,p2,p3,...,p24];
24、s22,定义奖励:智能体的目标是最大化累计奖励,优化目标为最小化电网负荷波动,对单个电动汽车充电方案,奖励函数表示为:
25、
26、其中,和是上一观测状态和当前观测状态的电网各时点负荷,和分别为上一观测状态和当前观测状态的电网各时点负荷均值。
27、进一步的,所述s3具体包括:
28、s31,定义actor网络:动作输出模块actor网络通过构建策略梯度并进行训练,从而输出各个动作的概率;
29、s32,获取价值函数:价值函数vt由critic产生;
30、s33,定义损失函数:actor网络的损失函数的计算公式为:
31、l(ζ)=lgπζ(st,at)vt;
32、s34,策略梯度:对l(ζ)进行梯度计算,即actor网络的策略梯度,计算公式为:
33、
34、其中,表示梯度,β表示策略梯度的学习率,
35、s35,策略梯度训练:使用梯度下降法对策略梯度进行训练,使得actor网络输出为不同动作的概率p(at)。
36、进一步的,所述s4具体包括:
37、s41,定义critic网络:价值评估模块critic网络采用时间差分算法(td),根据观测值和奖励值评估各个动作的价值,critic网络的输出值为时间差分算法的价值函数估计值;
38、s42,计算状态动作值函数实际值:计算电动汽车集群在时刻t的状态动作值函数实际值,计算公式为:
39、qr(st,at)=rt+1+γmaxq(st+1,at+1);
40、其中,qr(st,at)为状态动作值函数的实际值,st为电动汽车集群t时刻所处的状态,at为电动汽车集群在时刻t为电动汽车个体所选择的动作(充电方案),rt+1为电动汽车集群在状态st选择动作at到达状态st+1获得的奖励,γ为折扣因子,maxq(st+1,at+1)表示电动汽车集群在状态st+1状态动作函数值中的最大值;
41、s43,将价值函数传送到actor网络:critic网络将价值函数估计值传送到actor,为actor的动作选择提供参考。
42、进一步的,所述s42中的折扣因子γ表示奖励随时间步数增长衰减的速率,即决策过程距离时刻t越远,其利益关联越小,表示为:
43、当γ=0时,则只考虑当前状态利益;
44、当γ=1时,则考虑前状态和以后状态的利益。
45、进一步的,所述s5具体包括:
46、s51,更新q值:根据时间差分算法(td),更新第k次迭代中电动汽车集群在时刻t状态动作值函数的估计值,计算公式为:
47、qk(st,at)=qk-1(st,at)+α[rt+1+γmaxqk(st+1,at+1)-qk-1(st,at)];
48、其中,qk-1(st,at)表示第k次迭代中电动汽车集群在时刻t状态动作值函数的估计值,a为学习效率;
49、s52,定义损失函数tdorror:定义critic网络的损失函数tdorror;
50、s53,更新critic网络:使用梯度下降法对critic网络进行训练;
51、s54,定义actor网络的损失函数:令tdorror作为actor网络中的价值函数vt,定义actor网络的损失函数l(actor);
52、s55,更新actor网络:使用梯度下降法对actor网络的损失函数进行训练;
53、s56,输出动作概率分布:通过训练后的actor网络输出各个动作的概率分布,并记录概率最大的值作为最终充电方案。
54、进一步的,所述损失函数tdorror的计算公式为:
55、tderror=qk(st,at)-qk-1(st,at)。
56、9.根据权利要求8所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述梯度下降法的计算公式为:
57、
58、
59、进一步的,所述损失函数l(actor)的计算公式为:
60、l(actor)=tdorror·[lg(p(δ))]。
61、本发明的有益效果:
62、本发明,通过时间差分算法评估各个充电决策的价值,actor网络根据策略梯度方法输出充电功率的概率分布,并通过交互式学习不断更新两者的参数,从而使得充电策略能够实时适应电网负荷的变化,最大化利用非高峰时间段进行充电,这一方法不仅提高了电网的负荷平衡能力,还能有效降低高峰期的负载压力,提升电网的整体运行效率。
63、本发明,通过优化目标函数和约束条件,确保电动汽车在满足用户出行需求的前提下进行充电,夜间充电策略的设置不仅满足了电网填谷的需求,还保证了电动汽车在离网时达到100%的soc(荷电状态),从而提升了用户的充电体验和电池使用寿命,同时,本发明采用的动态估计方法相比传统静态调度模式更加灵活,能够更好地应对不确定的用电需求和可再生能源的波动,促进了可再生能源的高效利用。
1.一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述s1具体包括:
3.根据权利要求2所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述s2具体包括:
4.根据权利要求3所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述s3具体包括:
5.根据权利要求4所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述s4具体包括:
6.根据权利要求5所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述s42中的折扣因子γ表示奖励随时间步数增长衰减的速率,即决策过程距离时刻t越远,其利益关联越小,表示为:
7.根据权利要求6所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述s5具体包括:
8.根据权利要求7所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述损失函数tdorror的计算公式为:
9.根据权利要求8所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述梯度下降法的计算公式为:
10.根据权利要求9所述的一种基于强化学习的电动汽车可调充电量动态估计方法,其特征在于,所述损失函数l(actor)的计算公式为: