本发明涉及非道路车辆能量管理,具体涉及一种面向增程式装载机的鲁棒hdp能量管理系统及方法。
背景技术:
1、增程式装载机作为传统装载机实现节能减排的重要途径之一,挖掘其节能减排潜力对整机能耗优化尤为重要。而能量管理策略设计思路的差异性使其能耗优化效果各不相同。近年来,已经有许多专利提出了基于强化学习的能量管理策略,并将其与基于规则和最优控制理论的策略进行对比,以验证其优化效果。但其离线标定和训练过程难以完全体现真实工况,且策略依赖于解析模型,导致策略的鲁棒性和工况适应性较差。此外,装载机作业工况复杂多变,且周期性强,更是给策略的鲁棒性能提出了新的挑战。
2、中国专利申请cn112498334a公开了一种智能网联混合动力汽车的鲁棒能量管理方法及系统,包括:获取基于人机协同的节能驾驶决策和基于智能网联的全局和实时工况更新;基于所述节能驾驶决策和所述全局和实时工况更新,执行基于深度强化学习的能量管理策略;对所述基于深度强化学习的能量管理策略采用策略鲁棒性修正,得到修正后的鲁棒控制策略;将所述修正后的鲁棒控制策略应用于混合动力汽车,得到所述混合动力汽车的能量分配结果。本发明提出的智能网联混合动力汽车的鲁棒能量管理方法,有效解决了深度强化学习能量管理策略的鲁棒性问题,并提升了网联环境下混合动力汽车的节能效果,具有较好的工程应用价值。
3、中国专利申请cn116699991a公开了一种基于动态鲁棒多目标优化的模糊能源管理方法,属于自动化技术领。针对多目标优化算法nsga-iii从适应度函数和选择机制两个角度进行改进,本发明提出了一种改进的算法nsga-iii-sd,同时将基于预测的动态鲁棒评价方法融入基于nsga-iii-sd的模糊ems框架中,提升了控制器在多种工况下的鲁棒性。本发明基于rnsga-iii-sd的动态鲁棒多目标优化模糊能量管理策略不仅满足实时的需求功率和降低了系统能耗,而且改善了锂电池在不同特性驾驶工况输出电流的波动,对延长其使用寿命有重要意义。
4、中国专利申请cn112026744a公开了一种基于dqn变体的混联式混合动力系统能量管理方法,属于混联式混合动力汽车技术领域,可以提高训练收敛速度以及汽车燃油经济性;本发明包括:建立混联式混合动力汽车模型,获取影响所述能量管理策略的环境参数,包括道路坡度和车载质量;利用动态规划(dp)算法,求解得到最优能量管理策略,将经验保存进最优经验池(oeb),结合混合经验回放(her)技术,采用duelingdqn策略训练模型,获得训练后的深度强化学习代理,进行所述混联式混合动力汽车在不同工况下的能量管理。本发明所构建her技术和dqn变体dueling架构可以有效提高训练收敛速度、汽车燃油经济性和算法鲁棒性。
5、上述已提出的鲁棒能量管理专利主要是针对道路车辆,其离线标定和训练过程难以完全体现真实工况,且策略依赖于解析模型,导致策略的鲁棒性和工况适应性较差。然而增程式装载机属于机电液强耦合系统,其在实际作业过程中的工况复杂瞬变和输入扰动容易造成模型参数时变和状态失稳,降低了现有能量管理策略的有效性和可行性。
技术实现思路
1、为了适应增程式装载机的作业环境恶劣、工况复杂多变等特点,本发明考虑到装载机作业过程中环境温度、作业机构负载、坡度等输入扰动,提出一种面向增程式装载机的鲁棒hdp能量管理系统及方法,以提高能量管理策略的工况适应性和鲁棒性,进而优化整车能耗的一致性。
2、为了实现上述技术目的,本发明采用如下技术方案:
3、一种面向增程式装载机的鲁棒hdp能量管理系统,包括控制层和执行层;控制层包括车载数据采集器、需求功率映射模块、车辆系统模型、优化目标函数构建模块、鲁棒hdp能量管理控制器、发动机控制器及bms控制器;hdp表示heuristic dynamicprogramming,即为启发式动态规划;
4、车载数据采集器实时获取车辆的系统状态参数,包括踏板开度p、发动机功率peg、电池功率pbatt、车速v、电池soc(state ofcharge、荷电状态)、环境温度t、作业负载pload、坡度角θ;
5、需求功率映射模块基于车载数据采集器采集的踏板开度p,根据标定好的踏板开度p与需求功率映射曲线,得到驱动电机的需求功率pd;
6、车辆系统模型以采集的当前时刻的发动机功率peg、电池功率pbatt、车速v、电池soc、环境温度t、作业负载pload、坡度角θ作为输入,下一时刻的车速、电池soc作为输出;
7、鲁棒hdp能量管理控制器根据需求功率映射模块获取的需求功率pd、车辆系统模型的输出以及优化目标函数构建模块构建的优化目标函数,运用hdp计算出分配给发动机功率pe和分配给电池包功率pb;
8、发动机控制器用于控制发动机的功率输出,bms控制器用于控制电池包的功率输出;
9、执行层包括发动机、发电机、电池包、整流器、逆变器、驱动总成、变速箱,bms控制器的输出端与电池包连接,发动机控制器输出端与发动机连接,发动机与发电机机械连接,且发动机与发电机组成增程器,发电机通过整流器与电池包电力连接,电池包和整流器电力连接逆变器,逆变器和驱动总成电力连接,驱动总成与变速箱机械连接,变速箱机械连接行走系统和作业系统。
10、优选地,车辆系统模型采用rnn(recurrent neural network递归神经网络)来构建,其中系统状态量x包括车速v和电池包soc,控制量u包括分配给发动机功率pe和分配给电池包功率pb,即x=[v,soc]t,u=[pe,pb]t;输入扰动用ω表示,包括环境温度t、作业负载pload、坡度角θ,即ω=[t,pload,θ];以[u(k)t,x(k)t,ω(k)]t作为rnn网络输入,以下一时刻状态量作为rnn网络输出,构建出rnn车辆系统模型:
11、
12、式中,mh1(k)是rnn网络隐藏层输入;mh2(k)是rnn网络隐藏层的输出,i表示迭代次数,设置最大迭代次数为n;k表示当前时刻,k-1表示上一时刻,k+1表示下一时刻;tansig和purelin函数分别被选为隐藏层和输出层的传递函数,wm1、wm2、wm分别表示输入层到隐藏层的权值矩阵、隐藏层到输出层的权值矩阵、隐藏层到隐藏层的权值矩阵;基于rnn的车辆系统模型的权值训练采用梯度下降法,直至误差达到设定值,其中权值具体训练过程如下:
13、
14、式中,lm表示模型网络的学习目标,表示第i次迭代的隐藏层到输出层权值矩阵wm2的转置矩阵,基于车载数据采集器采集的历史工况信息,对车辆系统模型网络的wm1、wm2、wm进行训练,得到训练好的车辆系统模型;同时,为提高车辆系统模型对工况的适应性和策略的鲁棒性,当车辆运行时间时,车辆系统模型会进行在线训练更新,其中为训练窗口尺寸,n为在线训练次数;
15、能耗优化目标函数表示为:
16、
17、其中,γ∈(0,1]是一个折扣因子,表示离当前时刻越远,对应的瞬时能耗对当前时刻估计的总能耗的影响越小,k0表示初始时刻,kf表示终止时刻,qf(x(k),u(k),ω(k))为瞬时能耗函数,可被简写为qf(k),由下式求解:
18、
19、其中,表示发动机的燃油消耗率,ρf是燃油密度,δt为时间步长,ωm(k)为输入扰动ω(k)已知的界函数,||ω(k)||≤ωm(k),η是一个正常数。
20、优选地,鲁棒hdp能量管理控制器包括控制网络、评价网络1、评价网络2及车辆系统模型网络;
21、控制网络用来根据当前时刻车辆状态[v(k),soc(k)]估计出分配给发动机功率pe(k),并基于pd(k)=pb(k)+pe(k)·ηeg和需求功率映射模块得到的pd(k),计算出pb(k),ηeg表示增程器发电效率;
22、车辆系统模型网络用于根据当前时刻车辆状态[v(k),soc(k)]、控制量[pe(k),pb(k)]、输入扰动[t(k),pload(k),θ(k)]产生下一时刻的车辆状态评价网络1和评价网络2用来根据当前时刻车辆状态[v(k),soc(k)]和估计的下一时刻的车辆状态分别估算出和在此过程中,评价网络和执行网络均利用各自的学习目标ec(k)和ea(k)来进行网络参数的更新调整,最终获得最优控制量并输出给发动机控制器和bms控制器执行;
23、在鲁棒hdp能量管理控制器的设计过程中,因为存在输入扰动,故每一时刻的评价网络和控制网络的内部参数均是变化的;评价网络1和评价网络2的内部网络参数完全相同且同步训练更新;tansig和purelin函数作为隐含层和输出层的传递函数;相应地,评价网络的传递关系表示为:
24、
25、其中,wc1、wc2、wc分别为输入层到隐含层、隐含层到输出层、隐含层到隐含层的权值矩阵;ch1和ch2分别表示隐含层的输入和输出;i表示迭代次数;表示k时刻第i次迭代的整车能耗;
26、评价网络的学习目标是最小化即
27、
28、其中,εc是设定目标误差;利用梯度下降法训练和更新wc1、wc2、wc,具体更新过程如下:
29、
30、lc∈(0,1]表示学习目标;
31、控制网络以最小化为目标,其中为执行网络的输出估计值,令εa是设定目标误差;对于确定的需求功率pd(k),发动机功率pe和电池包功率pb并不是相互独立的,其关系满足:
32、pd(k)=pb(k)+pe(k)·ηeg (8)
33、其中,ηeg表示增程器发电效率;因此,控制向量u(k)表示为[pe(k),pd(k)-pe(k)·ηeg]t,隐含层和输出层的传递函数分别选择为tansig和purelin函数,相应的控制网络的传递关系表示为:
34、
35、其中,wa1、wa2和wa分别为输入层到隐含层、隐含层到输出层及隐含层到隐含层的权值矩阵;ah1和ah2分别表示隐含层的输入和输出;利用梯度下降法来训练和更新wa1、wa2和wa,具体更新过程如下:
36、
37、la∈(0,1]表示学习目标。
38、本发明还提供一种面向增程式装载机的鲁棒hdp能量管理方法,包括如下步骤:
39、s1:利用车载数据采集器获取实时的踏板开度p(k)、发动机功率peg、电池包功率pbatt、速度v(k)、电池包soc(k)、环境温度t(k)、作业负载pload(k)、坡度角θ(k)工况信息;需求功率映射模块基于采集的踏板开度p(k)信息和标定好的踏板开度与需求功率映射曲线,得到驱动电机的需求功率pd(k);
40、s2:判断是否满足,若满足,利用训练窗口内的工况数据信息和式(2),对车辆系统模型进行在线训练更新,并令n=n+1;若不满足,则继续使用上一时刻的车辆系统模型;
41、s3:基于当前时刻状态向量[v(k),soc(k)]t,评价网络1和执行网络分别利用式(5)和(9)计算出和然后基于和pd(k),利用式(8)计算出
42、s4:基于[v(k),soc(k)]t、和[t(k),pload(k),θ(k)],利用车辆系统模型(1)计算出在此基础上,利用评价网络2估计出并根据利用式(4)计算出qf(k);
43、s5:根据qf(k),和计算得到ec(k);根据qf(k)、和计算得到ea(k);
44、s6:判断ec(k)≤εc且ea(k)≤εa是否满足或者迭代次数i>n;如果满足这些条件,将此时的视为最优输出量并输出给实际增程式装载机执行,车辆随即产生新的状态,并令时刻k=k+1,返回执行步骤s1;否则,执行步骤s7;
45、s7:根据式(7)和(10),分别利用ec(k)和ea(k)去调整评价网络和执行网络的权值,随即,返回步骤s3,i=i+1;直至车辆停止运行。
46、与现有技术相比,本发明的有益效果:
47、本发明考虑到装载机作业过程中环境温度、作业机构负载、坡度输入扰动,提出一种面向增程式装载机的鲁棒hdp能量管理系统及方法。该发明利用rnn建立车辆系统模型,在此基础上,构建鲁棒hdp能量管理控制器,通过hdp方法中评价网络和控制网络的强化学习实现当前时刻发动机和电池包功率的优化求解,以获取当前需求功率下的最优控制量。本发明设计的能量管理方法降低了策略对解析模型的依赖性,策略实时性好,且车辆系统模型的在线更新方法提高了能量管理策略的工况适应性和鲁棒性。
1.一种面向增程式装载机的鲁棒hdp能量管理系统,其特征在于,包括控制层和执行层;控制层包括车载数据采集器、需求功率映射模块、车辆系统模型、优化目标函数构建模块、鲁棒hdp能量管理控制器、发动机控制器及bms控制器;
2.根据权利要求1所述的面向增程式装载机的鲁棒hdp能量管理系统,其特征在于,车辆系统模型采用rnn来构建,其中系统状态量x包括车速v和电池包soc,控制量u包括分配给发动机功率pe和分配给电池包功率pb,即x=[v,soc]t,u=[pe,pb]t;输入扰动用ω表示,包括环境温度t、作业负载pload、坡度角θ,即ω=[t,pload,θ];以[u(k)t,x(k)t,ω(k)]t作为rnn网络输入,以下一时刻状态量作为rnn网络输出,构建出rnn车辆系统模型:
3.根据权利要求1所述的面向增程式装载机的鲁棒hdp能量管理系统,其特征在于,鲁棒hdp能量管理控制器包括控制网络、评价网络1、评价网络2及车辆系统模型网络;
4.一种面向增程式装载机的鲁棒hdp能量管理方法,其特征在于,包括如下步骤: