基于强化学习的多轴电动重卡制动能量回收控制方法与流程

    技术2024-12-12  15


    本发明涉及车辆电力制动,具体的,本发明应用于多轴电动重卡的动态电能量回收式制动领域,特别是涉及一种基于强化学习的多轴电动重卡制动能量回收控制方法。


    背景技术:

    1、多轴重卡具有出色的运载能力,在交通运输行业中发挥着重要作用。多轴重卡的质量大,且其质量随载货量而变化,多轴重卡的轴数多且轴距长,因此对车辆的能量回收控制和制动稳定性控制有较高要求。

    2、具体地,多轴重卡由牵引车和挂车组成。

    3、其中,牵引车的制动构型为:前轴使用一套气压制动,中轴与后轴共用一套气压制动,中轴左右两侧以及后轴各有一个电机用于提供电制动力。

    4、其中,挂车的制动构型为:三轴共用一套气压制动。

    5、此外,牵引车与挂车的制动部件统一由多轴重卡的整车控制单元进行综合控制;基于上述多轴重卡的制动构型,其制动能量回收控制的技术难点主要体现于如下几个方面:

    6、第一方面,电动重卡制动控制元件及相关元件较多,包括3个电机、动力电池以及3组气压制动,相互之间耦合关联性强,需要根据不同的期望制动强度和车辆状态,对电机制动和气压制动进行动态协调。

    7、第二方面,由于载货后的多轴重卡的质心高、惯量大且轴数多,在其制动时,相较于乘用车更容易产生侧滑等失稳状态;现有的前后轴制动力分配控制策略更适用于两轴车辆,无法直接适用于多轴重卡。

    8、第三方面,为保证行车安全,必须充分考虑牵引车与挂车的铰接关系,控制过程中需要满足相应的约束条件,需要避免折叠等危险工况。

    9、由此可见,多轴电动重卡的制动能量回收控制方案无法直接应用现有的能量回收制动策略,如果不经改进直接应用于多轴电动重卡,会存在如下问题:

    10、1、如中国专利cn117227491a公开的一种电动牵引车与电动挂车的再生制动协调控制方法,其通过将车辆制动过程中的控制进行模块划分,对电动牵引车与电动挂车的再生制动过程进行协调控制。但是,该方案仅针对制动过程中牵引车与挂车的折叠风险进行了评估,并未给出针对危险工况下车辆各控制元件的具体控制指令或计算方法,并未对危险工况进行解决或避免。

    11、2、如中国专利cn115793445b公开的一种基于多智能体深度强化学习的混合动力汽车控制方法,其采用深度强化学习算法建立再生制动控制策略,相比于人工调整权重系数的加权和法优化方案,具有灵活性强、实时性和优化效果明显等优势。但是,该方案侧重两轴车辆的研究,对于构型更加复杂的多轴车辆而言,制动过程中车辆载荷发生明显转移,制动控制难度更大,其缺少针对性的制动能量回收控制策略;此外,该方案仅考虑车辆制动过程中的纵向受力情况,若应用于多轴半挂车,则还需要考虑横向的制动稳定性,尤其是折叠失稳工况,以确保制动安全。

    12、3、如中国专利cn116588055a公开的一种多轴商用车的复合制动分配方法和装置,其采用基于规则的方法设计了电液制动力分配方法,将不同制动强度下的制动力分配问题转化为制动模式切换问题。此方案在部分工况下可以发挥电机制动优势,但其简单的模式划分方式并未覆盖所有可能工况,算法的鲁棒性差,同时也未考虑制动状态下挂车的受力情况,仍会在制动过程中存在风险。

    13、4、除上述方案外,还存在其他的车辆制动控制方法仅单独考虑制动能量回收率或制动稳定性,这类控制策略也无法应用于多轴电动重卡的车辆构型。

    14、5、另外,还有研究采用了分层控制策略的方法,但这种方法增加了系统的复杂性和响应时间,且可能因为某层的误差影响整个控制系统的控制精度,而控制精度的偏差在多轴电动重卡上的影响显著,也可能会导致多轴电动重卡陷入危险工况中。

    15、综上所述,现有技术中针对多轴电动重卡的车辆构型,尚未存在深入的、针对性强的能量回收控制方法研究。


    技术实现思路

    1、本发明的目的在于,提供一种基于强化学习的多轴电动重卡制动能量回收控制方法,进而解决现有技术中存在的上述所有问题或问题之一。

    2、为解决上述技术问题,本发明的具体技术方案如下:

    3、本发明提供一种基于强化学习的多轴电动重卡制动能量回收控制方法,包括以下步骤:

    4、构建基于深度强化学习的制动能量回收控制框架,其中:配置深度强化学习控制策略,定义深度强化学习控制策略的智能体状态、动作和奖励,建立多元训练环境并采集经验数据,基于所述智能体状态、动作和奖励、所述多元训练环境和经验数据训练所述深度强化学习控制策略;

    5、将训练后的所述深度强化学习控制策略作为制动能量回收策略部署至多轴电动重卡,调用所述制动能量回收策略根据所述多轴电动重卡的目标输入数据输出所述多轴电动重卡的控制指令。

    6、在其中一种实施方式中,所述配置深度强化学习控制策略,包括:

    7、设置基于两个价值网络、一个策略网络和三个目标网络的深度神经网络;

    8、三个所述目标网络分别与两个所述价值网络以及一个所述策略网络对应;

    9、所述策略网络,用于根据状态做出动作;

    10、所述价值网络,用于评价状态下对应动作的好坏程度;

    11、所述目标网络,用于切断网络训练过程中的自举现象。

    12、在其中一种实施方式中,所述定义深度强化学习控制策略的智能体状态、动作和奖励,包括:

    13、定义所述智能体状态为:

    14、;

    15、其中,为智能体状态;为各轮轮速,为牵引车速度;为挂车速度;为目标制动减速度;为牵引车加速度;为挂车加速度;为牵引车前轴左轮转角;为牵引车航向角;为挂车航向角;为牵引车横摆角速度;为挂车横摆角速度;为车辆当前电池最大可充电功率;为各电机转速,;为当前各气制动实际压力,;

    16、定义所述智能体的动作为:;

    17、其中,为智能体的动作;为各电机目标转矩,为各气制动目标压力,;

    18、设置制动效果奖励函数、制动能量回收率奖励函数、危险工况奖励函数和滑移率奖励函数,将所述制动效果奖励函数、所述制动能量回收率奖励函数、所述危险工况奖励函数和所述滑移率奖励函数的加权求和结果作为总奖励函数。

    19、在其中一种实施方式中,所述制动效果奖励函数为:

    20、;

    21、其中,r1为制动效果奖励;a1为权重系数。

    22、在其中一种实施方式中,所述制动能量回收率奖励函数为:

    23、;

    24、其中,为制动能量回收率奖励;为电机制动功率;为气压制动功率;为权重系数。

    25、在其中一种实施方式中,所述危险工况奖励函数为:

    26、;

    27、其中,为危险工况奖励;为牵引车与挂车航向角差异;为横摆角速度差异阈值;为权重系数。

    28、在其中一种实施方式中,所述滑移率奖励函数的定义操作,包括:

    29、设置初步第四项奖励函数:

    30、;

    31、其中,为有关滑移率的初步第四项奖励;为高斯分布函数参数;为车辆各轮的滑移率,由车速和各轮轮速求得;为路面最大路面附着系数;为权重系数;

    32、设置抱死惩罚函数:;

    33、其中;为抱死惩罚;为权重系数;为控制抱死惩罚增长速度的系数;

    34、根据所述多轴电动重卡所有车轮的所述第四项奖励函数和所述抱死惩罚函数进行函数整合,得到所述滑移率奖励函数:

    35、。

    36、其中,为滑移率奖励。

    37、在其中一种实施方式中,所述建立多元训练环境并采集经验数据,包括:

    38、建立高精度多轴重卡车辆仿真模型;

    39、设计若干多轴重卡的行驶工况;

    40、在若干所述行驶工况下进行所述高精度多轴重卡车辆仿真模型的模拟训练,对车辆仿真模型进行实时数据收集,获取车辆状态信息;

    41、对收集的数据进行滤波、降噪和校准处理;

    42、对所述滤波、降噪和校准处理后的数据进行归一化处理;

    43、将归一化处理后的数据作为所述经验数据。

    44、在其中一种实施方式中,所述基于所述智能体状态、动作和奖励、所述多元训练环境和经验数据训练所述深度强化学习控制策略,包括:

    45、初始化所述深度强化学习控制策略的神经网络参数,之后循环执行训练步骤至累积奖励收敛达到最大;

    46、所述初始化,包括:

    47、使用两个价值网络和一个策略网络,分别为:,,;

    48、将三个神经网络分别对应的三个目标网络一起使用:,,;

    49、在训练前初始化策略网络和价值网络,随机选取参数:, ,;

    50、在训练策略网络和价值网络时,每次从经验回放池中随机抽取一个四元组,记作;采用下标表示神经网络当前参数,采用下标表示更新后的参数。

    51、在其中一种实施方式中,所述训练步骤,包括:

    52、调用目标网络做预测;

    53、调用两个目标价值网络做预测;

    54、计算td目标;

    55、调用两个价值网络做预测;

    56、计算td误差;

    57、更新价值网络;

    58、每隔k轮更新一次策略网络和三个目标网络。

    59、本发明技术方案的有益效果是:

    60、1、本发明所述的基于强化学习的多轴电动重卡制动能量回收控制方法,能够基于深度强化学习,让多轴电动重卡不断与路面进行交互探索,实现最优控制策略的不断学习,根据目标制动减速度输入即可直接计算出各制动元件的控制指令,基于深度强化学习进行基于数据驱动的策略寻优,提升控制效率和控制精准度。

    61、2、本发明所述的基于强化学习的多轴电动重卡制动能量回收控制方法,基于牵引车和挂车的铰接约束进行多轴重卡车辆的制动控制调优,进而直接提升车辆的稳定性和安全性,通过统一控制制动能量回收和制动稳定性,实现更加高效和安全的能量回收过程。

    62、3、本发明所述的基于强化学习的多轴电动重卡制动能量回收控制方法,无需手动设计控制策略,基于数据驱动和深度强化学习自动进行策略寻优,控制过程中只关注车辆运动状态,省略内部复杂耦合机理的规则搭建,最终输入目标制动减速度即可获得端到端的控制动作,具有较高的计算效率以及实时性,响应迅速,进一步降低控制过程中因精度产生的安全风险。


    技术特征:

    1.一种基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于:

    3.根据权利要求1所述的基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于:

    4.根据权利要求3所述的基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于:

    5.根据权利要求4所述的基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于:

    6.根据权利要求5所述的基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于:

    7.根据权利要求6所述的基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于:

    8.根据权利要求7所述的基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于:

    9.根据权利要求2所述的基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于:

    10.根据权利要求9所述的基于强化学习的多轴电动重卡制动能量回收控制方法,其特征在于:


    技术总结
    本发明公开了一种基于强化学习的多轴电动重卡制动能量回收控制方法,所述方法包括以下步骤:构建基于深度强化学习的制动能量回收控制框架,其中:配置深度强化学习控制策略,定义深度强化学习控制策略的智能体状态、动作和奖励,建立多元训练环境并采集经验数据,训练深度强化学习控制策略;将训练后的深度强化学习控制策略作为制动能量回收策略部署至多轴电动重卡,调用制动能量回收策略根据多轴电动重卡的目标输入数据输出多轴电动重卡的控制指令;本发明能够采用先进的数据驱动及深度强化学习控制算法实现制动能量回收控制,提升能量回收效率并兼顾制动稳定性,依据目标制动减速度输入即可获得端到端的控制动作。

    技术研发人员:刘翼,闫鹏翔,陈传玺,张家瑞,陈锐,孟祥林,陈畅
    受保护的技术使用者:江苏智能无人装备产业创新中心有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-23486.html

    最新回复(0)