一种依托强化学习的PID轨迹跟踪控制方法及装置

    技术2025-07-10  27


    本发明涉及自动驾驶,特别是指一种依托强化学习的pid轨迹跟踪控制方法及装置。


    背景技术:

    1、运动控制是自动驾驶领域的核心技术,其主要分为纵向控制和横向控制两个部分。其中,纵向控制是指对汽车加速和制动机制的精细调节,这一领域的技术已相对成熟。横向控制则通过精确输出控制量来操纵汽车的方向盘,进而引导车辆准确贴合预定的轨迹,致力于实现轨迹跟踪的目标。目前流行的轨迹跟踪控制策略包括预测控制、模糊控制和自适应控制等多种方法。预测控制技术依赖于建立的预测模型和既定的约束条件,通过在线计算来持续优化控制指令序列。然而,面对计算资源的限制,这种技术往往难以在实际控制中达到理想的计算速度。模糊控制策略依赖于主观经验来构建复杂的模糊规则和隶属函数体系,这使得其设计难以达到系统化和可靠性的要求。自适应控制技术同样需要依托复杂的动态模型,而这些模型在实际控制中往往难以准确获得。伴随技术的不断进步,研究者们开始探寻更为先进的数据驱动控制器设计方法。近年来,一些依托于神经网络的学习型控制方法在机器人、自动驾驶等控制任务中展现出了强大的性能。然而,由于神经网络的不可解释性,直接依靠神经网络进行控制往往缺乏安全性和稳定性等方面的保证,一定程度限制了学习型方法的进一步应用。

    2、作为控制领域中常见的控制器类型,pid(proportional-integral-derivative,比例-积分-微分)控制器具有结构简单、鲁棒性强和可靠性高的特点,因而常被用于解决各类控制问题。特别是在一些siso(single-input single-output,单输入单输出)系统中,pid控制器因其独特的无需模型特性确保了其较高的计算效率和鲁棒性能。然而,在一些mimo(multiple-input multiple-output,输入多输出)的任务中,如车辆轨迹跟踪控制,其纵向和横向控制之间往往存在着紧密的耦合关系,仅靠单一的参数调整通常难以满足系统的控制需求。此外,实现准确可靠的跟踪控制往往需要大量的人为调参工作。


    技术实现思路

    1、为了解决当前车辆轨迹跟踪控制的计算实时性差、应用可靠性弱和依赖复杂动态模型的技术问题,本发明实施例提供了一种依托强化学习的pid轨迹跟踪控制方法及装置。所述技术方案如下:

    2、一方面,提供了一种依托强化学习的pid轨迹跟踪控制方法,该方法由pid轨迹跟踪控制设备实现,该方法包括:

    3、s1、获取待控制自动驾驶车辆的当前状态、参考轨迹和实际运行误差。

    4、s2、构建车辆轨迹跟踪控制的策略模型。

    5、s3、将当前状态和参考轨迹输入至车辆轨迹跟踪控制的策略模型,得到pid控制参数。

    6、s4、将pid控制参数和实际运行误差输入至pid控制器,得到自动驾驶车辆的控制量,根据自动驾驶车辆的控制量,完成自动驾驶车辆轨迹跟踪控制。

    7、可选地,s2中的车辆轨迹跟踪控制的策略模型的构建过程,包括:

    8、s201、确定初始条件以及参数初始化。

    9、其中,确定初始条件包括:确定离散间隔和预测时域,获取参考轨迹、期望速度信息以及自车状态。

    10、参数初始化包括:初始化pid控制器和强化学习策略。

    11、s202、确定初始条件以及参数初始化后,获取采用数学方程描述的车辆坐标系下的参考轨迹的连续曲线,根据参考轨迹的连续曲线,确定当前时刻跟踪目标点,获取当前时刻跟踪目标点在大地坐标下的坐标。

    12、s203、根据当前时刻跟踪目标点在大地坐标下的坐标、离散间隔、预测时域以及预设的预测横坐标差,确定预测参考点,获取预测参考点的参考信息。

    13、s204、根据当前时刻的自车状态以及预测参考点的参考信息,得到下一时刻的跟踪误差。

    14、s205、根据下一时刻的跟踪误差,构建目标奖励函数。

    15、s206、根据当前时刻pid控制器的输出控制量,得到下一时刻跟踪目标点。

    16、s207、根据下一时刻跟踪目标点,获取车辆的观测信息。

    17、s208、根据车辆的观测信息以及目标奖励函数,构建车辆轨迹跟踪控制的策略模型的输入。

    18、s209、设置车辆轨迹跟踪控制的策略模型的动作约束条件。

    19、s210、根据车辆轨迹跟踪控制的策略模型的输入以及动作约束条件,采用强化学习算法,计算目标奖励函数,进而得到pid控制参数。

    20、可选地,s204中的根据当前时刻的自车状态以及预测参考点的参考信息,得到下一时刻的跟踪误差,包括:

    21、根据当前时刻的自车状态,通过强化学习,得到当前时刻pid控制器参数。

    22、根据当前时刻pid控制器参数,得到当前时刻pid控制器的输出控制量。

    23、根据当前时刻的自车状态以及当前时刻pid控制器的输出控制量,得到下一时刻的自车状态。

    24、根据下一时刻的自车状态以及预测参考点的参考信息,得到下一时刻的跟踪误差。

    25、可选地,s205中的目标奖励函数,如下式(1)所示:

    26、r(x,xref,umv,δa)=e(x,xref)tpe(x,xref)+umvtqumv+δatrδa  (1)

    27、式中,r(x,xref,umv,δa)表示目标奖励函数,x表示自车状态,xref表示预测参考点的参考信息,umv=[ωsteer,ax]t表示pid控制器的输出控制量,ωsteer为方向盘转角,ax为输出的纵向加速度,δa表示策略输出变化量,e(x,xref)表示跟踪误差,t表示矩阵转置,p表示用于控制跟踪误差的对角正定矩阵,q表示用于控制输出控制量的对角正定矩阵,r表示用于控制策略输出变化量的对角正定矩阵。

    28、可选地,跟踪误差,满足下式(2):

    29、

    30、式中,yt+1表示t+1时刻车辆在自车坐标系上的纵向位置,表示t+1时刻预测参考点的参考信息中的纵坐标,表示t+1时刻车辆在自车坐标系上的航向角,表示t+1时刻预测参考点的参考信息中的航向角,ut+1表示t+1时刻车辆在自车坐标系上的纵向前进速度,表示t+1时刻预测参考点的参考信息中的纵向前进速度,δyt+1表示t+1时刻的横向误差,表示t+1时刻的航向角误差,δut+1表示t+1时刻的速度误差。

    31、策略输出变化量,满足下式(3):

    32、

    33、式中,表示t时刻下方向盘转角pid控制器的比例增益,表示t时刻下方向盘转角pid控制器的积分增益,表示t时刻下方向盘转角pid控制器的微分增益,表示t时刻下纵向加速度pid控制器的比例增益,表示t时刻下纵向加速度pid控制器的积分增益,表示t时刻下纵向加速度pid控制器的微分增益,表示t+1时刻下角速度pid控制器的比例增益变化量,表示t+1时刻下角速度pid控制器的积分增益变化量,表示t+1时刻下角速度pid控制器的微分增益变化量,表示t+1时刻下纵向加速度pid控制器的比例增益变化量,表示t+1时刻下纵向加速度pid控制器的积分增益变化量,表示t+1时刻下纵向加速度pid控制器的微分增益变化量。

    34、可选地,s210中的根据车辆轨迹跟踪控制的策略模型的输入以及动作约束条件,采用强化学习算法,计算目标奖励函数,进而得到pid控制参数,包括:

    35、根据车辆轨迹跟踪控制的策略模型的输入、动作约束条件以及强化学习算法,采用actor-critic结构,学习值分布目标函数以及策略函数,计算目标奖励函数,进而得到pid控制参数。

    36、可选地,s4中的pid控制器包括:横向误差pid控制器和速度误差pid控制器。

    37、其中,横向误差pid控制器,如下式(4)所示:

    38、

    39、式中,δωsteer表示方向盘转角变化量,δyt表示t时刻的横向误差,表示t时刻下方向盘转角pid控制器的比例,表示t时刻下方向盘转角pid控制器的积分,表示t时刻下方向盘转角pid控制器的微分增益。

    40、速度误差pid控制器,如下式(5)所示:

    41、

    42、式中,δax表示纵向加速度变化量,δut表示t时刻的纵向速度误差,表示t时刻下纵向加速度pid控制器的比例,表示t时刻下纵向加速度pid控制器的积分,表示t时刻下纵向加速度pid控制器的微分增益。

    43、另一方面,提供了一种依托强化学习的pid轨迹跟踪控制装置,该装置应用于依托强化学习的pid轨迹跟踪控制方法,该装置包括:

    44、获取模块,用于获取待控制自动驾驶车辆的当前状态、参考轨迹和实际运行误差。

    45、构建模块,用于构建车辆轨迹跟踪控制的策略模型。

    46、输入模块,用于将当前状态和参考轨迹输入至车辆轨迹跟踪控制的策略模型,得到pid控制参数。

    47、输出模块,用于将pid控制参数和实际运行误差输入至pid控制器,得到自动驾驶车辆的控制量,根据自动驾驶车辆的控制量,完成自动驾驶车辆轨迹跟踪控制。

    48、另一方面,提供一种pid轨迹跟踪控制设备,所述pid轨迹跟踪控制设备包括:处理器;存储器,所述存储器上存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,实现如上述依托强化学习的pid轨迹跟踪控制方法中的任一项方法。

    49、另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行以实现上述依托强化学习的pid轨迹跟踪控制方法中的任一项方法。

    50、本发明实施例提供的技术方案带来的有益效果至少包括:

    51、本发明实施例中,利用强化学习算法赋予多pid控制的耦合性,将本就有着广泛使用的pid应用拓展到了mimo的相关控制任务,适用范围广;本发明基于预测时刻参考信息求解误差量,消除了误差反馈的滞后性,控制及时可靠;本发明构建控制问题时保留了被控对象模型的非线性特性,控制精度高;本发明通过设计离线训练策略网络的损失函数,将在线优化问题转化为策略网络参数的离线求解,不需要存储大量的状态到控制量映射关系,节约内存资源。


    技术特征:

    1.一种依托强化学习的pid轨迹跟踪控制方法,其特征在于,所述方法包括:

    2.根据权利要求1所述的依托强化学习的pid轨迹跟踪控制方法,其特征在于,所述s2中的车辆轨迹跟踪控制的策略模型的构建过程,包括:

    3.根据权利要求2所述的依托强化学习的pid轨迹跟踪控制方法,其特征在于,所述s204中的根据当前时刻的自车状态以及预测参考点的参考信息,得到下一时刻的跟踪误差,包括:

    4.根据权利要求2所述的依托强化学习的pid轨迹跟踪控制方法,其特征在于,所述s205中的目标奖励函数,如下式(1)所示:

    5.根据权利要求4所述的依托强化学习的pid轨迹跟踪控制方法,其特征在于,所述跟踪误差,满足下式(2):

    6.根据权利要求2所述的依托强化学习的pid轨迹跟踪控制方法,其特征在于,所述s210中的根据所述车辆轨迹跟踪控制的策略模型的输入以及动作约束条件,采用强化学习算法,计算目标奖励函数,进而得到pid控制参数,包括:

    7.根据权利要求1所述的依托强化学习的pid轨迹跟踪控制方法,其特征在于,所述s4中的pid控制器包括:横向误差pid控制器和速度误差pid控制器;

    8.一种依托强化学习的pid轨迹跟踪控制装置,所述依托强化学习的pid轨迹跟踪控制装置用于实现如权利要求1-7任一项所述依托强化学习的pid轨迹跟踪控制方法,其特征在于,所述装置包括:

    9.一种pid轨迹跟踪控制设备,其特征在于,所述pid轨迹跟踪控制设备包括:

    10.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1至7任一项所述的方法。


    技术总结
    本发明涉及自动驾驶领域,特别是指一种依托强化学习的PID轨迹跟踪控制方法及装置,方法包括:获取待控制自动驾驶车辆的当前状态、参考轨迹和实际运行误差;构建车辆轨迹跟踪控制的策略模型;将当前状态和参考轨迹输入至车辆轨迹跟踪控制的策略模型,得到PID控制参数;将PID控制参数和实际运行误差输入至PID控制器,得到自动驾驶车辆的控制量,根据自动驾驶车辆的控制量,完成自动驾驶车辆轨迹跟踪控制。本发明利用强化学习强大的学习能力结合PID本身的稳定性以及强鲁棒性,实现车辆轨迹跟踪控制的高实时、高稳定和高精度在线计算。解决当前车辆轨迹跟踪控制的计算实时性差、应用可靠性弱和依赖复杂动态模型等问题。

    技术研发人员:黄晨,段京良,李升波,刘畅,李轩,朱哿宇,马飞
    受保护的技术使用者:北京科技大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-33611.html

    最新回复(0)