一种基于深度强化学习的四足机器人运动控制方法

    技术2024-12-04  20


    本发明属于机器人控制,涉及一种基于深度强化学习的四足机器人运动控制方法。


    背景技术:

    1、随着当前机器人控制技术的不断发展,四足机器人的应用也逐渐广泛。相比轮式、履带式机器人,四足机器人具有较高的自由度,离散的落足点等特点,在复杂地形作业方面展现了巨大优势,可以广泛应用于搜救、侦察、工业巡检、未知环境探索等领域。

    2、然而,四足机器人的高自由度同时也给运动控制带来了极大的挑战。近些年来,有许多基于模型的方法被应用于四足机器人的运动控制问题,但这类控制方法往往需要对各种场景精心设计,但也难以避免出现边界情况(corner cases)。相比之下,强化学习方法能够通过试错自主地学习一个运动控制器,该运动控制能够在多种场景下取得较好的控制效果。这种方法往往需要先在仿真器中进行训练,之后部署在现实的四足机器人上。但由于大多数仿真器无法完全模拟现实环境的复杂性,这些控制器在从仿真到现实的迁移(sim-to-real transfer)过程中往往会有比较大的性能损失。


    技术实现思路

    1、本发明提供了一种基于深度强化学习的四足机器人运动控制算法,可以在仿真中自动学习运动策略,降低仿真到现实的差异,实现四足机器人的鲁棒运动。

    2、本发明采用的技术方案是:

    3、一种基于深度强化学习的四足机器人运动控制算法,具体步骤如下:

    4、s1,建立四足机器人的模型,包括用于仿真四足机器人的动力学模型和用于辨识和仿真四足机器人的电机驱动器的驱动器模型,所述驱动器模型采用经验驱动器模型(empirical actuator model,eam);

    5、s2、把四足机器人的运动过程描述为马尔可夫过程,设计奖励函数,使用深度强化学习算法在s1中建立的仿真环境中,使用多损失函数的近端策略优化(multi-lossproximal policy optimization,mlppo)算法优化四足机器人的运动策略,训练得到运动控制器;

    6、s3、将训练得到的运动控制器部署到四足机器人上。

    7、进一步,步骤s1具体包括以下步骤:

    8、s11、建立四足机器人的动力学模型,包括四足机器人的基座质量及惯性张量、各关节连杆质量及惯性张量、各关节安装位置和限位、各关节碰撞模型;

    9、s12、建立四足机器人的驱动器模型,经验驱动器模型数学表达式如下:

    10、

    11、

    12、其中,qt和为t时刻关节的位置和速度,tin为关节的输入延迟,为t-tin时刻给定的期望关节位置,和为比例微分增益,为关节的期望输出力矩;tout为驱动器力矩的输出延迟,τm为电机的外部特性曲线;电机的外部特性曲线即电机输出最大的力矩随电机转速的变化曲线。

    13、进一步,步骤s11中产生的模型由一个统一机器人描述格式(unified roboticsdescription format,urdf)文件描述,使用有接触的多关节动力学(multi-jointdynamics with contact,mujoco)对机器人模型进行模拟。

    14、进一步,步骤s2具体包括以下步骤:

    15、s21、把四足机器人的运动过程描述为马尔可夫过程(markov decision process,mdp),包括状态空间动作空间状态转移函数以及奖励函数在t时刻,参数化策略πθ根据历史状态产生动作环境基于状态转移函数更新状态并计算奖励mdp的目标为最大化折扣奖励和其中为数学期望,γ为奖励的折扣系数;

    16、s22、在仿真环境中收集训练数据,在每个环境步中,收集当前环境状态、由策略给出当前帧的动作、将动作通过经验驱动器模型转化为关节力矩、运行仿真得到下一帧状态、根据两帧状态和动作计算奖励值,并将每个状态保存在缓存中;

    17、s23、在收集了一定数量的状态后,使用多损失函数的近端策略优化(multi-lossproximal policy optimization,mlppo)更新策略;一个参数化策略可以表示为动作对于状态的条件概率pθ(at|st),其中θ为策略的参数;mlppo的优化目标为

    18、minlppo+wsymmetrylsymmetry+wsmoothlsmooth

    19、其中,lppo为标准ppo的损失函数;

    20、

    21、其中,at为t时刻下的优势,θ′为收集数据时的策略的参数,ε为裁剪比率;lsymmetry和lsmooth为针对四足机器人设计的特殊目标函数,分别为对称损失和平滑损失,wsymmetry和wsmooth分别为这两个目标函数的权重。这两个目标函数可以表示为

    22、

    23、

    24、其中,和分别代表状态和动作的对称映射。

    25、进一步,步骤s21中的状态空间包括机器人线速度指令cx,cy、角速度指令cr、3维基座线速度v、3维基座角速度ω、12维关节角q、12维关节角速度以及基座横滚角ψx和俯仰角ψy。

    26、进一步,步骤s21中的动作空间为12个关节角的期望角度。

    27、进一步,步骤s21中的奖励函数是一系列奖励的加权和其中包括奖励对给定速度指令的跟踪,对功率和关节动作的惩罚、以及对基座姿态和稳定运动的奖励。

    28、进一步,步骤s3中具体包括以下的步骤:

    29、s31、从四足机器人的机载传感器获得策略网络需要的各种状态量,其中机器人角速度和姿态从机器人的惯性测量单元获得;各关节角和关节角速度从关节编码器获得,机器人线速度从状态估计器获得;

    30、s32、以固定的频率在四足机器人的运动控制器上实时推理策略网络产生动作,即期望关节位置,再发送到关节电机实现全身控制。

    31、本发明的有益效果:

    32、1、可以在仿真中自动学习运动策略,降低仿真到现实的差异,实现四足机器人的鲁棒运动。

    33、2、采用经验驱动器模型eam,用于辨识实际机器人的驱动器和运动策略的训练,降低仿真与现实的差距。

    34、3、通过强化学习方法实现四足机器人对给定速度指令的精准跟踪,通过多损失函数的强化学习框架,在最大化奖励函数的同时优化策略的对称性和平滑度,从而策略可以驱动四足机器人以4.2m/s的速度高速奔跑,并在较宽的指令范围内实现了低于0.07m/s的速度跟踪误差。而且策略具有极佳的对称性、平滑度和美观性,并在能量效率方面超过基于模型的控制器。



    技术特征:

    1.一种基于深度强化学习的四足机器人运动控制算法,具体步骤如下:

    2.根据权利要求1所述的一种基于深度强化学习的四足机器人运动控制算法,其特征在于:步骤s1具体包括以下步骤:

    3.根据权利要求2所述的一种基于深度强化学习的四足机器人运动控制算法,其特征在于:步骤s11中产生的模型由一个统一机器人描述格式文件描述,使用有接触的多关节动力学对机器人模型进行模拟。

    4.根据权利要求1所述的一种基于深度强化学习的四足机器人运动控制算法,其特征在于:步骤s2具体包括以下步骤:

    5.根据权利要求4所述的一种基于深度强化学习的四足机器人运动控制算法,其特征在于:步骤s21中的状态空间包括机器人线速度指令cx,cy、角速度指令cr、3维基座线速度v、3维基座角速度ω、12维关节角q、12维关节角速度以及基座横滚角ψx和俯仰角ψy。

    6.根据权利要求4所述的一种基于深度强化学习的四足机器人运动控制算法,其特征在于:步骤s21中的动作空间为12个关节角的期望角度。

    7.根据权利要求4所述的一种基于深度强化学习的四足机器人运动控制算法,其特征在于:步骤s21中的奖励函数是一系列奖励的加权和其中包括奖励对给定速度指令的跟踪,对功率和关节动作的惩罚、以及对基座姿态和稳定运动的奖励。

    8.根据权利要求1所述的一种基于深度强化学习的四足机器人运动控制算法,其特征在于:步骤s3中具体包括以下的步骤:


    技术总结
    一种基于深度强化学习的四足机器人运动控制算法,具体步骤如下:S1,建立四足机器人的模型,包括用于仿真四足机器人的动力学模型和用于辨识和仿真四足机器人的电机驱动器的驱动器模型,所述驱动器模型采用经验驱动器模型;S2、把四足机器人的运动过程描述为马尔可夫过程,设计奖励函数,使用深度强化学习算法在S1中建立的仿真环境中,使用多损失函数的近端策略优化算法优化四足机器人的运动策略,训练得到运动控制器;S3、将训练得到的运动控制器部署到四足机器人上。本发明可以在仿真中自动学习运动策略,降低仿真到现实的差异,实现四足机器人的鲁棒运动。

    技术研发人员:刘勇,朱承睿,张震,侯典泳
    受保护的技术使用者:浙江大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-23016.html

    最新回复(0)