一种四足单臂机器人运动控制方法、系统及可读存储介质

    技术2025-02-02  51


    本发明涉及四足单臂机器人运动控制,更具体的说是涉及一种四足单臂机器人运动控制方法、系统及可读存储介质。


    背景技术:

    1、目前,四足单臂机器人具有静态稳定、高负载和高鲁棒性的特点,一直是四足单臂机器人领域长期关注的研究热点。但对于只有腿的四足单臂机器人所能实现的功能具有很大的局限性,因为即使是最基本的任务,除了视觉巡查,也需要某种形式的操作,这引起了对于四足单臂机器人的广泛研究。四足单臂机器人通过在背上添加机械臂,可以具备更加强大的操作能力。在日常生产与开发中,四足单臂机器人可以利用机械臂进行零件的抓取和组装,提高生产效率;四足单臂机器人可以利用机械臂进行物资的搜寻与救援;四足单臂机器人可以利用机械臂传递物体给其他四足单臂机器人或人类,实现工作的分工和合作。四足单臂机器人结合了四足单臂机器人的稳定性和机械臂的灵活性,能够适应各种复杂环境和实现各种任务。

    2、目前在四足单臂机器人运动的过程中,通常将机械臂当作累赘,将其以某种姿态固定在四足单臂机器人背部,避免对四足的运动产生干扰。然而在自然界中,尾部经常作为辅助运动的有利武器,例如当猫行走在陡峭的房顶之间,尾部往往左右摇摆以平衡身体,猎豹经常利用尾巴完成高速运动下的急转弯。因此,探究四足单臂机器人在运动过程中的足臂协调能力是很有必要的。

    3、随着机器学习技术的发展,强化学习在各个领域取得了显著的成果。将强化学习应用于四足单臂机器人运动控制领域,通过试错和反馈机制不断优化自身的行为,可以实现腿部和机械臂之间的协调控制,实现低能耗、高动态和鲁棒性的控制,在面对未知情况时也能够做出适应性的决策。但目前基于强化学习的四足单臂机器人运动控制方法大多采用“半耦合”或逐步增加可控自由度的方式进行训练,并不能完全发挥强化学习的优势,容易导致腿部和机械臂之间缺乏协调以及运动缓慢、不平滑和不自然等,而在四足单臂机器人运动过程中,足臂协调运动控制是很重要的。

    4、因此,如何提供一种能够解决上述问题的四足单臂机器人运动控制方法是本领域技术人员亟需解决的问题。


    技术实现思路

    1、有鉴于此,本发明提供了一种四足单臂机器人运动控制方法、系统及可读存储介质,采用整体式运动控制策略,探究四足单臂机器人运动过程中的足臂协调控制能力,并最终在仿真环境下验证了控制策略的有效性。

    2、为了实现上述目的,本发明采用如下技术方案:

    3、一种四足单臂机器人运动控制方法,包括以下步骤:

    4、获取四足单臂机器人运动过程中的命令指令信息数据以及自身状态信息数据;

    5、构建运动控制策略,将所述命令指令信息数据以及所述自身状态信息数据输入至运动控制策略中得到对应的目标关节角度数据;

    6、构建价值评价策略,将所述命令指令信息数据以及所述自身状态信息数据输入至价值评价策略中得到对应的累计奖励期望值数据;

    7、将所述目标关节角度数据输入至四足单臂机器人中进行运动控制,并计算即时奖励值数据;

    8、根据获得的累计奖励期望值数据和即时奖励值数据,对运动控制策略以及价值评价策略参数进行调整优化;

    9、重复上述过程,直至四足单臂机器人在仿真环境中达到理想运行状态;

    10、构建状态评估策略评估四足单臂机器人的机体线速度,在仿真环境中采用监督学习的方式对状态评估策略进行训练;

    11、利用经过优化的运动控制策略以及状态评估策略对四足单臂机器人进行运动控制。

    12、优选的,计算即时奖励值数据的具体过程包括:

    13、将所述目标关节角度数据输入至四足单臂机器人中进行运动控制,根据四足单臂机器人与仿真环境的交互,获取四足单臂机器人当前状态数据;

    14、构建奖励函数,将所述目标关节角度数据以及所述四足单臂机器人当前状态数据输入至所述奖励函数进行计算,得到对应的即时动作奖励值。

    15、优选的,奖励函数的具体表达式为:

    16、rl=rvel-kc(rclear+rslip+rbase+rvz+rjoint+rsmooth)

    17、式中,rl表示奖励函数,rvel表示速度跟随项,rclear表示抬腿高度项,rslip表示腿部滑动项,rbase表示机体方位项,rvz表示机体速度项,rjoint表示关节角度项,rsmooth表示动作平滑项,kc表示课程因子。

    18、优选的,运动控制策略以及价值评价策略的训练过程包括:

    19、采用近端策略优化算法训练所述运动控制策略以及所述价值评价策略;

    20、利用经过训练的所述运动控制策略在仿真环境中收集所述四足单臂机器人的仿真动作数据,并采用监督学习的方法训练所述状态评估策略。

    21、优选的,所述运动控制策略、所述价值评价策略以及所述状态评估策略均为神经网络。

    22、本发明还提供一种四足单臂机器人运动控制系统,包括:

    23、获取模块,用于获取四足单臂机器人运动过程中的命令指令信息数据以及自身状态信息数据;

    24、第一计算模块,用于构建运动控制策略,将所述命令指令信息数据以及所述自身状态信息数据输入至运动控制策略中得到对应的目标关节角度数据;

    25、构建价值评价策略,将所述命令指令信息数据以及所述自身状态信息数据输入至价值评价策略中得到对应的累计奖励期望值数据;

    26、第二计算模块,用于将所述目标关节角度数据输入至四足单臂机器人中进行运动控制,并计算即时奖励值数据;

    27、优化模块,用于根据获得的累计奖励期望值数据和即时奖励值数据,对运动控制策略以及价值评价策略参数进行调整优化;

    28、调整模块,用于重复上述过程,直至四足单臂机器人在仿真环境中达到理想运行状态;

    29、训练模块,用于构建状态评估策略评估四足单臂机器人的机体线速度,在仿真环境中采用监督学习的方式对状态评估策略进行训练;

    30、控制模块,用于利用经过优化的运动控制策略以及状态评估策略对四足单臂机器人进行运动控制。

    31、本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如上述中任一项所述的四足单臂机器人运动控制方法

    32、经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种四足单臂机器人运动控制方法、系统及可读存储介质,采用整体式运动控制策略,探究在运动过程中机械臂对于四足单臂机器人的促进作用。利用强化学习训练四足单臂机器人整体式运动控制策略,在训练的一开始,机械臂就以动态的方式进行训练,也不需要任何的先验知识,最终在仿真环境下验证了算法的可靠性。



    技术特征:

    1.一种四足单臂机器人运动控制方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种四足单臂机器人运动控制方法,其特征在于,计算即时奖励值数据的具体过程包括:

    3.根据权利要求2所述的一种四足单臂机器人运动控制方法,其特征在于,奖励函数的具体表达式为:

    4.根据权利要求1所述的一种四足单臂机器人运动控制方法,其特征在于,运动控制策略以及价值评价策略的训练过程包括:

    5.根据权利要求1所述的一种四足单臂机器人运动控制方法,其特征在于,所述运动控制策略、所述价值评价策略以及所述状态评估策略均为神经网络。

    6.一种利用权利要求1-5任一项所述的一种四足单臂机器人运动控制方法的控制系统,其特征在于,包括:

    7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5中任一项所述的四足单臂机器人运动控制方法。


    技术总结
    本发明提供了一种四足单臂机器人运动控制方法、系统及可读存储介质,涉及四足单臂机器人运动控制技术领域,其中方法包括以下步骤:获取四足单臂机器人运动过程中的命令指令信息数据以及自身状态信息数据;构建运动控制策略,将所述命令指令信息数据以及所述自身状态信息数据输入至运动控制策略中得到对应的目标关节角度数据;构建价值评价策略,将所述命令指令信息数据以及所述自身状态信息数据输入至价值评价策略中得到对应的累计奖励期望值数据等多个步骤;本发明采用整体式运动控制策略,探究四足单臂机器人运动过程中的足臂协调控制能力,并最终在仿真环境下验证了控制策略的有效性。

    技术研发人员:蒋建平,王志远,卓志钦,贾文祯,程旭,曾钦
    受保护的技术使用者:中山大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-25804.html

    最新回复(0)