一种基于位置环预训练的人形机器人力矩控制方法

    技术2025-07-08  66


    本发明涉及基于位置环预训练的人形机器人力矩控制方法,属于人形机器人运动控制。


    背景技术:

    1、近年来,得益于人工智能与机器人技术的进步,人形机器人的运动控制问题再次受到广泛关注。传统的机器人控制算法通常依赖于精确的数学模型和预定义的运动规划,过去在四足、双足和人形机器人的运动任务中已经被证明非常有效。值得注意的是,波士顿动力公司的atlas和spot机器人通过使用模型预测控制(mpc)算法,展示了在各种演示中的极高机动性,证明了这些方法的有效性。然而,这些算法对环境的准确建模依赖较大,这在鲁棒性和通用性方面可能会带来重大挑战,特别是在未知或动态变化的环境中,传统控制算法的性能可能会显著下降,限制了它们在更广泛的应用场景中的有效性。此外,这种对精确建模的依赖需要高水平的专业知识来构建和维护这些模型,增加了开发和调试的复杂性。

    2、相比之下,强化学习算法能够从与环境的交互过程中推断出人形机器人的动力学特性,而无需显式建模,从而实现更精确的运动控制。这种基于数据驱动的方法,使得机器人能够在复杂、动态的环境中更好地适应和执行任务,展现出更大的灵活性和适应性。尽管传统控制方法在特定条件下表现优异,但其对精确模型的依赖以及在动态环境中的局限性,使得新兴的强化学习方法在未来机器人控制领域中具有重要的应用前景。通过结合深度学习和强化学习技术,机器人能够在多样化和不确定性高的环境中自主学习和优化其行为,从而提升其实际应用的广泛性和有效性。在hrp人形机器人的研究中,rohan通过周期奖励项和落脚点规划,机器人能够实现设定的足迹行走和转弯操作。

    3、上述研究中,通常利用强化学习训练的策略网络产生期望位置,然后通过pd控制器产生力矩与环境交互。然而,在实际部署中,往往需要针对不同的任务选取不同的pd参数,增加了额外的工作量。此外,如何确定强化学习中的pd增益并没有统一的方法,通常通过经验确定,导致需要针对不同的机器人实验不同的pd参数,因而缺乏良好的泛化性。直接从策略产生力矩的方法主要在四足机器人上实现,尚未有很多应用于双足机器人的方案。并且,直接通过策略产生力矩也存在训练难以收敛的问题。

    4、因此,尽管强化学习在机器人控制中的潜力巨大,但在实际应用中仍需解决许多挑战,特别是在双足人形机器人上的应用。传统算法依赖于精确建模,难以在动态环境中保持鲁棒性和通用性。基于强化学习的方法能够提升控制精度,但现有方案往往需要不同任务的pd参数调整,缺乏统一的方法和良好的泛化性。此外,直接通过策略产生力矩的方法尚未广泛应用于双足机器人,且存在训练收敛性问题,难以实现平面内的灵活运动和稳定控制。


    技术实现思路

    1、本发明的目的是为了解决现有方法在机器人控制中难以在动态环境中保持鲁棒性和通用性,缺乏统一的方法和良好的泛化性,以及存在训练收敛性问题,难以实现平面内的灵活运动和稳定控制,导致人形机器人控制准确率低的问题,而提出一种基于位置环预训练的人形机器人力矩控制方法。

    2、一种基于位置环预训练的人形机器人力矩控制方法具体过程为:

    3、步骤一、根据人形机器人的结构,确定状态空间和动作空间;

    4、步骤二、确定位置控制策略网络力矩控制策略网络和价值网络vφ的网络结构;

    5、位置控制策略网络力矩控制策略网络和价值网络vφ均为多层感知机;

    6、其中θ和φ分别为位置控制策略网络和力矩控制策略网络的网络参数,φ是价值网络的网络参数;

    7、步骤三、设置训练相关参数;

    8、步骤四、构建位置控制策略网络训练与正式训练的奖励函数;

    9、位置控制策略网络训练与正式训练采用相同的奖励函数,奖励函数均由风格项、任务项、正则化项三个部分组成;

    10、步骤五、基于步骤一、二、三、四,获得训练好的位置控制策略网络;

    11、步骤六、基于训练好的位置控制策略网络,获得训练好的力矩控制策略网络;

    12、步骤七、将机器人当前状态输入训练好的力矩控制策略网络,训练好的力矩控制策略网络输出力矩,根据力矩对人形机器人进行实时控制。

    13、本发明的有益效果为:

    14、本发明针对人形机器人的走跑问题,采用一种基于无模型深度强化学习的端到端控制方法,通过系统状态量直接生成力矩控制策略,无需对复杂的人形机器人系统进行建模,实现人形机器人以类人的姿态进行稳定的动态运动;通过课程学习,训练得到的策略网络不仅能够高效地控制机器人运动,还具备良好的泛化性,使得相同的网络能够直接迁移到不同人形机器人上,无需进行额外的参数调整即可取得良好效果。此方法在动态环境中保持鲁棒性和通用性,不存在训练收敛性问题,实现平面内的灵活运动和稳定控制,提高人形机器人控制准确率低。

    15、本发明针对力矩控制策略网络训练困难的问题,提出了一种基于位置控制策略加速力矩控制策略的预训练方法,该方法利用易于训练的位置控制策略网络,在不同的初始状态和扰动条件下收集数据,用于力矩控制策略网络的预训练。通过这种方式,力矩控制策略网络能够实现机器人站立的基本功能,解决训练收敛性问题,为实现平面内的灵活运动和稳定控制,进一步训练机器人实现更复杂的动态动作奠定基础。此方法不仅提高了训练效率,还增强了机器人在多种环境中的适应能力和稳定性。



    技术特征:

    1.一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述方法具体过程为:

    2.根据权利要求1所述的一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述步骤一中根据人形机器人的结构,确定状态空间和动作空间;

    3.根据权利要求2所述的一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述步骤三中设置训练相关参数;具体过程为:

    4.根据权利要求3所述的一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述步骤四中构建位置控制策略网络训练与正式训练的奖励函数;

    5.根据权利要求4所述的一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述步骤四一中获得风格项,风格项包括机器人基座风格奖励项机器人关节位置的风格奖励项地面反作用力的奖励速度的奖励末端执行器跟踪奖励具体过程为:

    6.根据权利要求5所述的一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述步骤四二中获得任务项具体过程为:

    7.根据权利要求6所述的一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述步骤四三中获得正则化项,正则化项包括动作正则化项力矩正则化项和力矩变化正则化项

    8.根据权利要求7所述的一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述步骤五中基于步骤一、二、三、四,获得训练好的位置控制策略网络;

    9.根据权利要求8所述的一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述步骤六中基于训练好的位置控制策略网络,获得训练好的力矩控制策略网络;

    10.根据权利要求9所述的一种基于位置环预训练的人形机器人力矩控制方法,其特征在于:所述步骤六十一中若小于t1执行步骤六八第一阶段方案获取任务向量vtask并采用第一阶段对应的奖励函数权重;具体过程为:


    技术总结
    一种基于位置环预训练的人形机器人力矩控制方法,本发明涉及基于位置环预训练的人形机器人力矩控制方法,属于人形机器人运动控制技术领域。本发明的目的是为了解决现有方法在机器人控制中难以在动态环境中保持鲁棒性和通用性的问题。过程为:根据人形机器人的结构,确定状态空间和动作空间;确定位置控制策略网络、力矩控制策略网络和价值网络的网络结构;设置训练相关参数;构建位置控制策略网络的奖励函数;奖励函数由风格项、任务项、正则化项三个部分组成;获得训练好的位置控制策略网络和力矩控制策略网络;将机器人当前状态输入训练好的力矩控制策略网络,训练好的力矩控制策略网络输出力矩,根据力矩对人形机器人进行实时控制。

    技术研发人员:邵翔宇,谭睿宇,孙光辉,吴承伟,周栋,季奕,吴立刚
    受保护的技术使用者:哈尔滨工业大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-33484.html

    最新回复(0)