本发明涉及一种机械臂接触力零稳态误差跟踪的控制系统和方法,属于人工智能。
背景技术:
1、随着机械臂在工业和服务领域的广泛应用,对机械臂接触力控制的需求不断增加。在某些任务中,精确控制机械臂与外部对象的接触力对于安全性、精度和效率至关重要。例如,海底的重要石油管道,为了保持其正常运行和避免泄漏事故,需要定期进行管道的检查和维护工作。此环境下需要机械臂基于接触力控制进行异常检测和维护任务。除此之外,在装配过程中,需要机械臂以适当的接触力握取和安装零件,以避免零件损坏或装配错误。因此,开发能够实现接触力跟踪的技术成为研究和工业界的关注焦点。
2、由于机械臂本身可以看作是一个pid控制系统,因此机械臂对期望接触力的跟踪过程存在稳态误差,同时,实现接触力跟踪需要综合考虑机械臂的动力学、力学特性和控制策略,当前的控制算法可能无法充分解决复杂接触力跟踪的问题。由此可见,设计适用于不同任务和环境的有效控制策略是一项具有挑战性的任务。目前现有的机械臂与环境之间的接触力对期望接触力的跟踪技术存在以下缺陷:(1)对期望接触力跟踪的稳态误差不为0或与0相差过大;(2)控制系统和策略不完善。
技术实现思路
1、本发明的目的在于克服现有技术中的不足,提供一种机械臂接触力零稳态误差跟踪的控制系统和方法,能够实现控制系统的稳态误差为0,确保机械臂与环境之间的接触力等于预设的期望接触力。
2、为达到上述目的,本发明是采用下述技术方案实现的:
3、一方面,本发明提供了一种机械臂接触力零稳态误差跟踪的控制系统,包括:采集装置,用于采集机械臂末端与环境之间的实际接触力和机械臂末端实际位置;控制装置,用于根据采集的所述实际接触力和机械臂末端实际位置以及预设的期望接触力和期望位置获得机械臂末端更新位置;执行装置,用于接收所述机械臂末端更新位置并根据所述机械臂末端更新位置将机械臂操控至相应的状态;其中,所述控制装置包括融合了强化学习算法的导纳控制器;所述强化学习算法以所述实际接触力与预设期望接触力的力误差和机械臂末端实际位置为输入,获得期望位置调整量作为输出;使用所述期望位置调整量对预设的期望位置进行调整,期望位置被调整后,导纳控制器根据输入的力误差来输出机械臂末端更新位置。
4、进一步的,所述强化学习算法的优化器包括学习率调度器,所述学习率调度器用于建立接触力的变化率与为学习率之间的关联关系。
5、进一步的,所述接触力的变化率与为学习率之间的关联关系,包括:所述学习率的表达式为:
6、;
7、其中,是初始学习率,是调节参数;为接触力的变化率;
8、所述接触力的变化率的表达式为:
9、;
10、其中,和分别是当前时间步和上一时刻时间步的实际接触力;表示完成当前时间步所用的时间。
11、进一步的,所述强化学习算法的损失函数包含补偿项,所述补偿项表达式为:
12、;
13、其中,是actor网络输出动作的熵,是actor网络的策略函数; 是actor网络空间参数的范的平方,是常数项,s是状态,是动作关于状态的函数。
14、进一步的,所述损失函数的参数的更新方法为:
15、;
16、其中,和分别是下一个时间步和当前时间步的损失函数中的参数;是一个小的正常数,用于保证除数不为0,和分别是梯度修正后的一阶矩估计和二阶矩估计。
17、进一步的,所述强化学习算法采用深度确定性策略梯度算法。
18、进一步的,所述控制系统在simulink中搭建。
19、进一步的,所述机械臂包括七自由度机械臂。
20、进一步的,所述执行装置包括搭载ubuntu系统的电脑;所述电脑装有逆运动学算法。
21、另一方面,本发明提供了一种机械臂接触力零稳态误差跟踪的控制方法,包括:
22、采集机械臂末端与环境之间的实际接触力和机械臂末端实际位置;
23、根据采集的所述实际接触力和机械臂末端实际位置以及预设的期望接触力和期望位置获得机械臂末端更新位置;
24、将所述机械臂末端更新位置发送至执行装置,以使所述执行装置根据所述机械臂末端更新位置将机械臂操控至相应的状态;
25、其中,所述根据采集的所述实际接触力和机械臂末端实际位置以及预设的期望接触力和期望位置获得机械臂末端更新位置,包括:
26、以实际接触力与预设期望接触力的力误差和机械臂末端实际位置作为强化学习算法的输入,获得期望位置调整量作为强化学习算法的输出,使用所述期望位置调整量对预设的期望位置进行调整;期望位置被调整后,根据输入的力误差来输出机械臂末端更新位置。
27、与现有技术相比,本发明所达到的有益效果:
28、(1)本发明提供的控制系统采用融合了强化学习算法的导纳控制系统,通过强化学习算法建立实际接触力与期望接触力之间的误差与期望位置调整量之间的映射关系,使用期望位置调整量对预设的期望位置进行调整,使其更合理,循序渐进的将机械臂末端位置调整到最佳位置,达到机械臂与物体之间的实际接触力等于期望接触力,该系统的稳态误差为0;
29、(2)本发明采用的强化学习算法通过在优化器中设计的学习率调度器建立了接触力的变化率与学习率的关联关系,通过学习率实现接触力的变化率对损失函数的参数更新的影响,使得获得的期望位置调整值更准确;
30、(3)本发明提供的控制方法只需要操作者坐在控制装置前设定好期望接触力即可,机械臂单独在危险环境下远程作业,操作简单,安全方便。
1.一种机械臂接触力零稳态误差跟踪的控制系统,其特征在于,包括:
2.如权利要求1所述的控制系统,其特征在于,所述强化学习算法的优化器包括学习率调度器,所述学习率调度器用于建立接触力的变化率与为学习率之间的关联关系。
3.如权利要求2所述的控制系统,其特征在于,所述接触力的变化率与为学习率之间的关联关系,包括:所述学习率的表达式为:
4.如权利要求3所述的控制系统,其特征在于,所述强化学习算法的损失函数包含补偿项,所述补偿项表达式为:;
5.如权利要求4所述的控制系统,其特征在于,所述损失函数的参数的更新方法为:
6.如权利要求1-5任一所述的控制系统,其特征在于,所述强化学习算法采用深度确定性策略梯度算法。
7.如权利要求1-5任一所述的控制系统,其特征在于,所述控制系统在simulink中搭建。
8.如权利要求1-5任一所述的控制系统,其特征在于,所述机械臂包括七自由度机械臂。
9.如权利要求1所述的控制系统,其特征在于,所述执行装置包括搭载ubuntu系统的电脑;所述电脑装有逆运动学算法。
10.一种机械臂接触力零稳态误差跟踪的控制方法,其特征在于,包括: