基于模糊推理的多智能体动态任务分配方法、系统及介质

    技术2025-02-04  47


    本技术涉及多智能体强化学习,特别是涉及一种基于模糊推理的多智能体任务分配方法、系统及介质。


    背景技术:

    1、随着新一代人工智能发展规划的提出,自主智能系统成为人工智能的发展重点,智能体执行的任务也从简单静态转向复杂动态,如山地目标搜索等复杂任务。与单个智能体相比,多智能体在执行复杂任务时具有较强的优势,因此在军民领域得到了广泛的发展。在大多数的协作任务中,现有多智能体强化学习方法都能够取得不错的表现,但面对更加复杂的协同任务场景和多变的任务需求,由于协作任务整体的复杂度提高,现有多智能体强化学习方法难以快速准确地为智能体分配与之功能适配的子任务。

    2、为了解决上述问题,更好的将人类先验知识应用到任务分配过程中,一些基于预定义、离线学习以及模仿学习的多智能体协作策略学习方法被提出,其中,以基于值函数分解的多智能体强化学习方法的研究最为广泛。针对环境动态变化和任务需求多变条件下联合策略直接学习难的问题,基于任务分解与分配的多智能体强化学习被提出。这些方法将复杂任务分解为多个元子任务,通过任务分配将分布式的智能体组合成一个多智能体,并将子任务分配给一个或者多个智能体执行,实现协作完成既定的任务目标。

    3、然而,现有的大多数基于值分解的任务分解与分配方法,往往仅依赖于有限的信息,可能无法全面考虑各个智能体的能力、类型、职责等因素,因此无法实现快速准确的任务分配。此外,这些方法都是自下而上的任务选择过程,缺少自上而下的任务分配优化与更新的过程,可能造成多个智能体竞争地执行同一个子任务,导致子任务分配效率低下的问题。


    技术实现思路

    1、本技术的目的是提供一种基于模糊推理的多智能体任务分配方法、系统及介质,提高了多智能体任务分配的效率和准确率。

    2、为实现上述目的,本技术提供了如下方案:

    3、第一方面,本技术提供一种基于模糊推理的多智能体任务分配方法,所述基于模糊推理的多智能体任务分配方法包括:

    4、确定智能体团队的协同任务场景;所述智能体团队包括多个智能体;所述协同任务场景下布置有多个子任务;

    5、利用高斯拟合过程对所述协同任务场景进行自适应分解,确定每个子任务的均值和协方差,并对每个子任务的均值和协方差进行在线更新;

    6、获取所有智能体历史时刻的多维特征以及所有子任务历史时刻的多维特征,并根据所有子任务的均值和协方差,确定基于模糊推理的子任务选择器网络;所述多维特征包括:动作序列、历史轨迹和贡献价值;

    7、构建双时间尺度的分层协同架构;所述分层协同架构的顶层包括:基于模糊推理的子任务选择器网络、子任务评估网络和多个子任务策略网络;所述分层协同架构的底层包括:智能体信用分配网络和智能体策略网络;所述子任务评估网络用于评估每个子任务的执行进度并确定总任务价值;所述总任务价值表征所述协同任务场景的执行进度;所述子任务策略网络用于确定子任务的多维特征;所述智能体信用分配网络用于评估每个智能体对所述智能体团队的贡献并确定团队价值;所述团队价值表征所述智能体团队在所述协同任务场景中的整体效率;所述智能体策略网络用于确定智能体的多维特征和动作价值;

    8、利用所述子任务评估网络,以第一td损失函数最小为目标对基于模糊推理的子任务选择器网络和所述子任务策略网络进行训练;所述第一td损失函数中增加了子任务的内在奖励和累计的环境奖励;

    9、利用所述智能体信用分配网络,以第二td损失函数最小为目标对所述智能体策略网络进行训练;

    10、将每个智能体当前时刻的局部观测信息、上一时刻的执行动作和上一时刻的子任务输入训练后的智能体策略网络,更新每个智能体的多维特征;所述局部观测信息至少包括:当前智能体的位置和速度,以及,当前智能体观测范围内其他智能体的位置和速度;

    11、将每个智能体更新的多维特征输入训练后的基于模糊推理的子任务选择器网络,进行子任务分配。

    12、可选地,利用高斯拟合过程对所述协同任务场景进行自适应分解,确定每个子任务的均值和协方差,并对每个子任务的均值和协方差进行在线更新,具体包括:

    13、获取一组有监督的离线数据集;所述离线数据集包括:执行每个子任务的智能体的历史轨迹,以及,每个智能体的环境奖励;

    14、以执行每个子任务的智能体的历史轨迹为输入,以每个智能体的环境奖励为输出,采用高斯拟合得到每个子任务的奖励函数;

    15、基于所述奖励函数确定每个子任务的均值和协方差;

    16、利用负对数似然函数,对每个子任务的均值和协方差进行在线更新。

    17、可选地,获取所有智能体历史时刻的多维特征以及所有子任务历史时刻的多维特征,并根据所有子任务的均值和协方差,确定基于模糊推理的子任务选择器网络,具体包括:

    18、定义tsk形式的基础规则;

    19、在所述基础规则下,将每个子任务作为一个模糊集合,基于每个智能体历史时刻的多维特征、每个子任务历史时刻的多维特征、以及每个子任务的均值和协方差,构建每个模糊集合下的高斯隶属度函数;

    20、根据所有模糊集合下的高斯隶属度函数对所述基础规则进行调整,得到面向所述协同任务场景的模糊推理规则;

    21、将所述模糊推理规则应用至子任务选择器网络中,得到基于模糊推理的子任务选择器网络;所述子任务选择器网络包括依次连接的全连接层、模糊推理层和归一化层。

    22、可选地,所述第一td损失函数为:

    23、

    24、式中,为第一td损失,θφ为子任务策略网络的参数,ξφ为子任务评估网络的参数,εφ为基于模糊推理的子任务选择器网络的参数,为分层协同架构的顶层累计奖励的期望值,rt为子任务的多步累计奖励,γ为折扣因子,为子任务评估网络的目标总任务价值,为子任务评估网络的实际总任务价值,st为t时刻的环境全局信息,φt为t时刻所有智能体执行的子任务,rint为子任务的内在奖励,为t时刻的环境奖励,δc为子任务选择频率,t>t。

    25、可选地,所述第二td损失函数为:

    26、

    27、式中,为第二td损失,θa为智能体策略网络的参数,ξa为智能体信用分配网络的参数,为分层协同架构的底层累计奖励的期望值,为t时刻的环境奖励,γ为折扣因子,为智能体信用分配网络的目标团队价值,为智能体信用分配网络的实际团队价值,st为t时刻所有智能体的局部观测信息,ut为t时刻所有智能体的执行动作。

    28、可选地,所述子任务策略网络包括依次连接的全连接层、循环层和全连接层;所述子任务评估网络为qmix算法中的混合网络。

    29、可选地,所述智能体策略网络和所述智能体信用分配网络分别为vdn算法中的策略网络和混合网络。

    30、可选地,所述分层协同架构还包括:顶层经验池和底层经验池;

    31、所述顶层经验池用于存储不同时刻的第一数据元组;所述第一数据元组至少包括:环境全局信息、所有智能体执行的子任务的id和所有子任务的多步累计奖励;所述环境全局信息至少包括:所有智能体的类型、位置和速度,以及,环境实体的类型和位置;所述多步累计奖励包括:子任务的内在奖励和累计的环境奖励;

    32、所述底层经验池用于存储不同时刻的第二数据元组;所述第二数据元组至少包括:所有智能体的局部观测信息、执行动作和环境奖励。

    33、第二方面,本技术还提供一种计算机系统,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现所述的基于模糊推理的多智能体任务分配方法。

    34、第三方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于模糊推理的多智能体任务分配方法。

    35、根据本技术提供的具体实施例,本技术公开了以下技术效果:

    36、本技术面对多个智能体的协同任务场景,采用高斯拟合过程对其进行自适应分解得到每个子任务的均值和方差,在此基础上,结合智能体的动作序列、历史轨迹和贡献价值形成独特的智能体多维特征,共同设计和构建了基于模糊推理的子任务选择器网络,并利用该网络实现了动态和准确地子任务分配。此外,基于子任务评估网络和智能体信用分配网络,以时间差分(temporal difference,td)损失函数最小为目标对分层协同架构中其他网络的训练方式,使得智能体的子任务分配过程更有效地适应环境和任务需求的动态变化。最后,本技术构建的双时间尺度的分层协同架构,能够在顶层形成基于全局考虑的子任务分配结果,并将其输入底层进行智能体决策,因此,本技术提高了多智能体任务分配的效率和准确率。


    技术特征:

    1.一种基于模糊推理的多智能体任务分配方法,其特征在于,所述基于模糊推理的多智能体任务分配方法包括:

    2.根据权利要求1所述的基于模糊推理的多智能体任务分配方法,其特征在于,利用高斯拟合过程对所述协同任务场景进行自适应分解,确定每个子任务的均值和协方差,并对每个子任务的均值和协方差进行在线更新,具体包括:

    3.根据权利要求1所述的基于模糊推理的多智能体任务分配方法,其特征在于,获取所有智能体历史时刻的多维特征以及所有子任务历史时刻的多维特征,并根据所有子任务的均值和协方差,确定基于模糊推理的子任务选择器网络,具体包括:

    4.根据权利要求1所述的基于模糊推理的多智能体任务分配方法,其特征在于,所述第一td损失函数为:

    5.根据权利要求1所述的基于模糊推理的多智能体任务分配方法,其特征在于,所述第二td损失函数为:

    6.根据权利要求1所述的基于模糊推理的多智能体任务分配方法,其特征在于,所述子任务策略网络包括依次连接的全连接层、循环层和全连接层;所述子任务评估网络为qmix算法中的混合网络。

    7.根据权利要求1所述的基于模糊推理的多智能体任务分配方法,其特征在于,所述智能体策略网络和所述智能体信用分配网络分别为vdn算法中的策略网络和混合网络。

    8.根据权利要求1所述的基于模糊推理的多智能体任务分配方法,其特征在于,所述分层协同架构还包括:顶层经验池和底层经验池;

    9.一种计算机系统,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-8中任一项所述的基于模糊推理的多智能体任务分配方法。

    10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1-7中任一项所述的基于模糊推理的多智能体任务分配方法。


    技术总结
    本申请公开一种基于模糊推理的多智能体任务分配方法、系统及介质,涉及多智能体强化学习领域,方法包括:获取所有智能体历史时刻的多维特征以及所有子任务历史时刻的多维特征,并根据所有子任务的均值和协方差,确定基于模糊推理的子任务选择器网络;利用子任务评估网络,以第一TD损失函数最小为目标对子任务选择器网络和子任务策略网络进行训练;利用智能体信用分配网络,以第二TD损失函数最小为目标对智能体策略网络进行训练;将每个智能体当前时刻的局部观测信息、上一时刻的执行动作和上一时刻的子任务依次输入训练后的智能体策略网络和基于模糊推理的子任务选择器网络,进行子任务分配。本申请提高了多智能体任务分配的效率和准确率。

    技术研发人员:谢少荣,王孟珂,骆祥峰,王欣芝
    受保护的技术使用者:上海大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-25919.html

    最新回复(0)