一种基于生成式智能的强化学习策略表征方法及系统

    技术2024-12-24  37


    本发明属于人工智能,具体涉及一种基于生成式智能的强化学习策略表征方法及系统。


    背景技术:

    1、随着人工智能技术的发展,强化学习已成为解决复杂决策问题的关键工具。它通过与环境的实时交互来学习最优策略,已成功应用于多个领域,如游戏、机器人控制等。同时,扩散模型等生成式智能技术也在不断进步,为ai系统训练提供了更多方法。将两者结合,不仅能提升ai的决策能力,还能加速学习过程。

    2、传统强化学习方法需要大量的在线交互数据来进行策略学习,这在现实世界应用中往往是不可行的。例如,在自动驾驶汽车或工业机器人等涉及成本和安全性考量的场景中,频繁的试错可能导致高昂的代价和潜在的风险。为了解决这些问题,研究者们开始探索批量强化学习的方法。批量强化学习利用预先收集的大量数据进行策略学习,无需实时与环境进行交互,从而大大提高了数据利用效率和安全性。

    3、然而,批量强化学习也面临着分布偏移的问题,限制了批量强化学习方法的性能和应用范围。


    技术实现思路

    1、本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于生成式智能的强化学习策略表征方法及系统,用于解决现有批量强化学习技术中存在的分布偏移的技术问题。

    2、本发明采用以下技术方案:

    3、一种基于生成式智能的强化学习策略表征方法,包括以下步骤:

    4、s1、随机初始化智能体的策略网络和价值网络qθ,并随机初始化对应的目标网络qθ,和策略网络使用扩散模型进行建模;

    5、s2、从预先准备的数据集d中采样小样本数据;

    6、s3、根据小样本数据中轨迹的状态,通过策略网络采样并计算一个动作a;

    7、s4、基于动作a计算q值;

    8、s5、根据计算的q值更新价值网络qθ,每更新价值网络qθc次后,更新策略网络并将价值网络qθ的参数同步到目标网络qθ′,直至模型收敛或到达固定轮次。

    9、优选地,步骤s1中,使用扩散模型作为策略网络的近似方法。

    10、优选地,步骤s2中,小样本数据包含n条轨迹。

    11、优选地,步骤s3中,使用随机噪声进行扰动计算一个动作a。

    12、优选地,扩散模型具体为一系列基于概率的转移矩阵,用于描述在离散状态空间中从一个时间步到下一个时间步的随机变量之间的转移概率。

    13、优选地,步骤s4中,q计算如下:

    14、

    15、其中,y表示计算的q值,r表示轨迹中的奖励,γ表示奖励的折扣系数,s′表示当前的环境状态。

    16、优选地,步骤s5中,更新价值网络如下:

    17、

    18、其中,y表示计算的q,n表示用来训练的批数据的大小,s′表示当前的环境状态,θi表示价值网络的参数。

    19、优选地,更新策略网络具体为:

    20、

    21、其中,α表示q值引导系数,表示扩散模型更新的loss值,表示数学期望,qθ(s,a)表示环境状态对(s,a)输入到价值网络qθ后的输出。即通过数据集d中的状态s,从策略网络采样动作a,在此情况下计算(s,a)对的q值的期望值。

    22、优选地,每更新价值网络c次后,将目标网络和策略网络同步更新到对应的策略网络中。

    23、第二方面,本发明实施例提供了一种基于生成式智能的强化学习策略表征系统,包括:

    24、初始化模块,随机初始化智能体的策略网络和价值网络qθ,并随机初始化对应的目标网络qθ′和策略网络使用扩散模型进行建模;

    25、采样模块,从预先准备的数据集d中采样小样本数据;

    26、状态模块,根据小样本数据中轨迹的状态,通过策略网络采样并计算一个动作a;

    27、计算模块,基于动作a计算q值;

    28、更新模块,根据计算的q值更新价值网络,每更新价值网络c次后,更新策略网络,并将价值网络qθ同步到目标网络qθ′,直至模型收敛或到达固定轮次。

    29、第三方面,一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于生成式智能的强化学习策略表征方法的步骤。

    30、第四方面,本发明实施例提供了一种计算机可读存储介质,包括计算机程序,所述计算机程序被处理器执行时实现上述基于生成式智能的强化学习策略表征方法的步骤。

    31、与现有技术相比,本发明至少具有以下有益效果:

    32、一种基于生成式智能的强化学习策略表征方法,使用生成式智能学习强化学习策略,使用扩散模型表征强化学习的策略网络,相比于使用最大似然估计和高斯分布来近似数据的神经网络,高斯分布是一个单峰分布,它的形状呈钟形曲线,中心对称,具有单峰性质。而强化学习的数据集中的行为策略很可能不是单峰的,能更好地适应复杂的数据集。

    33、进一步的,使用扩散模型表征强化学习的策略网络,由于扩散模型对多峰分布的能力,本发明提出的方法能更好地适应复杂的数据集中的多峰策略分布。

    34、进一步的,使用批数据更新可以减小每次更新的方差,使得模型训练的收敛过程更加稳定。相比于随机梯度下降(sgd),批处理通过平均多个样本的梯度来更新模型参数,能够减少随机性,使得模型在训练过程中更加平滑地收敛到最优解。

    35、进一步的,通过对动作进行随机噪声扰动能够增加算法在状态空间中的探索范围,有助于发现之前未被探索过的区域或状态转移路径。此外,随机扰动动作能使模型能够更好地适应未知的环境变化,从而提高算法的鲁棒性。最后,对动作添加随机扰动能够增强算法的泛化能力,使其在面对新环境或新任务时能够更快地适应并达到良好的性能。

    36、进一步的,通过将q值加入训练目标中的方式,为策略网络的训练提供q值引导,使策略向q值更高的方向移动。

    37、进一步的,通过设定目标网络并延迟更新的方式,获得稳定的值估计,目标网络延迟更新能够给估计网络一个临时固定的目标,使得学习变得更加稳定。通过延迟更新目标网络,减少了因频繁更新目标网络而可能导致的训练过程中的震荡和不稳定。

    38、可以理解的是,上述第二方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。

    39、综上所述,本发明能够显著提升学习效率,并大幅增强了智能体的泛化能力和适应性,通过精准近似复杂数据分布,实现了更广泛应用场景中的优异性能。

    40、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。



    技术特征:

    1.一种基于生成式智能的强化学习策略表征方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的基于生成式智能的强化学习策略表征方法,其特征在于,步骤s1中,使用扩散模型作为策略网络的近似方法。

    3.根据权利要求1所述的基于生成式智能的强化学习策略表征方法,其特征在于,步骤s2中,小样本数据包含n条轨迹。

    4.根据权利要求1所述的基于生成式智能的强化学习策略表征方法,其特征在于,步骤s3中,使用随机噪声进行扰动计算一个动作a。

    5.根据权利要求4所述的基于生成式智能的强化学习策略表征方法,其特征在于,扩散模型具体为一系列基于概率的转移矩阵,用于描述在离散状态空间中从一个时间步到下一个时间步的随机变量之间的转移概率。

    6.根据权利要求1所述的基于生成式智能的强化学习策略表征方法,其特征在于,步骤s4中,q计算如下:

    7.根据权利要求1所述的基于生成式智能的强化学习策略表征方法,其特征在于,步骤s5中,更新价值网络如下:

    8.根据权利要求1所述的基于生成式智能的强化学习策略表征方法,其特征在于,更新策略网络具体为:

    9.根据权利要求1所述的基于生成式智能的强化学习策略表征方法,其特征在于,每更新价值网络c次后,将目标网络和策略网络同步更新到对应的策略网络中。

    10.一种基于生成式智能的强化学习策略表征系统,其特征在于,包括:


    技术总结
    本发明公开了一种基于生成式智能的强化学习策略表征方法及系统,随机初始化智能体的策略网络和价值网络W<subgt;θ</subgt;,并随机初始化对应的目标网络W<subgt;θ′</subgt;和策略网络使用扩散模型进行建模;从预先准备的数据集D中采样小样本数据;根据小样本数据中轨迹的状态,通过策略网络采样并计算一个动作a;基于动作a计算Q值;根据计算的Q值更新价值网络Q<subgt;θ</subgt;,每更新价值网络Q<subgt;θ</subgt;C次后,更新策略网络并将价值网络Q<subgt;θ</subgt;的参数同步到目标网络Q<subgt;θ′</subgt;,直至模型收敛或到达固定轮次。本发明能够显著提升学习效率,并大幅增强了智能体的泛化能力和适应性,通过精准近似复杂数据分布,实现了更广泛应用场景中的优异性能。

    技术研发人员:周荣祺,孙文,胡宇杰,丁宇,胡伟,王震
    受保护的技术使用者:西北工业大学
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24202.html

    最新回复(0)