本发明涉及一种基于优势策略的车联网资源分配联合优化方法。
背景技术:
1、随着智能交通系统的快速发展,车联网(vehicular ad-hoc networks,vanets)作为其核心技术之一,正逐渐成为研究和应用的热点。车联网通过促进车与车通信(v2v)、车辆与基础设施通信(v2i)以及车辆与行人通信(v2p),实现了互联互通,提供了一系列智能交通服务,包括但不限于道路安全、交通管理和信息娱乐。由于车联网的网络结构动态变化性,其在资源配置方面遭遇了重大挑战,这对网络的可靠性、运行效率及服务品质产生了显著影响。
2、当前的研究重点在于,如何优化频谱资源的分配策略,以减少同频干扰,同时增强系统的数据处理能力和服务水平,这对于车辆通信系统的设计至关重要。传统的资源分配方法往往依赖于集中式的控制策略或预先定义的规则,这些方法在处理高动态、不确定性强的车联网环境时,很难达到理想的效果。相比之下,强化学习(reinforcement learning,rl)提供了一种自主学习和决策的机制,使得车辆能够根据环境的变化动态调整其行为,寻找最优的资源分配策略。
3、多智能体强化学习(multi-agent reinforcement learning,marl)作为强化学习的一个分支,更适合解决车联网这种自然分布式、多参与者的系统中的问题。通过marl,各个智能体(即车辆)不仅能够学习如何与环境互动,还能学会如何在与其他智能体的互动中实现共同的目标,例如资源共享、冲突避免等,从而实现整个系统性能的优化。
4、无论是国内还是国外,基于多智能体强化学习的车联网资源分配研究都显示出了强大的潜力和广阔的应用前景。通过这些研究,不仅可以提高车联网的性能,还能为其他类型的网络系统提供借鉴。然而,当前研究仍面临一些共同的挑战,包括算法的复杂性、计算资源的需求、实时性的保证等。未来的研究需要在提高算法效率、降低资源消耗以及确保系统稳定性等方面进行更深入的探索。
技术实现思路
1、发明目的:本发明所要解决的技术问题是针对现有技术的不足,提供一种基于优势策略的车联网资源分配联合优化方法,旨在提升车联网通信系统的整体传输效率、质量以及稳定性,进而优化整个网络的性能。本发明方法包括以下步骤:
2、步骤1,建立车联网环境;
3、步骤2,建立优化目标和约束条件;
4、步骤3,建立基于maddpg(multi-agent deep deterministic policy gradientalgorithm,maddpg)和a2c的资源分配联合优化算法,用于实现复杂环境下车到基础设施通信正交子信道的频谱分配和车辆间通信的功率选择,在保障v2v(vehicle-to-vehicle,v2v)链路高可靠性传输的条件下,最大化v2i(vehicle-to-infrastructure,v2i)链路的总吞吐量。
5、步骤1包括:设定车联网环境包括1个基站和两个以上车辆用户,所述车辆用户包括车到基础设施通信v2i用户和车辆间通信v2v用户;车到基础设施通信链路用于车辆连接到基站和路边单元的通信,车辆间通信链路用于车辆之间进行直接的信息交换;车到基础设施通信链路集合为sv2i,sv2i={1,2,……,m},车辆间通信链路的集合为sv2v,sv2v={1,2,……,n};m表示车到基础设施通信链路的总数,n表示车辆间通信链路的总数,m、n取值为自然数。
6、步骤1还包括:设定所有参与通信的车辆都配备了单一的天线设备,每个车到基础设施通信v2i用户仅通过一条车到基础设施通信上行链路进行通信,车到基础设施通信上行链路的频谱资源均匀划分为m个正交子信道;允许两个以上车辆间通信v2v用户共享每条车到基础设施通信链路的频谱资源,以此实现频谱的共享。
7、步骤1还包括:定义第m条车到基础设施通信链路和第n条车辆间通信链路信道的信噪加干扰比为:
8、
9、其中表示第m条车到基础设施通信链路的信噪加干扰比,表示第m条车到基础设施通信链路的发射功率,gn[m]表示第m号正交子信道上的第n号车辆间通信链路的信道功率增益,gm,b表示第m条车到基础设施通信链路的信道功率增益,σ2表示高斯白噪声功率,表示第n个车辆间通信链路对第m个车辆与车到基础设施通信链路造成的干扰程度,表达式为:
10、
11、其中,符号用来表示第m条车到基础设施通信链路是否与第n条车辆间通信链路共享信道,共享时取值为1,不共享则为0;
12、代表第n条车辆间通信链路的发射功率,gn,b[m]表示第n条车辆间通信链路对第m条车到基础设施通信链路造成的干扰信道增益;
13、i1表示第m条车到基础设施通信链路对第n条车辆间通信链路产生的干扰,表达式为:
14、
15、其中,表示第m条车到基础设施通信链路的发射功率,gm,n表示第n条车辆间通信链路与第m条车到基础设施通信链路共用时的干扰信道增益;
16、i2表示除第n条车辆间通信链路外的其他车辆间通信链路所产生的干扰,表达式为:
17、
18、其中,φk[m]表示第m条车到基础设施通信链路是否与第n条之外的其余k条车辆间通信链路共享信道,共享时取值为1,不共享则为0,表示除了第n条车辆间通信链路之外的车辆间通信链路集合k在第m号车到基础设施通信链路正交子信道上的发射功率,gk,n[m]表示除了第n条车辆间通信链路之外的车辆间通信链路集合k对第n条车辆间通信链路产生的干扰信道增益;
19、定义发射计算功率g为:
20、g=ah[m] (6)
21、其中,a表示与频率无关的大尺度衰落;h[m]表示与频率相关的小尺度衰落信道增益。
22、步骤1还包括:用lv2v表示车辆间通信v2v用户的路径损耗,用lv2i表示车到基础设施通信v2i用户的路径损耗,表达式分别为:
23、
24、lv2i=128.1+37.6lg(d) (8)
25、其中,d是一个距离参量;fc表示载波频率;
26、根据香农公式,得出第m条车到基础设施通信链路的总吞吐量和第n条车辆间通信链路的总吞吐量分别为:
27、
28、其中,lb表征以2为底的log对数表达,b为信道带宽;
29、构建有效传输概率ψn为:
30、
31、其中,b1表示周期性生成的车辆间通信链路有效载荷的大小;△t是信道的相干时间;表示单位时间t内第n条车辆间通信链路的总吞吐量,t是单位时间参量的最大值。
32、步骤2包括:建立如下优化目标:
33、
34、其中∑n′表示处于活跃状态的车辆间通信链路数量总和;η表示通信车辆对数;max是取最大值函数;e表示期望值的函数表达;
35、构建如下约束条件:
36、
37、
38、其中,pmax表示车到基础设施通信链路和车辆间通信链路允许的最大发射功率;imax表示车到基础设施通信链路和车辆间通信链路允许的最大干扰,单位为dbm;rmin表示第m条车到基础设施通信链路可容忍的最小传输速率;ρ0表示最小设置的有效传输概率;表示信道最小可容忍的相干时间;
39、公式(14)表征车到基础设施通信链路和车辆间通信链路允许的最大发射功率;公式(15)表征链路接收端干扰约束;公式(16)表征车到基础设施通信链路可容忍的最小吞吐量约束;公式(17)表征车辆间通信链路的有效传输概率约束;公式(18)表征车辆间通信链路允许的最大传输时延;公式(19)表征车辆间通信链路是否复用了车到基础设施通信链路的频谱资源,是一个二值化函数。公式(20)表征车辆间通信链路可容忍的最大吞吐量约束,即最大传输速率约束。
40、步骤3包括:建立基于maddpg(multi-agent deep deterministic policygradient algorithm,maddpg)和a2c的资源分配联合优化算法,将车联网情景视为一个多智能体深度强化学习任务,其中每辆通信车辆作为一个独立的智能体,所述智能体通过与环境的互动积累经验,并学习达到最优策略以优化奖励;在全面协作的学习模式中,智能体根据实时环境状态选择发射功率进行数据传输;算法分为集中式学习和分布式执行两个阶段,在集中式学习阶段,智能体训练策略网络和值函数网络;在分布式执行阶段,智能体根据状态信息和奖励选择最优策略π*以最小化损失l(θ),具体包括:
41、步骤3-1,设计状态空间:
42、在时隙t中,将智能体n当前遭遇的环境状态记做智能体n根据当前策略π输出相应动作在整个车联网系统中,所有智能体的联合状态空间定义为st,经过策略π输出得到联合动作at,共同执行动作后得到共同奖励rt;在神经网络中,智能体n所处状态以概率转移到下一时刻的状态其中概率表达式为:
43、
44、其中表示智能体n在时间步t的动作选择;pr表示概率函数;
45、定义智能体n观测到的局部信道信息包括:自身链路的信道增益gn[m],受到其他车辆间通信链路的干扰信道增益gk,n[m],自身到基站的干扰信道增益gn,b[m],第m条车到基础设施通信链路对于第n条车辆间通信链路的干扰信道增益gm,n[m];
46、表达式为:
47、
48、步骤3-2,设计动作空间:
49、每条车到基础设施通信链路的频谱资源被均分到m个正交子信道上,n条车辆间通信链路能够从m个频谱子信道中选取一个进行共享,并调节发射功率以执行传输,连续功率值的界限被定义为智能体n在时间步t的动作选择表示为:
50、
51、步骤3-3,设计奖励函数:
52、设计两个奖励函数rev2i和rev2v:
53、
54、其中,φ是常数;对于已完成传输的v2v用户来说,这个常数φ大于该v2v链路的有效载荷传输速率,以此来鼓励v2v用户提高传输速率;
55、通过权重系数法,得出最后的奖励函数retotal为:
56、
57、其中,λ为权重系数,并且λ∈(0,1);为奖励因子;v2vsuccess表示车辆间通信链路传输成功的概率;为惩罚因子,当满足特定约束条件时为0,不满足约束条件时为参数ζ;所述特定约束条件设置为最小的车到基础设施通信链路速率容限;
58、参数ζ的表达式为:
59、
60、其中,χ为一个调优参数;
61、目标是寻找最优策略π*,使累积的期望奖励最大化:
62、
63、其中,remax表示最大的累积期望奖励,eπ是一个在π策略下求期望值的函数表达,表示衰减因子,用于控制未来奖励的折现;τ表示时间步;当τ=0,ret+τ表示当前奖励回报,当τ不为0,ret+τ表示其他时间步的相关奖励;表示当前奖励和未来奖励的总合;
64、步骤3-4,实现深度确定性策略梯度算法ddpg;
65、步骤3-5,实现多智能体深度确定性策略梯度maddpg算法。
66、步骤3-6,建立基于优势的演员评论家a2c算法;使用td(temporal differenceerror,td)误差来计算a2c算法的优势函数
67、步骤3-7,建立maddpg-a2c算法。
68、步骤3-4包括:所述深度确定性策略梯度算法ddpg包括以下神经网络:
69、主actor网络:主actor网络用于将状态映射到动作,主actor网络参数记为θ,主actor网络把环境在时间步t的状态st作为输入,并产生相应的动作μ(st|θ);
70、目标actor网络:目标actor网络用于生成目标动作,初始参数设定为θ′,并产生动作μ′(st|θ′);目标actor网络的参数通过采用平滑更新策略,逐渐从主actor网络的参数θ中同步更新;
71、主critic网络:主critic网络用于学习动作值函数,以ω为初始参数,主critic网络将接收环境在时间步t的状态st和对应的动作at作为输入,并输出相应的状态值函数q(st,at|ω);主critic网络的参数通过梯度下降法进行更新,以最小化动作值函数的估计与目标动作值之间的差距;
72、目标critic网络:目标critic网络用于评估目标动作价值,用参数ω′进行初始参数化,输出状态值函数为q′(st,at|ω′);目标critic网络的参数通过软更新的方式从主critic网络的参数中逐步更新得到;
73、主actor网络的参数θ通过梯度下降法来更新,使用以下链式法则:
74、
75、其中,表示反向传播时损失函数对输入参数θ的梯度,表示策略函数关于动作at的梯度,q(st,at|ω)表示主critic网络的输出,表示对参数θ的梯度操作符,μ(st|θ)表示主actor网络的输出;
76、主critic网络的更新首先要通过使用目标actor网络的输出作为目标critic网络的输入,得到状态值函数的目标值y为:
77、y=r+γq′(s′t,μ′(st′|θ′)|ω′) (30)
78、其中,μ′(s′t|θ′)表示目标actor网络的输出,γ是一个超参数,s′t代表下一状态;
79、接着,利用主critic网络计算状态值函数,并依据最小化损失函数的方法对主critic网络进行反向更新,损失函数l定义为:
80、
81、其中,dn表示抽取的样本数量;q(st,at|ω)表示主critic网络的输出;
82、目标actor网络和目标critic网络通过渐进式更新方法来优化其参数,表示为:
83、ω′←τω+(1-τ)ω′;θ′←τθ+(1-τ)θ′ (32)
84、其中τ作为一个关键超参数,用于控制更新的平滑度。
85、步骤3-5包括:
86、多智能体环境建模:maddpg算法将环境视为包含两个以上智能体的博弈环境,每个智能体的策略需要考虑其他智能体的影响;
87、共享的经验回放缓冲区:maddpg算法使用一个共享的经验回放缓冲区,所有智能体都能够从经验回放缓冲区中采样经验来训练自己的策略网络;
88、集中式训练、分布式执行:maddpg算法结合了集中式学习与分布式操作的策略,通过集中式学习来优化策略,在执行阶段则采用分布式的方式进行,即使用一个全局的主critic网络来评估所有智能体的行为价值,每个智能体的策略网络是独立训练的;
89、自适应性奖励:maddpg算法设计自适应性的奖励函数;
90、步骤3-6中,优势函数的计算公式为:
91、
92、其中,是执行动作后预期的总回报,由主actor网络生成;是在状态下的状态值函数;
93、步骤3-7包括:定义每个独立的智能体n,其中n∈(1,2,……,n),根据各自所处的状态通过actor网络输出相对应的动作主actor网络的策略函数记做πn,在搭建的车联网系统中,每个智能体都配备了独立的主actor网络,分别对应其独特的策略函数(每个智能体都遵循π策略,π策略通常指的是在强化学习中,代理根据当前状态选择动作的概率分布),以及一个主critic网络;每个主critic网络必须对所有actor网络产生的策略输出进行评价,每个主critic网络的输入整合所有n个主actor网络的策略输出,最终进行反馈,反馈值记为qn,经过迭代训练,最终得到全局最优解,实现奖励回报的最大化,并且随着迭代次数的增加,奖励值逐步收敛于一点,优化目标为:
94、
95、优化目标是保障车辆间通信链路高可靠传输条件下最大化车到基础设施通信链路的总吞吐量;将连续的动作变量空间划分为了四个离散等级的归一化数值:[23,15,5,-100]dbm;
96、当前的智能体n的环境状态为γ是奖励的折扣因子,得到maddpg-a2c算法的状态动作值函数为:
97、
98、其中,表示对于智能体n,当前主actor网络采取动作时获得的总回报;表示根据下一个动作和下一状态所得到的q值(即采用公式34计算得到的的值),表示下一批次状态的预计奖励;e是均值函数;
99、对主actor网络的损失函数actorloss和主critic网络的损失函数criticloss及参数更新机制进行了改进,表达式分别为:
100、
101、其中,y为目标critic网络的输出q的值,表示采取n个动作后获得的预期总回报,advantages是优势函数,公式(33)已经给出;表示给定状态下采取动作并遵循π策略所能获得的预期回报;
102、当criticloss是连续可微的,ω能够进行梯度更新,采用a2c算法的更新策略:
103、
104、其中,βcritic为主critic网络的学习率,是一个超参数;δ是td误差;
105、在追求最大化总回报的目标下,每个智能体通过优化目标函数来调整主actor网络的评估参数,目标函数jθ表达式为:
106、
107、选用优势驱动的异步并行策略a2c来进行参数的优化:
108、
109、其中,αactor为主actor网络的学习率,是一个超参数;
110、目标actor网络和目标critic网络参数的更新都采用软更新的方式,表达式为:
111、θ′←τ*θ+(1-τ)*θ′ (40)
112、ω′←τ*ω+(1-τ)*ω′ (41)。
113、有益效果:本发明提供了一种多智能体深度强化学习策略,该策略基于a2c框架,并利用马尔可夫决策过程(mdp)进行系统建模,将车联网资源分配问题具化为智能体连续动作的功率控制问题,算法主要分为两个阶段,集中式训练和分布式执行。本发明算法针对maddpg存在的训练不稳定,样本效率低等问题,将传统的maddpg的ac网络改进为更为稳定的a2c网络架构,引用a2c算法中经典的优势函数,以此提高算法整体的稳定性和效率。仿真结果表明,相比较其他四种基线算法,所提出的maddpg-a2c算法能够在保障v2v传输可靠性的情况下(即高质量通信)进一步更大化车到基础设施通信链路的吞吐量,收敛性和稳定性也有所提升,同时算法也缓解了信令开销巨大的问题,具备良好的可扩展性。
1.一种基于优势策略的车联网资源分配联合优化方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤1包括:设定车联网环境包括1个基站和两个以上车辆用户,所述车辆用户包括车到基础设施通信v2i用户和车辆间通信v2v用户;车到基础设施通信链路用于车辆连接到基站和路边单元的通信,车辆间通信链路用于车辆之间进行直接的信息交换;车到基础设施通信链路集合为sv2i,sv2i={1,2,……,m},车辆间通信链路的集合为sv2v,sv2v={1,2,……,n};m表示车到基础设施通信链路的总数,n表示车辆间通信链路的总数,m、n取值为自然数。
3.根据权利要求2所述的方法,其特征在于,步骤1还包括:设定所有参与通信的车辆都配备了单一的天线设备,每个车到基础设施通信v2i用户仅通过一条车到基础设施通信上行链路进行通信,车到基础设施通信上行链路的频谱资源均匀划分为m个正交子信道;允许两个以上车辆间通信v2v用户共享每条车到基础设施通信链路的频谱资源,实现频谱的共享。
4.根据权利要求3所述的方法,其特征在于,步骤1还包括:定义第m条车到基础设施通信链路和第n条车辆间通信链路信道的信噪加干扰比为:
5.根据权利要求4所述的方法,其特征在于,步骤1还包括:用lv2v表示车辆间通信v2v用户的路径损耗,用lv2i表示车到基础设施通信v2i用户的路径损耗,表达式分别为:
6.根据权利要求5所述的方法,其特征在于,步骤2包括:建立如下优化目标:
7.根据权利要求6所述的方法,其特征在于,步骤3包括:
8.根据权利要求7所述的方法,其特征在于,步骤3-4包括:所述深度确定性策略梯度算法ddpg包括以下神经网络:
9.根据权利要求8所述的方法,其特征在于,步骤3-5包括:
10.根据权利要求9所述的方法,其特征在于,步骤3-6中,优势函数的计算公式为: