本发明属于车联网,尤其涉及一种基于多智能体强化学习的车联网频谱共享与mcs调度方法。
背景技术:
1、随着物联网和通信技术在智能交通领域的应用,汽车行业呈现出电动化、智能化以及网络化等特点,进而催生出车联网这一技术。车联网技术使得车辆用户可以与基础设施或者其他车辆用户进行通信,实现交通系统的互联互通,有助于提高交通系统的智能化水平和运行效率,提升用户驾驶体验。在车联网系统中,车辆用户可以通过蜂窝uu接口与基站建立通信,形成v2i(vehicle to infrastructure,车到基础设施)链路,也可以通过pc5接口与附近的其他车辆用户建立直连链路,形成v2v(vehicle to vehicle,车辆到车辆)链路。v2v链路主要传输高速率信息,而v2i链路主要传输高可靠性要求的车辆安全信息。车联网系统支持车辆用户根据通信环境,在各自的无线资源池中自主选择通信资源进行消息的传输。mcs(modulation and coding scheme,调制与编码方案)是一种可供发送端调度的通信资源,规定了调制方式、码率以及信干噪比阈值等,mcs的选择影响着链路的传输速率与可靠性。
2、随着车联网技术的发展,接入网络的车辆数目呈指数级增长,使得系统中频谱资源变得稀缺;同时随着车辆队列、自动驾驶以及远程驾驶等业务类型的增多,链路的qos要求也呈现多元化,这给链路的传输质量控制提出了更高的要求;另外,由于车联网系统的移动性和不确定性,传统的资源优化和分配方法很难找到较好的解决方案。所以,有必要引入人工智能算法,算法通过分析v2v用户感知到的信道状态信息以及传输业务要求,合理地复用v2i链路的频谱资源、选择发射功率并选择mcs进行通信,即一种基于多智能体强化学习的车联网频谱共享与mcs调度方法。
3、中国专利文献cn114885426a公开了“一种基于联邦学习和深度q网络的5g车联网资源分配方法”,该方法同时考虑了v2i链路的高容量通信要求以及v2v链路的低时延和高可靠性通信要求,以这两者为优化目标,采用联邦学习和强化学习优化v2v链路的发射功率和频谱子带的选择,在满足链路时延的约束下,最大化系统联合能量和频谱效率。但该方法未考虑到v2v链路的mcs选择问题,而且将v2v链路传输的内容简化为一定的数据量,而没有细分为各种不同的业务类型。
技术实现思路
1、为了解决上述问题,本发明提出了一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,同时优化了频谱子带的选择、发射功率的选择以及mcs的选择,此外,将v2v链路发送的内容细分为不同的业务类型,更具体且符合实际情况。
2、术语解释:
3、1、v2i,“vehicle to infrastructure”的缩写,指在车联网系统中车辆与基础设施之间的通信。
4、2、v2v,“vehicle to vehicle”的缩写,指在车联网系统中车辆与车辆之间的通信。
5、3、ddqn算法,是一种强化学习算法,ddqn的主要思想是在决策和评估过程中使用两个不同的q网络,以减少过估计的偏差。具体来说,ddqn算法使用两个网络:一个用于选择动作(行为网络),另一个用于评估选择的动作(目标网络)。
6、4、车联网系统,本发明考虑的车联网系统包括一个基站、基站覆盖范围内的v2i用户和v2v用户、为v2i用户分配的相互正交的频谱子带、v2v用户传输的关于安全和隐私的消息、v2v用户可用的mcs。
7、根据一些实施例,本发明采用如下技术方案:
8、一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,包括:
9、构建并集中式训练多智能体强化学习模型;
10、将训练好的多智能体强化学习模型分布式部署在每个v2v用户中;
11、v2v用户在道路上行驶时,将自身感知到的信道状态信息以及消息发送的相关信息传入训练好的多智能体强化学习模型,信道状态信息包括自身的信道增益以及来自其他信道的干扰信道增益,消息发送的相关信息包括自身是否在发送消息、消息的类型以及剩余的消息数;训练好的多智能体强化学习模型输出一个向量,向量中每个元素大小表示对应动作获得最大奖励值的概率,选择概率最大的动作,以此获得最佳的频谱子带、发射功率以及mcs的选择方案。
12、根据本发明优选的,构建多智能体强化学习模型;包括:
13、步骤1:确定车联网系统中的v2i用户数、v2v用户数、链路集合、正交的频谱子带集合、关于车辆安全的消息种类集合以及可用的mcs种类集合;
14、步骤2:确定关于频谱子带、车辆安全的消息、mcs以及发射功率的约束条件;
15、步骤3:计算车联网系统中存在的两类信道功率增益以及三类干扰信道功率增益;
16、步骤4:计算链路接收端的信干噪比以及链路的信道容量;
17、步骤5:确定v2v链路的可靠性计算方法;
18、步骤6:确定车联网系统的优化目标;
19、步骤7:将优化问题转为多智能体强化学习问题。
20、根据本发明优选的,步骤1中,假设当前车联网系统中存在m个v2i用户以及k个v2v用户,
21、采用以及分别表示v2i链路集合以及v2v链路集合;
22、假设v2i用户数与正交的频谱子带数相等,正交的频谱子带集合表示为
23、消息种类集合表示为mcs种类集合表示为
24、根据本发明优选的,步骤2中,确定关于频谱子带、车辆安全的消息、mcs以及发射功率的约束条件;包括:
25、步骤201,定义频谱子带选择向量规定v2v链路同时只能选择一条子频带,用下式表示:
26、
27、其中,表示第k条v2v链路复用第m个频谱子带,反之表示不复用;
28、步骤202,定义mcs选择向量规定v2v链路同时只能选择一种mcs,用下式表示:
29、
30、其中,表示选择第j种mcs,反之表示不选择;
31、步骤203,定义消息传输向量规定v2v链路同时只能传输一条消息,用下式表示:
32、
33、其中,表示传输第i类消息,反之表示不传输;
34、步骤204,定义发射功率选择向量其中表示第k个v2v发射机的发射功率,满足条件表示最大功率。
35、根据本发明优选的,步骤3中,车联网系统包括两类信道功率增益:
36、用gk[m]表示第k条v2v链路复用第m个频谱子带时的信道功率增益,计算方式为大尺度衰落分量αk与小尺度衰落分量hk[m]的乘积:
37、gk[m]=αkhk[m]
38、表示v2i链路的信道功率增益;
39、当v2v链路复用v2i链路的子频带时,车联网系统中存在三类干扰信道功率增益,分别为gk′,k[m],表示v2v链路之间的干扰;gk,b[m],表示v2v链路对v2i链路的干扰;表示v2i链路对v2v链路的干扰。
40、根据本发明优选的,步骤4中,计算链路接收端的信干噪比以及链路的信道容量;包括:
41、第m条v2i链路的信干噪比的计算公式为:
42、
43、其中,表示v2i链路的发射功率;σ2表示加性高斯白噪声功率;表示占用第m号子频带的v2i链路的发射功率;表示第m条v2i链路对基站的干扰信道增益;gk,b[m]表示第k条v2v链路对基站的干扰信道增益;取值为1或0,表示第k条v2v链路是否占用第m条子频带;
44、第k条v2v链路的信干噪比的计算公式为:
45、
46、其中,gk[m]表示信道功率增益,ik[m]表示第k条v2v链路接收端的干扰功率;具体表示如下:
47、
48、其中,与均表示干扰信道增益;取值为1或0,表示第k′条v2v链路是否占用第m条子频带;表示发射功率。
49、根据香农公式,第m条v2i链路的信道容量为:
50、
51、其中,w表示第m条v2i链路所占用子频带的带宽,表示信干噪比。
52、根据本发明优选的,步骤5中,根据v2v链路传输的消息类型的不同,以及选择的mcs的不同,确定v2v链路的可靠性计算方法;包括:
53、步骤501,计算v2v链路成功接收资源块的概率pk,j[m],计算公式为:
54、
55、其中,表示第k条v2v链路接收端的信干噪比;表示索引为j的mcs对应的sinr阈值;μ是可调节的因子;erf()是指误差函数,定义为:
56、步骤502,计算v2v链路采用第j种mcs发送第i类消息时所需的资源块数量计算公式为:
57、
58、其中,di表示i类型消息的传输速率要求;表示第j种mcs的编码效率;nsc表示一个频谱子带包含的子载波数量;nsymb表示一个子载波在每个时隙中用于传输信息的fdma符号;
59、步骤503,v2v链路采用第j种mcs发送第i类消息时,接收端成功接收的概率:
60、
61、当pk,i,j[m]大于第i类消息对应的成功接收率要求时,认为第i类的接收满足可靠性要求;计算v2v链路一段时间内的可靠性,计算公式为:
62、
63、其中,表示v2v链路一段时间内满足可靠性要求的消息数,表示v2v链路发送的消息总数。
64、根据本发明优选的,步骤6中,确定车联网系统的优化目标;包括:
65、定义v2i链路的优化目标为最大化v2i链路的和速率定义v2v链路的优化目标为最大化v2v链路的平均prr:车联网系统的优化目标就是同时优化v2i链路的和速率以及v2v链路的平均prr。
66、根据本发明优选的,步骤7中,将优化问题转为多智能体强化学习问题;包括:
67、步骤701,设定强化学习的一个回合(eposide)的时间长度为t,包括若干个时隙t;每条v2v链路建模成一个智能体(agent),多个智能体与环境进行交互获取观测信息,再根据策略在动作空间中选择动作;
68、步骤702,设计智能体的观测空间;观测空间包括车辆用户感知到的信道状态信息以及自身发送消息的相关信息;将v2v链路的观测空间设计为如下形式:
69、
70、其中,表示一些列信道增益信息;表示链路是否在传输消息;表示正在传输的消息种类;观测空间还加入了训练回合数e以及贪婪因子ε;
71、步骤703,设计智能体的动作空间;智能体的动作选择反应v2v链路的频谱复用和资源调度情况,智能体的动作空间包括m个频谱子带,j种mcs,以及4个离散化的发射功率[23,10,5,-100]dbm,动作空间维度为4*m*j;
72、步骤704,设计奖励函数:对于第一个优化目标,即v2i链路的优化目标,将奖励函数设计为v2i
73、链路的平均和速率:
74、对于第二个优化目标,即v2v链路的优化目标,根据当前链路的消息剩余传输量bk,i,j以及成功接收概率,将奖励函数设计为如下形式:
75、
76、最终将两个奖励函数加权求和得到最终的奖励函数:
77、
78、其中,λc和λd是用于平衡v2i链路和v2v链路两个目标的正权重。
79、根据本发明优选的,集中式训练多智能体强化学习模型;包括:
80、步骤801,采用强化学习中的ddqn算法,每个智能体维护两个深度神经网络,分别称为行为网络(q网络)和目标网络,行为网络和目标网络的初始权重相同;智能体通过行为网络选择行为,并转移至下一个状态,再通过目标网络计算当前动作的目标q值,以更新行为网络的参数;目标网络的参数由行为网络每隔若干个时间步复制而来;
81、步骤802,在训练中引入贪婪策略(ε-greedy),即智能体以概率1-ε选择网络输出的最佳的动作,而以概率ε随机选择其他动作;ε从1开始衰减,直到衰减到εfinal,每回合的值定义为下式:
82、
83、其中,n表示当前训练回合;n表示训练回合总数;εfinal表示最终不变的值;
84、步骤803,采用经验回放机制,每个智能体维护一个可存放一定数量经验元组的经验回放池,经验元组定义为表示智能体从状态采取动作后转移到状态获得奖励rt;在更新网络参数时,随机在经验回放池中选择一定数量的经验元组输入至网络,利用随机梯度下降法更新网络参数θ,最小化平方和误差;采用经验回放机制之后的损失函数计算方式为:
85、
86、其中θ-表示目标q网络参数,由q网络参数θ周期性复制而来;di表示一小批量经验元组。
87、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于多智能体强化学习的车联网频谱共享与mcs调度方法的步骤。
88、一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于多智能体强化学习的车联网频谱共享与mcs调度方法的步骤。
89、与现有方法相比,本发明的有益效果为:
90、本发明提出的方法,同时优化了v2v链路频谱子带的选择、发射功率的选择以及mcs的选择,并在满足v2v链路不同业务类型传输可靠性的同时,最大化v2i链路的平均和速率。
1.一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,其特征在于,包括:
2.根据权利要求1所述的一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,其特征在于,构建多智能体强化学习模型;包括:
3.根据权利要求2所述的一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,其特征在于,步骤1中,假设当前车联网系统中存在m个v2i用户以及k个v2v用户,
4.根据权利要求2所述的一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,其特征在于,步骤3中,车联网系统包括两类信道功率增益:
5.根据权利要求2所述的一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,其特征在于,步骤4中,计算链路接收端的信干噪比以及链路的信道容量;包括:
6.根据权利要求2所述的一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,其特征在于,步骤5中,根据v2v链路传输的消息类型的不同,以及选择的mcs的不同,确定v2v链路的可靠性计算方法;包括:
7.根据权利要求2所述的一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,其特征在于,步骤6中,确定车联网系统的优化目标;包括:
8.根据权利要求1所述的一种基于多智能体强化学习的车联网频谱共享与mcs调度方法,其特征在于,集中式训练多智能体强化学习模型;包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-8任一所述的基于多智能体强化学习的车联网频谱共享与mcs调度方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-8任一所述的基于多智能体强化学习的车联网频谱共享与mcs调度方法的步骤。