本发明属于移动边缘计算和无线通信,涉及一种mec网络中的任务卸载与资源分配方法。
背景技术:
1、随着对计算资源提出严格要求的移动应用呈指数级增长,计算和电源有限的移动设备成为满足高级应用服务质量(quality of service,qos)的瓶颈,例如对计算资源有严格要求的交互式视频会议超低延迟。鉴于这一发展,移动边缘计算(mobile-edgecomputing,mec)在将云功能引入移动设备附近的边缘方面发挥着关键作用,而不是可能引入较大通信延迟的移动云计算(mcc)。通过计算卸载技术,资源受限的移动用户可以通过将计算密集型作业卸载到附近的mec服务器来节省电量并丰富用户的应用体验。
2、对于某些延迟容忍敏感型服务,任务卸载时间可能只有几秒钟。此外,在实际环境中,由于信道在相邻时隙之间依赖性地变化,因此在系统设计中必须考虑时变信道,以实现有效和稳健的操作。然而,现有的基于一次性优化的方法不能适应不一致的网络环境,需要在环境发生变化时重新计算最优策略。因此,深度强化学习(deep reinforcementlearning,drl)被考虑用于不确定环境下的最优决策。
3、mec网络中涉及的各种因素和变量,如网络状态、用户需求、边缘节点负载等往往是非线性且动态变化的,而传统任务卸载算法通常基于预先定义的规则或启发式策略,无法处理网络拥塞、计算资源利用率波动等情况。且其通常是基于短期局部的考虑进行决策,无法很好地考虑任务卸载决策对系统长期性能的影响。强化学习可以通过考虑长期回报最大化来优化决策,更好地平衡短期和长期性能。
4、但是,以上现有技术求解动态任务卸载问题时,计算复杂度高,全局搜索能力不够好,导致结果不够准确。
技术实现思路
1、为解决以上现有技术问题,本发明采用一种mec网络中的任务卸载与资源分配方法,包括:
2、s1、构建系统模型;所述系统模型包括:cap和用户设备mu,单个cap可同时服务n个mu;
3、s2、根据系统模型构建任务卸载模型和资源分配模型;
4、s3、基于任务卸载模型和资源分配模型,以最小化mu的任务执行的总成本构建联合优化问题;
5、s4、将联合优化问题转换为马尔科夫决策过程,确定状态空间、动作空间以及奖励函数;
6、s5、根据状态空间、动作空间以及奖励函数利用深度强化学习算法和差分进化算法求解联合优化问题,得到最优任务卸载决策和资源分配决策。
7、构建任务卸载模型包括:构建任务:jn(sn,cn,vn),其中,sn表示任务大小,cn表示执行任务所需的计算量,vn表示任务的最大可容忍延迟;构建任务卸载决策:d={d1,d2,...,dn},dn∈{0,1},表示mun的任务的卸载决策。
8、构建资源分配模型包括:构建计算资源分配决策:f={f1,...,fn},表示资源分配决策,fn表示cap分配给mu n的计算资源。
9、mu的任务执行的总成本为:
10、
11、其中,为mu在本地执行任务的成本,为将任务卸载到cap执行的成本,dn表示mun的任务的卸载决策。
12、计算mu在本地执行任务的成本包括:获取执行任务jn所需的计算量cn,根据计算量cn计算任务jn的本地执行时延和能耗对时延和能耗进行归一化,对归一化后的时延和能耗进行加权结合,得到mun在本地执行任务的成本
13、计算将任务卸载到cap执行的成本包括:
14、计算从mun到cap的传输速率cn,根据传输速率cn和任务的大小sn计算从mun将任务传输到cap的传输时延
15、获取从mun到cap的发射功率根据传输速率cn、任务的大小sn以及发射功率计算从mun将任务传输到cap产生的能耗
16、获取执行任务所需的计算量cn和cap分配给mu n的计算资源fn,根据计算量cn和计算资源fn计算mun的任务在cap执行的计算时延
17、对传输时延能耗以及计算时延进行归一化,根据归一化后的传输时延、能耗以及计算时延计算将任务卸载到cap执行的成本
18、构建联合优化问题包括:
19、
20、其中,c1表示任务卸载决策的范围的约束,c2表示mu的任务执行的时延的约束,c3、c4表示cap分配给mun的计算资源的约束,为mu的任务执行的总成本,d为总任务卸载决策,f为总资源分配决策,dn为任务jn的卸载决策,n为mu的数量,为任务jn的本地执行时延,为任务jn卸载到cap执行的时延,fn为cap分配给mun的计算资源,ftotal为cap的总计算资源,vn表示任务jn的最大可容忍延迟。
21、将联合优化问题转化为马尔科夫决策过程包括:
22、构建状态空间:构建动作空间:a={d,f},构建奖励函数其中,wn为mun的无线链路的带宽,sn表示mun的任务jn的大小,cn表示处理mun的任务jn的所需计算量,vn表示mun的任务jn的最大可容忍延迟,表示mun的cpu周期频率,hn表示从mu n到cap无线链路的信道参数,表示为mun到cap的发射功率,ftotal表示cap的全部计算资源,k表示mun的能效参数,d表示总任务卸载决策,f表示总资源分配决策,为mu的任务执行的总成本。
23、利用深度强化学习算法和差分进化算法求解联合优化问题包括:
24、s51、将联合优化问题分解为任务卸载优化子问题和资源分配优化子问题;
25、s52、构建深度强化学习模型;所述深度强化模型包括:actor网络和critic网络;
26、s53、获取时隙t的状态st,将状态st输入actor网络,得到卸载决策将卸载决策量化为k个卸载决策
27、s54、将k个卸载决策分别输入critic网络采用差分进化算法求解资源分配优化子问题,得到最优卸载决策及其最优资源分配决策
28、s55、执行卸载决策及其最优资源分配决策生成新状态st+1,得到奖励
29、s56、将作为一条训练样本添加到经验回放池;
30、s57、从经验回放池中随机抽取一批训练样本,根据训练样本训练深度强化学习模型,得到训练好的深度强化学习模型;
31、s58、根据训练好的深度强化模型,得到当前状态的最优任务卸载决策和资源分配决策。
32、将卸载决策量化为k个卸载决策包括:
33、利用噪声保序量化方法生成的前k/2个卸载决策;在中加入噪声,得到的噪声卸载决策利用噪声保序量化方法根据噪声卸载决策生成的后k/2个卸载决策。
34、有益效果:
35、本发明基于actor-critic深度强化学习框架,在任务卸载方面,应用噪声保序量化方法求解任务卸载子问题,生成了动作的高度多样性,并且比传统的动作生成技术具有更好的收敛性能,缩小强化学习中智能体的探索空间,加速收敛过程;在资源分配方面,由于差分进化算法具有全局搜索能力,能够在复杂、多峰性问题中找到全局最优解,相比于局部搜索算法具有更强的全局搜索能力,因此采用差分进化算法求解资源分配子问题来评估二进制卸载决策,实现了系统成本最小化,提高了决策的准确性。
1.一种mec网络中的任务卸载与资源分配方法,其特征在于,包括:
2.根据权利要求1所述的一种mec网络中的任务卸载与资源分配方法,其特征在于,构建任务卸载模型包括:构建任务:jn(sn,cn,vn),其中,sn表示任务大小,cn表示执行任务所需的计算量,vn表示任务的最大可容忍延迟;构建任务卸载决策:d={d1,d2,...,dn},dn∈{0,1},表示mun的任务的卸载决策。
3.根据权利要求1所述的一种mec网络中的任务卸载与资源分配方法,其特征在于,构建资源分配模型包括:构建计算资源分配决策:f={f1,...,fn},表示资源分配决策,fn表示cap分配给mu n的计算资源。
4.根据权利要求1所述的一种mec网络中的任务卸载与资源分配方法,其特征在于,mu的任务执行的总成本为:
5.根据权利要求4所述的一种mec网络中的任务卸载与资源分配方法,其特征在于,计算mu在本地执行任务的成本包括:获取执行任务jn所需的计算量cn,根据计算量cn计算任务jn的本地执行时延和能耗对时延和能耗进行归一化,对归一化后的时延和能耗进行加权结合,得到mun在本地执行任务的成本
6.根据权利要求4所述的一种mec网络中的任务卸载与资源分配方法,其特征在于,计算将任务卸载到cap执行的成本包括:
7.根据权利要求1所述的一种mec网络中的任务卸载与资源分配方法,其特征在于,构建联合优化问题包括:
8.根据权利要求1所述的一种mec网络中的任务卸载与资源分配方法,其特征在于,将联合优化问题转化为马尔科夫决策过程包括:
9.根据权利要求1所述的一种mec网络中的任务卸载与资源分配方法,其特征在于,利用深度强化学习算法和差分进化算法求解联合优化问题包括:
10.根据权利要求9所述的一种mec网络中的任务卸载与资源分配方法,其特征在于,将卸载决策量化为k个卸载决策包括:
