本发明属于车载计算卸载技术,尤其涉及一种基于增强深度强化学习的车联网分布式边缘计算方法。
背景技术:
1、计算卸载是指将计算任务从车辆转移到附近的边缘服务器,以减轻车辆的负担并加快处理时间的过程。计算卸载的本质是极其有利的,它有助于车联网的健康发展,并支撑着交通流量的有效运行。如果管理不当,它将严重影响车联网乃至整个国家交通系统的性能和可靠性。因此,迫切需要建立一个严格可行的车联网管理系统,具备高效的计算卸载能力。传统的车联网管理系统依赖于静态基础设施和直接的车车通信,可能无法满足实时数据处理的高需求。然而,随着互联汽车、物联网(iot)设备和智能交通系统等新型车联网技术的出现,计算卸载方法呈现出多样化趋势。问题重重的任务分配、网络延迟等障碍增加了计算卸载任务的难度。车联网需要应用大数据、人工智能、云计算等现代技术来加强计算卸载系统。
2、许多车联网管理机构已经开始使用机器学习技术来构建智能计算卸载机制。sas是数据分析领域的世界知名公司,通过构建新一代云就绪高性能平台,成功提高了计算任务处理的效率,并将任务处理的延迟降低了约30%,显著减轻了车辆的计算负载,提高了车联网的准确性和效率。这表明,一个智能高效的计算卸载机制对于发展智能交通系统具有至关重要的实际意义。
3、一个优秀的车载计算卸载系统应具备以下特点:
4、(1)任务处理的准确性。由于后续的计算卸载审核工作需要多方参与,任何错误的任务分配和遗漏都会影响正常的工作流程。因此,卸载系统的任务分配率应尽可能高。
5、(2)实时任务反馈。计算卸载与车联网的高效运行和交通流量的安全有关,需要及时的任务分配和实时处理。任何延迟都会导致交通效率低下和潜在事故。
6、(3)通信负载的压缩阻力。由于车联网数据量大幅增长,卸载系统需要承受数据收集和处理带来的高负载。
7、尽管目前使用的集中式智能计算卸载机制可以在一定程度上提高效率,但互联车辆数量急剧增加,计算任务更加复杂和时间敏感。所有这些都使得本地可用的计算资源难以维持高负载的卸载工作,这需要占用大量的计算卸载资源(包括计算资源、通信资源、存储资源等)。因此,如何及时分配计算任务,有效减少卸载延迟,优化计算卸载资源的分配,已成为车联网研究领域的一个新课题。
8、许多学者已经开始应用人工智能技术来替代传统方法,以解决边缘计算中的资源分配问题。ju等人通过应用基于drl的卸载和资源分配方法,研究了车辆用户的多用户安全卸载场景。程琪等人提出了一个mec框架,用于降低360度视频流的延迟,具有主动缓存和计算卸载功能,在其分析和模拟中显示了较低的e2e延迟。bahreini等人解决了两级边缘计算系统中资源分配和定价的问题,而马世恒等人提出了一个涉及用户、边缘节点和服务提供商的三方循环博弈(3cg)。在该模型中,用户选择自己喜欢的服务,服务提供商选择成本效益高的边缘节点,边缘节点优先考虑高价值用户。baek等人研究了iot环境下边缘计算资源分配的三种动态定价方案,数值结果验证了所提出的定理,并对三种机制进行了比较分析。林思雨等人关注计算资源分配和功率控制,利用边缘计算提出资源分配方案,可以提高吞吐量,减少端到端延迟,并实现平均吞吐量。然而,在上述文献中,强化学习算法尚未得到应用。
9、王佳黛等人开发了一种基于深度强化学习的资源分配(drlra)方案。该智能系统能够自适应地分配计算和网络资源,从而减少平均服务时间,并在可变的mec环境中实现资源利用率的平衡。陈杰男等人设计了iraf,这是一个用于comec网络中资源分配的智能框架,利用多任务深度强化学习算法评估网络和任务条件,以有效优化分配决策。宁兆龙等人构建了一个专门针对车载边缘计算的智能卸载系统。该系统将双边匹配方案与深度强化学习方法相结合,以有效地调度卸载请求和分配网络资源,满足车载网络的独特需求。梁宏斌等人使用smdp和rl引入了一种自适应云资源分配模型,用于车载系统,以提高qos和qoe,同时最大化奖励并平衡支出和收入,与传统方法相比,基于神经网络的方法显示出减少延迟和提高奖励的优势。kumar等人提出了一种用于vec的l-maddpg方法,优化rsu的任务分配和资源分配,提高能效并减少延迟,模拟结果表明其优于现有算法。高健等人研究了vec中任务卸载、调度和资源分配的优化,以最小化延迟和能耗,采用dqn和gd方法,并在各种网络参数下证明了所提算法的有效性。梁宏斌等人提出了一种用于货车编队的动态资源分配模型,利用smdp和drl来优化收益并最小化延迟,优于传统方法。虽然mdp(马尔可夫决策过程)在车载边缘计算中的应用已经得到研究,但仍有很大的进一步探索潜力,特别是在分布式环境中,车载网络的复杂性可能带来独特的挑战和优化机会。
技术实现思路
1、为提高计算卸载服务的效率,同时降低成本,本发明提供一种基于增强深度强化学习的车联网分布式边缘计算方法。
2、本发明的一种基于增强深度强化学习的车联网分布式边缘计算方法,具体为:
3、a、建立基于分布式云计算网络的计算卸载系统。
4、基于分布式云计算网络的计算卸载系统由多个车载计算卸载域vcod组成,将vcod中的资源定义为计算卸载资源单元coru,一个vcod中共有k个coru可用,处理每个任务需要c个coru,其中,c∈{1,2,...c},c≤k。
5、将计算任务分为两类:一类是由车辆生成并发送到本地vcod的,表示为新的计算卸载请求;另一类是从附近的vcod接收的,表示为转移的计算卸载任务。
6、假设到达vcod的任务的平均速率服从泊松分布,分别为λn和λt;设μ是一个coru的处理速率;因此,vcod分配c个coru处理一个任务的处理时间为当本地vcod接收到新的计算卸载请求时,它会评估处理该任务所带来的预期效用和开销,其中成本是由于计算资源的占用;然后,vcod有三种处理任务的策略:立即处理、延迟处理或将其转移到相邻的vcod,即:
7、(1)立即处理:如果本地vcod有足够的coru,且效用高于支出,则立即处理该任务。
8、(2)延迟处理:当本地vcod可用的coru不足以处理计算任务时,vcod会向周围的vcod发送请求;如果没有vcod愿意接受卸载任务,那么本地vcod只能延迟处理该任务。
9、(3)转移到相邻的vcod:假设有多个相邻的vcod愿意立即接收和处理计算任务;本地vcod根据这些邻居的反馈选择其中一个相邻的vcod来转移任务,并向其提供某种形式的激励或奖励。
10、本地vcod选择一个为处理计算任务分配最大数量coru的相邻vcod,表示为:其中,i表示第i个相邻vcod,表示本地域选择的最佳相邻vcod,ci表示第i个相邻vcod可以为处理从本地vcod发送的计算卸载任务分配的coru数量。
11、b、将计算卸载资源的优化问题建模为马尔可夫决策过程,即smdp建模。
12、状态空间:
13、令sc表示正在卸载和处理的计算任务数量,这些任务在vcod中占用c个coru;因此,在vcod中,所有计算任务占用的coru总数,即占用的计算资源总数为其中c是vcod可以为一个计算任务分配的最大coru数;an和at分别用于表示新计算卸载请求的到达和转移的计算任务;使用“完成”来表示vcod完成计算任务的处理过程;当vcod完成计算任务的处理时,资源将被释放;假设fc是vcod完成占用c个coru的计算任务的过程;因此,vcod中的事件集表示为:e∈{an,at,f1,...,fc}。
14、因此,vcod的系统状态,即s由正在处理的计算任务数量、vcod中的可用资源以及事件,包括新的计算卸载请求或转移任务到达vcod,以及vcod完成计算任务并释放计算资源组成;状态空间表示为s={s|s=<s1,s2,...,sc,m,e>=<s-,m,e>},其中m是vcod中的可用资源。
15、动作空间:
16、在接收到计算卸载请求后,vcod可以从动作集中选择三种决策,即:(1)接收并立即处理计算任务,并为该任务分配c个coru;(2)延迟处理计算任务;(3)务转移到其他相邻vcod进行处理。
17、这三种决策分别表示为a(s)=c,其中c∈{1,2,...,c},a(s)=0和a(s)=-1;当vcod完成一个计算任务时,它将释放该任务占用的计算资源;此时,vcod的决策是更新vcod中可用的计算资源,表示为a(s)=-2;因此,提出的基于分布式云计算网络的计算卸载资源最优分配模型的动作空间为a={-2,-1,0,1,2,...,c};相应地,动作定义为:
18、
19、奖励:
20、根据最优分配模型的系统状态和相应决策,系统在状态s下采取动作a后获得的奖励r(s,a)表示为r(s,a)=φ1(s,a)-φ2(s,a),其中s=<s-,m,e>;其中,φ1(s,a)是vcod在事件e到达时,在状态s下做出相应决策动作a后获得的系统收益,φ2(s,a)是计算卸载系统的支出。
21、关于φ1(s,a),通过以下方式计算:
22、
23、当vcod完成一项计算任务并释放计算资源时,车载网络系统无法获得任何效用,即φ1(s,a)=0,a(s)=-2,且e∈{f1,...,fc}。
24、当vcod接收到来自车辆发送的新计算卸载请求时,如果它决定立即接收并处理新的计算卸载请求,它将获得效用ed,并将分配c个coru来处理计算任务;同时,由于占用c个coru,vcod将花费占用开支这里,占用计算资源的开支是指vcod在处理计算任务期间占用coru的费用,其中β表示单位时间的价格,其测量单位与vcod获得的效用相同。
25、对于转移的计算任务,本地vcod需要向接收转移计算任务的相邻vcod支付et的费用;因此,相邻vcod的期望效用是et减去由于处理转移计算任务而带来的占用相邻vcod的c个coru的成本;换句话说,当事件为at,且相邻vcod的决策为a(s)=c时,相邻vcod获得的期望效用表示为
26、如果本地vcod对新的计算卸载请求的决定是延迟处理,则本地vcod将承担由于未能及时处理计算任务而带来的延迟风险;因此,本地vcod由于承担延迟风险而带来的损失为-er。
27、如果相邻vcod拒绝转移的计算任务,则相邻vcod对转移计算任务的效用为0。
28、如果相邻vcod接收转移的计算任务,本地vcod将计算任务转移到相邻vcod;在这种情况下,它还将向相邻vcod支付et的费用,同时获得ed的效用;因此,当本地vcod将新的计算卸载请求转移到相邻vcod时,它获得的效用为φ1(s,a)=ed-et。
29、如果本地vcod从相邻vcod接收转移的计算任务,然后将任务转移到另一个相邻vcod进行处理;本地vcod从相邻vcod获得et的效用,并且它必须为继续将任务转移到其他相邻vcod支付et的费用;因此,本地vcod获得的效用为0;所以,当e=at,a(s)=-1时,本地vcod获得的效用为φ1(s,a)=0。
30、最优分配模型的期望系统支出,即φ2(s,a)表示为φ2(s,a)=ζ(s,a)ω(s,a),其中a∈a;这里,ζ(s,a)是车载网络系统在当前状态s下选择决策a转移到下一状态的期望时间;ω(s,a)是在本地vcod中正在处理的所有计算任务所占用的计算资源总数。
31、c、采用增强型深度q学习方法来解决优化问题。
32、计算卸载通过学习估计每个动作的最优值来解决,每个动作的最优值定义为采取该动作并在此后遵循最优策略时未来效用的期望总和;在给定策略π下,状态s下动作a的真实值,即状态-动作值函数为qπ(s,a)=e[rt+γrt+1+...|st=s,at=a],其中γ∈[0,1]是折扣因子;令q*(s,a)表示状态-动作值函数的最优值,表示为q*(s,a)=maxπqπ(s,a);通过在每个状态下选择值最高的动作从最优值中获得最优策略。
33、最优动作值采用增强型深度q学习,即edql来学习,假设θ是网络的参数,对于给定的状态s,神经网络输出动作值的向量,即q(s,.;θ);在状态st下,智能体从动作空间中采取动作at,在获得效用rt+1后,状态将转移到st+1;θ的更新定义为这里,是目标网络的参数,它与在线网络相同,只是其参数每m步从在线网络复制一次;α是学习率;edql中目标描述为
34、本发明的有益技术效果为:
35、本发明提出了一个创新的框架,利用分布式云计算革新车联网系统中的集中式计算卸载范式。战略性地将传统上在本地处理的计算任务重新分配到边缘服务器网络中。这一关键转变不仅提高了整体资源利用率,而且在管理日益复杂的车联网的计算需求方面取得了重大进展。通过分散处理工作负载,实现了一个更具可扩展性、效率和响应性的车联网基础设施,准备好满足现代交通系统的实时需求。
36、本发明方法在适应车载网络不断变化的需求方面特别创新,确保了资源的有效利用,并在系统范围内减少了卸载延迟。
1.一种基于增强深度强化学习的车联网分布式边缘计算方法,其特征在于,具体为: