本技术属于无线通信,特别涉及一种无线资源分配方法、装置、电子设备、存储介质和程序产品。
背景技术:
1、在相关技术中,对于无线网络的无线资源分配问题,可以采用基于凸优化的即时最优决策算法进行无线资源的分配,然而,相关技术中基于凸优化的即时最优决策算法不能从用户的长期收益的角度进行资源分配,无法确定长期最优的无线资源分配策略。
技术实现思路
1、本技术实施例提供一种无线资源分配方法、装置、电子设备、存储介质和程序产品。
2、本技术实施例提供一种无线资源分配方法,所述方法包括:
3、获取目标用户设备的状态空间,所述目标用户设备的状态空间包括所述目标用户设备需要传输的业务数据的数据量、以及所述目标用户设备需要传输的业务数据的剩余传输时间;所述目标用户设备为需要确定无线资源分配动作的用户设备集合中的任意一个用户设备;
4、以最小化所述目标用户设备未传输的业务数据的数据量为目标,并基于预设的长期功率约束和所述目标用户设备的状态空间,确定所述目标用户设备的动作空间;所述目标用户设备的动作空间表示所述目标用户设备的无线资源分配信息;
5、基于所述目标用户设备的动作空间,执行所述目标用户设备的无线资源分配。
6、在一些实施例中,所述目标用户设备需要传输的业务数据包括一类业务数据或多类业务数据;所述目标用户设备需要传输的业务数据的剩余传输时间包括所述一类业务数据或多类业务数据中每类业务数据的剩余传输时间。
7、可以看出,本技术实施例中,可以根据目标用户设备需要传输的业务数据的数据量、以及目标用户设备需要传输的业务数据中每类业务数据的剩余传输时间,更加准确地确定目标用户设备的动作空间,即,可以更加准确地确定目标用户设备的无线资源分配信息;进而,有利于更加准确地实现每类业务数据的无线资源分配。
8、在一些实施例中,所述目标用户设备的动作空间包括以下一项或多项:所述目标用户设备为发送所述每类业务数据所选择的子载波、所述目标用户设备为发送所述每类业务数据使用的传输功率。
9、可以看出,本技术实施例中,可以根据长期功率约束和目标用户设备的状态空间,确定目标用户设备为发送每类业务数据所使用的无线参数,从而,有利于基于目标用户设备为发送每类业务数据所使用的无线参数,更加合理地执行目标用户设备的无线资源分配。
10、在一些实施例中,所述以最小化所述目标用户设备未传输的业务数据的数据量为目标,并基于预设的长期功率约束和所述目标用户设备的状态空间,确定所述目标用户设备的动作空间,包括:以最小化所述目标用户设备未传输的业务数据的数据量为目标,确定所述目标用户设备的无线资源分配问题;将所述长期功率约束作为惩罚项,添加到所述目标用户设备的无线资源分配问题的价值函数中;根据所述目标用户设备的状态空间、以及所述目标用户设备的无线资源分配问题的价值函数,确定所述目标用户设备的动作空间。
11、可以看出,本技术实施例中,将最小化目标用户设备未传输的业务数据的数据量作为目标时,可以更加准确地确定目标用户设备的无线资源分配问题;在将长期功率约束作为惩罚项时,如果将长期功率约束添加到目标用户设备的无线资源分配问题的价值函数中,便可以根据目标用户设备的状态空间、以及目标用户设备的无线资源分配问题的价值函数,更加合理地确定目标用户设备的无线资源分配信息。
12、在一些实施例中,所述目标用户设备的无线资源分配问题的价值函数与预先确定的参考状态的价值成负相关。可以看出,本技术实施例中可以在无线资源分配问题的价值函数中引入预先确定的参考状态的价值,由于无线资源分配问题的价值函数与预先确定的参考状态的价值成负相关,因此,可以使得无线资源分配问题的价值函数在迭代求解的过程中收敛,即,可以可靠地实现无线资源分配问题的价值函数的求解。
13、在一些实施例中,所述价值函数中的惩罚项根据所述第一乘子确定,所述第一乘子根据所述第一乘子的更新速率和所述长期功率约束确定。可以看出,本技术实施例中,可以根据第一乘子的更新速率和长期功率约束,确定并更新第一乘子,从而有利于根据第一乘子动态调整价值函数中的惩罚项;在动态调整价值函数中的惩罚项的情况下,根据目标用户设备的状态空间、以及目标用户设备的无线资源分配问题的价值函数,可以更加实时地确定目标用户设备的无线资源分配信息。
14、在一些实施例中,所述价值函数中的惩罚项根据所述目标用户设备未传输的业务数据的优先级确定。可以看出,本技术实施例中,可以根据目标用户设备未发送的业务数据的优先级,确定目标用户设备的无线资源分配问题的价值函数,从而根据价值函数确定的目标用户设备的动作空间可以反映目标用户设备未发送的业务数据的优先级,因此,可以实现按照业务数据的优先级分配发送业务数据时的无线资源。
15、在一些实施例中,所述以最小化所述目标用户设备未传输的业务数据的数据量为目标,并基于预设的长期功率约束和所述目标用户设备的状态空间,确定所述目标用户设备的动作空间,包括:将所述目标用户设备的状态空间输入至用于实现无线资源分配的神经网络中;在所述神经网络中,以最小化所述目标用户设备未传输的业务数据的数据量为目标,并基于预设的长期功率约束,确定所述目标用户设备的动作空间。可以看出,本技术实施例可以利用神经网络对标用户设备的状态空间进行处理,从而可以较为容易地确定目标用户设备的动作空间。
16、在一些实施例中,所述神经网络的训练方法包括以下步骤:获取目标用户设备在训练阶段的状态空间;将所述目标用户设备在训练阶段的状态空间输入至所述神经网络,利用所述神经网络对所述目标用户设备在训练阶段的状态空间进行处理,得到所述目标用户设备在训练阶段的动作空间;获取其它用户设备在训练阶段的动作空间,所述其它用户设备表示所述用户设备集合除所述目标用户设备外的设备;根据所述用户设备集合中每个用户设备的动作空间,确定所述每个用户设备的奖励值,所述奖励值用于反映所述每个用户设备在训练阶段未传输的业务数据的数据量;根据所述每个用户设备的奖励值,调整所述神经网络的网络参数值。
17、可以看出,在神经网络的训练过程中,可以根据每个用户设备的奖励值,调整神经网络的网络参数值;由于奖励值可以反映每个用户设备在训练阶段未传输的业务数据的数据量,因此,有利于使得网络参数值调整后的神经网络通过合理地分配用户设备的动作空间降低用户设备未传输的业务数据的数据量。
18、在一些实施例中,所述获取其它用户设备在训练阶段的动作空间,包括:获取其它用户设备通过广播方式发送的所述在训练阶段的动作空间。本技术实施例只需通过广播用户的动作选择,就可以实现了用户间的视角共享,无需良好的网络状态和用户间通信质量即可完成神经网络的训练,以最小的通信代价,实现了神经网络的分布式训练,并实现了用户在网络中的信息共享。
19、本技术实施例还提供一种下行功率控制装置,所述装置包括:
20、获取模块,用于获取目标用户设备的状态空间,所述目标用户设备的状态空间包括所述目标用户设备需要传输的业务数据的数据量、以及所述目标用户设备需要传输的业务数据的剩余传输时间;所述目标用户设备为需要确定无线资源分配动作的用户设备集合中的任意一个用户设备;
21、处理模块,用于以最小化所述目标用户设备未传输的业务数据的数据量为目标,并基于预设的长期功率约束和所述目标用户设备的状态空间,确定所述目标用户设备的动作空间;所述目标用户设备的动作空间表示所述目标用户设备的无线资源分配信息;
22、执行模块,用于基于所述目标用户设备的动作空间,执行所述目标用户设备的无线资源分配。
23、本技术实施例还提供了一种电子设备,所述电子设备包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,所述处理器用于运行所述计算机程序以执行上述任意一种无线资源分配方法。
24、本技术实施例还提供了一种计算机存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任意一种无线资源分配方法。
25、本技术实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现上述任意一种无线资源分配方法。
26、可以看出,本技术实施例可以根据预设的长期功率约束、目标用户设备需要传输的业务数据的数据量、以及目标用户设备需要传输的业务数据的剩余传输时间,较为准确地确定出目标用户设备的无线资源分配信息,从而,本技术实施例可以从用户设备的长期功率的角度进行无线资源分配,有利于使得无线资源分配信息符合关于长期功率的实际需求。
1.一种无线资源分配方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述目标用户设备需要传输的业务数据包括一类业务数据或多类业务数据;所述目标用户设备需要传输的业务数据的剩余传输时间包括所述一类业务数据或多类业务数据中每类业务数据的剩余传输时间。
3.根据权利要求2所述的方法,其特征在于,所述目标用户设备的动作空间包括以下一项或多项:所述目标用户设备为发送所述每类业务数据所选择的子载波、所述目标用户设备为发送所述每类业务数据使用的传输功率。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述以最小化所述目标用户设备未传输的业务数据的数据量为目标,并基于预设的长期功率约束和所述目标用户设备的状态空间,确定所述目标用户设备的动作空间,包括:
5.根据权利要求4所述的方法,其特征在于,所述目标用户设备的无线资源分配问题的价值函数与预先确定的参考状态的价值成负相关。
6.根据权利要求4所述的方法,其特征在于,所述价值函数中的惩罚项根据所述第一乘子确定,所述第一乘子根据所述第一乘子的更新速率和所述长期功率约束确定。
7.根据权利要求4所述的方法,其特征在于,所述价值函数中的惩罚项根据所述目标用户设备未传输的业务数据的优先级确定。
8.根据权利要求1至3任一项所述的方法,其特征在于,所述以最小化所述目标用户设备未传输的业务数据的数据量为目标,并基于预设的长期功率约束和所述目标用户设备的状态空间,确定所述目标用户设备的动作空间,包括:
9.根据权利要求8所述的方法,其特征在于,所述神经网络的训练方法包括以下步骤:
10.根据权利要求9所述的方法,其特征在于,所述获取其它用户设备在训练阶段的动作空间,包括:获取其它用户设备通过广播方式发送的所述在训练阶段的动作空间。
11.一种下行功率控制装置,其特征在于,所述装置包括:
12.一种电子设备,其特征在于,所述电子设备包括处理器和用于存储能够在处理器上运行的计算机程序的存储器;其中,
13.一种计算机存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至10任一项所述的方法。
14.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序在被处理器执行时实现权利要求1至10中任一项所述的方法。