本技术涉及无线通信领域,尤其涉及一种基站参数寻优的模型训练及应用方法、设备和存储介质。
背景技术:
1、在无线网络的复杂环境下,基站的各功能配置参数和网络性能指标之间存在无法公式化的问题。相关技术中,上行有限的功率调整范围,固定的功率调整量,并且设置的功率调整范围和调整量过度依赖前期仿真结果、算法和现场网优人员的经验,与实际应用场景往往存在一定偏差,且不合理的参数调整可能引起网络故障的风险,导致功率调整结果无法满足实际复杂的场景要求;此外,下行amc(adaptive modulation and coding,自适应调制与编码)的初始外环一般由算法给定的默认值这一方法确定,而在多种业务场景、不同小区负荷下需要根据信道条件不同选择合适调制方式,当信道条件较差时,选择较小的调制方式与编码速率,当信道条件较好时,选择较大的调制方式,该选择过程复杂且耗时较长,以及不合适的调制方式亦会引起误块率(block error rate,bler)快速增大,造成系统的性能恶化。
2、如何在外场复杂场景下,实现基站网络参数寻优配置,相关技术中尚无有效方案。
技术实现思路
1、有鉴于此,本技术实施例提供了一种基站参数寻优的模型训练及应用方法、设备和存储介质,旨在实现基站参数的动态寻优配置,优化基站的运行性能。
2、本技术实施例的技术方案是这样实现的:
3、第一方面,本技术实施例提供了一种基站参数寻优的模型训练方法,包括:
4、获取基站在多种用户分布下的第一状态参数;
5、基于构建的深度q网络(deep q network,dqn)模型和所述第一状态参数,选取用于参数寻优的动作数据;
6、基于所述第一状态参数和所述动作数据,确定所述基站基于所述动作数据调整后的第二状态参数和奖励值,所述奖励值基于所述基站在调整后的所述第二状态参数下的网络性能数据生成;
7、基于所述第一状态参数、所述动作数据、所述奖励值和所述第二状态参数构建训练样本,得到训练样本集;
8、基于所述训练样本集,分批次地训练所述深度q网络模型,更新所述深度q网络模型的参数,直至得到训练好的深度q网络模型。
9、上述方案中,所述基于构建的深度q网络模型和所述第一状态参数,选取用于参数寻优的动作数据,包括:
10、基于构建的深度q网络模型和设定的强化学习策略,生成与所述第一状态参数对应的备选动作数据;
11、基于设定的动作取值空间确定所述备选动作数据是否合规,若否,则返回所述基于构建的深度q网络模型和设定的强化学习策略,生成与所述第一状态参数对应的备选动作数据,直至得到合规的备选动作数据,并将所述合规的备选动作数据作为所述用于参数寻优的动作数据。
12、上述方案中,所述第一状态参数和所述第二状态参数均包括所述基站的上行功控参数和下行amc(自适应调制与编码)参数,所述设定的动作取值空间包括所述基站的上行功控参数和下行amc参数中至少一个参数的调整空间。
13、上述方案中,所述基于构建的深度q网络模型和设定的强化学习策略,生成与所述第一状态参数对应的备选动作数据,包括:
14、基于设定的强化学习策略,生成随机数,并比较所述随机数和设定探索率;
15、若所述随机数小于所述设定探索率,则基于所述深度q网络模型对所述第一状态参数,随机生成备选动作数据;
16、若所述随机数大于或等于所述设定探索率,则基于所述深度q网络模型对所述第一状态参数,生成动作最优的动作数据,将所述动作最优的动作数据作为所述备选动作数据。
17、上述方案中,所述基于所述第一状态参数和所述动作数据,确定所述基站基于所述动作数据调整后的第二状态参数和奖励值,包括:
18、基于所述第一状态参数和所述动作数据查询预先构建的数据库,确定是否存在匹配的映射关系;
19、若是,则基于所述匹配的映射关系确定所述第二状态参数和所述第二状态参数下的网络性能数据;
20、若否,则对所述第一状态参数和所述动作数据基于仿真器生成所述第二状态数据和所述第二状态参数下的网络性能数据;
21、基于设定的奖励函数和所述第二状态参数下的网络性能数据,生成所述奖励值;
22、其中,所述数据库包括所述基站的历史采集的状态参数与网络性能数据之间的映射关系。
23、上述方案中,所述深度q网络模型包括作为在线预测网络的第一q网络和作为参照目标网络的第二q网络,所述基于所述训练样本集,分批次地训练所述深度q网络模型,更新所述深度q网络模型的参数,直至得到训练好的深度q网络模型,包括:
24、针对每批次的训练样本,基于所述第一q网络求取第一q值,基于所述第二q网络求取第二q值;
25、基于所述第一q值和所述第二q值,求取损失值;
26、基于所述损失值更新所述第一q网络的参数;
27、每间隔设定数量的批次,基于所述第一q网络的参数更新所述第二q网络的参数,如此循环,直至得到训练好的所述第一q网络。
28、第二方面,本技术实施例提供了一种基站参数寻优的控制方法,包括:
29、将基站的当前状态参数输入本技术实施例第一方面所述的训练方法训练得到的深度q网络模型中,生成动作最优的动作数据,所述动作数据用于调整所述基站的上行功控参数和下行amc参数中至少一个参数。
30、第三方面,本技术实施例提供了一种基站参数寻优的模型训练装置,包括:
31、获取模块,用于获取基站在多种用户分布下的第一状态参数;
32、动作确定模块,用于基于构建的深度q网络模型和所述第一状态参数,选取用于参数寻优的动作数据;
33、生成模块,用于基于所述第一状态参数和所述动作数据,确定所述基站基于所述动作数据调整后的第二状态参数和奖励值,所述奖励值基于所述基站在调整后的所述第二状态参数下的网络性能数据生成;
34、样本构建模块,用于基于所述第一状态参数、所述动作数据、所述奖励值和所述第二状态参数构建训练样本,得到训练样本集;
35、训练模块,用于基于所述训练样本集,分批次地训练所述深度q网络模型,更新所述深度q网络模型的参数,直至得到训练好的深度q网络模型。
36、第四方面,本技术实施例提供了一种基站参数寻优的控制装置,包括:
37、预测模块,用于将基站的当前状态参数输入本技术实施例第三方面所述的训练装置训练得到的深度q网络模型中,生成动作最优的动作数据;所述动作数据用于调整所述基站的上行功控参数和下行amc参数中至少一个参数。
38、第五方面,本技术实施例提供了一种电子设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器用于运行计算机程序时,执行本技术实施例任一方面所述方法的步骤。
39、第六方面,本技术实施例提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本技术实施例任一方面所述方法的步骤。
40、本技术实施例提供的技术方案,获取基站在多种用户分布下的第一状态参数;基于构建的深度q网络模型和第一状态参数,选取用于参数寻优的动作数据;基于第一状态参数和动作数据,确定基站基于动作数据调整后的第二状态参数和奖励值,奖励值基于基站在调整后的第二状态参数下的网络性能数据生成;基于第一状态参数、动作数据、奖励值和第二状态参数构建训练样本,得到训练样本集;基于训练样本集,分批次地训练深度q网络模型,更新深度q网络模型的参数,直至得到训练好的深度q网络模型。该训练好的深度q网络模型可以满足外场复杂场景下,基站参数的动态寻优配置,优化基站的运行性能。
1.一种基站参数寻优的模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于构建的深度q网络模型和所述第一状态参数,选取用于参数寻优的动作数据,包括:
3.根据权利要求2所述的方法,其特征在于,
4.根据权利要求2所述的方法,其特征在于,所述基于构建的深度q网络模型和设定的强化学习策略,生成与所述第一状态参数对应的备选动作数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一状态参数和所述动作数据,确定所述基站基于所述动作数据调整后的第二状态参数和奖励值,包括:
6.根据权利要求1所述的方法,其特征在于,所述深度q网络模型包括作为在线预测网络的第一q网络和作为参照目标网络的第二q网络,所述基于所述训练样本集,分批次地训练所述深度q网络模型,更新所述深度q网络模型的参数,直至得到训练好的深度q网络模型,包括:
7.一种基站参数寻优的控制方法,其特征在于,包括:
8.一种基站参数寻优的模型训练装置,其特征在于,包括:
9.一种基站参数寻优的控制装置,其特征在于,包括:
10.一种电子设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
11.一种计算机存储介质,所述计算机存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至7任一项所述方法的步骤。