本技术涉及人工智能领域,具体涉及一种确定目标特征变量的方法、装置、设备及介质。
背景技术:
1、在模型研发训练阶段,如果数据积累足够充分的情况下,可使用的候选变量很多,但是并不是所有候选变量都适合入模。模型研发人员一般会根据各种基础指标或者算法自生的指标对特征变量的重要度进行量化,再根据得到的特征变量重要度对特征变量进行初筛,最后再利用初筛后的特征变量进行建模,最终确定入模的特征变量。
2、现有技术通过基础指标量化法或算法自生成特征重要度的方法来计算特征变量的重要度。基础指标量化法即通过计算变量的相关系数、空置率、区分力、稳定值、均值、方差等通用指标来量化特征变量重要度。算法自生成特征变量重要度的方法即利用算法自带的特征重要度生成方法计算特征变量重要度,例如xgboost算法、gbdt算法、lightgbm算法等都会生成特征变量的特征重要度。
3、然而,基础指标量化法只能度量特征变量重要度的某一个方面,而不是对特征变量重要度总体的衡量;算法自生成特征变量重要度的方法依赖于具体算法,特征变量重要度的度量与所选用的算法强关联,某一特征变量可能针对该算法重要度较高,但是当更换一个新算法时,该特征变量的重要度则会下降。因此,现有技术确定出的特征变量重要度的准确性不高,从而导致筛选入模的特征变量并不准确,以使最终训练出的监督算法模型准确性较低。
技术实现思路
1、本技术实施例提供一种确定目标特征变量的方法、装置、设备及介质,用于解决现有生成特征变量重要度的方法与算法强关联,导致采用不同算法生成的特征变量重要度不一致,从而筛选出入模的特征变量不够准确,以使最终训练出的监督算法模型准确性较低的问题。
2、第一方面,本技术提供了一种确定目标特征变量的方法,所述方法包括:
3、获取样本集合和所述样本集合的特征变量集合,生成所述特征变量集合对应的方差比矩阵,其中,所述方差比矩阵中的元素为任意两个特征变量之间的方差比;
4、根据所述方差比矩阵,分别计算出任意两个特征变量之间的基准值和偏移度,其中,所述基准值表征两个特征变量之间的相似性,所述偏移度表征两个特征变量之间的方差比与参考值之间的差异;
5、利用所述基准值和所述偏移度,计算所述特征变量集合中各个特征变量的重要度值;
6、根据各个特征变量的重要度值,从所述特征变量集合中确定出目标特征变量,其中,所述目标特征变量用于监督算法模型的训练。
7、上述确定目标特征变量的方法可以适用于各种算法,不与算法强邦定,计算得到的特征变量重要度准确性更高,从而筛选出与监督模型关联更强的特征变量,有利于提高监督模型的准确性。
8、在一种可能的实施例中,所述获取样本集合和所述样本集合的特征变量集合,生成所述特征变量集合对应的方差比矩阵,包括:获取所述样本集合和所述特征变量集合,得到所述样本集合中的每个样本对应所述特征变量集合中各个特征变量的特征值;根据每个样本对应各个特征变量的特征值,计算每个特征变量各自对应的方差;利用每个特征变量各自对应的方差,计算任意两个特征变量之间的方差比;根据不同特征变量之间的方差比,生成所述方差比矩阵。
9、在一种可能的实施例中,所述根据所述方差比矩阵,分别计算出任意两个特征变量之间的基准值和偏移度,包括:根据所述方差比矩阵,生成所述特征变量集合对应的方差比均值矩阵,其中,所述方差比均值矩阵的元素为不同特征变量之间的方差比所对应的均值;对所述方差比矩阵以及所述方差比均值矩阵进行基准计算,得到任意两个特征变量之间的基准值;根据所述方差比矩阵,生成特征向量比矩阵,利用所述方差比矩阵以及所述特征向量比矩阵,计算任意两个特征变量之间的偏移度。
10、在一种可能的实施例中,所述基准计算的公式为:
11、
12、其中,所述ui,j表示特征变量i和特征变量j之间的基准值,qi,j表示特征变量i和特征变量j之间的方差比所对应的均值,pi,j表示特征变量i和特征变量j之间的方差比,z为根据预设规则确定出的最优参数,zmin≤z≤zmax。
13、在一种可能的实施例中,所述预设规则具体为:确定第一基准矩阵的最大特征值对应的第一特征向量,第二基准矩阵的最大特征值对应的第二特征向量,以及第三基准矩阵的最大特征值对应的第三特征向量,其中,所述第一基准矩阵为z=zmin时得到的基准矩阵,所述第二基准矩阵为z=zmax时得到的基准矩阵,所述第三基准矩阵为z=zrdm时得到的基准矩阵,zrdm为[zmin,zmax]范围内的随机值;计算所述第一特征向量与所述第三特征向量之间的欧几里得距离dis1,以及所述第二特征向量与所述第三特征向量之间的欧几里得距离dis2;判断dis1与dis2之间的差值的绝对值是否小于预设阈值;若所述差值的绝对值小于所述预设阈值,则确定zrdm为所述最优参数,并将所述第三基准矩阵作为所述特征变量集合对应的基准矩阵;若所述差值的绝对值大于或等于所述预设阈值,且所述差值小于0时,则更新所述zmax=zrdm;若所述差值的绝对值大于或等于所述预设阈值,且所述差值大于或等于0,则更新所述zmin=zrdm。
14、在一种可能的实施例中,所述所述方差比矩阵,生成特征向量比矩阵,利用所述方差比矩阵以及所述特征向量比矩阵,计算任意两个特征变量之间的偏移度,包括:计算所述方差比矩阵的多个特征值,从多个所述特征值中获取目标特征值;确定所述目标特征值对应的特征向量,其中,所述特征向量中的元素与各个特征变量一一对应;根据各个特征变量以及不同特征变量各自对应的特征向量之比,生成特征向量比矩阵;利用不同特征变量之间的方差比以及对应的特征向量之比,计算不同特征变量之间的偏移度。
15、在一种可能的实施例中,所述利用所述基准值和所述偏移度,计算所述特征变量集合中各个特征变量的重要度值,包括:根据各个特征变量以及不同特征变量之间的基准值和偏移度,分别生成基准矩阵和偏移矩阵;确定所述基准矩阵的最大特征值对应的基准特征向量,以及所述偏移矩阵的最大特征值对应的偏移特征向量;将所述基准特征向量与所述偏移特征向量进行d次加权计算,得到d个加权特征向量,其中,所述d为大于0的整数,每次加权计算中的权重值不相同;对所述d个加权特征向量进行汇总求平均,得到目标特征向量;对所述目标特征向量进行归一化汇总,得到各个特征变量的重要度值。
16、在一种可能的实施例中,所述加权计算的公式为:
17、cwi=t*awi+(1-t)*bwi
18、其中,t表示所述权重值,0≤t≤1,cw表示所述加权特征向量,aw表示所述基准特征向量,bw表示所述偏移矩阵向量。
19、第二方面,本技术提供一种确定目标特征变量的装置,所述装置包括:
20、获取单元,获取样本集合和所述样本集合的特征变量集合,生成所述特征变量集合对应的方差比矩阵,其中,所述方差比矩阵中的元素为任意两个特征变量之间的方差比;
21、第一计算单元,根据所述方差比矩阵,分别计算出任意两个特征变量之间的基准值和偏移度,其中,所述基准值表征两个特征变量之间的相似性,所述偏移度表征两个特征变量之间的方差比与参考值之间的差异;
22、第二计算单元,利用所述基准值和所述偏移度,计算所述特征变量集合中各个特征变量的重要度值;
23、确定单元,根据各个特征变量的重要度值,从所述特征变量集合中确定出目标特征变量,其中,所述目标特征变量用于监督算法模型的训练。
24、在一种可能的实施例中,所述获取单元,具体用于:获取所述样本集合和所述特征变量集合,得到所述样本集合中的每个样本对应所述特征变量集合中各个特征变量的特征值;根据每个样本对应各个特征变量的特征值,计算每个特征变量各自对应的方差;利用每个特征变量各自对应的方差,计算任意两个特征变量之间的方差比;根据不同特征变量之间的方差比,生成所述方差比矩阵。
25、在一种可能的实施例中,所述第一计算单元,具体用于:根据所述方差比矩阵,生成所述特征变量集合对应的方差比均值矩阵,其中,所述方差比均值矩阵的元素为不同特征变量之间的方差比所对应的均值;对所述方差比矩阵以及所述方差比均值矩阵进行基准计算,得到任意两个特征变量之间的基准值;根据所述方差比矩阵,生成特征向量比矩阵,利用所述方差比矩阵以及所述特征向量比矩阵,计算任意两个特征变量之间的偏移度。
26、在一种可能的实施例中,所述基准计算的公式为:
27、
28、其中,所述ui,j表示特征变量i和特征变量j之间的基准值,qi,j表示特征变量i和特征变量j之间的方差比所对应的均值,pi,j表示特征变量i和特征变量j之间的方差比,z为根据预设规则确定出的最优参数,zmin≤z≤zmax。
29、在一种可能的实施例中,所述预设规则具体为:确定第一基准矩阵的最大特征值对应的第一特征向量,第二基准矩阵的最大特征值对应的第二特征向量,以及第三基准矩阵的最大特征值对应的第三特征向量,其中,所述第一基准矩阵为z=zmin时得到的基准矩阵,所述第二基准矩阵为z=zmax时得到的基准矩阵,所述第三基准矩阵为z=zrdm时得到的基准矩阵,zrdm为[zmin,zmax]范围内的随机值;计算所述第一特征向量与所述第三特征向量之间的欧几里得距离dis1,以及所述第二特征向量与所述第三特征向量之间的欧几里得距离dis2;判断dis1与dis2之间的差值的绝对值是否小于预设阈值;若所述差值的绝对值小于所述预设阈值,则确定zrdm为所述最优参数,并将所述第三基准矩阵作为所述特征变量集合对应的基准矩阵;若所述差值的绝对值大于或等于所述预设阈值,且所述差值小于0时,则更新所述zmax=zrdm;若所述差值的绝对值大于或等于所述预设阈值,且所述差值大于或等于0,则更新所述zmin=zrdm。
30、在一种可能的实施例中,所述装置还用于:计算所述方差比矩阵的多个特征值,从多个所述特征值中获取目标特征值;确定所述目标特征值对应的特征向量,其中,所述特征向量中的元素与各个特征变量一一对应;根据各个特征变量以及不同特征变量各自对应的特征向量之比,生成特征向量比矩阵;利用不同特征变量之间的方差比以及对应的特征向量之比,计算不同特征变量之间的偏移度。
31、在一种可能的实施例中,所述第二计算单元,具体用于:根据各个特征变量以及不同特征变量之间的基准值和偏移度,分别生成基准矩阵和偏移矩阵;确定所述基准矩阵的最大特征值对应的基准特征向量,以及所述偏移矩阵的最大特征值对应的偏移特征向量;将所述基准特征向量与所述偏移特征向量进行d次加权计算,得到d个加权特征向量,其中,所述d为大于0的整数,每次加权计算中的权重值不相同;对所述d个加权特征向量进行汇总求平均,得到目标特征向量;对所述目标特征向量进行归一化汇总,得到各个特征变量的重要度值。
32、在一种可能的实施例中,所述加权计算的公式为:
33、cwi=t*awi+(1-t)*bwi
34、其中,t表示所述权重值,0≤t≤1,cw表示所述加权特征向量,aw表示所述基准特征向量,bw表示所述偏移矩阵向量。
35、第三方面,本技术提供一种电子设备,包括:
36、存储器,用于存储程序指令;
37、处理器,用于调用所述存储器中存储的程序指令,按照获得的程序指令执行第一方面中任一项所述的方法包括的步骤。
38、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行第一方面中任一项所述的方法。
39、第五方面,本技术提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行第一方面中任一项所述的方法。
1.一种确定目标特征变量的方法,其特征在于,所述方法包括:
2.如权利要求1所述的方法,其特征在于,所述获取样本集合和所述样本集合的特征变量集合,生成所述特征变量集合对应的方差比矩阵,包括:
3.如权利要求1所述的方法,其特征在于,所述根据所述方差比矩阵,分别计算出任意两个特征变量之间的基准值和偏移度,包括:
4.如权利要求3所述的方法,其特征在于,所述基准计算的公式为:
5.如权利要求4所述的方法,其特征在于,所述预设规则具体为:
6.如权利要求3所述的方法,其特征在于,所述根据所述方差比矩阵,生成特征向量比矩阵,利用所述方差比矩阵以及所述特征向量比矩阵,计算任意两个特征变量之间的偏移度,包括:
7.如权利要求1所述的方法,其特征在于,所述利用所述基准值和所述偏移度,计算所述特征变量集合中各个特征变量的重要度值,包括:
8.如权利要求7所述的方法,其特征在于,所述加权计算的公式为:
9.一种确定目标特征变量的装置,其特征在于,所述装置包括:
10.如权利要求9所述的装置,其特征在于,所述获取单元,具体用于:
11.如权利要求9所述的装置,其特征在于,所述第一计算单元,具体用于:
12.如权利要求9所述的装置,其特征在于,所述装置还用于:
13.一种电子设备,其特征在于,包括:
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被计算机执行时,使所述计算机执行如权利要求1-8中任一项所述的方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码在计算机上运行时,使得计算机执行上述如权利要求1-8中任一项所述的方法。