一种基于大数据的项目数据优先级筛选系统及方法与流程

    技术2025-01-07  44


    本发明涉及数据筛选,尤其涉及一种基于大数据的项目数据优先级筛选系统及方法。


    背景技术:

    1、在数据筛选技术领域,数据优先级是项目成功的关键指标之一,数据优先级能够指导项目资源分配和决策过程,提高项目解决问题的效率。由于不同数据通常具有独特的统计特性,数据优先级筛选技术是识别和分析关键数据模式、评价项目数据价值的一种重要方法,有助于提高项目效率和回报率。

    2、传统技术方案往往侧重于使用统计分析方法和主观判断进行数据优先级筛选,无法充分利用数据间的复杂关系进行深入分析,缺乏对数据重要性的全面评估,不考虑偏相关系数所揭示的潜在影响,此外,传统技术在处理大规模数据集时可能效率较低,且在资源分配上可能不够精准,导致项目投资回报率不高。传统技术的不足之处在于它们可能无法自适应地处理大数据环境下数据的复杂性和动态变化,以及在处理大规模数据集时可能存在效率低下和精确度不足的问题。


    技术实现思路

    1、本发明的目的是要提供一种基于大数据的项目数据优先级筛选系统及方法。

    2、为达到上述目的,本发明是按照以下技术方案实施的:

    3、本发明包括以下步骤:

    4、a获取项目数据进行预处理,引入偏相关系数对所述项目数据进行初次筛选;

    5、b基于历史项目数据平均值对所述项目数据计算偏差值,对所述偏差值进行聚类得到聚类贡献度,基于所述偏差值和所述聚类贡献度进行加权结合,得到数据优先级系数;

    6、c将所述项目数据基于初设阈值分配为第一数据队列和第二数据队列;所述第一数据队列和所述第二数据队列中数据按对应的数据优先级系数由大到小进行排序;

    7、d采用交换移动和插入移动结合的策略对所述第一数据队列和所述第二数据队列进行邻域搜索得到解集,基于评价函数从所述解集得到最优解,完成对项目数据优先级的筛选。

    8、进一步的,步骤a所述预处理的方法,包括:缺失值处理,异常值处理,标准化处理,归一化处理,正向化处理,去除重复数据。

    9、进一步的,所述引入偏相关系数对所述项目数据进行初次筛选的方法,包括:

    10、step1计算每个数据与目标变量之间的偏相关系数,偏相关系数的计算公式为:

    11、

    12、其中,n为项目数据量,i为当前数据,xi为第i个数据,y为第i个数据下的变量值,为x的平均值,为y的平均相关系数;

    13、step2利用偏相关系数构建综合评分公式,计算公式为:

    14、

    15、其中,score为综合评分xi为第i个数据的值,ωi为第i个数据的权重系数,a、b、c为sigmoid函数的参数,a为正的调节因子,b为控制sigmoid函数曲线斜率的参数,c为偏移量,ωi+1为log(1+xi)项的权重系数,为引入非线性特征部分,ωi+2为的权重系数,ωi+3为正弦函数项的权重系数,ω为正弦函数的角频率,为正弦函数项的相位偏移,n为项目数据量,ri为偏相关系数;

    16、step3基于综合评分,对数据进行初次筛选,当综合评分小于0.4,从项目数据中剔除该数据。

    17、进一步的,所述对偏差值进行聚类得到聚类贡献度的方法,包括:

    18、step1设定聚类的迭代标准ε=10,设定初始聚类中心;

    19、step2计算每一次迭代的隶属度矩阵和聚类中心;

    20、step3计算两次迭代聚类中心的距离,小于迭代标准则停止迭代;

    21、step4通过多次迭代求得的隶属度矩阵和聚类中心矩阵把数据分为若干簇;

    22、step5计算每个聚类簇上数据到聚类中心的距离,获得聚类贡献度。

    23、进一步的,所述基于偏差值和所述聚类贡献度进行加权结合的方法,包括:

    24、基于综合评分作为加权系数计算优先级系数:

    25、scorei=α×deviationi+(1-α)×contributioni

    26、其中,deviationi为第i个数据的偏差值,contributioni为第i个数据的聚类贡献度,α为加权系数设置为数据的综合评分。

    27、进一步的,所述初设阈值的方法,包括:基于数据权重值进行划分,将权重值大于等于0.1的数据作为第一数据存入第一数据队列,权重值小于0.1的数据作为信息型数据存入信息型数据队列。

    28、进一步的,所述采用交换移动和插入移动相结合的策略的方法,包括:对第一数据队列和第二数据队列中的数据进行交换两个数据的位置和将一个数据队列中的数据移动到另一数据队列中的操作,产生多个不同分布的队列,构成解集。

    29、进一步的,所述评价函数,包括:

    30、

    31、其中,dnorm(i)为第i个数据的偏差值,α和β为,clusterquality(c)为聚类簇的质量度量,wi为第i个数据的聚类贡献度,聚类簇的质量度量的计算公式为:

    32、

    33、其中,a(i)为第i个数据到同一簇内所有其他点的平均距离,b(i)为第i个数据到最近簇内的所有点的平均距离;

    34、选择评价函数值最大的队列获得最优解,将最优解队列中数据排列的顺序作为最终的项目数据优先级。

    35、本发明第二方面还提供了一种基于大数据的项目数据优先级筛选系统包括:数据提取模块,用于获取项目数据,并进行预处理;

    36、初筛模块,用于通过偏相关系数对所述项目数据进行初次筛选;

    37、优先级获取模块,用于计算偏差值和聚类贡献度,基于偏差值和所述聚类贡献度进行加权结合,得到数据优先级;

    38、数据队列划分模块,基于数据优先级大小顺序,将项目数据按照初设阈值分配为第一数据队列和第二数据队列;

    39、最优解获取模块,采用交换移动和插入移动结合的策略对第一数据队列和第二数据队列进行邻域搜索得到解集,基于评价函数获取最优解,完成对项目数据优先级的筛选。

    40、相对于现有技术,本发明的实施例至少具有如下优点或有益效果:

    41、(1)本发明通过提供一种基于大数据的项目数据优先级筛选系统及方法,通过偏相关筛选、偏差值聚类、优先级排序和邻域搜索策略,实现项目数据优先级排序,提升数据优先级质量,提高项目效率。

    42、(2)本发明通过基于历史项目数据的平均值对所述项目数据计算偏差值,对偏差值进行聚类得到聚类贡献度,进而获得更精确的聚类贡献度,为后续的操作提供更加精准的数据。

    43、(3)本发明通过采用交换移动和插入移动结合的策略进行邻域搜索,可以更全面地探索解空间,避免陷入局部最优,得到更优质的解,提高了项目数据优先级筛选的质量。



    技术特征:

    1.一种基于大数据的项目数据优先级筛选方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的一种基于大数据的项目数据优先级筛选方法,其特征在于,步骤a中所述预处理的方法,包括:缺失值处理,异常值处理,标准化处理,归一化处理,正向化处理,去除重复数据。

    3.根据权利要求1所述的一种基于大数据的项目数据优先级筛选方法,其特征在于,所述引入偏相关系数对所述项目数据进行初次筛选的方法,包括:

    4.根据权利要求1所述的一种基于大数据的项目数据优先级筛选方法,其特征在于,所述对偏差值进行聚类得到聚类贡献度的方法,包括:

    5.根据权利要求1所述的一种基于大数据的项目数据优先级筛选方法,其特征在于,所述基于偏差值和聚类贡献度进行加权结合的方法,包括:

    6.根据权利要求1所述的一种基于大数据的项目数据优先级筛选方法,其特征在于,所述初设阈值分配的方法,包括:

    7.根据权利要求1所述的一种基于大数据的项目数据优先级筛选方法,其特征在于,所述采用交换移动和插入移动相结合的策略,包括:

    8.一种基于基于大数据的项目数据优先级筛选系统,其特征在于,所述评价函数,包括:

    9.一种基于基于大数据的项目数据优先级筛选系统,其特征在于,所述系统,包括:


    技术总结
    本发明公开了一种基于大数据的项目数据优先级筛选系统及方法,包括获取项目数据进行预处理,引入偏相关系数对所述项目数据进行初次筛选,基于历史项目数据平均值对所述项目数据计算偏差值,对所述偏差值进行聚类得到聚类贡献度,基于所述偏差值和所述聚类贡献度进行加权结合,得到数据优先级系数,将所述项目数据基于初设阈值分配为第一数据队列和第二数据队列,采用交换移动和插入移动结合的策略对所述第一数据队列和所述第二数据队列进行邻域搜索得到解集,基于评价函数从所述解集得到最优解,完成对项目数据优先级的筛选。该方法不仅可以提高项目数据优先级筛选的效率和质量,同时具有较好的可解释性。

    技术研发人员:杨锋,阎毛毛,李超
    受保护的技术使用者:中国标准化研究院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-24721.html

    最新回复(0)