数据处理方法、装置、设备及计算机可读存储介质与流程

    技术2025-03-19  38


    本技术属于大数据,尤其涉及一种数据处理方法、装置、设备及计算机可读存储介质。


    背景技术:

    1、随着科技的发展和网民数量的增多,海量用户会在使用移动网络时产生海量的数据,比如浏览新闻、打电话、位置服务等数据。如何对海量的数据进行快速的存储、清洗和分析是运营商面临的核心问题。

    2、在数据查询之前,会先对数据进行存储。在数据存储时,例如会对每个数据表的单表数据进行洗牌(shuffle)排序。单表shuffle排序过程是一种消耗资源的操作,分区合理与否直接影响排序效率。如果分区太少,那么每个分区的数据量会很大,处理大分区的任务可能需要将数据溢出到磁盘上(例如,涉及排序或聚合时),查询速度过慢。如果分区太多,那么每个分区的数据量可能会非常小,过多的小任务也会降低查询效率。


    技术实现思路

    1、本技术实施例提供了一种数据处理方法、装置、设备及计算机可读存储介质,能够使得各个分区的数据相对均衡,在节省计算资源的同时,提升排序效率。

    2、第一方面,本技术实施例提供了一种数据处理方法,数据处理方法包括:获取目标数据表的多个初始分区各自的数据量和多个初始分区的数据量总和;基于正态分布算法,从多个初始分区各自的数据量中确定出目标数据量;根据数据量总和与目标数据量,确定第i次新建分区的数量,并建立对应数量的新建分区,i为正整数;将至少部分初始分区的数据存储至新建分区中;判断是否存在未将数据存储至新建分区的目标初始分区;当存在目标初始分区时,基于目标初始分区的数据量之和与目标数据量,确定第i+x次新建分区的数量,并建立对应数量的新建分区,以及返回将至少部分初始分区的数据存储至新建分区中的步骤,直至多个初始分区的数据均存储至新建分区中,x为正整数。

    3、根据本技术第一方面的实施方式,基于正态分布算法,从多个初始分区各自的数据量中确定出目标数据量,包括:根据多个初始分区各自的数据量,计算第一数学期望;根据多个初始分区各自的数据量和第一数学期望,计算第一标准差;根据第一数学期望和第一标准差,得到的正态分布曲线;根据多个初始分区的数据量在正态分布曲线中对应的概率,选择正态分布曲线中概率最大的初始分区的数据量作为目标数据量。

    4、根据本技术第一方面前述任一实施方式,第i次新建分区的数量为m,m为正整数;将至少部分初始分区的数据存储至新建分区中,包括:对于第i次,将m个初始分区的数据分别存储至m个新建分区中,一个新建分区存储一个初始分区的数据;对于剩余的任意一个初始分区,将初始分区的数据量与新建分区的数据量进行对比;当初始分区的数据量大于新建分区的数据量时,将初始分区的数据与新建分区的数据进行替换。

    5、根据本技术第一方面前述任一实施方式,在多个初始分区的数据均存储至新建分区中之后,方法还包括:对目标数据表的各个新建分区的数据进行排序。

    6、根据本技术第一方面前述任一实施方式,在对目标数据表的各个新建分区的数据进行排序之后,方法还包括:接收多表关联查询指令;响应于多表关联查询指令,对于任意一个新建分区,判断新建分区中的数据量是否大于目标均值,目标均值为多个新建分区的数据量均值;根据新建分区中的数据量与目标均值的对比结果,调整新建分区。

    7、根据本技术第一方面前述任一实施方式,根据新建分区中的数据量与目标均值的对比结果,调整新建分区,包括:当新建分区中的数据量大于目标均值时,对新建分区进行拆分;当新建分区中的数据量小于目标均值时,对数据量小于第一预设阈值的至少两个新建分区进行合并。

    8、根据本技术第一方面前述任一实施方式,目标均值包括多个新建分区的数据量的第二数学期望;当新建分区中的数据量大于目标均值时,对新建分区进行拆分,包括:计算新建分区中的数据量至n分之一的新建分区中的数据量分别与第二数学期望之间的第一方差,n大于1且为整数;根据新建分区中的数据量和最小的第一方差对应的n1分之一的新建分区中的数据量,确定新建分区的拆分数量,1≤n1≤n;根据拆分数量,对新建分区进行拆分。

    9、根据本技术第一方面前述任一实施方式,目标均值包括多个新建分区的数据量的第二数学期望;当新建分区中的数据量小于目标均值时,对数据量小于第一预设阈值的至少两个新建分区进行合并,包括:当第n个新建分区中的数据量小于第二数学期望、且第n+p个新建分区中的数据量小于第二数学期望时,计算第n个新建分区中的数据量与第二数学期望之间的第二方差,计算第n个新建分区中的数据量与第n+p个新建分区中的数据量之和与第二数学期望之间的第三方差,p为正整数;当第二方差小于第三方差时,将第n个新建分区和第n+p个新建分区合并。

    10、根据本技术第一方面前述任一实施方式,在根据新建分区中的数据量与目标均值的对比结果,调整新建分区之后,方法还包括:基于目标数据查询方式进行多个数据表关联查询。

    11、第二方面,本技术实施例提供了一种数据处理装置,数据处理装置包括:获取模块,用于获取目标数据表的多个初始分区各自的数据量和多个初始分区的数据量总和;计算模块,用于基于正态分布算法,从多个初始分区各自的数据量中确定出目标数据量;第一确定模块,用于根据数据量总和与目标数据量,确定第i次新建分区的数量,并建立对应数量的新建分区,i为正整数;存储模块,用于将至少部分初始分区的数据存储至新建分区中;第一判断模块,用于判断是否存在未将数据存储至新建分区的目标初始分区;调整模块,用于当存在目标初始分区时,基于目标初始分区的数据量之和与目标数据量,确定第i+x次新建分区的数量,并建立对应数量的新建分区,以及返回将至少部分初始分区的数据存储至新建分区中的步骤,直至多个初始分区的数据均存储至新建分区中,x为正整数。

    12、第三方面,本技术实施例提供了一种电子设备,电子设备包括:处理器、存储器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序被处理器执行时实现如第一方面提供的数据处理方法的步骤。

    13、第四方面,本技术实施例提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现如第一方面提供的数据处理方法的步骤。

    14、本技术实施例的数据处理方法、装置、设备及计算机可读存储介质,获取目标数据表的多个初始分区各自的数据量和多个初始分区的数据量总和;基于正态分布算法,从多个初始分区各自的数据量中确定出目标数据量;根据数据量总和与目标数据量,确定第i次新建分区的数量,并建立对应数量的新建分区,i为正整数;将至少部分初始分区的数据存储至新建分区中;判断是否存在未将数据存储至新建分区的目标初始分区;当存在目标初始分区时,基于目标初始分区的数据量之和与目标数据量,确定第i+x次新建分区的数量,并建立对应数量的新建分区,以及返回将至少部分初始分区的数据存储至新建分区中的步骤,直至多个初始分区的数据均存储至新建分区中,x为正整数。通过本技术实施例提供的数据处理方法,可以动态调整各个新建分区中的数据,使每个新建分区中数据量相对均衡并且大小更加合理,在节省计算资源的同时,可以大幅提升目标数据表的排序效率。


    技术特征:

    1.一种数据处理方法,其特征在于,包括:

    2.根据权利要求1所述的方法,其特征在于,所述基于正态分布算法,从所述多个初始分区各自的数据量中确定出目标数据量,包括:

    3.根据权利要求1所述的方法,其特征在于,所述第i次新建分区的数量为m,m为正整数;

    4.根据权利要求1所述的方法,其特征在于,在所述多个初始分区的数据均存储至所述新建分区中之后,所述方法还包括:

    5.根据权利要求4所述的方法,其特征在于,在所述对所述目标数据表的各个所述新建分区的数据进行排序之后,所述方法还包括:

    6.根据权利要求5所述的方法,其特征在于,所述根据所述新建分区中的数据量与所述目标均值的对比结果,调整所述新建分区,包括:

    7.根据权利要求6所述的方法,其特征在于,所述目标均值包括多个所述新建分区的数据量的第二数学期望;

    8.根据权利要求6所述的方法,其特征在于,所述目标均值包括多个所述新建分区的数据量的第二数学期望;

    9.根据权利要求6所述的方法,其特征在于,在所述根据所述新建分区中的数据量与所述目标均值的对比结果,调整所述新建分区之后,所述方法还包括:

    10.一种数据处理装置,其特征在于,包括:

    11.一种电子设备,其特征在于,所述电子设备包括:处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至9中任一项所述的数据处理方法的步骤。

    12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的数据处理方法的步骤。


    技术总结
    本申请实施例提供了数据处理方法、装置、设备及计算机可读存储介质,方法包括:获取目标数据表的多个初始分区各自的数据量和数据量总和;基于正态分布算法,从多个初始分区的数据量中确定出目标数据量;根据数据量总和与目标数据量,确定第i次新建分区的数量,并建立对应数量的新建分区;将至少部分初始分区的数据存储至新建分区中;判断是否存在未将数据存储至新建分区的目标初始分区;当存在目标初始分区时,基于目标初始分区的数据量之和与目标数据量,确定第i+x次新建分区的数量,并建立对应数量的新建分区,返回将至少部分初始分区的数据存储至新建分区中的步骤。本申请实施例能够使得分区数据量相对均衡,提升目标数据表的排序效率。

    技术研发人员:杨猛
    受保护的技术使用者:中国移动通信集团辽宁有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-27756.html

    最新回复(0)