一种边缘节点的大数据去重方法及系统与流程

    技术2025-05-31  22


    本发明涉及大数据去重的,尤其涉及一种边缘节点的大数据去重方法及系统。


    背景技术:

    1、随着物联网(iot)、人工智能(ai)、5g通信技术的快速发展,数据生成的速度和规模迅猛增长。传统的云计算架构主要依赖中心化的数据中心进行大规模数据处理和存储,这种集中化的处理方式面临着带宽限制、高延迟、数据隐私以及系统可靠性等诸多挑战。边缘计算应运而生,以应对这些问题。边缘计算是一种新兴的分布式计算范式,它将计算和存储资源从中心数据中心下沉至网络边缘的设备和节点中。这些边缘设备包括物联网设备、智能手机、边缘服务器和本地数据中心等。通过在靠近数据源的地方进行数据处理,边缘计算能够显著降低数据传输的延迟,减轻中心数据中心的负载,提高系统的实时性和可靠性。

    2、但是在现有技术中,边缘计算环境依然存在以下挑战:

    3、(1)边缘计算环境中的节点数量庞大且种类繁多,分布在不同的地理位置,具有不同的计算和存储能力。边缘节点通常具有较高的自主性,能够独立生成和处理数据。边缘计算强调低延迟和本地处理,但节点之间的通信可能受限于网络延迟和带宽。因此,如何在如此复杂的环境中确保节点和数据的全局唯一性成为一种挑战。

    4、(2)边缘节点通常具有有限的计算能力和存储空间,同时边缘计算环境中的数据分布广泛且异构。因此,如何对海量数据进行处理,以及对数据进行精确去重成为一种挑战。

    5、(3)随着应用需求的增长和节点数量的增加,边缘计算系统需要具备高效且稳定的扩容能力,以应对动态的工作负载和不断变化的网络环境。


    技术实现思路

    1、针对上述问题,本发明的目的在于提供一种边缘节点的大数据去重方法及系统,能够有效地解决数据全局唯一性,对数据进行海量处理和精确去重,以及高效稳定的扩容的问题。

    2、本发明的上述发明目的是通过以下技术方案得以实现的:

    3、一种边缘节点的大数据去重方法,包括以下步骤:

    4、s1:基于每一个边缘节点生成唯一的机器标识符;

    5、s2:建立用于映射所述机器标识符的哈希环,将所述机器标识符映射到所述哈希环上,同时建立若干个划分所述边缘节点的集群,并基于每一个所述集群定义当前所述集群涵盖的所述哈希环上数值的范围;

    6、s3:根据所述机器标识符在所述哈希环上的位置,获取到当前所述边缘节点所属的所述集群,以及对应的所述集群的地址;

    7、s4:所述边缘节点将数据上报到所属的所述集群的地址,并采用缓存去重服务进行数据去重。

    8、进一步地,在步骤s1中,基于每一个所述边缘节点生成唯一的所述机器标识符,具体为:

    9、对作为所述边缘节点的机器的国家、省份、地级市、运营商、cpu型号、mac地址、主板序列号、硬盘序列号和当前时间戳的字符串进行拼接,并对拼接后的所述字符串采用sha-3算法进行哈希运算,并截取输出的前64位作为与当前所述边缘节点对应的唯一的所述机器标识符。

    10、进一步地,在步骤s2中,建立用于映射所述机器标识符的所述哈希环,将所述机器标识符映射到所述哈希环上,同时建立若干个划分所述边缘节点的所述集群,并基于每一个所述集群定义当前所述集群涵盖的所述哈希环上数值的范围,具体为:

    11、将所述边缘节点对应的所述机器标识符映射到所述哈希环上,所述哈希环的范围为0~total;

    12、建立若干个划分所述边缘节点的所述集群,定义cluster[i]=addr函数,表示第i个所述集群cluster的地址为addr;

    13、同时基于每一个所述集群定义当前所述集群涵盖的所述哈希环上数值的范围为cluster_range[i]=(total/n)*(i-1)~(total/n)*i的函数,其中n为所述集群的数量。

    14、进一步地,在步骤s3中,根据所述机器标识符在所述哈希环上的位置,获取到当前所述边缘节点所属的所述集群,以及对应的所述集群的地址,具体为:

    15、采用集群分配服务根据所述机器识别符映射到所述哈希环上的位置对应的数值信息,通过cluster_range函数查找所述所述机器识别符在所述哈希环上的位置对应的所述集群,获取当前所述边缘节点所属的所述集群;

    16、通过cluster函数获取所述边缘节点所属的所述集群的地址addr,也即所述边缘节点对应的地址。

    17、进一步地,在步骤s4中,所述边缘节点将数据上报到所属的所述集群的地址,并采用所述缓存去重服务进行数据去重,具体为:

    18、所述边缘节点将数据上报到所属的所述集群的地址,同时定期刷新所述边缘节点所属的所述集群,以及对应的所述集群的地址,其中,所述边缘节点将数据上报到所属的所述集群的地址通过所述集群上采用负载均衡服务启动的多个数据读写服务而进行;

    19、所述集群根据中心化的所述缓存去重服务对数据进行去重,所述缓存去重服务采用主从模式,所述缓存去重服务中的主服务器负责管理去重逻辑,从服务器负责备份和同步数据;

    20、同时所述集群设置有灾备服务器,当所述主服务器无法工作时,所述灾备服务器接管所述主服务器的工作。

    21、进一步地,所述集群根据中心化的所述缓存去重服务对数据进行去重,具体为:

    22、所述缓存去重服务记录数据对应的所述机器标识符+时间戳;

    23、当发现记录的所述机器标识符+时间戳有重复数据时,则返回重复记录,通知所述数据读写服务丢弃数据,如未发现相同记录,则记录数据。

    24、进一步地,边缘节点的大数据去重方法,还包括:s5:当需要对边缘计算系统进行扩容时,启动新的所述集群,确定接管的所述哈希环上涵盖的数值的范围,并向之前所述哈希环上涵盖的数值的范围对应的旧的所述集群进行数据同步,具体为:

    25、新的所述集群启动时,请求所述集群分配服务获取当前所述集群接管的所述哈希环上涵盖的数值的范围[start,end),并向之前的范围[start,end)所在的多个旧的所述集群的所述缓存去重服务进行数据同步;

    26、当在数据未完全同步期间,所述数据读写服务将所述缓存去重服务从新的所述集群转发到旧的所述集群进行处理;

    27、如果旧的所述集群还接收到数据上报,则拒绝数据上报并返回新的所述集群的地址,所述边缘节点前往新的所述集群进行访问;

    28、当数据同步完成时,新的所述集群切断范围[start,end)对应的旧的所述集群的所述缓存去重服务的访问。

    29、一种用于执行如上述的边缘节点的大数据去重方法的边缘节点的大数据去重系统,包括:

    30、标识符生成模块,用于基于每一个边缘节点生成唯一的机器标识符;

    31、集群范围计算模块,建立用于映射所述机器标识符的哈希环,将所述机器标识符映射到所述哈希环上,同时建立若干个划分所述边缘节点的集群,并基于每一个所述集群定义当前所述集群涵盖的所述哈希环上数值的范围;

    32、节点所属集群计算模块,用于根据所述机器标识符在所述哈希环上的位置,获取到当前所述边缘节点所属的所述集群,以及对应的所述集群的地址;

    33、数据上报去重模块,用于所述边缘节点将数据上报到所属的所述集群的地址,并采用缓存去重服务进行数据去重;

    34、集群扩展模块,用于当需要对边缘计算系统进行扩容时,启动新的所述集群,确定接管的所述哈希环上涵盖的数值的范围,并向之前所述哈希环上涵盖的数值的范围对应的旧的所述集群进行数据同步。

    35、一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有计算机代码,所述计算机代码被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如上述的方法。

    36、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如上述的方法被执行。

    37、与现有技术相比,本发明包括以下至少一种有益效果是:

    38、(1)本发明通过生成唯一的机器识别码和哈希环定位机制,确保在高并发状态下能够快速海量处理数据,同时数据能够在全局范围内保持唯一性,避免重复数据的产生。

    39、(2)本发明利用唯一数据,通过哈希环快速定位数据集群,初步平均划分数据规模,并确保同一数据进入固定的集群,分配给不同的服务器处理。集群内多台机器负载均衡,一步一步缩小数据范围,在每个集群内实现对数据的精确去重,提高数据处理效率,减少了重复数据的存储和处理成本。

    40、(3)采用多个集群,每个集群包含多个节点进行服务,增强数据处理的并行性和系统的容错能力,防止单点故障的发生。采用多个集群和节点的架构设计,增强了系统的扩展性和容错能力,使得该引用可以在单云多集群部署,也可以跨云做灾备,能够企业云服务的变更需要以及云服务单点故障。


    技术特征:

    1.一种边缘节点的大数据去重方法,其特征在于,包括以下步骤:

    2.根据权利要求1所述的边缘节点的大数据去重方法,其特征在于,在步骤s1中,基于每一个所述边缘节点生成唯一的所述机器标识符,具体为:

    3.根据权利要求1所述的边缘节点的大数据去重方法,其特征在于,在步骤s2中,建立用于映射所述机器标识符的所述哈希环,将所述机器标识符映射到所述哈希环上,同时建立若干个划分所述边缘节点的所述集群,并基于每一个所述集群定义当前所述集群涵盖的所述哈希环上数值的范围,具体为:

    4.根据权利要求3所述的边缘节点的大数据去重方法,其特征在于,在步骤s3中,根据所述机器标识符在所述哈希环上的位置,获取到当前所述边缘节点所属的所述集群,以及对应的所述集群的地址,具体为:

    5.根据权利要求4所述的边缘节点的大数据去重方法,其特征在于,在步骤s4中,所述边缘节点将数据上报到所属的所述集群的地址,并采用所述缓存去重服务进行数据去重,具体为:

    6.根据权利要求5所述的边缘节点的大数据去重方法,其特征在于,所述集群根据中心化的所述缓存去重服务对数据进行去重,具体为:

    7.根据权利要求5所述的边缘节点的大数据去重方法,其特征在于,还包括:s5:当需要对边缘计算系统进行扩容时,启动新的所述集群,确定接管的所述哈希环上涵盖的数值的范围,并向之前所述哈希环上涵盖的数值的范围对应的旧的所述集群进行数据同步,具体为:

    8.一种用于执行如权利要求1-7中任意一项所述的边缘节点的大数据去重方法的边缘节点的大数据去重系统,其特征在于,包括:

    9.一种计算机设备,包括存储器和一个或多个处理器,所述存储器中存储有计算机代码,所述计算机代码被所述一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至7中任一项所述的方法。

    10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机代码,当所述计算机代码被执行时,如权利要求1至7中任一项所述的方法被执行。


    技术总结
    本发明涉及大数据去重技术领域,提供了一种边缘节点的大数据去重方法,包括以下步骤:S1:基于每一个边缘节点生成唯一的机器标识符;S2:建立用于映射所述机器标识符的哈希环,将所述机器标识符映射到所述哈希环上,同时建立若干个划分所述边缘节点的集群,并基于每一个所述集群定义当前所述集群涵盖的所述哈希环上数值的范围;S3:根据所述机器标识符在所述哈希环上的位置,获取到当前所述边缘节点所属的所述集群,以及对应的所述集群的地址;S4:所述边缘节点将数据上报到所属的所述集群的地址,并采用缓存去重服务进行数据去重。能够有效地解决数据全局唯一性,对数据进行海量处理和精确去重,以及高效稳定的扩容的问题。

    技术研发人员:陈克强
    受保护的技术使用者:派欧云计算(上海)有限公司
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-31619.html

    最新回复(0)