本发明公开一种用于物联网设备的数据处理清洗方法及装置,涉及物联网和大数据处理。
背景技术:
1、随着物联网技术的快速发展,连接到网络的设备数量呈指数级增长。这些设备产生的海量数据往往存在噪声、重复、不完整或不一致等问题,影响了数据的质量和可用性。现有的数据清洗方法往往难以应对如此大规模和复杂的数据,处理效率低下,且难以满足实时性要求。为了能够有效地处理和清洗这些来自海量物联网设备的数据,亟需一种高效且可扩展的数据清洗方法。
技术实现思路
1、本发明针对现有技术的问题,提供一种用于物联网设备的数据处理清洗方法及装置,所采用的技术方案为:
2、第一方面,一种用于物联网设备的数据处理清洗方法,所述方法包括:
3、s1,根据物联网设备接收数据流,通过消息队列系统进行数据传输;对所述数据流进行预处理;
4、s2,根据预处理后的所述数据流,通过分布式处理架构将数据清洗任务分配到对应的处理节点并进行处理;
5、s3,根据所述处理节点,通过加载异常检测模型对流入的数据进行实时检测,自动识别并处理异常数据;并根据所述异常数据的类型进行修正替换,对无法修正的所述异常数据进行标记;
6、s4,根据数据的实时检测结果,通过增量式数据清洗对新增和变化的数据进行处理;
7、s5,根据数据清洗结果,通过流式处理进行数据流管理。
8、在一些实现方式中,所述分布式处理架构包括分布式计算框架、节点管理器、分布式文件系统和负载均衡算法;所述s2具体包括:
9、s21,根据分布式计算框架对所述处理节点进行管理;
10、s22,根据节点管理器对所述处理节点进行状态监控、分配任务和节点调节;
11、s23,将所述数据清洗任务拆分为多个子任务,将每个所述子任务分配至对应的所述处理节点,并通过分布式文件系统进行数据存储;
12、s24,根据所述处理节点,通过负载均衡算法进行负载均衡处理;并根据所述处理节点的处理能力和当前负载情况,进行实时任务分配。
13、在一些实现方式中,所述s3中,所述异常检测模型通过机器学习算法实现,具体包括:
14、s31,收集历史数据并标记异常数据和正常数据;
15、s32,根据所述异常数据和正常数据,通过随机森林算法进行模型训练,得到异常检测模型;
16、s33,将所述异常检测模型部署到各个所述处理节点。
17、在一些实现方式中,所述s4具体包括:
18、s41,根据数据的实时检测结果,通过日志和版本号机制进行检测数据新增和变化的检测;
19、s42,将增量清洗的结果与已有的清洗数据进行合并。
20、第二方面,本发明实施例提供一种用于物联网设备的数据处理清洗装置,所述装置包括:
21、预处理模块,用于根据物联网设备接收数据流,通过消息队列系统进行数据传输;对所述数据流进行预处理;
22、数据分布模块,用于根据预处理后的所述数据流,通过分布式处理架构将数据清洗任务分配到对应的处理节点并进行处理;
23、数据标记模块,用于根据所述处理节点,通过加载异常检测模型对流入的数据进行实时检测,自动识别并处理异常数据;并根据所述异常数据的类型进行修正替换,对无法修正的所述异常数据进行标记;
24、数据清洗模块,用于根据数据的实时检测结果,通过增量式数据清洗对新增和变化的数据进行处理;
25、数据管理模块,用于根据数据清洗结果,通过流式处理进行数据流管理。
26、在一些实现方式中,所述分布式处理架构包括分布式计算框架、节点管理器、分布式文件系统和负载均衡算法;所述数据分布模块具体包括:
27、节点管理单元,用于根据分布式计算框架对所述处理节点进行管理;
28、节点处理单元,用于根据节点管理器对所述处理节点进行状态监控、分配任务和节点调节;
29、任务拆分单元,用于将所述数据清洗任务拆分为多个子任务,将每个所述子任务分配至对应的所述处理节点,并通过分布式文件系统进行数据存储;
30、任务分配单元,用于根据所述处理节点,通过负载均衡算法进行负载均衡处理;并根据所述处理节点的处理能力和当前负载情况,进行实时任务分配。
31、在一些实现方式中,所述数据标记模块中,所述异常检测模型通过机器学习算法实现,具体包括:
32、标记单元,用于收集历史数据并标记异常数据和正常数据;
33、训练单元,用于根据所述异常数据和正常数据,通过随机森林算法进行模型训练,得到异常检测模型;
34、模型部署单元,用于将所述异常检测模型部署到各个所述处理节点。
35、在一些实现方式中,所述数据清洗模块具体包括:
36、实时检测单元,用于根据数据的实时检测结果,通过日志和版本号机制进行检测数据新增和变化的检测;
37、数据合并单元,用于将增量清洗的结果与已有的清洗数据进行合并。
38、第三方面,本发明实施例提供一种电子设备,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时,实现如上述第一方面所述的方法。
39、第四方面,本发明实施例提供一种计算机存储介质,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时,用实现如第一方面所述的方法。
40、本发明的一个或多个实施例至少能够带来如下有益效果:本发明方法通过使用分布式计算框架管理多个处理节点,将数据清洗任务分配到各个节点进行并行处理,以提高处理效率和系统可扩展性;在各个处理节点上运用机器学习算法,自动识别和处理异常数据,提升数据清洗的智能化水平;通过实现增量式数据清洗,只对新增或变化的数据进行处理,减少不必要的重复计算;采用流式处理技术,实现近实时的数据清洗,以满足对数据实时性的要求。
1.一种用于物联网设备的数据处理清洗方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述分布式处理架构包括分布式计算框架、节点管理器、分布式文件系统和负载均衡算法;所述s2具体包括:
3.根据权利要求2所述的方法,其特征在于,所述s3中,所述异常检测模型通过机器学习算法实现,具体包括:
4.根据权利要求3所述的方法,其特征在于,所述s4具体包括:
5.一种用于物联网设备的数据处理清洗装置,其特征在于,所述装置包括:
6.根据权利要求5所述的装置,其特征在于,所述分布式处理架构包括分布式计算框架、节点管理器、分布式文件系统和负载均衡算法;所述数据分布模块具体包括:
7.根据权利要求6所述的装置,其特征在于,所述数据标记模块中,所述异常检测模型通过机器学习算法实现,具体包括:
8.根据权利要求7所述的装置,其特征在于,所述数据清洗模块具体包括:
9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时实现如上述权利要求1-4中任意一项所述方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读取存储介质中存储有计算机程序,所述计算机程序被处理器执行时用以实现如上述权利要求1-4中任意一项所述方法。