本发明涉及云边协同计算的,尤其涉及一种云边协同的分布式数据实时处理方法。
背景技术:
1、随着大数据和物联网技术的快速发展,各种传感器和设备生成的数据量呈指数级增长。传统的集中式数据处理模式已经难以应对如此庞大的数据流量,无法保证数据的实时处理和快速响应。云计算以其强大的计算和存储能力成为了大数据处理的主流平台。然而,随着边缘计算的崛起,云计算和边缘计算的结合逐渐成为一种趋势。边缘计算将数据处理和存储能力下沉到网络的边缘节点,靠近数据源头进行处理,从而减少了数据传输的延迟,提高了处理效率。同时,云计算提供了集中管理、海量存储和复杂计算能力,能够进行全局数据的分析和处理。但是,如何根据任务的特性和资源的现状,合理地将计算任务在云和边缘节点之间进行分配和调度,最大化资源利用率和处理效率,仍是一个难点。
技术实现思路
1、鉴于此,本发明提出一种云边协同的分布式数据实时处理方法,通过云边协同,充分利用云计算和边缘计算各自的优势,提供高效、可靠、实时的数据处理能力。
2、实现上述目的,本发明提供的一种云边协同的分布式数据实时处理方法,包括以下步骤:
3、s1:通过端口镜像采集网络流量数据,并根据采集的网络流量进行任务类型识别,将任务划分为计算密集型任务和存储消耗型任务,其中基于空间结构特征的流量识别为所述任务类型识别的实施方法;
4、s2:按照识别得到的任务类型进行分支处理,存储消耗型任务直接通过边缘节点进行数据访问存储,计算密集型任务通过构建云边协同调度模型进行云边分布式资源调度优化将计算密集型任务分割为子任务分配到不同计算节点,其中多目标优化为云边协同调度模型的实施方法;
5、s3:对构建的云边协同调度模型进行优化求解得到分布式资源调度策略,其中近端梯度优化为调度模型优化求解的实施方法;
6、s4:按照计算得到的分布式资源调度策略将计算密集型任务分割为子任务分配到不同计算节点进行处理,对各计算节点处理后的计算结果进行汇聚实现数据实时处理。
7、作为本发明的进一步改进方法:
8、可选地,所述s1步骤中根据采集的网络流量进行任务类型识别,将任务划分为计算密集型任务和存储消耗型任务,包括:
9、s11:对采集的网络流量进行预处理得到预处理后的网络流量数据,所述预处理操作包括流量去重和流分割,所述流量去重操作根据数据包的特征{源ip,目的ip,源端口,目的端口,协议号,时间戳}对采集到的流量包进行重复性检测,过滤重复数据包得到去重后的网络流量,所述流分割操作按照{源ip,目的ip,源端口,目的端口,协议号}五元组对去重后的网络流量进行流提取,将去重后的网络流量划分为不同的通信流;
10、s12:对划分得到的通信流进行向量化处理得到通信流向量,所述通信流向量包括:开始时间戳、通信流持续时间、协议号、数据包平均大小、数据包大小方差、数据包数量、数据包平均时间间隔,数据包时间间隔方差;
11、s13:对通信流向量进行结构特征提取得到通信流的空间特征向量;
12、s14:利用深度神经网络进行通信流任务类型识别,其中所述深度神经网络以通信流的空间特征向量为输入,以任务类型识别概率为输出;
13、s15:根据任务类型识别概率构造非均衡条件下的目标损失函数,并进行优化求解得到模型参数,根据求解得到的模型参数实例化模型进行任务类型识别,计算公式为:
14、;
15、其中:
16、表示均衡化前的第个通信流的任务类型识别概率;
17、表示通信流数量;
18、表示均衡化后的第个通信流的任务类型识别结果,计算公式为:
19、;
20、其中:
21、表示平衡因子,用于调整通信流样本的权重,取值范围为(0,1);
22、表示调节因子,用于调整分类样本的重要性,取值范围为(0,5);
23、在目标损失函数中的作用是降低容易识别任务类型的通信流样本的贡献,提高难以识别任务类型的通信流样本的贡献。
24、可选地,所述s13步骤中对通信流向量进行结构特征提取得到通信流的空间特征向量,包括:
25、s13.1 :对通信流向量进行外积操作得到网络流特征矩阵,计算公式为:
26、;
27、其中:
28、为通信流向量;
29、表示网络流特征矩阵;
30、s13.2:使用卷积操作对网络流特征矩阵进行初步特征提取得到通信流特征图,计算公式为:
31、;
32、其中:
33、*表示卷积操作;
34、表示非线性激活函数;
35、表示网络流特征矩阵;
36、表示卷积核;
37、s13.3:将通信流特征图通过初始胶囊层得到胶囊向量集合,所述初始胶囊层由预置数量的初级胶囊组成,每个初级胶囊将通信流特征图转化为胶囊向量,计算公式为:
38、;
39、其中:
40、表示通信流特征图;
41、表示初始胶囊层中第个初级胶囊的卷积核;
42、表示第个初级胶囊的偏置向量;
43、表示非线性激活函数;
44、表示向量拼接操作;
45、s13.4:对于每一个初级胶囊的输出胶囊向量,通过权重矩阵进行线性变换,得到预测向量,计算公式为:
46、;
47、其中:
48、表示第个初级胶囊的胶囊向量;
49、表示根据第个初级胶囊的胶囊向量预测的关于第个高级胶囊的预测向量;
50、表示第个初级胶囊和第个高级胶囊间的变换矩阵,将初级胶囊输出向量线性变换到高级胶囊空间;
51、表示第个初级胶囊和第个高级胶囊间的偏置向量;
52、s13.5:通过偏置向量动态更新初级胶囊与高级胶囊之间的耦合系数,并结合得到的初级胶囊预测向量计算高级胶囊向量,计算公式为:
53、;
54、其中:
55、表示耦合系数,表示初级胶囊i对高级胶囊的贡献度;
56、s13.6: 对高级胶囊向量进行压缩归一化处理得到压缩后的高级胶囊向量,对所有压缩后的高级胶囊向量进行拼接得到通信流的空间特征向量,高级胶囊向量压缩归一化计算公式为:
57、;
58、其中:
59、表示第个压缩归一化后的高级胶囊向量。
60、可选地,所述s15步骤中通过偏置向量动态更新初级胶囊与高级胶囊之间的耦合系数,包括:
61、所述耦合系数根据初级胶囊和高级胶囊之间的偏置向量进行计算,计算公式为:
62、;
63、其中:
64、表示第个初级胶囊和第k个高级胶囊间的偏置向量。
65、可选地,所述s2步骤中构建云边协同调度模型进行云边分布式资源调度优化将计算密集型任务分割为子任务分配到不同计算节点,包括:
66、所述云边协同调度模型通过将计算密集型任务分割为多个无相互依赖的子任务并分配到不同计算节点进行并行求解实现云边分布式资源调度优化,所述模型通过多目标优化联合优化任务调度过程中的全局计算节点cpu负载均衡水平和计算效率,目标函数为:
67、;
68、;
69、其中:
70、表示权重参数;
71、表示全局计算节点cpu负载均衡水平,具体计算流程包括:
72、s21:将待处理计算密集型任务分为预置数量个子任务,每个子任务作为独立计算单元分配到计算节点上执行,所述计算节点包括边缘设备节点和云服务器节点;
73、s22:统计每个计算节点上的cpu利用率并计算全局cpu负载均衡水平,计算公式为:
74、;
75、其中:
76、表示计算节点数量;
77、表示第个计算节点的cpu利用率;
78、表示子任务数量;
79、为示性函数,表示是否将第个子任务分配到第个计算节点,若是取值为1,否则取值为0;
80、表示全局计算节点的平均cpu利用率;
81、表示任务计算效率,具体计算流程包括:
82、s23:评估子任务在每一计算节点上的计算效率,计算公式为:
83、;
84、其中:
85、表示第个计算节点的cpu的计算能力,采用浮点运算能力(flops)表示;
86、表示第个子任务的计算复杂度,采用算法复杂度表示;
87、表示第个子任务的预期完成时间;
88、s24:根据子任务在每一计算节点上的计算效率确定任务计算效率,计算公式为:
89、;
90、其中:
91、表示第个子任务在第个计算节点上的计算效率。
92、可选地,所述s3步骤中对构建的云边协同调度模型进行优化求解得到分布式资源调度策略,包括:
93、s31:随机初始化分布式资源调度策略变量,步长参数,近端参数;
94、s32:对于每一轮迭代;
95、所述迭代流程包括:
96、s32.1:计算当前变量处的梯度,其中表示目标函数;
97、s32.2:应用近端算子迭代更新变量,变量更新计算公式为:
98、;
99、表示正则化函数约束下的近端算子,计算公式为:
100、;
101、其中:
102、表示近端算子的优化变量;
103、表示近端参数;
104、z表示近端点变量;
105、s33:根据预设的收敛准则判断是否满足停止条件输出最优分布式资源调度策略,例所述收敛准则包括变量值变化量小于预置阈值,梯度的范数小于预置阈值,或者达到最大迭代次数。
106、可选地,所述s4步骤中按照计算得到的分布式资源调度策略将计算密集型任务分割为子任务分配到不同计算节点进行处理,包括:
107、按照计算得到的分布式资源调度策略通过将无相互依赖的分解子任务分配到最优策略指定计算节点上,各计算节点并行地执行分解子任务,利用本地计算资源进行数据处理和计算运算,加速处理计算密集型任务,将各计算节点处理得到的局部结果发送回中心节点进行汇聚,实现数据实时处理。
108、为了解决上述问题,本发明提供一种电子设备,所述电子设备包括:
109、存储器,存储至少一个指令;
110、通信接口,实现电子设备通信;及
111、处理器,执行所述存储器中存储的指令以实现上述所述的云边协同的分布式数据实时处理方法。
112、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的云边协同的分布式数据实时处理方法。
113、相对于现有技术,本发明提出一种云边协同的分布式数据实时处理方法,该技术具有以下优势:
114、(1)本方案提出一种基于端口镜像技术的网络流量采集方法,该方法使用端口镜像技术采集网络流量数据,并结合空间结构特征进行任务类型识别,利用了网络流量数据的空间结构特征来进行任务类型分类,相比传统基于数据量或处理时长的分类方法更为精准和有效;
115、(2)本方案提出了云边协同调度模型,该模型根据识别得到的任务类型进行动态调度,将存储消耗型任务直接处理在边缘节点,而将计算密集型任务分割为子任务并优化地分配到云端和边缘节点进行处理,充分利用了边缘计算和云计算资源的优势,实现了资源的高效利用和任务处理的优化;
116、(3)本方案引入了近端梯度优化方法用于优化云边协同调度模型,能够在保证任务处理效率的同时,减少了通信开销和延迟,尤其适用于实时数据处理场景;
117、(4)本方案综合了端口镜像、任务类型识别、云边协同调度和分布式资源调度等多个技术,提出了一套完整的实时数据处理方案,能够有效地应对现代网络环境中的大数据处理挑战,提升数据处理效率和系统的整体性能。
1.一种云边协同的分布式数据实时处理方法,其特征在于,所述方法包括:
2.如权利要求1所述的一种云边协同的分布式数据实时处理方法,其特征在于,所述s1步骤中根据采集的网络流量进行任务类型识别,将任务划分为计算密集型任务和存储消耗型任务,包括:
3.如权利要求2所述的一种云边协同的分布式数据实时处理方法,其特征在于,所述s13步骤中对通信流向量进行结构特征提取得到通信流的空间特征向量,包括:
4.如权利要求3所述的一种云边协同的分布式数据实时处理方法,其特征在于,所述s15步骤中通过偏置向量动态更新初级胶囊与高级胶囊之间的耦合系数,包括:
5.如权利要求1所述的一种云边协同的分布式数据实时处理方法,其特征在于,所述s2步骤中构建云边协同调度模型进行云边分布式资源调度优化将计算密集型任务分割为子任务分配到不同计算节点,包括:
6.如权利要求1所述的一种云边协同的分布式数据实时处理方法,其特征在于,所述s4步骤中按照计算得到的分布式资源调度策略将计算密集型任务分割为子任务分配到不同计算节点进行处理,包括: