本发明涉及电数字数据处理,特别涉及一种基于相关性分析和集成模型的多传感器数据校正方法。
背景技术:
1、监测海洋生态环境中的各类元素对于实时掌握海洋信息,研究海洋变化具有重要意义。采用各类原位传感器实现对海水中各类生态环境元素连续、长期的数据采集,是实现海洋生态环境监测的重要技术手段。然而,由于各类原位传感器在海洋环境中长期运行,可能会受到诸多因素影响,如硬件老化、生物附着、环境突变和机械损坏等,导致采集数据发生漂移现象,对监测数据的准确性造成了严重干扰,对后续的数据分析和决策制定也产生了诸多影响。因此,对上述情况所涉及的传感器数据采取必要的校正是十分重要且不可或缺的。
2、现有的各类校正方法以不同的技术和手段,能够在一定程度上实现校正,但还存在一定的局限性。例如,人工校准方法通过定期对传感器进行人工校准,能够保证测量的准确性,但这种方法耗时且人力成本较高,而且缺乏校正数据的实时性。基于模型的校正方法通常假设传感器数据具有特定的模式,使用历史数据或物理模型对传感器数据进行校正,如线性回归或卡尔曼滤波,但对于海洋生态环境监测的复杂非线性数据来说,此类方法在对数据的分析中仍存在局限性。数据融合方法是目前较为常用的方法,如贝叶斯推断、加权平均等,其通过融合多种数据,实现对数据的校正功能。此类方法在处理多源线性数据时较为有效,但不适用于高度非线性或具有复杂相关性的问题。
3、基于上述分析,需要一种基于现有的海洋生态环境多传感器监测条件下的数据校正方法,使其在避免产生额外成本的情况下,实现对传感器数据进行校正的功能,以此实现节约成本、克服现有方法中存在的局限性等目的。
技术实现思路
1、为解决上述技术问题,本发明提供了一种基于相关性分析和集成模型的多传感器数据校正方法,以达到在避免产生额外成本的情况下,实现对传感器数据进行校正功能的目的。
2、为达到上述目的,本发明的技术方案如下:
3、一种基于相关性分析和集成模型的多传感器数据校正方法,包括如下步骤:
4、步骤1,获取传感器阵列在监测海域内的各类监测元素数据,并进行数据预处理和分类存储,检测出具有漂移现象的传感器a的监测元素数据,标记漂移现象开始节点t,并以该节点t为划分界限,以节点t之前采集的数据构建训练集,以节点t之后采集的数据作为校正集;
5、步骤2,对训练集中的传感器a的数据和其余传感器的数据进行相关性分析,得到互信息和皮尔逊相关性系数,并通过对互信息和皮尔逊相关性系数分别赋予不同的权重构建联合相关性函数,采用贝叶斯优化方法对联合相关性函数中的权重进行优化,提取出与传感器a的监测元素相关性高于设定值的监测元素,构造新的监测元素集合c;
6、步骤3,将监测元素集合c中的各监测元素数据对传感器a的数据进行岭回归建模和lasso回归建模,得到岭回归模型和lasso回归模型的预测值,并分别进行岭回归模型和lasso回归模型的拟合优度r²检验;
7、步骤4,使用stacking方法将岭回归和lasso回归进行集成,将岭回归模型和lasso回归模型的预测值组合构建输入矩阵z,并根据拟合优度r²检验的比较结果,选择元学习器,并使用输入矩阵z对元学习器进行训练,生成最终的校正模型;
8、步骤5,提取校正集中与监测元素集合c同类型的数据,并输入校正模型,输出最终的预测数据,实现对检测出具有漂移现象的数据的校正。
9、上述方案中,步骤1中,数据预处理包括采用三倍标准差法检测和剔除异常值,对剔除异常值后的缺失部分以及原始数据中存在的缺失部分采用临近插值法进行填补,采用移动平均法对数据进行平滑、去噪操作;然后,采用下采样方法统一各数据的采样频率。
10、上述方案中,步骤1中,数据预处理后,将传感器a的数据和其余传感器的数据分别构建数据集合和,表示传感器a采集的第j个数据;表示其余第i个传感器采集的第j个数据,即第i个监测元素的第j个数据。
11、上述方案中,步骤2中,互信息计算如下:
12、;
13、其中,表示和的互信息,i表示第i个监测元素,表示和的联合概率分布,表示的边缘概率分布,表示的边缘概率分布;
14、皮尔逊相关性系数计算如下:
15、;
16、其中,表示和的皮尔逊相关性系数,表示第i个监测元素的数据均值,表示传感器a采集的数据均值。
17、上述方案中,步骤2中,联合相关性函数定义为:
18、;
19、其中,表示联合相关性函数,表示为在联合相关性函数中的权重,<mi>α</mi><mi>∈[0,1]</mi>;表示在联合相关性函数中的权重,<mi>β</mi><mi>∈[0,1]</mi>,;
20、对联合相关性函数进行归一化和百分化操作,归一化公式如下:
21、;
22、;
23、百分化公式如下:
24、;
25、其中,total jc表示所有监测元素与传感器a的数据之间联合相关性的比重的总和,表示第i个监测元素的联合相关性函数值的归一化结果,表示第i个监测元素的联合相关性函数值的百分化结果。
26、上述方案中,步骤2中,贝叶斯优化目标函数公式为:
27、;
28、采用贝叶斯优化,初始化权重和,根据初始结果自动地更新权重并重复迭代过程,在每次迭代中根据当前的结果,进一步地更新权重,直到找到最佳权重的组合和;和是目标函数的最大化解,表示为:
29、;
30、其中,和表示贝叶斯优化输出的最佳和,表示使达到最大值时对应的和的取值;
31、得到的和代入中,并将各个监测元素代入进行计算,得到各自最终的,并按照大小进行排序,确定各类监测元素对传感器a数据的相关性重要程度,根据最终的排序大小,选取相关性在70%以上的几个监测元素,构建一组新的监测元素集合c。
32、上述方案中,步骤3中,岭回归建模公式如下:
33、;
34、岭回归模型的预测值计算如下:
35、;
36、其中,表示岭回归模型的最佳权重向量,表示为使达到最小值时对应的的取值,<mi>w</mi><mi>=[</mi><msub><mi>w</mi><mn>1</mn></msub><mi>,</mi><msub><mi>w</mi><mn>2</mn></msub><mi>,…,</mi><msub><mi>w</mi><mi>t</mi></msub><msup><mi>]</mi><mi>t</mi></msup>表示权重向量,每个表示第t个监测元素在模型中的权重向量系数,,,…,<msub><mi>x</mi><mi>t</mi></msub><msup><mi>]</mi><mi>t</mi></msup>表示监测元素集合,其中<msub><mi>x</mi><mi>t</mi></msub><mi>=[</mi><msub><mi>x</mi><mrow><mi>t</mi><mn>1</mn></mrow></msub><mi>,</mi><msub><mi>x</mi><mrow><mi>t</mi><mn>2</mn></mrow></msub><mi>,…,</mi><msub><mi>x</mi><mi>tn</mi></msub><msup><mi>]</mi></msup>表示第t个监测元素的n个样本数据,y表示的全体数据,表示l2正则化参数,表示l2范数,表示岭回归模型的预测值;
37、lasso回归建模公式如下:
38、;
39、lasso回归模型的预测值计算如下:
40、;
41、其中,表示lasso回归模型的最佳权重向量,表示l1正则化参数,表示l1范数,表示lasso回归模型的预测值。
42、上述方案中,步骤3中,岭回归模型的拟合优度r²检验的计算公式如下:
43、;
44、;
45、;
46、其中,表示岭回归的残差平方和,表示岭回归的总平方和,表示传感器a采集的第j个数据,表示的全体数据的平均值,表示岭回归模型的拟合优度r²检验结果,表示岭回归模型的预测值;
47、lasso回归模型的拟合优度r²检验的计算公式如下:
48、;
49、;
50、;
51、其中,表示lasso回归的残差平方和,表示lasso回归的总平方和,表示lasso回归模型的拟合优度r²检验结果,表示lasso回归模型的预测值。
52、上述方案中,步骤4中,构建的输入矩阵z如下:
53、;
54、其中,表示岭回归模型的预测值,表示lasso回归模型的预测值;
55、根据岭回归模型的拟合优度r²检验结果和lasso回归模型的拟合优度r²检验结果选择元学习器:如果高于,选择支持向量回归作为元学习器;如果低于,选择梯度提升回归作为元学习器;
56、将输入矩阵z输入到元学习器中进行训练,训练后,得到最终的预测结果,计算与的拟合优度r²检验结果,根据所有的结果进行比较,选择数值上最大的作为元学习器训练达到最好状态时的结果,并以此生成最终的校正模型,拟合优度的检验结果计算公式如下:
57、;
58、;
59、;
60、其中,表示与的残差平方和,表示的总平方和,表示与的拟合优度r²检验结果,表示最终的预测结果,表示传感器a采集的第j个数据,表示的全体数据的平均值。
61、上述方案中,步骤5中,提取校正集中与监测元素集合c同类型的数据,并输入校正模型,输出最终的预测数据,采用预测结果对标记节点后的数据进行替换,最终实现对传感器a数据中出现漂移现象数据的校正。
62、通过上述技术方案,本发明提供的一种基于相关性分析和集成模型的多传感器数据校正方法具有如下有益效果:
63、1、本发明的方法在面对所监测的复杂和动态变化的海洋环境时,能够捕捉到监测数据中的复杂非线性关系以及线性关系,处理数据中的非线性和复杂关联模式,以便能更好地提取出数据中存在的相关性,具有更强的鲁棒性和可靠性;
64、2、本发明采用基于stacking方法集成岭回归和lasso回归的校正模型,可实现对出现漂移现象的传感器进行快速校正的功能,相比于传统的人工校准,本方法更加灵活且实时性强;
65、3、本发明仅通过低成本的计算机即可实现对数据的高精度校正,无需增加冗余传感器,降低了数据校正领域的整体复杂性和运行成本。同时,通过整合来自多个传感器的相关信息,可以显著提高对目标传感器的校正精度,解决数据漂移带来的一系列问题;
66、综上,本发明所提供的基于联合相关性分析的多传感器数据校正方法,能够在一定程度上解决现有方法中的不足,提供更为实时、精确的校正手段。
1.一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,步骤1中,数据预处理包括采用三倍标准差法检测和剔除异常值,对剔除异常值后的缺失部分以及原始数据中存在的缺失部分采用临近插值法进行填补,采用移动平均法对数据进行平滑、去噪操作;然后,采用下采样方法统一各数据的采样频率。
3.根据权利要求1所述的一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,步骤1中,数据预处理后,将传感器a的数据和其余传感器的数据分别构建数据集合和,表示传感器a采集的第j个数据;表示其余第i个传感器采集的第j个数据,即第i个监测元素的第j个数据。
4.根据权利要求3所述的一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,步骤2中,互信息计算如下:
5.根据权利要求3所述的一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,步骤2中,联合相关性函数定义为:
6.根据权利要求5所述的一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,步骤2中,贝叶斯优化目标函数公式为:
7.根据权利要求1所述的一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,步骤3中,岭回归建模公式如下:
8.根据权利要求1所述的一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,步骤3中,岭回归模型的拟合优度r²检验的计算公式如下:
9.根据权利要求1所述的一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,步骤4中,构建的输入矩阵z如下:
10.根据权利要求1所述的一种基于相关性分析和集成模型的多传感器数据校正方法,其特征在于,步骤5中,提取校正集中与监测元素集合c同类型的数据,并输入校正模型,输出最终的预测数据,采用预测结果对标记节点后的数据进行替换,最终实现对传感器a数据中出现漂移现象数据的校正。