本发明涉及激光雷达数据处理,具体涉及一种基于拉曼激光雷达数据的智能云相态识别方法。
背景技术:
1、云是由大气中的水滴、冰晶、雪晶组成的单一或者混合聚合体,云的相态主要分为冰云、水云和冰水混合云(简称混合云)。地球水循环的蒸发和凝结过程,水蒸气上升形成云,而云中的水滴最终凝结成降水,重新进入水循环。云相态不仅是云参数反演的关键要素,也是气象学和气候学研究的重要参量。反演云的光学厚度、有效粒子半径等光学和微物理参数的各种方法,基本都需要先建立相态类型。因此,云相态识别直接关系到云光学和微物理参数的反演,其准确识别对于提高云微物理参量反演的精度尤为重要。
2、云相态的分类算法目前还没有统一的参考标准。在最早的偏振激光雷达测量中,相关研究人员发现退偏比大小随云中冰晶粒子的含量的变化而变化,因此提出了使用偏振激光雷达测量云的相态特性,利用垂直和平行通道的测量数据得到退偏振比(简称退偏比)从而判断云的相态类型。目前常用的云相态识别算法大多是基于多光谱阈值的算法,该方法的优点在于简单易行,若选择合适的阈值会有较好的结果。但由于云相态识别涉及的特征波段较多,如果季节、纬度、地表类型等不同,阈值就会不同,而且可能差异较大。
3、随着科技发展,现在普遍引入机器学习的方法对云检测和云相态进行研究,可以避免了固定阈值选择的主观性,提高云相态精确识别的准确率。目前常用的机器学习方法主要有决策树、随机森林等。决策树作为一种简单而直观的分类算法,具有较高的可行性。其树状结构易于理解和解释,适用于多种数据类型,同时能够处理非线性关系和缺失值。然而,决策树容易出现过拟合现象,特别是在处理复杂数据时,可能导致模型泛化能力不足。随机森林作为决策树的集成方法,通过同时使用多个决策树进行分类,虽然能够降低单一决策树过拟合的风险,提高模型的准确性。
4、然而,随机森林的模型相对复杂,训练时间较长,且可能对噪声敏感,需要精确地调参和优化。
技术实现思路
1、鉴于以上所述现有技术的缺点,本发明提供一种基于拉曼激光雷达数据的智能云相态识别方法。通过河马优化算法的极端随机树分类模型进行云相态识别,提高云相态识别的准确率。
2、为实现上述效果,本发明的技术方案如下:
3、本发明提供一种基于拉曼激光雷达数据的智能云相态识别方法,包括以下步骤:
4、步骤一:通过主成分分析法对拉曼激光雷达数据进行特征提取,得到特征向量;
5、步骤二:将拉曼激光雷达数据的特征向量和毫米波雷达数据进行时空匹配,得到云相态标签;所述云相态标签为云相态数据集构成的标签,将有云位置识别为水云、冰云、冰水混合云、过冷水云四种类型;
6、步骤三:建立拉曼激光雷达数据的云相态数据集,将云相态数据集划分为训练集、验证集、测试集;
7、步骤四:构建极端随机树分类模型,在训练集上进行初始训练,得到训练好的极端随机树分类模型;
8、步骤五:结合河马优化算法对验证集上进行模型调优,得到最优的参数组合;
9、步骤六:将测试集输入到训练好的极端随机树分类模型,得到云相态的分类结果。
10、进一步的,步骤一具体为:
11、通过主成分分析法寻求拉曼激光雷达数据中的特征向量,通过线性变换将原始拉曼激光雷达数据中的变量转换为一组数值上不相关的变量;
12、1)数据标准化:对拉曼激光雷达数据进行数据标准化处理,数据标准化的公式为:
13、
14、式中,x表示原始拉曼激光雷达数据集,是一个n*d的矩阵;n表示样本数,d表示特征数;μ表示各拉曼激光雷达数据特征的均值,σ表示各拉曼激光雷达数据特征的标准值;
15、2)计算协方差矩阵:根据数据标准化后的拉曼激光雷达数据计算特征之间的协方差矩阵,协方差矩阵的元素用于描述拉曼激光雷达数据的特征i和特征j之间的线性关系,计算公式为:
16、
17、式中,表示xstd的转置矩阵;
18、3)特征值分解:对协方差矩阵进行特征值分解,得到特征值λ和对应的特征向量v;特征值分解的公式为:
19、σv=λv (3)
20、式中,特征值λ表示各主成分方向上拉曼激光雷达数据的方差大小,特征向量v表示主成分的方向;
21、4)选择主成分:选择特征值λ中最大的几个特征值对应的特征向量作为主成分;主成分的个数m是由累积贡献率或设定的阈值决定。
22、5)构建投影矩阵:将选定的特征向量中的主成分构建成一个投影矩阵p,用投影矩阵p将原始拉曼激光雷达数据投影到低维空间的新的坐标系中,投影公式为:
23、y=xstdp (4)
24、式中,y指降维后的拉曼激光雷达数据。
25、进一步的,步骤二之后,包括:
26、通过线性插值方法使拉曼激光雷达数据、毫米波雷达数据在时间和高度上的精确对应;结合拉曼激光雷达中的大气温度、退偏振比、后向散射系数变量和毫米波云雷达中的云雷达反射率因子、云雷达平均多普勒速度、速度谱宽变量进行云相态判别,得到云相态分类结果的标签。
27、进一步的,步骤三按照6:2:2的比例将云相态数据集划分为训练集、验证集、测试集。
28、进一步的,步骤四构建极端随机树分类模型步骤如下:
29、1)随机选择拉曼激光雷达数据的特征向量与极端随机树分类模型的分裂结点:在每个决策节点选择r个候选特征和对应的分裂结点,决策节点为极端随机树中的任意一个分裂结点;
30、设f为所有特征的集合,随机选择r个特征f1,f2,…,fr∈f,并为每个特征fi随机选择分裂结点si;分裂结点从特征向量fi的值域中随机选取,如下式所示:
31、
32、式中,g(fi,si)是分裂后的基尼不纯度或信息增益评价指标;
33、2)构建极端随机树分类模型:将根节点为极端随机树的第一个节点,从根节点开始,根据上述选定的特征向量fi和分裂结点递归地分割数据,直到达到停止条件depth=d或者|xleft|≤nmin或者|xright|≤nmin,d表示极端随机树的最大深度,如下式所示:
34、
35、
36、3)集成多棵极端随机树:构建t棵独立的极端随机树,并通过平均或投票的方法合并极端随机树分类模型的预测结果来提高极端随机树分类模型的预测稳定性和准确性,如下式所示:
37、
38、式中,yt(x)是第t棵极端随机树分类模型的预测结果。
39、进一步的,步骤五中通过河马优化算法优化极端随机树分类模型的参数包括:
40、根据预设的极端随机树的数量m、每个根节点选择的属性数量k、每个根节点最小样本数nmin以获取最优的参数组合,在验证集上进行模型调优;河马优化算法的工作过程为:
41、1)定义参数:定义每个河马表示的解向量xi=[mi,ki,nmini],其中mi表示第i个河马代表的树的数量;ki在每个根节点进行分裂时考虑的特征数量;nmini表示极端随机树中进行特征选择和分裂操作的每个节点所需的最小样本数量;
42、2)初始化:在初始化阶段随机生成河马群体中的每个个体的参数;表示为:mi~uniform(mmin,mmax);ki~uniform(kmin,kmax);nmini~uniform(nmin,min,nmax,max);
43、3)适应度评估:使用极端随机树分类模型的交叉验证得分作为适应度函数f(xi),crossvalscore表示使用极端随机树分类模型的参数mi,ki,nmini构建模型,适应度函数f(xi)表示为:
44、
45、4)迭代更新:每个河马根据当前的最优解和种群的平均位置更新河马的位置。
46、进一步的,所述每个河马根据当前的最优解和种群的平均位置更新河马的位置,包括以下过程:
47、搜索阶段:
48、xi,new=xi+α·(xbest-xi)+β·(meangroup-xi) (10)
49、式中,xbest表示当前河马优化算法找到的最优的参数组合,meangroup表示当前种群的平均参数值,α和β表示控制搜索强度的参数;
50、防御捕食者阶段:
51、xi,defend=xi-γ·(predator-xi) (11)
52、式中,predator表示模拟河马的威胁或不利环境,γ表示控制对威胁的反应;
53、逃脱阶段:
54、xi,escape=xi+δ·(safe_location-xi) (12)
55、式中,safe_location表示河马优化算法在逃脱阶段确定的一个位置,δ表示控制河马即解向量向安全地点移动的距离;
56、终止条件和输出:重复迭代过程直到达到预设的迭代次数或适应度函数的值不再显著提升,输出最优的参数组合xbest。
57、与随机森林相比,本发明采用的极端随机树分类模型是通过集成多个决策树来实现分类,但在构建每棵决策树时更加随机化,从而进一步减少了过拟合的风险,极端随机树分类模型相对于随机森林更加高效,因为在每个节点上,特征的分割是通过随机选择的。相较于随机森林,本发明极端随机树分类模型在云相态识别中具有降低过拟合风险、提升计算效率和减少特征选择偏差的优点。
58、与现有技术相比,本发明技术方案的有益效果是:
59、(1)目前常用的云相态判别方法通常要结合微波辐射计、微脉冲激光雷达等多种雷达的数据,并设立多组阈值进行判别分析。而本发明提出的方法利用单一的拉曼激光雷达数据进行极端随机树分类模型训练即可将云相态划分为水云、冰云、冰水混合云、过冷水云四类,尤其是识别出了过冷水云这一类别,降低了传统判别方法的复杂性。
60、(2)本发明通过河马优化算法的全局搜索能力可以找到极端随机树分类模型更好的参数组合,而不仅仅是局部最优解,从而提高模型的性能。与传统的极端随机树分类模型机器学习算法方法相比,本发明优化后的极端随机树分类模型具有更高的预测精度、鲁棒性和较高的分类准确率,进一步提高极端随机树分类模型的稳定性和泛化能力。
1.一种基于拉曼激光雷达数据的智能云相态识别方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤一具体为:
3.根据权利要求1所述的方法,其特征在于,步骤二之后,包括:
4.根据权利要求1所述的方法,其特征在于,步骤三按照6:2:2的比例将云相态数据集划分为训练集、验证集、测试集。
5.根据权利要求1所述的方法,其特征在于,步骤四构建极端随机树分类模型步骤如下:
6.根据权利要求5所述的方法,其特征在于,步骤五中通过河马优化算法优化极端随机树分类模型的参数包括:
7.根据权利要求6所述的方法,其特征在于,所述每个河马根据当前的最优解和种群的平均位置更新河马的位置,包括以下过程: