一种基于模糊模型支持向量机的大气污染物时序浓度预测方法与流程

    技术2026-01-02  9


    本发明涉及大气污染,尤其涉及一种基于模糊模型支持向量机的大气污染物时序浓度预测方法。


    背景技术:

    1、常见的大气污染物预测方法通常假设污染物的质量浓度与一系列特定影响因素之间相关联,影响因素包括气象条件、污染源等,并依据这些因素与污染物浓度之间的相关性进行预测。具体方法为:将这些影响因素作为自变量,污染物浓度作为因变量,应用回归分析技术预测其未来的变化。

    2、然而,采用该方法对pm2.5质量浓度进行预测时存在诸多不确定性。首先,对pm2.5的来源及其影响因素的理解尚不一致。一般认为,pm2.5的主要人为来源包括地面扬尘、建筑施工扬尘、燃煤、生物质燃烧、机动车排放、工业过程以及二次污染物的形成等,其影响因素主要涉及风速、气温、气压等气象因素,以及地形等地理因素。然而,现实中pm2.5的来源和影响因素远比这更复杂,包括许多尚未被识别或难以准确界定的因素。其次,即便已建立较为完整、准确的pm2.5来源和影响因素体系,在现阶段也难以获得完整的相关数据,从而精确分析其相关性。

    3、现有技术中,提供的预测方法有:

    4、人工神经网络(artificial neural network,ann)、深度神经网络(deep neuralnetwork,dnn)、支持向量机(support vector machine,svm)、自回归积分滑动平均模型(autoregressive integrated moving average,arima)等。但是,上述方法仍然存在一些缺陷。

    5、例如:(1)ann和dnn依赖于高维特征输入和大量数据,对于数据量较小和维度较低的数据集容易产生过拟合现象;此外,网络结构的设计和超参数的选择较为复杂,这增加了模型训练的难度。

    6、(2)svm在处理非线性问题时效果有限,这是因为其对非线性拟合没有一种普适的解决方案,有时难以选取合适的核函数;同时,随着样本量的增加,模型所需的支持向量数量也会相应增加,这可能导致计算负担加重。

    7、(3)arima模型要求时间序列数据必须是稳定的,或可以通过差分转化为稳定状态,这限制了其应用范围;此外,arima模型无法有效捕捉时间序列中的非线性特征,这可能影响预测的准确性。

    8、鉴于以上问题,有必要提供一种基于模糊模型支持向量机的大气污染物时序浓度预测方法,以解决上述问题。


    技术实现思路

    1、本发明提供了一种基于模糊模型支持向量机的大气污染物时序浓度预测方法,该方法不仅可以解决过拟合问题,实现学习样本的自动提取和优化,减少支持向量的数目,还能够自动根据历史数据构造的各种污染物浓度预测模型,通过算法自适应,有效提升了预测的准确性和实用性。

    2、具体技术方案如下:

    3、本发明提供了一种基于模糊模型支持向量机的大气污染物时序浓度预测方法,包括:

    4、s1:采集历史大气污染物浓度数据,得到连续的时间序列污染物浓度数据;

    5、s2:对应不同aqi空气污染等级,将大气污染物浓度划分为不同的阈值区间,将该阈值区间作为模糊集合;代入至高斯模糊隶属度函数中,生成集合各阈值区间的初始隶属函数加权去模糊器;

    6、s3:将步骤s1的时间序列污染物浓度数据代入至步骤s2的隶属函数加权模糊器中,进行模糊粒化,得到由时间序列下各污染物浓度数据的初始模糊粒化数据集合;

    7、s4:将数据集合按照预设的时间段切割成若干组具有时间顺序的数据集,作为用于训练和验证的数据集,代入至支持向量机模型中进行初始化训练,并在初始化训练后不断地进行调参和模型迭代,最终得到能够由上一时间段数据预测下一时刻aqi空气污染等级结果的大气污染物时序浓度预测模型;

    8、s5:采集上一时间段的时间序列污染物浓度数据,输入至预测模型中,得到下一时刻的aqi空气污染等级结果。

    9、进一步地,步骤s1中,采集历史大气污染物浓度数据后,先进行缺失值补充和离群值剔除的数据预处理,再得到数据清洗后的时间序列污染物浓度数据;

    10、缺失值补充的方法为:大气污染物浓度数据的空缺处根据该数据检测当日污染物浓度值的中位数进行填补,或者根据该数据上一小时的污染物浓度值的均值进行填补;

    11、离群值剔除的方法为:采用离群值检测法检测所述历史大气污染物浓度数据中的异常值,再根据该异常值当日污染物浓度值的中位数进行填补,或者根据该数据上一小时的污染物浓度值的均值进行填补。

    12、进一步地,步骤s1中,所述大气污染物为二氧化硫(so2)、二氧化氮(no2)、pm10、pm2.5、臭氧(o3)或一氧化碳(co)。

    13、进一步地,步骤s1中,所述大气污染物为pm2.5;步骤s2中,所述aqi空气污染等级以及不同等级下aqi所对应的阈值范围为:优对应0~50,良对应51~100,轻度污染对应101~150,中度污染对应151~200,重度污染对应201-300,严重污染对应大于>300;

    14、所述aqi空气污染等级以及不同等级下pm2.5浓度所对应的阈值范围为:优对应0~35μm/m3,良对应35~75μm/m3,轻度污染对应75~115μm/m3,中度污染对应115~150μm/m3,重度污染对应150~250μm/m3和严重污染对应大于250μm/m3。

    15、进一步地,步骤s2中,所述高斯模糊隶属度函数的公式,如式(1)所示:

    16、

    17、式(1)中,x表示大气污染物浓度值;表示高斯模糊隶属度函数;为该隶属函数的中心,取区间端点均值,σ是隶属函数的标准差,初始值为区间差的1/6。

    18、进一步地,步骤s4中,步骤s4中,时间段的分割单位为小时、天、周、月或年,时间段的长度记为m,x表示由m时间段长度的污染物浓度数据所组成的向量;支持向量机模型采用非线性映射函数中的径向基函数rbf为核函数;

    19、代入至支持向量机模型的数据集为

    20、其中,k表示污染物数据的序列数,n表示污染物数据的总序列数,zk表示由输入的第k组实际监测获得的污染物浓度数据经过去模糊器后的结果组成的向量z,yk表示第k组预测的污染物浓度值,r表示实数域,m表示输入x向量的维度大小,rm表示m维的实数向量空间,m表示输入的污染物浓度z向量的模为m;

    21、模型中的拟合函数为

    22、其中,k表示污染物数据的序列,n表示污染物数据的总序列数,k(zk,y)为核函数,ak表示第k个支撑向量,b表示支持向量机模型的偏差。

    23、步骤s4中,所述调参的对象为惩罚参数c和核函数参数gamma;

    24、其中,核函数参数gamma利用公式(2)进行调参;

    25、公式(2)如下所示:

    26、

    27、其中,g表示核函数的gamma参数,gamma是径向基函数rbf的核函数参数,σ为核函数gamma的倒数,k(zk,y)表示高斯核函数,||zk-y||是二范数距离,表示大气污染物浓度值zk与预测大气污染物浓度值y之间的欧式距离;

    28、调参的方式为:

    29、(4-1)设定惩罚参数c和核函数参数gamma的初始变化范围及步长大小,通过网格划分使惩罚参数c和核函数参数gamma在一定范围内搜索最佳参数,见图3;

    30、(4-2)选取能达到最高验证回归准确率中最小的惩罚参数c及其对应的核函数参数gamma作为最佳参数;

    31、(4-3)若出现多组最小的惩罚参数c及对应的核函数参数gamma,则选取搜索到的第一组惩罚参数c和核函数参数gamma作为最佳参数。

    32、进一步地,步骤s4中模型迭代的方式为:

    33、(4s-1)以调参后获得的核函数参数gamma的倒数作为高斯模糊隶属度函数中的σ参数,重新构建迭代的加权去模糊器;

    34、(4s-2)再将步骤s1的时间序列污染物浓度数据代入至步骤(4s-1)迭代的加权去模糊器中,进行模糊粒化,得到由时间序列下各污染物浓度数据及其所对应的aqi空气污染等级构成的迭代数据集合;

    35、(4s-3)再将迭代数据集合按照预设的时间段切割成若干组具有时间顺序的数据集,作为用于训练和验证的数据集,代入至支持向量机模型中进行迭代训练,得到迭代后的模型以及迭代调参后迭代核函数参数gamma;

    36、(4s-4)重复步骤(4s-1)~(4s-3),并计算阈值θ,直到阈值θ小于预设值或大于预设迭代次数,则停止迭代;其中,阈值i表示第i次迭代,σi表示第i次迭代的σ,σi-1表示第i-1次迭代的σ。

    37、与现有技术相比,本发明具有以下有益效果:

    38、(1)本发明结合模糊逻辑和支持向量机的优点,并配合模型迭代,有效克服了传统神经网络的“过拟合”问题,同时还可以使人们易于将先验的系统知识结合到模糊规则中,自动的从学习样本中提取典型的数据作为最终学习样本,提取特征提供给支持向量机进行建模,使模型能够自动的提取时序中具有内在规律的数据作为支持向量,减少了模型支持向量的数目,同时支持向量机的调参参数可为模糊逻辑模型超参数选择提供支持。

    39、(2)解决过拟合问题:传统的神经网络模型在处理小规模或低维度数据时容易发生过拟合;本发明通过结合模糊逻辑与支持向量机的优点,有效克服了过拟合问题。

    40、(3)自动提取和优化学习样本:本方案通过模糊系统自动从学习样本中识别并提取典型数据作为最终的学习样本,这不仅提高了学习效率,而且降低了数据处理的复杂性。此外,这种方法通过提取具有代表性的特征,为支持向量机建模提供了高质量的输入数据。

    41、(4)减少支持向量的数目:通过模糊逻辑对数据进行预处理和特征提取,支持向量机可以更加精确地识别和利用时序数据中的内在规律,从而减少所需的支持向量数量。这不仅提高了模型的运行效率,还降低了计算成本。

    42、(5)自动参数调整与模型优化:在传统方法中,支持向量机的参数调整通常需要大量的人工干预,这既耗时又效率低下;本发明的模型通过模糊逻辑来支持超参数的选择,实现参数的自动调整,从而减轻了人工调参的负担。

    43、(6)增强模型的自适应能力:本技术方案能够自动根据历史数据构造的各种污染物浓度预测模型,通过算法自适应,有效提升了预测的准确性和实用性。


    技术特征:

    1.一种基于模糊模型支持向量机的大气污染物时序浓度预测方法,其特征在于,包括:

    2.如权利要求1所述的基于模糊模型支持向量机的大气污染物时序浓度预测方法,其特征在于,步骤s1中,采集历史大气污染物浓度数据后,先进行缺失值补充和离群值剔除的数据预处理,再得到数据清洗后的时间序列污染物浓度数据;

    3.如权利要求1所述的基于模糊模型支持向量机的大气污染物时序浓度预测方法,其特征在于,步骤s1中,所述大气污染物为二氧化硫、二氧化氮、pm10、pm2.5、臭氧或一氧化碳。

    4.如权利要求1所述的基于模糊模型支持向量机的大气污染物时序浓度预测方法,其特征在于,步骤s1中,所述大气污染物为pm2.5;步骤s2中,所述aqi空气污染等级以及不同等级下aqi所对应的阈值范围为:优对应0~50,良对应51~100,轻度污染对应101~150,中度污染对应151~200,重度污染对应201-300,严重污染对应大于>300;

    5.如权利要求1所述的基于模糊模型支持向量机的大气污染物时序浓度预测方法,其特征在于,步骤s2中,所述高斯模糊隶属度函数的公式,如式(1)所示:

    6.如权利要求1所述的基于模糊模型支持向量机的大气污染物时序浓度预测方法,其特征在于,步骤s4中,时间段的分割单位为小时、天、周、月或年,时间段的长度记为m,x表示由m时间段长度的污染物浓度数据所组成的向量;支持向量机模型采用非线性映射函数中的径向基函数rbf为核函数;

    7.如权利要求6所述的基于模糊模型支持向量机的大气污染物时序浓度预测方法,其特征在于,步骤s4中,所述调参的对象为惩罚参数c和核函数参数gamma;

    8.如权利要求7所述的基于模糊模型支持向量机的大气污染物时序浓度预测方法,其特征在于,步骤s4中模型迭代的方式为:


    技术总结
    本发明提供了一种基于模糊模型支持向量机的大气污染物时序浓度预测方法,该方法包括:生成初始隶属函数加权去模糊器;得到初始模糊粒化数据集合;代入至支持向量机模型中初始化训练,联立去模糊器及支持向量机的超参数,并不断地进行调参和模型迭代,得到大气污染物时序浓度预测模型;最终得到预测的AQI空气污染等级结果。本发明方法不仅可以解决过拟合问题,实现学习样本的自动提取和优化,减少支持向量的数目,还能够自动根据历史数据构造的各种污染物浓度预测模型,通过算法自适应,有效提升了预测的准确性和实用性。

    技术研发人员:郑炜,万梅,庞星龙,徐振麒,沈家辰
    受保护的技术使用者:浙江清华长三角研究院
    技术研发日:
    技术公布日:2024/10/24
    转载请注明原文地址:https://symbian.8miu.com/read-39053.html

    最新回复(0)