正在加载图片...
第12期 刘杰等:模糊时序与支持向量机建模相结合的PM2s质量浓度预测 ·1695· 环境·-)和人体健康0的最主要污染物之一,北京 本思想是将样本数据集映射到高维空间,通过在高 市环境保护监测中心发布的空气质量指数(air qual- 维空间构造线性分类函数来实现样本集合的划分, ity index,AQI)结果显示,2013年3月一2014年2 并通过引入核函数来避免高维空间中的维数灾难, 月北京城六区PM2s作为首要污染物的比例高达 极大地减少了计算量.鉴于PM2s来源的复杂性使 57.2%,其污染程度极大地影响了城市空气质量的 得基于机理的建模方法存在较大不确定性,本文提 好坏.因此,对PM2s质量浓度的有效预测可以为从 出将支持向量机与时间序列相结合的方法.利用模 整体上观测城市空气质量的变化趋势提供有力信 糊粒化的方法对时间序列和PM2监测数据进行特 息.大气污染物的常见预测方法是假设其质量浓度 征提取,结合支持向量机建模方法,保证了算法的全 与一些具体的影响因素有关,如气象因素、污染物来 局最优性,以得出较为可靠和准确的质量浓度变化 源等囚,并对污染物与影响因素做相关性分析,即 趋势及范围,有效解决多因素回归模型预测结果不 把影响因素作为自变量,污染物浓度作为因变量,进 稳定的问题,为PM25及其他大气污染物浓度预测提 行回归预测输出,但对于PM25质量浓度预测来说, 供一种新方法 这种方法存在诸多的不确定性.首先,当前对于 PM25的来源及影响因素认识,尚未完全统一,目前 1ε一支持向量机非线性回归 主要认为北京PM2s的来源6为地面扬尘、建筑 支持向量机通常用核函数变换来解决非线性回 尘、燃煤、生物质燃烧、机动车排放、工业过程、二次 归问题,通过非线性变换中将n维矢量空间R“的样 转化等诸多人为源,而影响因素0主要有风速、温 本(x:,y:)映射到高维特征空间,然后建立线性模型 度、气压等气象因素及地势等地理因素.实际情况 来拟合回归函数.ε一支持向量机即采用ε不敏感损 显示,PM2s来源及影响因素明显不仅仅如此,仍有 诸多暂未发现或难以确定的影响因素没有列入其 失函数的进行样本训练,具有不敏感带的非线性回 中.其次,即使建立了完整、准确的PM25来源及影 归函数如图1所示,图中所示的变量度量了训练 响因素体系,现阶段也很难满足其影响因素完整资 样本点上误差的代价,在ε不敏感带内的点误差为 料的对应,难以准确分析其相关性.对此,可结合 0.其优化问题可表示为 PM2.s质量浓度变化的周期性,建立基于时间序列的 mi2Iw2+C∑(怎+), (1) 预测模型,研究其未来某一时段的质量浓度变化趋 势及范围 出:-w中(x,)-b≤e+, 当前对预测模型的研究,主要集中在用机器学 s.t.{w中(x:)+b-y:≤E+, 习算法解决复杂的非线性模型问题上,尤其是应用 5:≥0,≥0,C>0,i=1,2,…,n. 人工神经网络模型对大气颗粒物的小时质量浓度进 式中,ω为权值向量,C为惩罚参数,b为阈值,专为 行预测研究.如McKendryn运用神经网络模型预 松弛变量.若对应于变换中的核函数为K(x,x), 测了加拿大菲莎河谷下游区域PM。和PM2s的小时 则式(1)所示的问题可构造出对偶最优化问 平均质量浓度:Kukkonen等☒运用多种神经网络 题,即 模型预测了芬兰赫尔辛基城区PM。的小时平均质 量浓度;石灵芝等)利用BP神经网络模型预测了 腰{-三a-a)a-g)k)- +a =1 湖南长沙火车站PM。小时平均质量浓度;这些研究 (2) 均取得了较好的效果.神经网络非线性拟合能力较 a+ai)+-a)} 强,学习规则简单,可映射任意复杂的非线性关系, 但其在解决网络结构的确定、过拟合和局部极小等 s.t. 问题上仍存在较大困难.支持向量机(support vector a,ai∈[D,C],i=1,2,…,n. machine,SVM)则在小样本、非线性、高维模式识别 式中,a:和a分别为对应的拉格朗日乘子,a:为支 等问题的解决上表现出许多特有优势,并可避免神 持向量.核函数K(x:,x)的回归估计函数为 经网络中经常出现的过拟合及局部极小等问题,推 f(x)=w中(x)+b= (a-a)K(x:x)+b. 广误差较小,具有较好的泛化能力.该方法基于统 计学习中结构风险最小化原则,由Cortes和Va即p- (3) mik在1995年首先提出并迅速发展和完善,其基 式中,阈值b的计算式为第 12 期 刘 杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测 环境[1--3]和人体健康[4]的最主要污染物之一. 北京 市环境保护监测中心发布的空气质量指数( air qual￾ity index,AQI) 结果显示,2013 年 3 月—2014 年 2 月北京城六区 PM2. 5 作为首要污染物的比例高达 57. 2% ,其污染程度极大地影响了城市空气质量的 好坏. 因此,对 PM2. 5质量浓度的有效预测可以为从 整体上观测城市空气质量的变化趋势提供有力信 息. 大气污染物的常见预测方法是假设其质量浓度 与一些具体的影响因素有关,如气象因素、污染物来 源等[5],并对污染物与影响因素做相关性分析,即 把影响因素作为自变量,污染物浓度作为因变量,进 行回归预测输出,但对于 PM2. 5质量浓度预测来说, 这种方法存在诸多的不确定性. 首先,当前对于 PM2. 5的来源及影响因素认识,尚未完全统一,目前 主要认为北京 PM2. 5 的来源[6--8]为地面扬尘、建筑 尘、燃煤、生物质燃烧、机动车排放、工业过程、二次 转化等诸多人为源,而影响因素[9--10]主要有风速、温 度、气压等气象因素及地势等地理因素. 实际情况 显示,PM2. 5来源及影响因素明显不仅仅如此,仍有 诸多暂未发现或难以确定的影响因素没有列入其 中. 其次,即使建立了完整、准确的 PM2. 5来源及影 响因素体系,现阶段也很难满足其影响因素完整资 料的对应,难以准确分析其相关性. 对此,可结合 PM2. 5质量浓度变化的周期性,建立基于时间序列的 预测模型,研究其未来某一时段的质量浓度变化趋 势及范围. 当前对预测模型的研究,主要集中在用机器学 习算法解决复杂的非线性模型问题上,尤其是应用 人工神经网络模型对大气颗粒物的小时质量浓度进 行预测研究. 如 McKendry[11]运用神经网络模型预 测了加拿大菲莎河谷下游区域 PM10和 PM2. 5的小时 平均质量浓度; Kukkonen 等[12]运用多种神经网络 模型预测了芬兰赫尔辛基城区 PM10 的小时平均质 量浓度; 石灵芝等[13]利用 BP 神经网络模型预测了 湖南长沙火车站 PM10小时平均质量浓度; 这些研究 均取得了较好的效果. 神经网络非线性拟合能力较 强,学习规则简单,可映射任意复杂的非线性关系, 但其在解决网络结构的确定、过拟合和局部极小等 问题上仍存在较大困难. 支持向量机( support vector machine,SVM) 则在小样本、非线性、高维模式识别 等问题的解决上表现出许多特有优势,并可避免神 经网络中经常出现的过拟合及局部极小等问题,推 广误差较小,具有较好的泛化能力. 该方法基于统 计学习中结构风险最小化原则,由 Cortes 和 Vap￾nik[14]在 1995 年首先提出并迅速发展和完善,其基 本思想是将样本数据集映射到高维空间,通过在高 维空间构造线性分类函数来实现样本集合的划分, 并通过引入核函数来避免高维空间中的维数灾难, 极大地减少了计算量. 鉴于 PM2. 5来源的复杂性使 得基于机理的建模方法存在较大不确定性,本文提 出将支持向量机与时间序列相结合的方法. 利用模 糊粒化的方法对时间序列和 PM2. 5监测数据进行特 征提取,结合支持向量机建模方法,保证了算法的全 局最优性,以得出较为可靠和准确的质量浓度变化 趋势及范围,有效解决多因素回归模型预测结果不 稳定的问题,为 PM2. 5及其他大气污染物浓度预测提 供一种新方法. 1 ε--支持向量机非线性回归 支持向量机通常用核函数变换来解决非线性回 归问题,通过非线性变换  将 n 维矢量空间 Rn 的样 本( xi,yi ) 映射到高维特征空间,然后建立线性模型 来拟合回归函数. ε--支持向量机即采用 ε 不敏感损 失函数[15]进行样本训练,具有不敏感带的非线性回 归函数如图 1 所示,图中所示的变量 ξ 度量了训练 样本点上误差的代价,在 ε 不敏感带内的点误差为 0. 其优化问题可表示为 min ω,b,ξ 1 2 ‖ω‖2 + C ∑ l i = 1 ( ξi + ξ * i ) , ( 1) s. t. yi - ω·( xi ) - b≤ε + ξi, ω·( xi ) + b - yi≤ε + ξ * i , ξi≥0,ξ * i ≥0,C > 0,i = 1,2,…, { n. 式中,ω 为权值向量,C 为惩罚参数,b 为阈值,ξ 为 松弛变量. 若对应于变换  的核函数为 K( xi,xj) , 则式( 1 ) 所示的问题可构造出对偶最优化问 题[16],即 max α,α* { - 1 2 ∑ n i,j = 1 ( αi - α* i ) ( αj - α* i ) K( xi,xj ) - ε ∑ n i = 1 ( αi + α* i ) + ∑ n i = 1 yi ( α* i - αi ) } , ( 2) s. t. ∑ n i = 1 αi = ∑ n i = 1 α* i , αi,α* i ∈[0,C],i = 1,2,…, { n. 式中,αi 和 αj 分别为对应的拉格朗日乘子,α* i 为支 持向量. 核函数 K( xi,xj ) 的回归估计函数为 f( x) = ω·( x) + b = ∑ n i = 1 ( αi - α* i ) K( xi,xj ) + b. ( 3) 式中,阈值 b 的计算式为 · 5961 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有