第36卷第12期 北京科技大学学报 Vol.36 No.12 2014年12月 Journal of University of Science and Technology Beijing Dec.2014 模糊时序与支持向量机建模相结合的PM,5质量浓度 预测 刘 杰”,杨鹏四,吕文生”,刘阿古达木”,刘俊秀) 1)北京科技大学土木与环境工程学院,北京1000832)北京联合大学北京市信息服务工程重点实验室,北京100101 ☒通信作者,E-mail:yangpenge@buu.edu.cn 摘要为解决进行PM2,质量浓度预测中多因素回归模型的不稳定、神经网络模型的过拟合及局部最小等问题,提出应用 支持向量机和模糊粒化时间序列相结合的方法,对PM2:质量浓度未来变化趋势和范围进行预测.根据PM25不同季节的日变 化周期模式,确定以24为周期的粒化窗宽,利用三角型隶属函数对数据样本进行特征提取作为支持向量机的输入,并在k重 交叉验证法下采用网格划分寻找出模型的最佳参数.以2013年3月一2014年2月北京市海淀区万柳监测点四个季节PM25 的Ih质量浓度监测值为样本数据,应用该方法建立PM2s质量浓度的时间序列预测模型,并在MATLAB平台下应用LIBSVM 工具实现计算过程.结果表明,基于模糊粒化时间序列的预测模型,能较好解决PM2机理性建模方式下由于影响因素考虑不 全而造成的预测结果不稳定,对模糊粒子拟合效果较好 关键词细颗粒物:质量浓度:预测模型:支持向量机:时间序列 分类号X823 Prediction model of PM,s mass concentrations based on fuzzy time series and support vector machine LIU Jie",YANG Peng,LO Wen-sheng",LIU Agudamu,LIU Jun-xiu 1)School of Civil and Environmental Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China Corresponding author,E-mail:yangpeng@buu.edu.cn ABSTRACT To solve the instability of multiple-factor regression models and the existence of over-earning and local minima of neural network models in predicting PMs mass concentration,a method was proposed by combining support vector machine with fuzzy granu- lation of time series to predict the variation trend and range of PM,s mass concentration.According to the daily periodic variation of PM2 s in different seasons,a 24h pattern was determined to be the window length of granulating.Feature extraction of data samples proceeded by a triangular membership function was applied to support vector machine inputs for regressive modeling,and the optimum parameters of models were selected by grid search based on k-fold cross validation.Then a time series prediction model was established by using 1h PM,s mass concentration obtained by Wanliu monitoring station at Haidian district of Beijing in 4 seasons from March 2013 to February 2014,and its resolving was realized by LIBSVM tool in MATLAB platform.The results show that the prediction mod- el of PMs mass concentration based on fuzzy granulation of time series can solve the instability caused by uncertain factors in mecha- nism modeling and get a good fitting effect on fuzzy granulation parameters. KEY WORDS particulate matter:mass concentration:prediction models:support vector machine:time series 大气细颗粒物PMz.s(particulate matter,空气动力学当量直径≤2.5μm的颗粒物)是当前影响城市 收稿日期:201403-11 基金项目:北京市属高等学校高层次人才引进与培养一“长城学者”培养计划项目“基于无线传感器网络的城市空气质量实时监测系统研 究”资助项目(CT&TCD20130320) DOI:10.13374/j.issn1001-053x.2014.12.017:http://jourals.ustb.edu.cn
第 36 卷 第 12 期 2014 年 12 月 北京科技大学学报 Journal of University of Science and Technology Beijing Vol. 36 No. 12 Dec. 2014 模糊时序与支持向量机建模相结合的 PM2. 5 质量浓度 预测 刘 杰1) ,杨 鹏2) ,吕文生1) ,刘阿古达木1) ,刘俊秀2) 1) 北京科技大学土木与环境工程学院,北京 100083 2) 北京联合大学北京市信息服务工程重点实验室,北京 100101 通信作者,E-mail: yangpeng@ buu. edu. cn 摘 要 为解决进行 PM2. 5质量浓度预测中多因素回归模型的不稳定、神经网络模型的过拟合及局部最小等问题,提出应用 支持向量机和模糊粒化时间序列相结合的方法,对 PM2. 5质量浓度未来变化趋势和范围进行预测. 根据 PM2. 5不同季节的日变 化周期模式,确定以 24 h 为周期的粒化窗宽,利用三角型隶属函数对数据样本进行特征提取作为支持向量机的输入,并在 k 重 交叉验证法下采用网格划分寻找出模型的最佳参数. 以 2013 年 3 月—2014 年 2 月北京市海淀区万柳监测点四个季节 PM2. 5 的 1 h 质量浓度监测值为样本数据,应用该方法建立 PM2. 5质量浓度的时间序列预测模型,并在 MATLAB 平台下应用 LIBSVM 工具实现计算过程. 结果表明,基于模糊粒化时间序列的预测模型,能较好解决 PM2. 5机理性建模方式下由于影响因素考虑不 全而造成的预测结果不稳定,对模糊粒子拟合效果较好. 关键词 细颗粒物; 质量浓度; 预测模型; 支持向量机; 时间序列 分类号 X 823 Prediction model of PM2. 5 mass concentrations based on fuzzy time series and support vector machine LIU Jie1) ,YANG Peng2) ,L Wen-sheng1) ,LIU Agudamu1) ,LIU Jun-xiu2) 1) School of Civil and Environmental Engineering,University of Science and Technology Beijing,Beijing 100083,China 2) Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China Corresponding author,E-mail: yangpeng@ buu. edu. cn ABSTRACT To solve the instability of multiple-factor regression models and the existence of over-learning and local minima of neural network models in predicting PM2. 5 mass concentration,a method was proposed by combining support vector machine with fuzzy granulation of time series to predict the variation trend and range of PM2. 5 mass concentration. According to the daily periodic variation of PM2. 5 in different seasons,a 24-h pattern was determined to be the window length of granulating. Feature extraction of data samples proceeded by a triangular membership function was applied to support vector machine inputs for regressive modeling,and the optimum parameters of models were selected by grid search based on k-fold cross validation. Then a time series prediction model was established by using 1-h PM2. 5 mass concentration obtained by Wanliu monitoring station at Haidian district of Beijing in 4 seasons from March 2013 to February 2014,and its resolving was realized by LIBSVM tool in MATLAB platform. The results show that the prediction model of PM2. 5 mass concentration based on fuzzy granulation of time series can solve the instability caused by uncertain factors in mechanism modeling and get a good fitting effect on fuzzy granulation parameters. KEY WORDS particulate matter; mass concentration; prediction models; support vector machine; time series 收稿日期: 2014--03--11 基金项目: 北京市属高等学校高层次人才引进与培养———“长城学者”培养计划项目“基于无线传感器网络的城市空气质量实时监测系统研 究”资助项目( CIT&TCD20130320) DOI: 10. 13374 /j. issn1001--053x. 2014. 12. 017; http: / /journals. ustb. edu. cn 大气细颗粒物 PM2. 5 ( particulate matter,空气动 力学当量直径≤2. 5 μm 的颗粒物) 是当前影响城市
第12期 刘杰等:模糊时序与支持向量机建模相结合的PM2s质量浓度预测 ·1695· 环境·-)和人体健康0的最主要污染物之一,北京 本思想是将样本数据集映射到高维空间,通过在高 市环境保护监测中心发布的空气质量指数(air qual- 维空间构造线性分类函数来实现样本集合的划分, ity index,AQI)结果显示,2013年3月一2014年2 并通过引入核函数来避免高维空间中的维数灾难, 月北京城六区PM2s作为首要污染物的比例高达 极大地减少了计算量.鉴于PM2s来源的复杂性使 57.2%,其污染程度极大地影响了城市空气质量的 得基于机理的建模方法存在较大不确定性,本文提 好坏.因此,对PM2s质量浓度的有效预测可以为从 出将支持向量机与时间序列相结合的方法.利用模 整体上观测城市空气质量的变化趋势提供有力信 糊粒化的方法对时间序列和PM2监测数据进行特 息.大气污染物的常见预测方法是假设其质量浓度 征提取,结合支持向量机建模方法,保证了算法的全 与一些具体的影响因素有关,如气象因素、污染物来 局最优性,以得出较为可靠和准确的质量浓度变化 源等囚,并对污染物与影响因素做相关性分析,即 趋势及范围,有效解决多因素回归模型预测结果不 把影响因素作为自变量,污染物浓度作为因变量,进 稳定的问题,为PM25及其他大气污染物浓度预测提 行回归预测输出,但对于PM25质量浓度预测来说, 供一种新方法 这种方法存在诸多的不确定性.首先,当前对于 PM25的来源及影响因素认识,尚未完全统一,目前 1ε一支持向量机非线性回归 主要认为北京PM2s的来源6为地面扬尘、建筑 支持向量机通常用核函数变换来解决非线性回 尘、燃煤、生物质燃烧、机动车排放、工业过程、二次 归问题,通过非线性变换中将n维矢量空间R“的样 转化等诸多人为源,而影响因素0主要有风速、温 本(x:,y:)映射到高维特征空间,然后建立线性模型 度、气压等气象因素及地势等地理因素.实际情况 来拟合回归函数.ε一支持向量机即采用ε不敏感损 显示,PM2s来源及影响因素明显不仅仅如此,仍有 诸多暂未发现或难以确定的影响因素没有列入其 失函数的进行样本训练,具有不敏感带的非线性回 中.其次,即使建立了完整、准确的PM25来源及影 归函数如图1所示,图中所示的变量度量了训练 响因素体系,现阶段也很难满足其影响因素完整资 样本点上误差的代价,在ε不敏感带内的点误差为 料的对应,难以准确分析其相关性.对此,可结合 0.其优化问题可表示为 PM2.s质量浓度变化的周期性,建立基于时间序列的 mi2Iw2+C∑(怎+), (1) 预测模型,研究其未来某一时段的质量浓度变化趋 势及范围 出:-w中(x,)-b≤e+, 当前对预测模型的研究,主要集中在用机器学 s.t.{w中(x:)+b-y:≤E+, 习算法解决复杂的非线性模型问题上,尤其是应用 5:≥0,≥0,C>0,i=1,2,…,n. 人工神经网络模型对大气颗粒物的小时质量浓度进 式中,ω为权值向量,C为惩罚参数,b为阈值,专为 行预测研究.如McKendryn运用神经网络模型预 松弛变量.若对应于变换中的核函数为K(x,x), 测了加拿大菲莎河谷下游区域PM。和PM2s的小时 则式(1)所示的问题可构造出对偶最优化问 平均质量浓度:Kukkonen等☒运用多种神经网络 题,即 模型预测了芬兰赫尔辛基城区PM。的小时平均质 量浓度;石灵芝等)利用BP神经网络模型预测了 腰{-三a-a)a-g)k)- +a =1 湖南长沙火车站PM。小时平均质量浓度;这些研究 (2) 均取得了较好的效果.神经网络非线性拟合能力较 a+ai)+-a)} 强,学习规则简单,可映射任意复杂的非线性关系, 但其在解决网络结构的确定、过拟合和局部极小等 s.t. 问题上仍存在较大困难.支持向量机(support vector a,ai∈[D,C],i=1,2,…,n. machine,SVM)则在小样本、非线性、高维模式识别 式中,a:和a分别为对应的拉格朗日乘子,a:为支 等问题的解决上表现出许多特有优势,并可避免神 持向量.核函数K(x:,x)的回归估计函数为 经网络中经常出现的过拟合及局部极小等问题,推 f(x)=w中(x)+b= (a-a)K(x:x)+b. 广误差较小,具有较好的泛化能力.该方法基于统 计学习中结构风险最小化原则,由Cortes和Va即p- (3) mik在1995年首先提出并迅速发展和完善,其基 式中,阈值b的计算式为
第 12 期 刘 杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测 环境[1--3]和人体健康[4]的最主要污染物之一. 北京 市环境保护监测中心发布的空气质量指数( air quality index,AQI) 结果显示,2013 年 3 月—2014 年 2 月北京城六区 PM2. 5 作为首要污染物的比例高达 57. 2% ,其污染程度极大地影响了城市空气质量的 好坏. 因此,对 PM2. 5质量浓度的有效预测可以为从 整体上观测城市空气质量的变化趋势提供有力信 息. 大气污染物的常见预测方法是假设其质量浓度 与一些具体的影响因素有关,如气象因素、污染物来 源等[5],并对污染物与影响因素做相关性分析,即 把影响因素作为自变量,污染物浓度作为因变量,进 行回归预测输出,但对于 PM2. 5质量浓度预测来说, 这种方法存在诸多的不确定性. 首先,当前对于 PM2. 5的来源及影响因素认识,尚未完全统一,目前 主要认为北京 PM2. 5 的来源[6--8]为地面扬尘、建筑 尘、燃煤、生物质燃烧、机动车排放、工业过程、二次 转化等诸多人为源,而影响因素[9--10]主要有风速、温 度、气压等气象因素及地势等地理因素. 实际情况 显示,PM2. 5来源及影响因素明显不仅仅如此,仍有 诸多暂未发现或难以确定的影响因素没有列入其 中. 其次,即使建立了完整、准确的 PM2. 5来源及影 响因素体系,现阶段也很难满足其影响因素完整资 料的对应,难以准确分析其相关性. 对此,可结合 PM2. 5质量浓度变化的周期性,建立基于时间序列的 预测模型,研究其未来某一时段的质量浓度变化趋 势及范围. 当前对预测模型的研究,主要集中在用机器学 习算法解决复杂的非线性模型问题上,尤其是应用 人工神经网络模型对大气颗粒物的小时质量浓度进 行预测研究. 如 McKendry[11]运用神经网络模型预 测了加拿大菲莎河谷下游区域 PM10和 PM2. 5的小时 平均质量浓度; Kukkonen 等[12]运用多种神经网络 模型预测了芬兰赫尔辛基城区 PM10 的小时平均质 量浓度; 石灵芝等[13]利用 BP 神经网络模型预测了 湖南长沙火车站 PM10小时平均质量浓度; 这些研究 均取得了较好的效果. 神经网络非线性拟合能力较 强,学习规则简单,可映射任意复杂的非线性关系, 但其在解决网络结构的确定、过拟合和局部极小等 问题上仍存在较大困难. 支持向量机( support vector machine,SVM) 则在小样本、非线性、高维模式识别 等问题的解决上表现出许多特有优势,并可避免神 经网络中经常出现的过拟合及局部极小等问题,推 广误差较小,具有较好的泛化能力. 该方法基于统 计学习中结构风险最小化原则,由 Cortes 和 Vapnik[14]在 1995 年首先提出并迅速发展和完善,其基 本思想是将样本数据集映射到高维空间,通过在高 维空间构造线性分类函数来实现样本集合的划分, 并通过引入核函数来避免高维空间中的维数灾难, 极大地减少了计算量. 鉴于 PM2. 5来源的复杂性使 得基于机理的建模方法存在较大不确定性,本文提 出将支持向量机与时间序列相结合的方法. 利用模 糊粒化的方法对时间序列和 PM2. 5监测数据进行特 征提取,结合支持向量机建模方法,保证了算法的全 局最优性,以得出较为可靠和准确的质量浓度变化 趋势及范围,有效解决多因素回归模型预测结果不 稳定的问题,为 PM2. 5及其他大气污染物浓度预测提 供一种新方法. 1 ε--支持向量机非线性回归 支持向量机通常用核函数变换来解决非线性回 归问题,通过非线性变换 将 n 维矢量空间 Rn 的样 本( xi,yi ) 映射到高维特征空间,然后建立线性模型 来拟合回归函数. ε--支持向量机即采用 ε 不敏感损 失函数[15]进行样本训练,具有不敏感带的非线性回 归函数如图 1 所示,图中所示的变量 ξ 度量了训练 样本点上误差的代价,在 ε 不敏感带内的点误差为 0. 其优化问题可表示为 min ω,b,ξ 1 2 ‖ω‖2 + C ∑ l i = 1 ( ξi + ξ * i ) , ( 1) s. t. yi - ω·( xi ) - b≤ε + ξi, ω·( xi ) + b - yi≤ε + ξ * i , ξi≥0,ξ * i ≥0,C > 0,i = 1,2,…, { n. 式中,ω 为权值向量,C 为惩罚参数,b 为阈值,ξ 为 松弛变量. 若对应于变换 的核函数为 K( xi,xj) , 则式( 1 ) 所示的问题可构造出对偶最优化问 题[16],即 max α,α* { - 1 2 ∑ n i,j = 1 ( αi - α* i ) ( αj - α* i ) K( xi,xj ) - ε ∑ n i = 1 ( αi + α* i ) + ∑ n i = 1 yi ( α* i - αi ) } , ( 2) s. t. ∑ n i = 1 αi = ∑ n i = 1 α* i , αi,α* i ∈[0,C],i = 1,2,…, { n. 式中,αi 和 αj 分别为对应的拉格朗日乘子,α* i 为支 持向量. 核函数 K( xi,xj ) 的回归估计函数为 f( x) = ω·( x) + b = ∑ n i = 1 ( αi - α* i ) K( xi,xj ) + b. ( 3) 式中,阈值 b 的计算式为 · 5961 ·
·1696 北京科技大学学报 第36卷 a-)KG) 式中,a和d分别为模糊粒子的支撑上、下界;m为 窗口的核,通常取中位数作为粒子代表.隶属函数 多e6-a-a)k医)+} (4) 在不同的情况下有不同的确定方式及其合理性,但 所建立的隶属函数应满足建立模糊粒子的基本思 其中,Nsv为准支持向量机的个数,S,为准支持向量. 想:模糊粒子能够合理地代表原始数据:模糊粒 子要具有一定的独特性.为满足上述两个思想,P- dryce提出的模糊粒化模型o给出了一个可找出两 者最佳平衡的函数Q,即 M(A) QN(A (6) 式中,M(A)和N(A)分别表示可满足建立模糊粒子 的两种基本思想.为满足建立模糊粒子的基本思 想,只需Q越大越好 图1非线性回归函数的不敏感带 Fig.1 Insensitive band of a nonlinear regression function 2时间序列的模糊粒化 2.1模糊粒化三角模型的建立 模糊粒化问题是由Zadeh在模糊集合论概念的 基础上,于1979年首次提出m,其实质是基于模糊 逻辑和信息粒化的数学方法.时间序列的模糊粒化 就是将时间序列划分为模糊集的形式,主要包括离 图2三角模糊粒子隶属函数 散化和模糊化两个步骤,二者的结合称为粒化,其 Fig.2 Triangular membership function of fuzzy granulation 关键是使建立的模糊集能够充分代表原始样本集. 2.2时间序列的周期性分析 离散化就是通过“窗口”来将时间序列分割为若干 周期性是指某一现象出现后,经过一个固定的 小子列,设X={x1,x2,…,xn}为时间序列,窗宽为 时间长度,再反复重现该现象.实际上,严格的周期 k,则0:={x,x…,xa-k+}为分割所得的时间子序 是实验性的,现实中的周期性多为近似(伪)周期. 列,可令W(X,k)={w:Ii=1,2,…,n-k+1}为表 如式(5)所示的三角函数具有严格的周期,掌握其 示X所有窗宽为k的窗口的集合,且任一两个窗口 周期就可以进行预测和分析.周期理论并没有完整 均无重叠.模糊化是在给定的时间序列X上建立一 的具体方法,其研究方法主要靠定性、分析和数值计 个模糊粒子P,即确定一个以X为论域且能合理描 算等方式来完成.时间序列模型通常按各种可 述该集合的模糊集T,通过确定T来确定模糊粒子 能发生影响的因素进行分类,包括长期趋势、季节变 P.因此,模糊化的过程就是确定模糊集T的隶属函 动、循环变动及不规则运动四.长期趋势指时间序 数A,通过确定模糊粒子的基本形式,即可确定出具 列在长时间内朝着某一方向持续上升、下降或停留: 体的隶属函数A.模糊粒子的基本形式主要有三角 季节变动指时间序列随自然季节气候的变化而引发 形、梯形、高斯型和抛物型,三角型模糊粒子在表达 的周期性变动:循环变动指长时间、波浪式起伏的周 介于某数的左、右时具有独特的优势,且实际的研究 期变动:不规则运动则是指由偶然因素引起的无周 应用)也表明其对隶属函数的确定更具合理性,可 期变动. 反映取值的可能性分布,故此处采用其进行研究,其 PM25主要来源于人为活动,其质量浓度变化必 基本形式如图2所示,隶属函数如式(5)所示. 然也存在着一定的周期性.大量的研究表明,PM25 0, x≤a 质量浓度存在着明显的季节变动规律圆和循环变 x-a x∈[a,x]; m-a 动规律P4-,主要体现在PM2s的质量浓度的日变 A(x,a,m,b)= (5) d-x 化存在规律性的波峰波谷变化,且在不同季节的日 d-m xe [m,d]; 变化模式存在显著差异.根据北京市2013一2014 0, x≥d. 年实际的气象特征,并通过天文与气候相结合的通
北 京 科 技 大 学 学 报 第 36 卷 b = 1 N { NSV 0 ∑< αi [ < C yi - x ∑ j ∈SV ( αj - α* j ) K( xi,xj ) - ε ] + 0 < ∑α* i < C [yi - ( αj - α* j ) K( xi,xj ) + ε]} . ( 4) 其中,NNSV为准支持向量机的个数,SV为准支持向量. 图 1 非线性回归函数的不敏感带 Fig. 1 Insensitive band of a nonlinear regression function 2 时间序列的模糊粒化 2. 1 模糊粒化三角模型的建立 模糊粒化问题是由 Zadeh 在模糊集合论概念的 基础上,于 1979 年首次提出[17],其实质是基于模糊 逻辑和信息粒化的数学方法. 时间序列的模糊粒化 就是将时间序列划分为模糊集的形式,主要包括离 散化和模糊化两个步骤,二者的结合称为 f-粒化,其 关键是使建立的模糊集能够充分代表原始样本集. 离散化就是通过“窗口”来将时间序列分割为若干 小子列,设 X = { x1,x2,…,xn } 为时间序列,窗宽为 k,则 wi = { xi,xi,…,xn - k + 1 } 为分割所得的时间子序 列,可令 W( X,k) = { wi | i = 1,2,…,n - k + 1} 为表 示 X 所有窗宽为 k 的窗口的集合,且任一两个窗口 均无重叠. 模糊化是在给定的时间序列 X 上建立一 个模糊粒子 P,即确定一个以 X 为论域且能合理描 述该集合的模糊集 T,通过确定 T 来确定模糊粒子 P. 因此,模糊化的过程就是确定模糊集 T 的隶属函 数 A,通过确定模糊粒子的基本形式,即可确定出具 体的隶属函数 A. 模糊粒子的基本形式主要有三角 形、梯形、高斯型和抛物型,三角型模糊粒子在表达 介于某数的左、右时具有独特的优势,且实际的研究 应用[18]也表明其对隶属函数的确定更具合理性,可 反映取值的可能性分布,故此处采用其进行研究,其 基本形式如图 2 所示,隶属函数如式( 5) 所示. A( x,a,m,b) = 0, x≤a; x - a m - a , x∈[a,x]; d - x d - m, x∈[m,d]; 0, x≥ d. ( 5) 式中,a 和 d 分别为模糊粒子的支撑上、下界; m 为 窗口的核,通常取中位数作为粒子代表. 隶属函数 在不同的情况下有不同的确定方式及其合理性,但 所建立的隶属函数应满足建立模糊粒子的基本思 想[19]: 模糊粒子能够合理地代表原始数据; 模糊粒 子要具有一定的独特性. 为满足上述两个思想,Pedryce 提出的模糊粒化模型[20]给出了一个可找出两 者最佳平衡的函数 QA,即 QA = M( A) N( A) . ( 6) 式中,M( A) 和 N( A) 分别表示可满足建立模糊粒子 的两种基本思想. 为满足建立模糊粒子的基本思 想,只需 QA越大越好. 图 2 三角模糊粒子隶属函数 Fig. 2 Triangular membership function of fuzzy granulation 2. 2 时间序列的周期性分析 周期性是指某一现象出现后,经过一个固定的 时间长度,再反复重现该现象. 实际上,严格的周期 是实验性的,现实中的周期性多为近似( 伪) 周期. 如式( 5) 所示的三角函数具有严格的周期,掌握其 周期就可以进行预测和分析. 周期理论并没有完整 的具体方法,其研究方法主要靠定性、分析和数值计 算等方式来完成[21]. 时间序列模型通常按各种可 能发生影响的因素进行分类,包括长期趋势、季节变 动、循环变动及不规则运动[22]. 长期趋势指时间序 列在长时间内朝着某一方向持续上升、下降或停留; 季节变动指时间序列随自然季节气候的变化而引发 的周期性变动; 循环变动指长时间、波浪式起伏的周 期变动; 不规则运动则是指由偶然因素引起的无周 期变动. PM2. 5主要来源于人为活动,其质量浓度变化必 然也存在着一定的周期性. 大量的研究表明,PM2. 5 质量浓度存在着明显的季节变动规律[23]和循环变 动规律[24--25],主要体现在 PM2. 5 的质量浓度的日变 化存在规律性的波峰波谷变化,且在不同季节的日 变化模式存在显著差异. 根据北京市 2013—2014 年实际的气象特征,并通过天文与气候相结合的通 · 6961 ·
第12期 刘杰等:模糊时序与支持向量机建模相结合的PM2s质量浓度预测 ·1697· 用季节划分方式,将2013年3一5月、6一8月、9一 变动、循环变动和部分不规则运动共同决定的.事 11月和12一次年2月四个时间段依次划分为春季、 实上,对于PM2s质量浓度复杂的周期性变动,根据 夏季、秋季和冬季进行研究,并对城六区12个监测 实际的时间长度和样本数,可对时间序列和窗宽进 点四个季节的PM2s质量浓度逐时变化进行统计分 行不同的划分,越长的变化趋势预测通常需要越长 析,原始监测数据由北京市环境监测保护中心所建 时间序列的样本数据.此处结合实际的时间序列长 立的城市空气自动监测站点获取,统计结果如图3 度和样本数据,以2013年2月一2014年3月共12 所示.为全面了解各季节PM25质量浓度分布的离 个月的监测样本为数据基础,四个季节为时间序列, 散程度和变化规律,图3给出了PM25质量浓度变化 质量浓度日变化(1d)为时间子序列,24h变化为窗 范围的最小值和最大值(圆形点)、5%~95%质量 宽,以此建立基于模糊粒化的PM2s质量浓度时序预 浓度值(直线上下须间距)、25%~75%质量浓度值 测模型 (矩形上下间距)、平均值(矩形内方点)和中值(矩 3PM2,s质量浓度时序预测模型的建立 形内横线).由图中平均值可看出,四个季节PM25 质量浓度日变化整体呈现夜间(20:00一23:00)较 3.1监测数据获取及模糊粒化 高、清晨(4:00一7:00)较低的变化规律,这仅是一 以城六区海淀万柳监测点为例,选取该监测点 个近似(伪)周期现象;而四个季节PM25质量浓度 201303-11一2013-05-30(春季)、2013-06-01一 逐时变化幅度也存在显著差异,从5%~95%和 2013-08-30(夏季)、201309-01一2013-11-29(秋 25%~75%质量浓度分位值来看,秋季PM2s质量浓 季)和2013-12-01一201402-27(冬季)的1h质量 度1h均值具有最小的变化幅度,其他三个季节变 浓度均值作为研究对象,即分别应用四个季节的1h 化幅度较大,且PM2s质量浓度在各季节不同时间段 质量浓度均值,预测最后1d(2013-05-31、2013- 也表现出了不同的变化幅度;这些变化都是由季节 08-31、2013-11-30和201402-28)24h的质量浓 160 160 a 140 140 120 120 I00 60 0 40 20 时刻 时刻 180 220 (c) (d) 160 200 . 140 180 160 120 140 120 100 80 20 时刻 时刻 图32013年3月一2014年2月北京城六区PM2.s质量浓度逐时变化.()春季变化(3一5月):(b)夏季变化(6一8月):(c)秋季变化(9- 11月):(d)冬季变化(12一次年2月) Fig.3 Variation of PM2s I average concentration in the six urban areas of Beijing from March 2013 to February 2014:(a)variation in spring (March to May):(b)variation in summer (June to August);(c)variation in autumn (September to November);(d)variation in winter (Decem- ber to February of the next year)
第 12 期 刘 杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测 用季节划分方式,将 2013 年 3—5 月、6—8 月、9— 11 月和 12—次年 2 月四个时间段依次划分为春季、 夏季、秋季和冬季进行研究,并对城六区 12 个监测 点四个季节的 PM2. 5质量浓度逐时变化进行统计分 析,原始监测数据由北京市环境监测保护中心所建 立的城市空气自动监测站点获取,统计结果如图 3 所示. 为全面了解各季节 PM2. 5质量浓度分布的离 图 3 2013 年 3 月—2014 年 2 月北京城六区 PM2. 5质量浓度逐时变化. ( a) 春季变化( 3—5 月) ; ( b) 夏季变化( 6—8 月) ; ( c) 秋季变化( 9— 11 月) ; ( d) 冬季变化( 12—次年 2 月) Fig. 3 Variation of PM2. 5 1-h average concentration in the six urban areas of Beijing from March 2013 to February 2014: ( a) variation in spring ( March to May) ; ( b) variation in summer ( June to August) ; ( c) variation in autumn ( September to November) ; ( d) variation in winter ( December to February of the next year) 散程度和变化规律,图 3 给出了 PM2. 5质量浓度变化 范围的最小值和最大值( 圆形点) 、5% ~ 95% 质量 浓度值( 直线上下须间距) 、25% ~ 75% 质量浓度值 ( 矩形上下间距) 、平均值( 矩形内方点) 和中值( 矩 形内横线) . 由图中平均值可看出,四个季节 PM2. 5 质量浓度日变化整体呈现夜间( 20: 00—23: 00) 较 高、清晨( 4: 00—7: 00) 较低的变化规律,这仅是一 个近似( 伪) 周期现象; 而四个季节 PM2. 5 质量浓度 逐时变化幅度也存在显著差异,从 5% ~ 95% 和 25% ~ 75% 质量浓度分位值来看,秋季 PM2. 5质量浓 度 1 h 均值具有最小的变化幅度,其他三个季节变 化幅度较大,且 PM2. 5质量浓度在各季节不同时间段 也表现出了不同的变化幅度; 这些变化都是由季节 变动、循环变动和部分不规则运动共同决定的. 事 实上,对于 PM2. 5质量浓度复杂的周期性变动,根据 实际的时间长度和样本数,可对时间序列和窗宽进 行不同的划分,越长的变化趋势预测通常需要越长 时间序列的样本数据. 此处结合实际的时间序列长 度和样本数据,以 2013 年 2 月—2014 年 3 月共 12 个月的监测样本为数据基础,四个季节为时间序列, 质量浓度日变化( 1 d) 为时间子序列,24 h 变化为窗 宽,以此建立基于模糊粒化的 PM2. 5质量浓度时序预 测模型. 3 PM2. 5质量浓度时序预测模型的建立 3. 1 监测数据获取及模糊粒化 以城六区海淀万柳监测点为例,选取该监测点 2013--03--11—2013--05--30 ( 春季) 、2013--06--01— 2013--08--30( 夏季) 、2013--09--01—2013--11--29( 秋 季) 和 2013--12--01—2014--02--27( 冬季) 的 1 h 质量 浓度均值作为研究对象,即分别应用四个季节的 1 h 质量浓度均值,预测最后 1 d ( 2013--05--31、2013-- 08--31、2013--11--30 和 2014--02--28) 24 h 的质量浓 · 7961 ·
·1698 北京科技大学学报 第36卷 度变化趋势和范围,并验证预测结果的准确性.其 得出正确结果.采用交叉验证方法选取的参数比随 中,分别取得该监测点四个季节有效数据1761个 机选取参数所得到的模型的回归预测结果更有效, (春季)、2036个(夏季)、2068个(秋季)和2059个 此处采用k重交叉验证法,即将原始数据均分为k (冬季),相应的变化范围分别为y1∈(3,479)μg· 组,将每个子集数据分别做一次验证集,剩余的k- m-3、y2∈(3,560)μgm-3、y3∈(3,381)ugm-3和 1组子集数据作为训练机,用这k个模型最终的验 y4∈(3,589)μg"m-3. 证集的平均准确率作为此交叉验证的性能指标.大 采用式(5)所示的三角型函数对PM2s原始监 量的实验和研究表明s-,采用径向基函数(radial 测数据进行模糊粒化,通过MATLAB平台下的函数 basis function,RBF)为核函数具有较高的拟合和预 接口实现,分别筛选出用于训练和预测的自变量和 测精度,故选用其作为核函数进行研究,如式(7)所 因变量样本集.将原始数据划分为多个窗口,每个 示,其构造的支持向量机回归估计函数如式(8) 窗口生成一个模糊粒子,此处以24h作为一个窗 所示: 宽,窗口数即为原始数据长度除以24后取整.以春 K(x,x)=exp {-Gx;x2),(7) 季的数据样本为例,其原始质量浓度随时间的变化 f(x)= (a;-a;)exp (-Gx;+b. 和数据模糊粒化结果分别如图4和图5所示,其中 图5中的L、R和U为模糊粒子参数,分别表示 (8) PM2,质量浓度值变化的最小值、平均值和最大值. 式中,‖x:-x‖是二范数距离,G是径向基函数的 500 核函数参数.式(7)所示的径向基函数对应的特征 450 空间是无穷维的,使得有限的样本在该特征空间中 400 350 线性可分.对于惩罚参数C和核函数参数G的选 取,采取以下步骤实现:①设定C和G的初始变化 20 范围及步进大小,通过网格划分使其在一定范围内 搜索最佳参数:②选取能达到最高验证回归准确率 150 00 中最小的C及其对应的G作为最佳参数;③若出现 50 多组最小的C及对应的G,则选取搜索到的第一组 20040060080010001200140016001800 C和G作为最佳参数. 时间序列h 3.3基于LIBSVM的回归预测实现 图4质量浓度随时间变化 支持向量机算法的实现采用台湾大学林智仁 Fig.4 Variation of mass concentration with time (Lin Chih-Jen)教授开发的LIBSVM工具箱. 450 LIBSVM具有参数调节较少、便于改进及系统兼容 400 性强的优点,可在MATLAB上实现操作.利用 LIBSVM分别对模糊粒子参数L、R和U进行回归预 测,首先对数据样本进行归一化到0,1]区间的预 处理方式,再应用k重交叉验证的方法搜索并选择 15 使均方差误差δRE最小的最佳回归参数,此处将C 00 和G的初步搜索范围确定为2-“,2],搜索过程 如图6所示,在初步搜索后,根据搜索到的第一组C 和G,缩小搜索范围并进行精细的参数优选,通过再 20 30 40 50 粒化时间序列h 次搜索最终得出最优C和G参数值.利用最优参数 值对原始值进行回归预测,拟合结果如图7所示 图5数据模糊粒化结果 通过图7所示的模糊粒子拟合结果图可以看出L、R Fig.5 Fuzzy granulation of original data 和U的变化趋势及范围.从图中的拟合效果来看, 3.2£一支持向量机参数优化 三者的拟合结果基本与原始数据保持一致的变化趋 支持向量机的性能主要受核函数类型、核函数 势,表明该模型具有较好的预测能力.同理,用夏 参数及惩罚参数的影响网,目前对于核函数及相关 季、秋季和冬季的监测数据样本建立模糊粒化时序 参数的选择仍无统一的模式,需进行有效优化方可 模型,分别对下一个模糊粒子进行回归预测,可得出
北 京 科 技 大 学 学 报 第 36 卷 度变化趋势和范围,并验证预测结果的准确性. 其 中,分别取得该监测点四个季节有效数据 1761 个 ( 春季) 、2036 个( 夏季) 、2068 个( 秋季) 和 2059 个 ( 冬季) ,相应的变化范围分别为 y1∈( 3,479) μg· m - 3、y2∈( 3,560) μg·m - 3、y3∈( 3,381) μg·m - 3和 y4∈( 3,589) μg·m - 3 . 采用式( 5) 所示的三角型函数对 PM2. 5 原始监 测数据进行模糊粒化,通过 MATLAB 平台下的函数 接口实现,分别筛选出用于训练和预测的自变量和 因变量样本集. 将原始数据划分为多个窗口,每个 窗口生成一个模糊粒子,此处以 24 h 作为一个窗 宽,窗口数即为原始数据长度除以 24 后取整. 以春 季的数据样本为例,其原始质量浓度随时间的变化 和数据模糊粒化结果分别如图 4 和图 5 所示,其中 图 5 中 的 L、R 和 U 为模糊粒子参数,分 别 表 示 PM2. 5质量浓度值变化的最小值、平均值和最大值. 图 4 质量浓度随时间变化 Fig. 4 Variation of mass concentration with time 图 5 数据模糊粒化结果 Fig. 5 Fuzzy granulation of original data 3. 2 ε--支持向量机参数优化 支持向量机的性能主要受核函数类型、核函数 参数及惩罚参数的影响[26],目前对于核函数及相关 参数的选择仍无统一的模式,需进行有效优化方可 得出正确结果. 采用交叉验证方法选取的参数比随 机选取参数所得到的模型的回归预测结果更有效, 此处采用 k 重交叉验证法,即将原始数据均分为 k 组,将每个子集数据分别做一次验证集,剩余的 k - 1 组子集数据作为训练机,用这 k 个模型最终的验 证集的平均准确率作为此交叉验证的性能指标. 大 量的实验和研究表明[26--28],采用径向基函数( radial basis function,RBF) 为核函数具有较高的拟合和预 测精度,故选用其作为核函数进行研究,如式( 7) 所 示,其构造的支持向量机回归估计函数如式( 8) 所示: K( xi,xj ) = exp { - G ‖xi - xj‖2 } , ( 7) f( x) = ∑ n i = 1 ( αi - α* i ) exp { - G ‖xi - xj‖2 } + b. ( 8) 式中,‖xi - xj‖是二范数距离,G 是径向基函数的 核函数参数. 式( 7) 所示的径向基函数对应的特征 空间是无穷维的,使得有限的样本在该特征空间中 线性可分. 对于惩罚参数 C 和核函数参数 G 的选 取,采取以下步骤实现: ①设定 C 和 G 的初始变化 范围及步进大小,通过网格划分使其在一定范围内 搜索最佳参数; ②选取能达到最高验证回归准确率 中最小的 C 及其对应的 G 作为最佳参数; ③若出现 多组最小的 C 及对应的 G,则选取搜索到的第一组 C 和 G 作为最佳参数. 3. 3 基于 LIBSVM 的回归预测实现 支持向量机算法的实现采用台湾大学林智仁 ( Lin Chih-Jen ) 教 授 开 发 的 LIBSVM 工 具 箱. LIBSVM 具有参数调节较少、便于改进及系统兼容 性强 的 优 点,可 在 MATLAB 上 实 现 操 作. 利 用 LIBSVM 分别对模糊粒子参数 L、R 和 U 进行回归预 测,首先对数据样本进行归一化到[0,1]区间的预 处理方式,再应用 k 重交叉验证的方法搜索并选择 使均方差误差 δMRE最小的最佳回归参数,此处将 C 和 G 的初步搜索范围确定为[2 - 10,210],搜索过程 如图 6 所示,在初步搜索后,根据搜索到的第一组 C 和 G,缩小搜索范围并进行精细的参数优选,通过再 次搜索最终得出最优 C 和 G 参数值. 利用最优参数 值对原始值进行回归预测,拟合结果如图 7 所示. 通过图 7 所示的模糊粒子拟合结果图可以看出 L、R 和 U 的变化趋势及范围. 从图中的拟合效果来看, 三者的拟合结果基本与原始数据保持一致的变化趋 势,表明该模型具有较好的预测能力. 同理,用夏 季、秋季和冬季的监测数据样本建立模糊粒化时序 模型,分别对下一个模糊粒子进行回归预测,可得出 · 8961 ·
第12期 刘杰等:模糊时序与支持向量机建模相结合的PM2:质量浓度预测 ·1699· (a) b (c) 1.0r 1.0 1.0 0.8 0.8 0.8 0.4 0 0.2 02 0 5 0 0 0 log.G 0 -5 -10-10 -10-10 -5 log,C log.C -10-10 图6最住参数搜素结果图.(a)L:(b)R:(c)U Fig.6 Grid search results of optimum parameters:(a)L:(b)R:(c)U 180 450 一原始值 350 一R原始值 一原始值 拟合值 300 -R拟合值 400 ·拟合值 250 350 200 150 200 6 150 40 100 100 50 20304050 60 10 20304050 60 70 1020304050 60 70 粒化时间序列 粒化时问序列小 粒化时间序列 图7模糊粒子参数拟合结果.(a)L:(b)R:(c)U Fig.7 Fitting results of fuzzy granulation parameters:(a)L:(b)R:(c)U 各模型预测结果L、R和U变化趋势及范围. 因素,如核函数对拟合精度的影响以及核函数参数 据此,四个季节时序模型的最佳参数及结果对 和惩罚参数对核函数的影响:此外,PM25质量浓度 比如表1所示,预测值区间及实际值变化则如图8 近似(伪)周期变化也对预测结果有着一定影响.从 所示.可以看出,在进行模型参数的优化后,模型的 绝对误差范围来看,春季模型的拟合效果最佳,其余 泛化性能较好,预测结果较为准确.引起各季节预 三个季节模型的部分预测结果与实际变化范围稍有 测值误差的原因主要包括模型本身精度存在不确定 差距,较大误差主要集中在R预测值,四个季节R 表1时序模型最佳参数及结果对比 Table 1 Optimum parameters and their prediction results of the time series model 时序 模糊粒 惩罚 核函数 均方差 平方相关 显著性水平预测变化范围/ 实际变化范围/绝对误差范围/ 模型 子参数参数,C 参数,G 误差,6MRE 系数,2 Ro.os Ro.o1 (g*m3) (ugm3) (ug*m3) 0.5 0.045 0.944 50.59 57 6.41 春季模型 R 1 0.043 0.833 0.232 0.302 98.80 113.5 14.7 0.25 0.031 0.888 141.86 147 5.14 0.25 0.5 0.037 0.903 11.58 9 2.58 夏季模型 R 0.25 0.5 0.034 0.692 0.2170.283 32.69 22.54 10.15 U 0.25 0.036 0.021 0.838 51.37 功 14.37 L 0.25 0.016 0.024 0.302 19.41 11 8.41 秋季模型 R 0.055 0.467 0.2170.283 93.05 46.2 46.85 U 0.25 0.25 0.044 0.749 149.23 170 20.77 0.25 0.009 0.877 46.8 ) 0.20 冬季模型 R 0.35 1 0.075 0.401 0.217 0.283 85.25 106.9 21.65 0.25 0.022 0.713 220.02 177 43.02 注:显著性水平按模糊粒子数n对应的自由度(n-2)查表取得:*数据为根据实际监测值所计算得出的24h平均值
第 12 期 刘 杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测 图 6 最佳参数搜索结果图. ( a) L; ( b) R; ( c) U Fig. 6 Grid search results of optimum parameters: ( a) L; ( b) R; ( c) U 图 7 模糊粒子参数拟合结果. ( a) L; ( b) R; ( c) U Fig. 7 Fitting results of fuzzy granulation parameters: ( a) L; ( b) R; ( c) U 各模型预测结果L、R 和 U变化趋势及范围. 据此,四个季节时序模型的最佳参数及结果对 比如表 1 所示,预测值区间及实际值变化则如图 8 所示. 可以看出,在进行模型参数的优化后,模型的 泛化性能较好,预测结果较为准确. 引起各季节预 测值误差的原因主要包括模型本身精度存在不确定 因素,如核函数对拟合精度的影响以及核函数参数 和惩罚参数对核函数的影响; 此外,PM2. 5 质量浓度 近似( 伪) 周期变化也对预测结果有着一定影响. 从 绝对误差范围来看,春季模型的拟合效果最佳,其余 三个季节模型的部分预测结果与实际变化范围稍有 差 距,较大误差主要集中在R预测值,四个季节R 表 1 时序模型最佳参数及结果对比 Table 1 Optimum parameters and their prediction results of the time series model 时序 模型 模糊粒 子参数 惩罚 参数,C 核函数 参数,G 均方差 误差,δMRE 平方相关 系数,r 2 显著性水平 R0. 05 R0. 01 预测变化范围/ ( μg·m - 3 ) 实际变化范围/ ( μg·m - 3 ) 绝对误差范围/ ( μg·m - 3 ) 春季模型 L 0. 5 1 0. 045 0. 944 R 1 1 0. 043 0. 833 U 0. 25 1 0. 031 0. 888 0. 232 0. 302 50. 59 57 6. 41 98. 80 113. 5* 14. 7 141. 86 147 5. 14 夏季模型 L 0. 25 0. 5 0. 037 0. 903 R 0. 25 0. 5 0. 034 0. 692 U 0. 25 0. 036 0. 021 0. 838 0. 217 0. 283 11. 58 9 2. 58 32. 69 22. 54* 10. 15 51. 37 37 14. 37 秋季模型 L 0. 25 0. 016 0. 024 0. 302 R 1 1 0. 055 0. 467 U 0. 25 0. 25 0. 044 0. 749 0. 217 0. 283 19. 41 11 8. 41 93. 05 46. 2* 46. 85 149. 23 170 20. 77 冬季模型 L 0. 25 1 0. 009 0. 877 R 0. 35 1 0. 075 0. 401 U 0. 25 1 0. 022 0. 713 0. 217 0. 283 46. 8 47 0. 20 85. 25 106. 9* 21. 65 220. 02 177 43. 02 注: 显著性水平按模糊粒子数 n 对应的自由度( n - 2) 查表取得; * 数据为根据实际监测值所计算得出的 24 h 平均值. · 9961 ·
·1700 北京科技大学学报 第36卷 160 60 b 150 (a) 140 130 一·一实际监测值-一一预测值 +一实际平均值·…R预测值 120 40 L须测值 110 100 040n444g4g+里年■te里年gg里00044p市+ 30 90 0 一·一实际监测值一一一U预测值 20 一实际平均值·…测值 一预测值 60 50 40 时刻 时刻 200 180 r 240d 220 160 200 140 一实际监测值一一一预测值 一实际监测值 ·-一预测值 180 120 ,实际平均值 ··R预测值 实际平均值…预测值 160 顶测值 100 顶测值 140 120 60 100 40 80 20--- 60 0 40 时刻 时刻 图8PM2s质量浓度预测区间及实际值变化.(a)春季模型(201305-31):(b)夏季模型(201308-31):()秋季模型(2013-11-30):(d) 冬季模型(201402-28) Fig.8 Prediction interval and actual change of PM2 s mass concentration:(a)model in spring (2013-05-31):(b)model in summer (2013-08- 31):(c)model in autumn (2013-11-30);(d)model in winter (2014-02-28) 预测值与实际平均值的绝对误差分别为14.7、分别为ya∈(11,170)μgm3和a∈(19,149)μg· 10.15、46.85和21.65ugm3,其中秋季模型R预 m3,如图8(c)所示,实际值显示当日在空气质量 测值与实际平均值的绝对误差最大,预测结果并不 重度污染和优良之间变化,而预测值则显示当日在 理想,其余三个季节的绝对误差均在可接受的污染 空气质量中度污染和优良之间变化:2014-02-28 级别范围内变化。由于此处并不直接根据平均值来 PM2.5质量浓度的实际变化范围和预测变化范围分 进行PM25污染级别日报,而是根据最大值和最小值 别为y4∈(47,177)μgm3和y4∈(47,220)g 来表征PM2s污染级别范围,因此R预测值对了解 m3,如图8(d)所示,实际值与预测值均显示当日 未来24hPM,污染趋势并无直接影响.从国标规 空气质量在良和重度污染之间变化.可见,模型的 定的城市PM25浓度限值及其所对应的空气质量分 预测变化范围均与实际变化范围所处的PM,,污染 指数及污染级别划分来看,2013-05-31PM25质 级别基本一致,建模效果良好,具有较好的代表性, 量浓度的实际变化范围和预测变化范围分别为y ∈(57,147)ugm-3和分a1∈(51,142)μgm-3,如图 4 结论 8(a)所示,实际值与预测值均显示当日在空气质量 (1)鉴于PM25来源及影响因素的复杂性,用时 良和PM2s中度污染之间变化:而2013-08-31PM25 间序列模型对PM,质量浓度进行预测,无需考虑完 质量浓度的实际变化范围和预测变化范围分别为 整的污染来源及影响因素即可得出稳定的预测结 ya∈(9,37)μgm3和2∈(12,51)μgm3,如图 果,方法简单可行,可描述PM2s的未来变化趋势和 8(b)所示,实际值与预测值均显示当日空气质量为 范围.支持向量机和模糊粒化相结合所建立的时间 优良,PM2s质量浓度可接受,基本无污染:2013-11一 序列模型,预测精度和泛化性能较高,在k重交叉验 30PM25质量浓度的实际变化范围和预测变化范围 证法下的网格划分所选取出来的最优参数,用它们
北 京 科 技 大 学 学 报 第 36 卷 图 8 PM2. 5质量浓度预测区间及实际值变化 . ( a) 春季模型( 2013--05--31) ; ( b) 夏季模型( 2013--08--31) ; ( c) 秋季模型( 2013--11--30) ; ( d) 冬季模型( 2014--02--28) Fig. 8 Prediction interval and actual change of PM2. 5 mass concentration: ( a) model in spring ( 2013--05--31) ; ( b) model in summer ( 2013--08-- 31) ; ( c) model in autumn ( 2013--11--30) ; ( d) model in winter ( 2014--02--28) 预测值与实际平均值的绝对误差分别为 14. 7、 10. 15、46. 85 和 21. 65 μg·m - 3,其中秋季模型 R 预 测值与实际平均值的绝对误差最大,预测结果并不 理想,其余三个季节的绝对误差均在可接受的污染 级别范围内变化. 由于此处并不直接根据平均值来 进行 PM2. 5污染级别日报,而是根据最大值和最小值 来表征 PM2. 5 污染级别范围,因此 R 预测值对了解 未来 24 h PM2. 5污染趋势并无直接影响. 从国标规 定的城市 PM2. 5浓度限值及其所对应的空气质量分 指数及污染级别划分[29]来看,2013--05--31 PM2. 5质 量浓度的实际变化范围和预测变化范围分别为 ys1 ∈( 57,147) μg·m - 3和 y^ s1∈( 51,142) μg·m - 3,如图 8( a) 所示,实际值与预测值均显示当日在空气质量 良和 PM2. 5中度污染之间变化; 而 2013--08--31 PM2. 5 质量浓度的实际变化范围和预测变化范围分别为 ys2∈( 9,37) μg·m - 3和 y^ s2∈( 12,51) μg·m - 3,如图 8( b) 所示,实际值与预测值均显示当日空气质量为 优良,PM2. 5质量浓度可接受,基本无污染; 2013--11-- 30 PM2. 5质量浓度的实际变化范围和预测变化范围 分别为 ys3∈( 11,170) μg·m - 3和 y^ s3∈( 19,149) μg· m - 3,如图 8( c) 所示,实际值显示当日在空气质量 重度污染和优良之间变化,而预测值则显示当日在 空气质量中度污染和优良之间变化; 2014--02--28 PM2. 5质量浓度的实际变化范围和预测变化范围分 别为 ys4∈( 47,177) μg·m - 3和 y^ s4∈( 47,220) μg· m - 3,如图 8( d) 所示,实际值与预测值均显示当日 空气质量在良和重度污染之间变化. 可见,模型的 预测变化范围均与实际变化范围所处的 PM2. 5污染 级别基本一致,建模效果良好,具有较好的代表性. 4 结论 ( 1) 鉴于 PM2. 5来源及影响因素的复杂性,用时 间序列模型对 PM2. 5质量浓度进行预测,无需考虑完 整的污染来源及影响因素即可得出稳定的预测结 果,方法简单可行,可描述 PM2. 5的未来变化趋势和 范围. 支持向量机和模糊粒化相结合所建立的时间 序列模型,预测精度和泛化性能较高,在 k 重交叉验 证法下的网格划分所选取出来的最优参数,用它们 · 0071 ·
第12期 刘杰等:模糊时序与支持向量机建模相结合的PM2:质量浓度预测 ·1701· 训练得出的2013年3月一2014年2月四个季节 sources identification of PM2.s in Beijing.J Appl Meteorol Sci, PM2s质量浓度时序预测模型,均取得了较为有效的 2007,18(5):645 (徐敬,丁国安,颜鹏,等.北京地区PM2的成分特征及来源 预测结果,具有一定的参考意义 分析.应用气象学报,2007,18(5):645) (2)拟合结果表明,以季节变化和日变化划分 [8]Zhang R,Jing J.Tao J,et al.Chemical characterization and 的时间序列及子序列较为合理,根据三角形模糊粒 source apportionment of PM2.s in Beijing:seasonal perspective. 子隶属函数所划分出的L、R和U模糊粒子,拟合效 Atmos Chem Phys,2013,13(14):7053 果较好,由它们描述出的PM2s浓度变化趋势及范 ] Pu WW,Zhao X J,Zhang X L.Effect of meteorological Factors 围,与实际情况基本相符,准确性较高.运用支持向 on PM2 s in late summer and early autumn of Beijing./Appl Mete- rol Sci,2011,22(6):716 量机方法建立的时间序列预测模型,在具有足够时 (蒲维维,赵秀娟,张小玲.北京地区夏末秋初气象要素对 间长度和样本数据的情况下,还可拓展其时间子序 P2.5污染的影响.应用气象学报,2011,22(6):716) 列的窗宽,用于预测PM25的中长期变化趋势和 [10]Tian G.Fan S B,Huang Y H,et al.Relationship between wind 范围. velocity and PMo concentration&emission flux of fugitive dust (3)支持向量机核函数类型、核函数参数、惩罚 source.Enriron Sci,2008,29(10):2983 (田刚,樊守彬,黄玉虎,等.风速对人为扬尘源PM0排放 参数以及模糊粒子隶属函数的确定和优选,对预测 浓度和强度的影响.环境科学,2008,29(10):2983) 模型的整体工作效率和预测结果有较大影响,当前 [11]MeKendry I.Evaluation of artificial neural networks for fine par- 对于函数类型及参数的选取缺乏统一、完善的理论 ticulate pollution (PMo and PM2s)forecasting.J Air Waste 依据,仍具有一定经验性,这需要从更复杂的信息中 Manage Assoc,2002,52(9)1096 进一步挖掘、研究和改进,使预测控制更具鲁棒性. [12]Kukkonen J,Partanen L,Karppinen A,et al.Extensive evalua- 而对于基于机理性的PM25质量浓度的精确建模,则 tion of neural network models for the prediction of NO,and PMjo concentrations,compared with a deterministic modelling system 需完整考虑PM25的准确来源及影响因素,通过更复 and measurements in central Helsinki.Atmos Environ,2003,37 杂的模型来进一步进行研究. (32):4539 [13]Shi L Z,Deng Q H,Lu C,et al.Prediction of PMjo mass con- centrations based on BP artificial neural network.Cent South 参考文献 Univ Sci Technol,2012,43 (5):1969 [Van Aaron D,Randall V M,Michael B,et al.Global estimates of (石灵芝,邓启红,路婵,等.基于BP人工神经网络的大气 ambient fine particulate matter concentrations from satellite-based 颗粒物PM。质量浓度预测.中南大学学报:自然科学版, aerosol optical depth:development and application.Enriron 2012,43(5):1969) Healh Perspect,2010,118(6):847 [14]Cortes C,Vapnik V.Support-vector networks.Mach Learn, Zhao X J,Pu WW,Meng W,et al.PM2s pollution and aerosol 1995,20(3):273 optical properties in fog and haze days during autumn and winter in [15]Keerthi S S,Lin C J.Asymptotic behavior of support vector ma- Beijing area.Enriron Sci,2013,34 (2):416 chines with Gaussian kemel.Neural Comput,2003,15(7): (赵秀娟,蒲维维,孟伟,等.北京地区秋季雾霾天PM25污染 1667 与气溶胶光学特征分析.环境科学,2013,34(2):416) [16]Wang Q,Tian X M.Soft sensing based on fuzzy information B]Lu S L,Yao Z K,Chen X H,et al.The relationship between granulation.Trans Beijing Inst Technol,2012,32(9):955 physicochemical characterization and the potential toxicity of fine (王强,田学民。基于模糊信息粒化软测量建模方法研究 particulates (PM2s)in Shanghai atmosphere.Atmos Enriron, 北京理工大学学报,2012,32(9):955) 2008,42(31):7205 [17]Zadeh L A.Fuzzy Sets and Information Granularity.Amsterdam: [4]Deng F R,Guo X B.Liu H,et al.Effects of dust storm PM2s on North Holland Publishing,1979:3 cell proliferation and cell cycle in human lung fibroblasts.Toxicol [18]Cao W G,Zhang W J.Study on determining method for parame- in Vitro,2007,21(4):632 ters of rock's shear strength based on asymmetric triangular fuzzy 5]Hussein T,Karppinen A,Kukkonen J,et al.Meteorological de- numbers.Chin J Rock Mech Eng,2007,26(7):1340 pendence of size-fractionated number concentrations of urban aero- (曹文贵,张文杰.。基于非对称三角模糊数的岩石抗剪强度 sol particles.Atmos Environ,2006,40(8):1427 参数确定方法研究.岩石力学与工程学报,2007,26(7): [6]Wang Z J,Han L H,Chen X F,et al.Application advance re- 1340) view on the timeof-flight secondary ion mass spectrometry in the [19]Bargiela A,Pedrycz W.Granular Computing:an introduction. field of atmospheric aerosol.J Saf Enriron,2012,12(5):122 Dodrecht:Kluwer Academic Publishers,2003 (王志娟,韩力慧,陈旭锋,等.北京典型污染过程PM25的特 0]Pedryez W,Smith M H,Bargiela A.A granular signature of data 征和来源.安全与环境学报,2012,12(5):122) /Proceedings of International Conference of North American Xu J,Ding G A,Yan P,et al.Componential characteristics and Fuzzy Information Processing Society.Atlanta,2000:69
第 12 期 刘 杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测 训练得出的 2013 年 3 月—2014 年 2 月四个季节 PM2. 5质量浓度时序预测模型,均取得了较为有效的 预测结果,具有一定的参考意义. ( 2) 拟合结果表明,以季节变化和日变化划分 的时间序列及子序列较为合理,根据三角形模糊粒 子隶属函数所划分出的 L、R 和 U 模糊粒子,拟合效 果较好,由它们描述出的 PM2. 5 浓度变化趋势及范 围,与实际情况基本相符,准确性较高. 运用支持向 量机方法建立的时间序列预测模型,在具有足够时 间长度和样本数据的情况下,还可拓展其时间子序 列的窗 宽,用 于 预 测 PM2. 5 的中长期变化趋势和 范围. ( 3) 支持向量机核函数类型、核函数参数、惩罚 参数以及模糊粒子隶属函数的确定和优选,对预测 模型的整体工作效率和预测结果有较大影响,当前 对于函数类型及参数的选取缺乏统一、完善的理论 依据,仍具有一定经验性,这需要从更复杂的信息中 进一步挖掘、研究和改进,使预测控制更具鲁棒性. 而对于基于机理性的 PM2. 5质量浓度的精确建模,则 需完整考虑 PM2. 5的准确来源及影响因素,通过更复 杂的模型来进一步进行研究. 参 考 文 献 [1] Van Aaron D,Randall V M,Michael B,et al. Global estimates of ambient fine particulate matter concentrations from satellite-based aerosol optical depth: development and application. Environ Health Perspect,2010,118( 6) : 847 [2] Zhao X J,Pu W W,Meng W,et al. PM2. 5 pollution and aerosol optical properties in fog and haze days during autumn and winter in Beijing area. Environ Sci,2013,34( 2) : 416 ( 赵秀娟,蒲维维,孟伟,等. 北京地区秋季雾霾天 PM2. 5污染 与气溶胶光学特征分析. 环境科学,2013,34( 2) : 416) [3] Lu S L,Yao Z K,Chen X H,et al. The relationship between physicochemical characterization and the potential toxicity of fine particulates ( PM2. 5 ) in Shanghai atmosphere. Atmos Environ, 2008,42( 31) : 7205 [4] Deng F R,Guo X B,Liu H,et al. Effects of dust storm PM2. 5 on cell proliferation and cell cycle in human lung fibroblasts. Toxicol in Vitro,2007,21( 4) : 632 [5] Hussein T,Karppinen A,Kukkonen J,et al. Meteorological dependence of size-fractionated number concentrations of urban aerosol particles. Atmos Environ,2006,40( 8) : 1427 [6] Wang Z J,Han L H,Chen X F,et al. Application advance review on the time-of-flight secondary ion mass spectrometry in the field of atmospheric aerosol. J Saf Environ,2012,12( 5) : 122 ( 王志娟,韩力慧,陈旭锋,等. 北京典型污染过程 PM2. 5的特 征和来源. 安全与环境学报,2012,12( 5) : 122) [7] Xu J,Ding G A,Yan P,et al. Componential characteristics and sources identification of PM2. 5 in Beijing. J Appl Meteorol Sci, 2007,18( 5) : 645 ( 徐敬,丁国安,颜鹏,等. 北京地区 PM2. 5的成分特征及来源 分析. 应用气象学报,2007,18( 5) : 645) [8] Zhang R,Jing J,Tao J,et al. Chemical characterization and source apportionment of PM2. 5 in Beijing: seasonal perspective. Atmos Chem Phys,2013,13( 14) : 7053 [9] Pu W W,Zhao X J,Zhang X L. Effect of meteorological Factors on PM2. 5 in late summer and early autumn of Beijing. J Appl Meteorol Sci,2011,22( 6) : 716 ( 蒲维维,赵秀娟,张小玲. 北京地区夏末秋初气象要素对 PM2. 5污染的影响. 应用气象学报,2011,22( 6) : 716) [10] Tian G,Fan S B,Huang Y H,et al. Relationship between wind velocity and PM10 concentration & emission flux of fugitive dust source. Environ Sci,2008,29( 10) : 2983 ( 田刚,樊守彬,黄玉虎,等. 风速对人为扬尘源 PM10 排放 浓度和强度的影响. 环境科学,2008,29( 10) : 2983) [11] McKendry I. Evaluation of artificial neural networks for fine particulate pollution ( PM10 and PM2. 5 ) forecasting. J Air Waste Manage Assoc,2002,52( 9) : 1096 [12] Kukkonen J,Partanen L,Karppinen A,et al. Extensive evaluation of neural network models for the prediction of NO2 and PM10 concentrations,compared with a deterministic modelling system and measurements in central Helsinki. Atmos Environ,2003,37 ( 32) : 4539 [13] Shi L Z,Deng Q H,Lu C,et al. Prediction of PM10 mass concentrations based on BP artificial neural network. J Cent South Univ Sci Technol,2012,43( 5) : 1969 ( 石灵芝,邓启红,路婵,等. 基于 BP 人工神经网络的大气 颗粒物 PM10 质量 浓 度 预 测. 中 南 大 学 学 报: 自 然 科 学 版, 2012,43( 5) : 1969) [14] Cortes C,Vapnik V. Support-vector networks. Mach Learn, 1995,20( 3) : 273 [15] Keerthi S S,Lin C J. Asymptotic behavior of support vector machines with Gaussian kernel. Neural Comput,2003,15 ( 7 ) : 1667 [16] Wang Q,Tian X M. Soft sensing based on fuzzy information granulation. Trans Beijing Inst Technol,2012,32( 9) : 955 ( 王强,田学民. 基于模糊信息粒化软测量建模方法研究. 北京理工大学学报,2012,32( 9) : 955) [17] Zadeh L A. Fuzzy Sets and Information Granularity. Amsterdam: North Holland Publishing,1979: 3 [18] Cao W G,Zhang W J. Study on determining method for parameters of rock's shear strength based on asymmetric triangular fuzzy numbers. Chin J Rock Mech Eng,2007,26( 7) : 1340 ( 曹文贵,张文杰. 基于非对称三角模糊数的岩石抗剪强度 参数确定方法研究. 岩石力学与工程学报,2007,26 ( 7) : 1340) [19] Bargiela A,Pedrycz W. Granular Computing: an introduction. Dodrecht: Kluwer Academic Publishers,2003 [20] Pedrycz W,Smith M H,Bargiela A. A granular signature of data / / Proceedings of International Conference of North American Fuzzy Information Processing Society. Atlanta,2000: 69 · 1071 ·
·1702 北京科技大学学报 第36卷 21]Brockwell P J,Davis R A.Introduction to Time Series and Fore- 6]Liu C B,Wang QF,Pan F.Parameters selection and stimulation casting.New York:Springer-Verlag Ine.2002 of support vector machines based on ant colony optimization algo- 22]Box G E P,Jenkins G M.Reinsel G C.Time Series Analysis: rithm.J Cent South Unis Sci Technol,2008,39(6)1309 Forecasting and Control.New Jersey:Prentice-Hall Ine.,1994 (刘春波,王群芳,潘丰。基于蚁群优化算法的支持向量机 23]Li X F,Chu J H,Yu L D,et al.Variational characteristics of 参数选择及仿真.中南大学学报:自然科学版,2008,39 PM2.s concentration in a monitoring site in Beijing urban area.J (6:1309) Beijing Norm Univ Nat Sci,2011,47(3):258 7]Rakotomamonjy A,Le RR,Gualandris D,et al.A comparison (李旭芳,初钧晗,于令达,等.北京市城区单监测点PM25 of statistical learning approaches for engine torque estimation 质量浓度变化特征.北京师范大学学报:自然科学版,2011, Control Eng Pract,2008,16(1)43 47(3):258) [28]Chen R,Sun D Y,Qin D T,et al.A novel engine identification 4]Liu Y J.Zhang MG,Zhang R J,et al.Concentration variance model based on support vector machine and analysis of precision- of suspended particles PM2 s and black carbon in 2009s spring of influencing factors.J Cent South Univ Sci Technol,2010,41 Beijing.China Pouder Sci Technol,2010,16(1):18 (4):1391 (刘艳菊,张美根,张仁健,等.2009年北京市春季大气颗 (陈然,孙冬野,秦大同,等.发动机支持向量机建模及精度 粒物PM25和黑碳浓度变化特征.中国粉体技术,2010,16 影响因素.中南大学学报:自然科学版,2010,41(4): (1):18) 1391) 5]Yu J H,Yu T,Wei Q.Characteristics of mass concentration var- 29]Ministry of Environmental Protection of China.The 12th Fire- iations of PMo and PM2s in Beijing area.Res Environ Sci, Year Environmental Monitoring Work Manual.Beijing:China 2004,17(1):45 Environmental Science Press,2012:292 (于建华,虞统,魏强.北京地区PMo和PM2质量浓度的变 (环境保护部环境监测司.“十二五”环境监测工作手册.北 化特征.环境科学研究,2004,17(1):45) 京:中国环境科学出版社,2012:292)
北 京 科 技 大 学 学 报 第 36 卷 [21] Brockwell P J,Davis R A. Introduction to Time Series and Forecasting. New York: Springer-Verlag Inc. ,2002 [22] Box G E P,Jenkins G M,Reinsel G C. Time Series Analysis: Forecasting and Control. New Jersey: Prentice-Hall Inc. ,1994 [23] Li X F,Chu J H,Yu L D,et al. Variational characteristics of PM2. 5 concentration in a monitoring site in Beijing urban area. J Beijing Norm Univ Nat Sci,2011,47( 3) : 258 ( 李旭芳,初钧晗,于令达,等. 北京市城区单监测点 PM2. 5 质量浓度变化特征. 北京师范大学学报: 自然科学版,2011, 47( 3) : 258) [24] Liu Y J,Zhang M G,Zhang R J,et al. Concentration variance of suspended particles PM2. 5 and black carbon in 2009's spring of Beijing. China Powder Sci Technol,2010,16( 1) : 18 ( 刘艳菊,张美根,张仁健,等. 2009 年北京市春季大气颗 粒物 PM2. 5和黑碳浓度变化特征. 中国粉体技术,2010,16 ( 1) : 18) [25] Yu J H,Yu T,Wei Q. Characteristics of mass concentration variations of PM10 and PM2. 5 in Beijing area. Res Environ Sci, 2004,17( 1) : 45 ( 于建华,虞统,魏强. 北京地区 PM10和 PM2. 5质量浓度的变 化特征. 环境科学研究,2004,17( 1) : 45) [26] Liu C B,Wang Q F,Pan F. Parameters selection and stimulation of support vector machines based on ant colony optimization algorithm. J Cent South Univ Sci Technol,2008,39( 6) : 1309 ( 刘春波,王群芳,潘丰. 基于蚁群优化算法的支持向量机 参数选择及仿 真. 中 南大 学 学 报: 自 然 科 学 版,2008,39 ( 6) : 1309) [27] Rakotomamonjy A,Le R R,Gualandris D,et al. A comparison of statistical learning approaches for engine torque estimation. Control Eng Pract,2008,16( 1) : 43 [28] Chen R,Sun D Y,Qin D T,et al. A novel engine identification model based on support vector machine and analysis of precisioninfluencing factors. J Cent South Univ Sci Technol,2010,41 ( 4) : 1391 ( 陈然,孙冬野,秦大同,等. 发动机支持向量机建模及精度 影响 因 素. 中 南 大 学 学 报: 自 然 科 学 版,2010,41 ( 4 ) : 1391) [29] Ministry of Environmental Protection of China. The 12th FiveYear Environmental Monitoring Work Manual. Beijing: China Environmental Science Press,2012: 292 ( 环境保护部环境监测司. “十二五”环境监测工作手册. 北 京: 中国环境科学出版社,2012: 292) · 2071 ·