模糊时序与支持向量机建模相结合的PM2.5质量浓度预测

为解决进行PM2.5质量浓度预测中多因素回归模型的不稳定、神经网络模型的过拟合及局部最小等问题，提出应用支持向量机和模糊粒化时间序列相结合的方法，对PM2.5质量浓度未来变化趋势和范围进行预测.根据PM2.5不同季节的日变化周期模式，确定以24 h为周期的粒化窗宽，利用三角型隶属函数对数据样本进行特征提取作为支持向量机的输入，并在k重交叉验证法下采用网格划分寻找出模型的最佳参数.以2013年3月—2014年2月北京市海淀区万柳监测点四个季节PM2.5的1 h质量浓度监测值为样本数据，应用该方法建立PM2.5质量浓度的时间序列预测模型，并在MATLAB平台下应用LIBSVM工具实现计算过程.结果表明，基于模糊粒化时间序列的预测模型，能较好解决PM2.5机理性建模方式下由于影响因素考虑不全而造成的预测结果不稳定，对模糊粒子拟合效果较好.

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：648.63KB

第36卷第12期北京科技大学学报 Vol.36 No.12 2014年12月 Journal of University of Science and Technology Beijing Dec.2014 模糊时序与支持向量机建模相结合的PM,5质量浓度预测刘杰”，杨鹏四，吕文生”，刘阿古达木”，刘俊秀) 1)北京科技大学土木与环境工程学院，北京1000832)北京联合大学北京市信息服务工程重点实验室，北京100101 ☒通信作者，E-mail:yangpenge@buu.edu.cn 摘要为解决进行PM2,质量浓度预测中多因素回归模型的不稳定、神经网络模型的过拟合及局部最小等问题，提出应用支持向量机和模糊粒化时间序列相结合的方法，对PM2:质量浓度未来变化趋势和范围进行预测.根据PM25不同季节的日变化周期模式，确定以24为周期的粒化窗宽，利用三角型隶属函数对数据样本进行特征提取作为支持向量机的输入，并在k重交叉验证法下采用网格划分寻找出模型的最佳参数.以2013年3月一2014年2月北京市海淀区万柳监测点四个季节PM25 的Ih质量浓度监测值为样本数据，应用该方法建立PM2s质量浓度的时间序列预测模型，并在MATLAB平台下应用LIBSVM 工具实现计算过程.结果表明，基于模糊粒化时间序列的预测模型，能较好解决PM2机理性建模方式下由于影响因素考虑不全而造成的预测结果不稳定，对模糊粒子拟合效果较好关键词细颗粒物：质量浓度：预测模型：支持向量机：时间序列分类号X823 Prediction model of PM,s mass concentrations based on fuzzy time series and support vector machine LIU Jie",YANG Peng,LO Wen-sheng",LIU Agudamu,LIU Jun-xiu 1)School of Civil and Environmental Engineering,University of Science and Technology Beijing,Beijing 100083,China 2)Beijing Key Laboratory of Information Service Engineering,Beijing Union University,Beijing 100101,China Corresponding author,E-mail:yangpeng@buu.edu.cn ABSTRACT To solve the instability of multiple-factor regression models and the existence of over-earning and local minima of neural network models in predicting PMs mass concentration,a method was proposed by combining support vector machine with fuzzy granu- lation of time series to predict the variation trend and range of PM,s mass concentration.According to the daily periodic variation of PM2 s in different seasons,a 24h pattern was determined to be the window length of granulating.Feature extraction of data samples proceeded by a triangular membership function was applied to support vector machine inputs for regressive modeling,and the optimum parameters of models were selected by grid search based on k-fold cross validation.Then a time series prediction model was established by using 1h PM,s mass concentration obtained by Wanliu monitoring station at Haidian district of Beijing in 4 seasons from March 2013 to February 2014,and its resolving was realized by LIBSVM tool in MATLAB platform.The results show that the prediction mod- el of PMs mass concentration based on fuzzy granulation of time series can solve the instability caused by uncertain factors in mecha- nism modeling and get a good fitting effect on fuzzy granulation parameters. KEY WORDS particulate matter:mass concentration:prediction models:support vector machine:time series 大气细颗粒物PMz.s(particulate matter,空气动力学当量直径≤2.5μm的颗粒物)是当前影响城市收稿日期：201403-11 基金项目：北京市属高等学校高层次人才引进与培养一“长城学者”培养计划项目“基于无线传感器网络的城市空气质量实时监测系统研究”资助项目(CT&TCD20130320) DOI:10.13374/j.issn1001-053x.2014.12.017:http://jourals.ustb.edu.cn

第 36 卷第 12 期 2014 年 12 月北京科技大学学报 Journal of University of Science and Technology Beijing Vol． 36 No． 12 Dec． 2014 模糊时序与支持向量机建模相结合的 PM2. 5 质量浓度预测刘杰1) ，杨鹏2) ，吕文生1) ，刘阿古达木1) ，刘俊秀2) 1) 北京科技大学土木与环境工程学院，北京 100083 2) 北京联合大学北京市信息服务工程重点实验室，北京 100101  通信作者，E-mail: yangpeng@ buu． edu． cn 摘要为解决进行 PM2. 5质量浓度预测中多因素回归模型的不稳定、神经网络模型的过拟合及局部最小等问题，提出应用支持向量机和模糊粒化时间序列相结合的方法，对 PM2. 5质量浓度未来变化趋势和范围进行预测．根据 PM2. 5不同季节的日变化周期模式，确定以 24 h 为周期的粒化窗宽，利用三角型隶属函数对数据样本进行特征提取作为支持向量机的输入，并在 k 重交叉验证法下采用网格划分寻找出模型的最佳参数．以 2013 年 3 月—2014 年 2 月北京市海淀区万柳监测点四个季节 PM2. 5 的 1 h 质量浓度监测值为样本数据，应用该方法建立 PM2. 5质量浓度的时间序列预测模型，并在 MATLAB 平台下应用 LIBSVM 工具实现计算过程．结果表明，基于模糊粒化时间序列的预测模型，能较好解决 PM2. 5机理性建模方式下由于影响因素考虑不全而造成的预测结果不稳定，对模糊粒子拟合效果较好．关键词细颗粒物; 质量浓度; 预测模型; 支持向量机; 时间序列分类号 X 823 Prediction model of PM2. 5 mass concentrations based on fuzzy time series and support vector machine LIU Jie1) ，YANG Peng2)  ，L Wen-sheng1) ，LIU Agudamu1) ，LIU Jun-xiu2) 1) School of Civil and Environmental Engineering，University of Science and Technology Beijing，Beijing 100083，China 2) Beijing Key Laboratory of Information Service Engineering，Beijing Union University，Beijing 100101，China  Corresponding author，E-mail: yangpeng@ buu． edu． cn ABSTＲACT To solve the instability of multiple-factor regression models and the existence of over-learning and local minima of neural network models in predicting PM2. 5 mass concentration，a method was proposed by combining support vector machine with fuzzy granulation of time series to predict the variation trend and range of PM2. 5 mass concentration． According to the daily periodic variation of PM2. 5 in different seasons，a 24-h pattern was determined to be the window length of granulating． Feature extraction of data samples proceeded by a triangular membership function was applied to support vector machine inputs for regressive modeling，and the optimum parameters of models were selected by grid search based on k-fold cross validation． Then a time series prediction model was established by using 1-h PM2. 5 mass concentration obtained by Wanliu monitoring station at Haidian district of Beijing in 4 seasons from March 2013 to February 2014，and its resolving was realized by LIBSVM tool in MATLAB platform． The results show that the prediction model of PM2. 5 mass concentration based on fuzzy granulation of time series can solve the instability caused by uncertain factors in mechanism modeling and get a good fitting effect on fuzzy granulation parameters． KEY WOＲDS particulate matter; mass concentration; prediction models; support vector machine; time series 收稿日期: 2014--03--11 基金项目: 北京市属高等学校高层次人才引进与培养———“长城学者”培养计划项目“基于无线传感器网络的城市空气质量实时监测系统研究”资助项目( CIT＆TCD20130320) DOI: 10． 13374 /j． issn1001--053x． 2014． 12． 017; http: / /journals． ustb． edu． cn 大气细颗粒物 PM2. 5 ( particulate matter，空气动力学当量直径≤2. 5 μm 的颗粒物) 是当前影响城市

第12期刘杰等：模糊时序与支持向量机建模相结合的PM2s质量浓度预测 ·1695· 环境·-)和人体健康0的最主要污染物之一，北京本思想是将样本数据集映射到高维空间，通过在高市环境保护监测中心发布的空气质量指数(air qual- 维空间构造线性分类函数来实现样本集合的划分， ity index,AQI)结果显示，2013年3月一2014年2 并通过引入核函数来避免高维空间中的维数灾难，月北京城六区PM2s作为首要污染物的比例高达极大地减少了计算量.鉴于PM2s来源的复杂性使 57.2%,其污染程度极大地影响了城市空气质量的得基于机理的建模方法存在较大不确定性，本文提好坏.因此，对PM2s质量浓度的有效预测可以为从出将支持向量机与时间序列相结合的方法.利用模整体上观测城市空气质量的变化趋势提供有力信糊粒化的方法对时间序列和PM2监测数据进行特息.大气污染物的常见预测方法是假设其质量浓度征提取，结合支持向量机建模方法，保证了算法的全与一些具体的影响因素有关，如气象因素、污染物来局最优性，以得出较为可靠和准确的质量浓度变化源等囚，并对污染物与影响因素做相关性分析，即趋势及范围，有效解决多因素回归模型预测结果不把影响因素作为自变量，污染物浓度作为因变量，进稳定的问题，为PM25及其他大气污染物浓度预测提行回归预测输出，但对于PM25质量浓度预测来说，供一种新方法这种方法存在诸多的不确定性.首先，当前对于 PM25的来源及影响因素认识，尚未完全统一，目前 1ε一支持向量机非线性回归主要认为北京PM2s的来源6为地面扬尘、建筑支持向量机通常用核函数变换来解决非线性回尘、燃煤、生物质燃烧、机动车排放、工业过程、二次归问题，通过非线性变换中将n维矢量空间R“的样转化等诸多人为源，而影响因素0主要有风速、温本(x:,y:)映射到高维特征空间，然后建立线性模型度、气压等气象因素及地势等地理因素.实际情况来拟合回归函数.ε一支持向量机即采用ε不敏感损显示，PM2s来源及影响因素明显不仅仅如此，仍有诸多暂未发现或难以确定的影响因素没有列入其失函数的进行样本训练，具有不敏感带的非线性回中.其次，即使建立了完整、准确的PM25来源及影归函数如图1所示，图中所示的变量度量了训练响因素体系，现阶段也很难满足其影响因素完整资样本点上误差的代价，在ε不敏感带内的点误差为料的对应，难以准确分析其相关性.对此，可结合 0.其优化问题可表示为 PM2.s质量浓度变化的周期性，建立基于时间序列的 mi2Iw2+C∑（怎+）， (1) 预测模型，研究其未来某一时段的质量浓度变化趋势及范围出：-w中(x,)-b≤e+, 当前对预测模型的研究，主要集中在用机器学 s.t.{w中(x:)+b-y:≤E+, 习算法解决复杂的非线性模型问题上，尤其是应用 5:≥0，≥0，C>0,i=1,2,…,n. 人工神经网络模型对大气颗粒物的小时质量浓度进式中，ω为权值向量，C为惩罚参数，b为阈值，专为行预测研究.如McKendryn运用神经网络模型预松弛变量.若对应于变换中的核函数为K(x,x), 测了加拿大菲莎河谷下游区域PM。和PM2s的小时则式（1)所示的问题可构造出对偶最优化问平均质量浓度：Kukkonen等☒运用多种神经网络题，即模型预测了芬兰赫尔辛基城区PM。的小时平均质量浓度；石灵芝等)利用BP神经网络模型预测了腰{-三a-a)a-g)k)- +a =1 湖南长沙火车站PM。小时平均质量浓度；这些研究 (2) 均取得了较好的效果.神经网络非线性拟合能力较 a+ai)+-a)} 强，学习规则简单，可映射任意复杂的非线性关系，但其在解决网络结构的确定、过拟合和局部极小等 s.t. 问题上仍存在较大困难.支持向量机(support vector a,ai∈[D,C],i=1,2,…,n. machine,SVM)则在小样本、非线性、高维模式识别式中，a:和a分别为对应的拉格朗日乘子，a:为支等问题的解决上表现出许多特有优势，并可避免神持向量.核函数K(x:,x)的回归估计函数为经网络中经常出现的过拟合及局部极小等问题，推 f(x)=w中(x)+b= （a-a）K(x:x）+b. 广误差较小，具有较好的泛化能力.该方法基于统计学习中结构风险最小化原则，由Cortes和Va即p- (3) mik在1995年首先提出并迅速发展和完善，其基式中，阈值b的计算式为

第 12 期刘杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测环境［1--3］和人体健康［4］的最主要污染物之一．北京市环境保护监测中心发布的空气质量指数( air quality index，AQI) 结果显示，2013 年 3 月—2014 年 2 月北京城六区 PM2. 5 作为首要污染物的比例高达 57. 2% ，其污染程度极大地影响了城市空气质量的好坏．因此，对 PM2. 5质量浓度的有效预测可以为从整体上观测城市空气质量的变化趋势提供有力信息．大气污染物的常见预测方法是假设其质量浓度与一些具体的影响因素有关，如气象因素、污染物来源等［5］，并对污染物与影响因素做相关性分析，即把影响因素作为自变量，污染物浓度作为因变量，进行回归预测输出，但对于 PM2. 5质量浓度预测来说，这种方法存在诸多的不确定性．首先，当前对于 PM2. 5的来源及影响因素认识，尚未完全统一，目前主要认为北京 PM2. 5 的来源［6--8］为地面扬尘、建筑尘、燃煤、生物质燃烧、机动车排放、工业过程、二次转化等诸多人为源，而影响因素［9--10］主要有风速、温度、气压等气象因素及地势等地理因素．实际情况显示，PM2. 5来源及影响因素明显不仅仅如此，仍有诸多暂未发现或难以确定的影响因素没有列入其中．其次，即使建立了完整、准确的 PM2. 5来源及影响因素体系，现阶段也很难满足其影响因素完整资料的对应，难以准确分析其相关性．对此，可结合 PM2. 5质量浓度变化的周期性，建立基于时间序列的预测模型，研究其未来某一时段的质量浓度变化趋势及范围．当前对预测模型的研究，主要集中在用机器学习算法解决复杂的非线性模型问题上，尤其是应用人工神经网络模型对大气颗粒物的小时质量浓度进行预测研究．如 McKendry［11］运用神经网络模型预测了加拿大菲莎河谷下游区域 PM10和 PM2. 5的小时平均质量浓度; Kukkonen 等［12］运用多种神经网络模型预测了芬兰赫尔辛基城区 PM10 的小时平均质量浓度; 石灵芝等［13］利用 BP 神经网络模型预测了湖南长沙火车站 PM10小时平均质量浓度; 这些研究均取得了较好的效果．神经网络非线性拟合能力较强，学习规则简单，可映射任意复杂的非线性关系，但其在解决网络结构的确定、过拟合和局部极小等问题上仍存在较大困难．支持向量机( support vector machine，SVM) 则在小样本、非线性、高维模式识别等问题的解决上表现出许多特有优势，并可避免神经网络中经常出现的过拟合及局部极小等问题，推广误差较小，具有较好的泛化能力．该方法基于统计学习中结构风险最小化原则，由 Cortes 和 Vapnik［14］在 1995 年首先提出并迅速发展和完善，其基本思想是将样本数据集映射到高维空间，通过在高维空间构造线性分类函数来实现样本集合的划分，并通过引入核函数来避免高维空间中的维数灾难，极大地减少了计算量．鉴于 PM2. 5来源的复杂性使得基于机理的建模方法存在较大不确定性，本文提出将支持向量机与时间序列相结合的方法．利用模糊粒化的方法对时间序列和 PM2. 5监测数据进行特征提取，结合支持向量机建模方法，保证了算法的全局最优性，以得出较为可靠和准确的质量浓度变化趋势及范围，有效解决多因素回归模型预测结果不稳定的问题，为 PM2. 5及其他大气污染物浓度预测提供一种新方法． 1 ε--支持向量机非线性回归支持向量机通常用核函数变换来解决非线性回归问题，通过非线性变换  将 n 维矢量空间Ｒn 的样本( xi，yi ) 映射到高维特征空间，然后建立线性模型来拟合回归函数． ε--支持向量机即采用 ε 不敏感损失函数［15］进行样本训练，具有不敏感带的非线性回归函数如图 1 所示，图中所示的变量 ξ 度量了训练样本点上误差的代价，在 ε 不敏感带内的点误差为 0．其优化问题可表示为 min ω，b，ξ 1 2 ‖ω‖2 + C ∑ l i = 1 ( ξi + ξ * i ) ， ( 1) s． t． yi － ω·( xi ) － b≤ε + ξi， ω·( xi ) + b － yi≤ε + ξ * i ， ξi≥0，ξ * i ≥0，C ＞ 0，i = 1，2，…， { n．式中，ω 为权值向量，C 为惩罚参数，b 为阈值，ξ 为松弛变量．若对应于变换  的核函数为 K( xi，xj) ，则式( 1 ) 所示的问题可构造出对偶最优化问题［16］，即 max α，α* { － 1 2 ∑ n i，j = 1 ( αi － α* i ) ( αj － α* i ) K( xi，xj ) － ε ∑ n i = 1 ( αi + α* i ) + ∑ n i = 1 yi ( α* i － αi ) } ， ( 2) s． t． ∑ n i = 1 αi = ∑ n i = 1 α* i ， αi，α* i ∈［0，C］，i = 1，2，…， { n．式中，αi 和 αj 分别为对应的拉格朗日乘子，α* i 为支持向量．核函数 K( xi，xj ) 的回归估计函数为 f( x) = ω·( x) + b = ∑ n i = 1 ( αi － α* i ) K( xi，xj ) + b． ( 3) 式中，阈值 b 的计算式为 · 5961 ·

·1696 北京科技大学学报第36卷 a-)KG) 式中，a和d分别为模糊粒子的支撑上、下界；m为窗口的核，通常取中位数作为粒子代表.隶属函数多e6-a-a)k医)+} (4) 在不同的情况下有不同的确定方式及其合理性，但所建立的隶属函数应满足建立模糊粒子的基本思其中，Nsv为准支持向量机的个数，S,为准支持向量. 想：模糊粒子能够合理地代表原始数据：模糊粒子要具有一定的独特性.为满足上述两个思想，P- dryce提出的模糊粒化模型o给出了一个可找出两者最佳平衡的函数Q,即 M(A) QN(A (6) 式中，M(A)和N(A)分别表示可满足建立模糊粒子的两种基本思想.为满足建立模糊粒子的基本思想，只需Q越大越好图1非线性回归函数的不敏感带 Fig.1 Insensitive band of a nonlinear regression function 2时间序列的模糊粒化 2.1模糊粒化三角模型的建立模糊粒化问题是由Zadeh在模糊集合论概念的基础上，于1979年首次提出m,其实质是基于模糊逻辑和信息粒化的数学方法.时间序列的模糊粒化就是将时间序列划分为模糊集的形式，主要包括离图2三角模糊粒子隶属函数散化和模糊化两个步骤，二者的结合称为粒化，其 Fig.2 Triangular membership function of fuzzy granulation 关键是使建立的模糊集能够充分代表原始样本集. 2.2时间序列的周期性分析离散化就是通过“窗口”来将时间序列分割为若干周期性是指某一现象出现后，经过一个固定的小子列，设X={x1,x2,…,xn}为时间序列，窗宽为时间长度，再反复重现该现象.实际上，严格的周期 k,则0：={x,x…,xa-k+}为分割所得的时间子序是实验性的，现实中的周期性多为近似（伪）周期. 列，可令W(X,k)={w:Ii=1,2,…,n-k+1}为表如式(5)所示的三角函数具有严格的周期，掌握其示X所有窗宽为k的窗口的集合，且任一两个窗口周期就可以进行预测和分析.周期理论并没有完整均无重叠.模糊化是在给定的时间序列X上建立一的具体方法，其研究方法主要靠定性、分析和数值计个模糊粒子P,即确定一个以X为论域且能合理描算等方式来完成.时间序列模型通常按各种可述该集合的模糊集T,通过确定T来确定模糊粒子能发生影响的因素进行分类，包括长期趋势、季节变 P.因此，模糊化的过程就是确定模糊集T的隶属函动、循环变动及不规则运动四.长期趋势指时间序数A,通过确定模糊粒子的基本形式，即可确定出具列在长时间内朝着某一方向持续上升、下降或停留：体的隶属函数A.模糊粒子的基本形式主要有三角季节变动指时间序列随自然季节气候的变化而引发形、梯形、高斯型和抛物型，三角型模糊粒子在表达的周期性变动：循环变动指长时间、波浪式起伏的周介于某数的左、右时具有独特的优势，且实际的研究期变动：不规则运动则是指由偶然因素引起的无周应用)也表明其对隶属函数的确定更具合理性，可期变动. 反映取值的可能性分布，故此处采用其进行研究，其 PM25主要来源于人为活动，其质量浓度变化必基本形式如图2所示，隶属函数如式(5)所示. 然也存在着一定的周期性.大量的研究表明，PM25 0, x≤a 质量浓度存在着明显的季节变动规律圆和循环变 x-a x∈[a,x]; m-a 动规律P4-,主要体现在PM2s的质量浓度的日变 A(x,a,m,b)= (5) d-x 化存在规律性的波峰波谷变化，且在不同季节的日 d-m xe [m,d]; 变化模式存在显著差异.根据北京市2013一2014 0, x≥d. 年实际的气象特征，并通过天文与气候相结合的通

北京科技大学学报第 36 卷 b = 1 N { NSV 0 ∑＜ αi [ ＜ C yi － x ∑ j ∈SV ( αj － α* j ) K( xi，xj ) － ε ] + 0 ＜ ∑α* i ＜ C ［yi － ( αj － α* j ) K( xi，xj ) + ε］} ． ( 4) 其中，NNSV为准支持向量机的个数，SV为准支持向量．图 1 非线性回归函数的不敏感带 Fig． 1 Insensitive band of a nonlinear regression function 2 时间序列的模糊粒化 2. 1 模糊粒化三角模型的建立模糊粒化问题是由 Zadeh 在模糊集合论概念的基础上，于 1979 年首次提出［17］，其实质是基于模糊逻辑和信息粒化的数学方法．时间序列的模糊粒化就是将时间序列划分为模糊集的形式，主要包括离散化和模糊化两个步骤，二者的结合称为 f-粒化，其关键是使建立的模糊集能够充分代表原始样本集．离散化就是通过“窗口”来将时间序列分割为若干小子列，设 X = { x1，x2，…，xn } 为时间序列，窗宽为 k，则 wi = { xi，xi，…，xn － k + 1 } 为分割所得的时间子序列，可令 W( X，k) = { wi | i = 1，2，…，n － k + 1} 为表示 X 所有窗宽为 k 的窗口的集合，且任一两个窗口均无重叠．模糊化是在给定的时间序列 X 上建立一个模糊粒子 P，即确定一个以 X 为论域且能合理描述该集合的模糊集 T，通过确定 T 来确定模糊粒子 P．因此，模糊化的过程就是确定模糊集 T 的隶属函数 A，通过确定模糊粒子的基本形式，即可确定出具体的隶属函数 A．模糊粒子的基本形式主要有三角形、梯形、高斯型和抛物型，三角型模糊粒子在表达介于某数的左、右时具有独特的优势，且实际的研究应用［18］也表明其对隶属函数的确定更具合理性，可反映取值的可能性分布，故此处采用其进行研究，其基本形式如图 2 所示，隶属函数如式( 5) 所示． A( x，a，m，b) = 0， x≤a; x － a m － a ， x∈［a，x］; d － x d － m， x∈［m，d］; 0， x≥          d． ( 5) 式中，a 和 d 分别为模糊粒子的支撑上、下界; m 为窗口的核，通常取中位数作为粒子代表．隶属函数在不同的情况下有不同的确定方式及其合理性，但所建立的隶属函数应满足建立模糊粒子的基本思想［19］: 模糊粒子能够合理地代表原始数据; 模糊粒子要具有一定的独特性．为满足上述两个思想，Pedryce 提出的模糊粒化模型［20］给出了一个可找出两者最佳平衡的函数 QA，即 QA = M( A) N( A) ． ( 6) 式中，M( A) 和 N( A) 分别表示可满足建立模糊粒子的两种基本思想．为满足建立模糊粒子的基本思想，只需 QA越大越好．图 2 三角模糊粒子隶属函数 Fig． 2 Triangular membership function of fuzzy granulation 2. 2 时间序列的周期性分析周期性是指某一现象出现后，经过一个固定的时间长度，再反复重现该现象．实际上，严格的周期是实验性的，现实中的周期性多为近似( 伪) 周期．如式( 5) 所示的三角函数具有严格的周期，掌握其周期就可以进行预测和分析．周期理论并没有完整的具体方法，其研究方法主要靠定性、分析和数值计算等方式来完成［21］．时间序列模型通常按各种可能发生影响的因素进行分类，包括长期趋势、季节变动、循环变动及不规则运动［22］．长期趋势指时间序列在长时间内朝着某一方向持续上升、下降或停留; 季节变动指时间序列随自然季节气候的变化而引发的周期性变动; 循环变动指长时间、波浪式起伏的周期变动; 不规则运动则是指由偶然因素引起的无周期变动． PM2. 5主要来源于人为活动，其质量浓度变化必然也存在着一定的周期性．大量的研究表明，PM2. 5 质量浓度存在着明显的季节变动规律［23］和循环变动规律［24--25］，主要体现在 PM2. 5 的质量浓度的日变化存在规律性的波峰波谷变化，且在不同季节的日变化模式存在显著差异．根据北京市 2013—2014 年实际的气象特征，并通过天文与气候相结合的通 · 6961 ·

第12期刘杰等：模糊时序与支持向量机建模相结合的PM2s质量浓度预测 ·1697· 用季节划分方式，将2013年3一5月、6一8月、9一变动、循环变动和部分不规则运动共同决定的.事 11月和12一次年2月四个时间段依次划分为春季、实上，对于PM2s质量浓度复杂的周期性变动，根据夏季、秋季和冬季进行研究，并对城六区12个监测实际的时间长度和样本数，可对时间序列和窗宽进点四个季节的PM2s质量浓度逐时变化进行统计分行不同的划分，越长的变化趋势预测通常需要越长析，原始监测数据由北京市环境监测保护中心所建时间序列的样本数据.此处结合实际的时间序列长立的城市空气自动监测站点获取，统计结果如图3 度和样本数据，以2013年2月一2014年3月共12 所示.为全面了解各季节PM25质量浓度分布的离个月的监测样本为数据基础，四个季节为时间序列，散程度和变化规律，图3给出了PM25质量浓度变化质量浓度日变化(1d)为时间子序列，24h变化为窗范围的最小值和最大值（圆形点）、5%~95%质量宽，以此建立基于模糊粒化的PM2s质量浓度时序预浓度值（直线上下须间距）、25%~75%质量浓度值测模型 (矩形上下间距)、平均值（矩形内方点）和中值（矩 3PM2,s质量浓度时序预测模型的建立形内横线).由图中平均值可看出，四个季节PM25 质量浓度日变化整体呈现夜间(20：00一23：00)较 3.1监测数据获取及模糊粒化高、清晨(4：00一7：00)较低的变化规律，这仅是一以城六区海淀万柳监测点为例，选取该监测点个近似（伪）周期现象；而四个季节PM25质量浓度 201303-11一2013-05-30（春季）、2013-06-01一逐时变化幅度也存在显著差异，从5%~95%和 2013-08-30(夏季)、201309-01一2013-11-29（秋 25%~75%质量浓度分位值来看，秋季PM2s质量浓季)和2013-12-01一201402-27（冬季）的1h质量度1h均值具有最小的变化幅度，其他三个季节变浓度均值作为研究对象，即分别应用四个季节的1h 化幅度较大，且PM2s质量浓度在各季节不同时间段质量浓度均值，预测最后1d(2013-05-31、2013- 也表现出了不同的变化幅度；这些变化都是由季节 08-31、2013-11-30和201402-28)24h的质量浓 160 160 a 140 140 120 120 I00 60 0 40 20 时刻时刻 180 220 (c) (d) 160 200 . 140 180 160 120 140 120 100 80 20 时刻时刻图32013年3月一2014年2月北京城六区PM2.s质量浓度逐时变化.()春季变化(3一5月)：(b)夏季变化(6一8月)：(c)秋季变化(9- 11月)：(d)冬季变化(12一次年2月) Fig.3 Variation of PM2s I average concentration in the six urban areas of Beijing from March 2013 to February 2014:(a)variation in spring (March to May):(b)variation in summer (June to August);(c)variation in autumn (September to November);(d)variation in winter (Decem- ber to February of the next year)

第 12 期刘杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测用季节划分方式，将 2013 年 3—5 月、6—8 月、9— 11 月和 12—次年 2 月四个时间段依次划分为春季、夏季、秋季和冬季进行研究，并对城六区 12 个监测点四个季节的 PM2. 5质量浓度逐时变化进行统计分析，原始监测数据由北京市环境监测保护中心所建立的城市空气自动监测站点获取，统计结果如图 3 所示．为全面了解各季节 PM2. 5质量浓度分布的离图 3 2013 年 3 月—2014 年 2 月北京城六区 PM2. 5质量浓度逐时变化． ( a) 春季变化( 3—5 月) ; ( b) 夏季变化( 6—8 月) ; ( c) 秋季变化( 9— 11 月) ; ( d) 冬季变化( 12—次年 2 月) Fig． 3 Variation of PM2. 5 1-h average concentration in the six urban areas of Beijing from March 2013 to February 2014: ( a) variation in spring ( March to May) ; ( b) variation in summer ( June to August) ; ( c) variation in autumn ( September to November) ; ( d) variation in winter ( December to February of the next year) 散程度和变化规律，图 3 给出了 PM2. 5质量浓度变化范围的最小值和最大值( 圆形点) 、5% ～ 95% 质量浓度值( 直线上下须间距) 、25% ～ 75% 质量浓度值 ( 矩形上下间距) 、平均值( 矩形内方点) 和中值( 矩形内横线) ．由图中平均值可看出，四个季节 PM2. 5 质量浓度日变化整体呈现夜间( 20: 00—23: 00) 较高、清晨( 4: 00—7: 00) 较低的变化规律，这仅是一个近似( 伪) 周期现象; 而四个季节 PM2. 5 质量浓度逐时变化幅度也存在显著差异，从 5% ～ 95% 和 25% ～ 75% 质量浓度分位值来看，秋季 PM2. 5质量浓度 1 h 均值具有最小的变化幅度，其他三个季节变化幅度较大，且 PM2. 5质量浓度在各季节不同时间段也表现出了不同的变化幅度; 这些变化都是由季节变动、循环变动和部分不规则运动共同决定的．事实上，对于 PM2. 5质量浓度复杂的周期性变动，根据实际的时间长度和样本数，可对时间序列和窗宽进行不同的划分，越长的变化趋势预测通常需要越长时间序列的样本数据．此处结合实际的时间序列长度和样本数据，以 2013 年 2 月—2014 年 3 月共 12 个月的监测样本为数据基础，四个季节为时间序列，质量浓度日变化( 1 d) 为时间子序列，24 h 变化为窗宽，以此建立基于模糊粒化的 PM2. 5质量浓度时序预测模型． 3 PM2. 5质量浓度时序预测模型的建立 3. 1 监测数据获取及模糊粒化以城六区海淀万柳监测点为例，选取该监测点 2013--03--11—2013--05--30 ( 春季) 、2013--06--01— 2013--08--30( 夏季) 、2013--09--01—2013--11--29( 秋季) 和 2013--12--01—2014--02--27( 冬季) 的 1 h 质量浓度均值作为研究对象，即分别应用四个季节的 1 h 质量浓度均值，预测最后 1 d ( 2013--05--31、2013-- 08--31、2013--11--30 和 2014--02--28) 24 h 的质量浓 · 7961 ·

·1698 北京科技大学学报第36卷度变化趋势和范围，并验证预测结果的准确性.其得出正确结果.采用交叉验证方法选取的参数比随中，分别取得该监测点四个季节有效数据1761个机选取参数所得到的模型的回归预测结果更有效， (春季)、2036个（夏季）、2068个（秋季）和2059个此处采用k重交叉验证法，即将原始数据均分为k (冬季)，相应的变化范围分别为y1∈(3,479)μg· 组，将每个子集数据分别做一次验证集，剩余的k- m-3、y2∈(3,560)μgm-3、y3∈(3,381)ugm-3和 1组子集数据作为训练机，用这k个模型最终的验 y4∈(3,589)μg"m-3. 证集的平均准确率作为此交叉验证的性能指标.大采用式(5)所示的三角型函数对PM2s原始监量的实验和研究表明s-,采用径向基函数(radial 测数据进行模糊粒化，通过MATLAB平台下的函数 basis function,RBF)为核函数具有较高的拟合和预接口实现，分别筛选出用于训练和预测的自变量和测精度，故选用其作为核函数进行研究，如式(7)所因变量样本集.将原始数据划分为多个窗口，每个示，其构造的支持向量机回归估计函数如式(8) 窗口生成一个模糊粒子，此处以24h作为一个窗所示：宽，窗口数即为原始数据长度除以24后取整.以春 K(x,x)=exp {-Gx;x2),(7) 季的数据样本为例，其原始质量浓度随时间的变化 f(x)= (a;-a;)exp (-Gx;+b. 和数据模糊粒化结果分别如图4和图5所示，其中图5中的L、R和U为模糊粒子参数，分别表示 (8) PM2,质量浓度值变化的最小值、平均值和最大值. 式中，‖x:-x‖是二范数距离，G是径向基函数的 500 核函数参数.式(7)所示的径向基函数对应的特征 450 空间是无穷维的，使得有限的样本在该特征空间中 400 350 线性可分.对于惩罚参数C和核函数参数G的选取，采取以下步骤实现：①设定C和G的初始变化 20 范围及步进大小，通过网格划分使其在一定范围内搜索最佳参数：②选取能达到最高验证回归准确率 150 00 中最小的C及其对应的G作为最佳参数；③若出现 50 多组最小的C及对应的G,则选取搜索到的第一组 20040060080010001200140016001800 C和G作为最佳参数. 时间序列h 3.3基于LIBSVM的回归预测实现图4质量浓度随时间变化支持向量机算法的实现采用台湾大学林智仁 Fig.4 Variation of mass concentration with time (Lin Chih-Jen)教授开发的LIBSVM工具箱. 450 LIBSVM具有参数调节较少、便于改进及系统兼容 400 性强的优点，可在MATLAB上实现操作.利用 LIBSVM分别对模糊粒子参数L、R和U进行回归预测，首先对数据样本进行归一化到0,1]区间的预处理方式，再应用k重交叉验证的方法搜索并选择 15 使均方差误差δRE最小的最佳回归参数，此处将C 00 和G的初步搜索范围确定为2-“，2]，搜索过程如图6所示，在初步搜索后，根据搜索到的第一组C 和G,缩小搜索范围并进行精细的参数优选，通过再 20 30 40 50 粒化时间序列h 次搜索最终得出最优C和G参数值.利用最优参数值对原始值进行回归预测，拟合结果如图7所示图5数据模糊粒化结果通过图7所示的模糊粒子拟合结果图可以看出L、R Fig.5 Fuzzy granulation of original data 和U的变化趋势及范围.从图中的拟合效果来看， 3.2￡一支持向量机参数优化三者的拟合结果基本与原始数据保持一致的变化趋支持向量机的性能主要受核函数类型、核函数势，表明该模型具有较好的预测能力.同理，用夏参数及惩罚参数的影响网，目前对于核函数及相关季、秋季和冬季的监测数据样本建立模糊粒化时序参数的选择仍无统一的模式，需进行有效优化方可模型，分别对下一个模糊粒子进行回归预测，可得出

北京科技大学学报第 36 卷度变化趋势和范围，并验证预测结果的准确性．其中，分别取得该监测点四个季节有效数据 1761 个 ( 春季) 、2036 个( 夏季) 、2068 个( 秋季) 和 2059 个 ( 冬季) ，相应的变化范围分别为 y1∈( 3，479) μg· m － 3、y2∈( 3，560) μg·m － 3、y3∈( 3，381) μg·m － 3和 y4∈( 3，589) μg·m － 3 ．采用式( 5) 所示的三角型函数对 PM2. 5 原始监测数据进行模糊粒化，通过 MATLAB 平台下的函数接口实现，分别筛选出用于训练和预测的自变量和因变量样本集．将原始数据划分为多个窗口，每个窗口生成一个模糊粒子，此处以 24 h 作为一个窗宽，窗口数即为原始数据长度除以 24 后取整．以春季的数据样本为例，其原始质量浓度随时间的变化和数据模糊粒化结果分别如图 4 和图 5 所示，其中图 5 中的 L、Ｒ和 U 为模糊粒子参数，分别表示 PM2. 5质量浓度值变化的最小值、平均值和最大值．图 4 质量浓度随时间变化 Fig． 4 Variation of mass concentration with time 图 5 数据模糊粒化结果 Fig． 5 Fuzzy granulation of original data 3. 2 ε--支持向量机参数优化支持向量机的性能主要受核函数类型、核函数参数及惩罚参数的影响［26］，目前对于核函数及相关参数的选择仍无统一的模式，需进行有效优化方可得出正确结果．采用交叉验证方法选取的参数比随机选取参数所得到的模型的回归预测结果更有效，此处采用 k 重交叉验证法，即将原始数据均分为 k 组，将每个子集数据分别做一次验证集，剩余的 k － 1 组子集数据作为训练机，用这 k 个模型最终的验证集的平均准确率作为此交叉验证的性能指标．大量的实验和研究表明［26--28］，采用径向基函数( radial basis function，ＲBF) 为核函数具有较高的拟合和预测精度，故选用其作为核函数进行研究，如式( 7) 所示，其构造的支持向量机回归估计函数如式( 8) 所示: K( xi，xj ) = exp { － G ‖xi － xj‖2 } ， ( 7) f( x) = ∑ n i = 1 ( αi － α* i ) exp { － G ‖xi － xj‖2 } + b． ( 8) 式中，‖xi － xj‖是二范数距离，G 是径向基函数的核函数参数．式( 7) 所示的径向基函数对应的特征空间是无穷维的，使得有限的样本在该特征空间中线性可分．对于惩罚参数 C 和核函数参数 G 的选取，采取以下步骤实现: ①设定 C 和 G 的初始变化范围及步进大小，通过网格划分使其在一定范围内搜索最佳参数; ②选取能达到最高验证回归准确率中最小的 C 及其对应的 G 作为最佳参数; ③若出现多组最小的 C 及对应的 G，则选取搜索到的第一组 C 和 G 作为最佳参数． 3. 3 基于 LIBSVM 的回归预测实现支持向量机算法的实现采用台湾大学林智仁 ( Lin Chih-Jen ) 教授开发的 LIBSVM 工具箱． LIBSVM 具有参数调节较少、便于改进及系统兼容性强的优点，可在 MATLAB 上实现操作．利用 LIBSVM 分别对模糊粒子参数 L、Ｒ和 U 进行回归预测，首先对数据样本进行归一化到［0，1］区间的预处理方式，再应用 k 重交叉验证的方法搜索并选择使均方差误差 δMＲE最小的最佳回归参数，此处将 C 和 G 的初步搜索范围确定为［2 － 10，210］，搜索过程如图 6 所示，在初步搜索后，根据搜索到的第一组 C 和 G，缩小搜索范围并进行精细的参数优选，通过再次搜索最终得出最优 C 和 G 参数值．利用最优参数值对原始值进行回归预测，拟合结果如图 7 所示．通过图 7 所示的模糊粒子拟合结果图可以看出 L、Ｒ和 U 的变化趋势及范围．从图中的拟合效果来看，三者的拟合结果基本与原始数据保持一致的变化趋势，表明该模型具有较好的预测能力．同理，用夏季、秋季和冬季的监测数据样本建立模糊粒化时序模型，分别对下一个模糊粒子进行回归预测，可得出 · 8961 ·

第12期刘杰等：模糊时序与支持向量机建模相结合的PM2:质量浓度预测 ·1699· (a) b (c) 1.0r 1.0 1.0 0.8 0.8 0.8 0.4 0 0.2 02 0 5 0 0 0 log.G 0 -5 -10-10 -10-10 -5 log,C log.C -10-10 图6最住参数搜素结果图.(a)L:(b)R:(c)U Fig.6 Grid search results of optimum parameters:(a)L:(b)R:(c)U 180 450 一原始值 350 一R原始值一原始值拟合值 300 -R拟合值 400 ·拟合值 250 350 200 150 200 6 150 40 100 100 50 20304050 60 10 20304050 60 70 1020304050 60 70 粒化时间序列粒化时问序列小粒化时间序列图7模糊粒子参数拟合结果.(a)L:(b)R:(c)U Fig.7 Fitting results of fuzzy granulation parameters:(a）L:(b）R:(c）U 各模型预测结果L、R和U变化趋势及范围. 因素，如核函数对拟合精度的影响以及核函数参数据此，四个季节时序模型的最佳参数及结果对和惩罚参数对核函数的影响：此外，PM25质量浓度比如表1所示，预测值区间及实际值变化则如图8 近似（伪）周期变化也对预测结果有着一定影响.从所示.可以看出，在进行模型参数的优化后，模型的绝对误差范围来看，春季模型的拟合效果最佳，其余泛化性能较好，预测结果较为准确.引起各季节预三个季节模型的部分预测结果与实际变化范围稍有测值误差的原因主要包括模型本身精度存在不确定差距，较大误差主要集中在R预测值，四个季节R 表1时序模型最佳参数及结果对比 Table 1 Optimum parameters and their prediction results of the time series model 时序模糊粒惩罚核函数均方差平方相关显著性水平预测变化范围/ 实际变化范围/绝对误差范围/ 模型子参数参数，C 参数，G 误差，6MRE 系数，2 Ro.os Ro.o1 (g*m3) （ugm3) （ug*m3) 0.5 0.045 0.944 50.59 57 6.41 春季模型 R 1 0.043 0.833 0.232 0.302 98.80 113.5 14.7 0.25 0.031 0.888 141.86 147 5.14 0.25 0.5 0.037 0.903 11.58 9 2.58 夏季模型 R 0.25 0.5 0.034 0.692 0.2170.283 32.69 22.54 10.15 U 0.25 0.036 0.021 0.838 51.37 功 14.37 L 0.25 0.016 0.024 0.302 19.41 11 8.41 秋季模型 R 0.055 0.467 0.2170.283 93.05 46.2 46.85 U 0.25 0.25 0.044 0.749 149.23 170 20.77 0.25 0.009 0.877 46.8 ) 0.20 冬季模型 R 0.35 1 0.075 0.401 0.217 0.283 85.25 106.9 21.65 0.25 0.022 0.713 220.02 177 43.02 注：显著性水平按模糊粒子数n对应的自由度(n-2)查表取得：*数据为根据实际监测值所计算得出的24h平均值

第 12 期刘杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测图 6 最佳参数搜索结果图． ( a) L; ( b) Ｒ; ( c) U Fig． 6 Grid search results of optimum parameters: ( a) L; ( b) Ｒ; ( c) U 图 7 模糊粒子参数拟合结果． ( a) L; ( b) Ｒ; ( c) U Fig． 7 Fitting results of fuzzy granulation parameters: ( a) L; ( b) Ｒ; ( c) U 各模型预测结果L、Ｒ和 U变化趋势及范围．据此，四个季节时序模型的最佳参数及结果对比如表 1 所示，预测值区间及实际值变化则如图 8 所示．可以看出，在进行模型参数的优化后，模型的泛化性能较好，预测结果较为准确．引起各季节预测值误差的原因主要包括模型本身精度存在不确定因素，如核函数对拟合精度的影响以及核函数参数和惩罚参数对核函数的影响; 此外，PM2. 5 质量浓度近似( 伪) 周期变化也对预测结果有着一定影响．从绝对误差范围来看，春季模型的拟合效果最佳，其余三个季节模型的部分预测结果与实际变化范围稍有差距，较大误差主要集中在Ｒ预测值，四个季节Ｒ表 1 时序模型最佳参数及结果对比 Table 1 Optimum parameters and their prediction results of the time series model 时序模型模糊粒子参数惩罚参数，C 核函数参数，G 均方差误差，δMＲE 平方相关系数，r 2 显著性水平Ｒ0. 05 Ｒ0. 01 预测变化范围/ ( μg·m － 3 ) 实际变化范围/ ( μg·m － 3 ) 绝对误差范围/ ( μg·m － 3 ) 春季模型 L 0. 5 1 0. 045 0. 944 Ｒ 1 1 0. 043 0. 833 U 0. 25 1 0. 031 0. 888 0. 232 0. 302 50. 59 57 6. 41 98. 80 113. 5* 14. 7 141. 86 147 5. 14 夏季模型 L 0. 25 0. 5 0. 037 0. 903 Ｒ 0. 25 0. 5 0. 034 0. 692 U 0. 25 0. 036 0. 021 0. 838 0. 217 0. 283 11. 58 9 2. 58 32. 69 22. 54* 10. 15 51. 37 37 14. 37 秋季模型 L 0. 25 0. 016 0. 024 0. 302 Ｒ 1 1 0. 055 0. 467 U 0. 25 0. 25 0. 044 0. 749 0. 217 0. 283 19. 41 11 8. 41 93. 05 46. 2* 46. 85 149. 23 170 20. 77 冬季模型 L 0. 25 1 0. 009 0. 877 Ｒ 0. 35 1 0. 075 0. 401 U 0. 25 1 0. 022 0. 713 0. 217 0. 283 46. 8 47 0. 20 85. 25 106. 9* 21. 65 220. 02 177 43. 02 注: 显著性水平按模糊粒子数 n 对应的自由度( n － 2) 查表取得; * 数据为根据实际监测值所计算得出的 24 h 平均值． · 9961 ·

·1700 北京科技大学学报第36卷 160 60 b 150 (a) 140 130 一·一实际监测值-一一预测值 +一实际平均值·…R预测值 120 40 L须测值 110 100 040n444g4g+里年■te里年gg里00044p市+ 30 90 0 一·一实际监测值一一一U预测值 20 一实际平均值·…测值一预测值 60 50 40 时刻时刻 200 180 r 240d 220 160 200 140 一实际监测值一一一预测值一实际监测值 ·-一预测值 180 120 ,实际平均值 ··R预测值实际平均值…预测值 160 顶测值 100 顶测值 140 120 60 100 40 80 20--- 60 0 40 时刻时刻图8PM2s质量浓度预测区间及实际值变化.(a)春季模型(201305-31)：(b)夏季模型(201308-31)：()秋季模型(2013-11-30)：(d) 冬季模型(201402-28) Fig.8 Prediction interval and actual change of PM2 s mass concentration:(a)model in spring (2013-05-31):(b)model in summer (2013-08- 31):(c)model in autumn (2013-11-30);(d)model in winter (2014-02-28) 预测值与实际平均值的绝对误差分别为14.7、分别为ya∈(11,170)μgm3和a∈(19,149)μg· 10.15、46.85和21.65ugm3,其中秋季模型R预 m3,如图8(c)所示，实际值显示当日在空气质量测值与实际平均值的绝对误差最大，预测结果并不重度污染和优良之间变化，而预测值则显示当日在理想，其余三个季节的绝对误差均在可接受的污染空气质量中度污染和优良之间变化：2014-02-28 级别范围内变化。由于此处并不直接根据平均值来 PM2.5质量浓度的实际变化范围和预测变化范围分进行PM25污染级别日报，而是根据最大值和最小值别为y4∈(47,177)μgm3和y4∈(47,220)g 来表征PM2s污染级别范围，因此R预测值对了解 m3,如图8(d)所示，实际值与预测值均显示当日未来24hPM,污染趋势并无直接影响.从国标规空气质量在良和重度污染之间变化.可见，模型的定的城市PM25浓度限值及其所对应的空气质量分预测变化范围均与实际变化范围所处的PM,,污染指数及污染级别划分来看，2013-05-31PM25质级别基本一致，建模效果良好，具有较好的代表性，量浓度的实际变化范围和预测变化范围分别为y ∈(57,147）ugm-3和分a1∈(51,142)μgm-3,如图 4 结论 8(a)所示，实际值与预测值均显示当日在空气质量 (1)鉴于PM25来源及影响因素的复杂性，用时良和PM2s中度污染之间变化：而2013-08-31PM25 间序列模型对PM,质量浓度进行预测，无需考虑完质量浓度的实际变化范围和预测变化范围分别为整的污染来源及影响因素即可得出稳定的预测结 ya∈(9,37）μgm3和2∈(12,51)μgm3,如图果，方法简单可行，可描述PM2s的未来变化趋势和 8(b)所示，实际值与预测值均显示当日空气质量为范围.支持向量机和模糊粒化相结合所建立的时间优良，PM2s质量浓度可接受，基本无污染：2013-11一序列模型，预测精度和泛化性能较高，在k重交叉验 30PM25质量浓度的实际变化范围和预测变化范围证法下的网格划分所选取出来的最优参数，用它们

北京科技大学学报第 36 卷图 8 PM2. 5质量浓度预测区间及实际值变化 . ( a) 春季模型( 2013--05--31) ; ( b) 夏季模型( 2013--08--31) ; ( c) 秋季模型( 2013--11--30) ; ( d) 冬季模型( 2014--02--28) Fig． 8 Prediction interval and actual change of PM2. 5 mass concentration: ( a) model in spring ( 2013--05--31) ; ( b) model in summer ( 2013--08-- 31) ; ( c) model in autumn ( 2013--11--30) ; ( d) model in winter ( 2014--02--28) 预测值与实际平均值的绝对误差分别为 14. 7、 10. 15、46. 85 和 21. 65 μg·m － 3，其中秋季模型Ｒ预测值与实际平均值的绝对误差最大，预测结果并不理想，其余三个季节的绝对误差均在可接受的污染级别范围内变化．由于此处并不直接根据平均值来进行 PM2. 5污染级别日报，而是根据最大值和最小值来表征 PM2. 5 污染级别范围，因此Ｒ预测值对了解未来 24 h PM2. 5污染趋势并无直接影响．从国标规定的城市 PM2. 5浓度限值及其所对应的空气质量分指数及污染级别划分［29］来看，2013--05--31 PM2. 5质量浓度的实际变化范围和预测变化范围分别为 ys1 ∈( 57，147) μg·m － 3和 y^ s1∈( 51，142) μg·m － 3，如图 8( a) 所示，实际值与预测值均显示当日在空气质量良和 PM2. 5中度污染之间变化; 而 2013--08--31 PM2. 5 质量浓度的实际变化范围和预测变化范围分别为 ys2∈( 9，37) μg·m － 3和 y^ s2∈( 12，51) μg·m － 3，如图 8( b) 所示，实际值与预测值均显示当日空气质量为优良，PM2. 5质量浓度可接受，基本无污染; 2013--11-- 30 PM2. 5质量浓度的实际变化范围和预测变化范围分别为 ys3∈( 11，170) μg·m － 3和 y^ s3∈( 19，149) μg· m － 3，如图 8( c) 所示，实际值显示当日在空气质量重度污染和优良之间变化，而预测值则显示当日在空气质量中度污染和优良之间变化; 2014--02--28 PM2. 5质量浓度的实际变化范围和预测变化范围分别为 ys4∈( 47，177) μg·m － 3和 y^ s4∈( 47，220) μg· m － 3，如图 8( d) 所示，实际值与预测值均显示当日空气质量在良和重度污染之间变化．可见，模型的预测变化范围均与实际变化范围所处的 PM2. 5污染级别基本一致，建模效果良好，具有较好的代表性． 4 结论 ( 1) 鉴于 PM2. 5来源及影响因素的复杂性，用时间序列模型对 PM2. 5质量浓度进行预测，无需考虑完整的污染来源及影响因素即可得出稳定的预测结果，方法简单可行，可描述 PM2. 5的未来变化趋势和范围．支持向量机和模糊粒化相结合所建立的时间序列模型，预测精度和泛化性能较高，在 k 重交叉验证法下的网格划分所选取出来的最优参数，用它们 · 0071 ·

第12期刘杰等：模糊时序与支持向量机建模相结合的PM2:质量浓度预测 ·1701· 训练得出的2013年3月一2014年2月四个季节 sources identification of PM2.s in Beijing.J Appl Meteorol Sci, PM2s质量浓度时序预测模型，均取得了较为有效的 2007,18(5):645 (徐敬，丁国安，颜鹏，等.北京地区PM2的成分特征及来源预测结果，具有一定的参考意义分析.应用气象学报，2007,18(5)：645) (2)拟合结果表明，以季节变化和日变化划分 [8]Zhang R,Jing J.Tao J,et al.Chemical characterization and 的时间序列及子序列较为合理，根据三角形模糊粒 source apportionment of PM2.s in Beijing:seasonal perspective. 子隶属函数所划分出的L、R和U模糊粒子，拟合效 Atmos Chem Phys,2013,13(14):7053 果较好，由它们描述出的PM2s浓度变化趋势及范 ] Pu WW,Zhao X J,Zhang X L.Effect of meteorological Factors 围，与实际情况基本相符，准确性较高.运用支持向 on PM2 s in late summer and early autumn of Beijing./Appl Mete- rol Sci,2011,22(6):716 量机方法建立的时间序列预测模型，在具有足够时 (蒲维维，赵秀娟，张小玲.北京地区夏末秋初气象要素对间长度和样本数据的情况下，还可拓展其时间子序 P2.5污染的影响.应用气象学报，2011,22(6)：716) 列的窗宽，用于预测PM25的中长期变化趋势和 [10]Tian G.Fan S B,Huang Y H,et al.Relationship between wind 范围. velocity and PMo concentration&emission flux of fugitive dust (3)支持向量机核函数类型、核函数参数、惩罚 source.Enriron Sci,2008,29(10):2983 (田刚，樊守彬，黄玉虎，等.风速对人为扬尘源PM0排放参数以及模糊粒子隶属函数的确定和优选，对预测浓度和强度的影响.环境科学，2008,29(10)：2983) 模型的整体工作效率和预测结果有较大影响，当前 [11]MeKendry I.Evaluation of artificial neural networks for fine par- 对于函数类型及参数的选取缺乏统一、完善的理论 ticulate pollution (PMo and PM2s)forecasting.J Air Waste 依据，仍具有一定经验性，这需要从更复杂的信息中 Manage Assoc,2002,52(9)1096 进一步挖掘、研究和改进，使预测控制更具鲁棒性. [12]Kukkonen J,Partanen L,Karppinen A,et al.Extensive evalua- 而对于基于机理性的PM25质量浓度的精确建模，则 tion of neural network models for the prediction of NO,and PMjo concentrations,compared with a deterministic modelling system 需完整考虑PM25的准确来源及影响因素，通过更复 and measurements in central Helsinki.Atmos Environ,2003,37 杂的模型来进一步进行研究. (32):4539 [13]Shi L Z,Deng Q H,Lu C,et al.Prediction of PMjo mass con- centrations based on BP artificial neural network.Cent South 参考文献 Univ Sci Technol,2012,43 (5):1969 [Van Aaron D,Randall V M,Michael B,et al.Global estimates of (石灵芝，邓启红，路婵，等.基于BP人工神经网络的大气 ambient fine particulate matter concentrations from satellite-based 颗粒物PM。质量浓度预测.中南大学学报：自然科学版， aerosol optical depth:development and application.Enriron 2012,43(5):1969) Healh Perspect,2010,118(6):847 [14]Cortes C,Vapnik V.Support-vector networks.Mach Learn, Zhao X J,Pu WW,Meng W,et al.PM2s pollution and aerosol 1995,20(3):273 optical properties in fog and haze days during autumn and winter in [15]Keerthi S S,Lin C J.Asymptotic behavior of support vector ma- Beijing area.Enriron Sci,2013,34 (2):416 chines with Gaussian kemel.Neural Comput,2003,15(7): (赵秀娟，蒲维维，孟伟，等.北京地区秋季雾霾天PM25污染 1667 与气溶胶光学特征分析.环境科学，2013,34(2)：416) [16]Wang Q,Tian X M.Soft sensing based on fuzzy information B]Lu S L,Yao Z K,Chen X H,et al.The relationship between granulation.Trans Beijing Inst Technol,2012,32(9):955 physicochemical characterization and the potential toxicity of fine (王强，田学民。基于模糊信息粒化软测量建模方法研究 particulates (PM2s)in Shanghai atmosphere.Atmos Enriron, 北京理工大学学报，2012,32(9)：955) 2008,42(31):7205 [17]Zadeh L A.Fuzzy Sets and Information Granularity.Amsterdam: [4]Deng F R,Guo X B.Liu H,et al.Effects of dust storm PM2s on North Holland Publishing,1979:3 cell proliferation and cell cycle in human lung fibroblasts.Toxicol [18]Cao W G,Zhang W J.Study on determining method for parame- in Vitro,2007,21(4):632 ters of rock's shear strength based on asymmetric triangular fuzzy 5]Hussein T,Karppinen A,Kukkonen J,et al.Meteorological de- numbers.Chin J Rock Mech Eng,2007,26(7):1340 pendence of size-fractionated number concentrations of urban aero- (曹文贵，张文杰.。基于非对称三角模糊数的岩石抗剪强度 sol particles.Atmos Environ,2006,40(8):1427 参数确定方法研究.岩石力学与工程学报，2007,26(7)： [6]Wang Z J,Han L H,Chen X F,et al.Application advance re- 1340) view on the timeof-flight secondary ion mass spectrometry in the [19]Bargiela A,Pedrycz W.Granular Computing:an introduction. field of atmospheric aerosol.J Saf Enriron,2012,12(5):122 Dodrecht:Kluwer Academic Publishers,2003 (王志娟，韩力慧，陈旭锋，等.北京典型污染过程PM25的特 0]Pedryez W,Smith M H,Bargiela A.A granular signature of data 征和来源.安全与环境学报，2012,12(5)：122) /Proceedings of International Conference of North American Xu J,Ding G A,Yan P,et al.Componential characteristics and Fuzzy Information Processing Society.Atlanta,2000:69

第 12 期刘杰等: 模糊时序与支持向量机建模相结合的 PM2. 5质量浓度预测训练得出的 2013 年 3 月—2014 年 2 月四个季节 PM2. 5质量浓度时序预测模型，均取得了较为有效的预测结果，具有一定的参考意义． ( 2) 拟合结果表明，以季节变化和日变化划分的时间序列及子序列较为合理，根据三角形模糊粒子隶属函数所划分出的 L、Ｒ和 U 模糊粒子，拟合效果较好，由它们描述出的 PM2. 5 浓度变化趋势及范围，与实际情况基本相符，准确性较高．运用支持向量机方法建立的时间序列预测模型，在具有足够时间长度和样本数据的情况下，还可拓展其时间子序列的窗宽，用于预测 PM2. 5 的中长期变化趋势和范围． ( 3) 支持向量机核函数类型、核函数参数、惩罚参数以及模糊粒子隶属函数的确定和优选，对预测模型的整体工作效率和预测结果有较大影响，当前对于函数类型及参数的选取缺乏统一、完善的理论依据，仍具有一定经验性，这需要从更复杂的信息中进一步挖掘、研究和改进，使预测控制更具鲁棒性．而对于基于机理性的 PM2. 5质量浓度的精确建模，则需完整考虑 PM2. 5的准确来源及影响因素，通过更复杂的模型来进一步进行研究．参考文献［1］ Van Aaron D，Ｒandall V M，Michael B，et al． Global estimates of ambient fine particulate matter concentrations from satellite-based aerosol optical depth: development and application． Environ Health Perspect，2010，118( 6) : 847 ［2］ Zhao X J，Pu W W，Meng W，et al． PM2. 5 pollution and aerosol optical properties in fog and haze days during autumn and winter in Beijing area． Environ Sci，2013，34( 2) : 416 ( 赵秀娟，蒲维维，孟伟，等．北京地区秋季雾霾天 PM2. 5污染与气溶胶光学特征分析．环境科学，2013，34( 2) : 416) ［3］ Lu S L，Yao Z K，Chen X H，et al． The relationship between physicochemical characterization and the potential toxicity of fine particulates ( PM2. 5 ) in Shanghai atmosphere． Atmos Environ， 2008，42( 31) : 7205 ［4］ Deng F Ｒ，Guo X B，Liu H，et al． Effects of dust storm PM2. 5 on cell proliferation and cell cycle in human lung fibroblasts． Toxicol in Vitro，2007，21( 4) : 632 ［5］ Hussein T，Karppinen A，Kukkonen J，et al． Meteorological dependence of size-fractionated number concentrations of urban aerosol particles． Atmos Environ，2006，40( 8) : 1427 ［6］ Wang Z J，Han L H，Chen X F，et al． Application advance review on the time-of-flight secondary ion mass spectrometry in the field of atmospheric aerosol． J Saf Environ，2012，12( 5) : 122 ( 王志娟，韩力慧，陈旭锋，等．北京典型污染过程 PM2. 5的特征和来源．安全与环境学报，2012，12( 5) : 122) ［7］ Xu J，Ding G A，Yan P，et al． Componential characteristics and sources identification of PM2. 5 in Beijing． J Appl Meteorol Sci， 2007，18( 5) : 645 ( 徐敬，丁国安，颜鹏，等．北京地区 PM2. 5的成分特征及来源分析．应用气象学报，2007，18( 5) : 645) ［8］ Zhang Ｒ，Jing J，Tao J，et al． Chemical characterization and source apportionment of PM2. 5 in Beijing: seasonal perspective． Atmos Chem Phys，2013，13( 14) : 7053 ［9］ Pu W W，Zhao X J，Zhang X L． Effect of meteorological Factors on PM2. 5 in late summer and early autumn of Beijing． J Appl Meteorol Sci，2011，22( 6) : 716 ( 蒲维维，赵秀娟，张小玲．北京地区夏末秋初气象要素对 PM2. 5污染的影响．应用气象学报，2011，22( 6) : 716) ［10］ Tian G，Fan S B，Huang Y H，et al．Ｒelationship between wind velocity and PM10 concentration ＆ emission flux of fugitive dust source． Environ Sci，2008，29( 10) : 2983 ( 田刚，樊守彬，黄玉虎，等．风速对人为扬尘源 PM10 排放浓度和强度的影响．环境科学，2008，29( 10) : 2983) ［11］ McKendry I． Evaluation of artificial neural networks for fine particulate pollution ( PM10 and PM2. 5 ) forecasting． J Air Waste Manage Assoc，2002，52( 9) : 1096 ［12］ Kukkonen J，Partanen L，Karppinen A，et al． Extensive evaluation of neural network models for the prediction of NO2 and PM10 concentrations，compared with a deterministic modelling system and measurements in central Helsinki． Atmos Environ，2003，37 ( 32) : 4539 ［13］ Shi L Z，Deng Q H，Lu C，et al． Prediction of PM10 mass concentrations based on BP artificial neural network． J Cent South Univ Sci Technol，2012，43( 5) : 1969 ( 石灵芝，邓启红，路婵，等．基于 BP 人工神经网络的大气颗粒物 PM10 质量浓度预测．中南大学学报: 自然科学版， 2012，43( 5) : 1969) ［14］ Cortes C，Vapnik V． Support-vector networks． Mach Learn， 1995，20( 3) : 273 ［15］ Keerthi S S，Lin C J． Asymptotic behavior of support vector machines with Gaussian kernel． Neural Comput，2003，15 ( 7 ) : 1667 ［16］ Wang Q，Tian X M． Soft sensing based on fuzzy information granulation． Trans Beijing Inst Technol，2012，32( 9) : 955 ( 王强，田学民．基于模糊信息粒化软测量建模方法研究．北京理工大学学报，2012，32( 9) : 955) ［17］ Zadeh L A． Fuzzy Sets and Information Granularity． Amsterdam: North Holland Publishing，1979: 3 ［18］ Cao W G，Zhang W J． Study on determining method for parameters of rock's shear strength based on asymmetric triangular fuzzy numbers． Chin J Ｒock Mech Eng，2007，26( 7) : 1340 ( 曹文贵，张文杰．基于非对称三角模糊数的岩石抗剪强度参数确定方法研究．岩石力学与工程学报，2007，26 ( 7) : 1340) ［19］ Bargiela A，Pedrycz W． Granular Computing: an introduction． Dodrecht: Kluwer Academic Publishers，2003 ［20］ Pedrycz W，Smith M H，Bargiela A． A granular signature of data / / Proceedings of International Conference of North American Fuzzy Information Processing Society． Atlanta，2000: 69 · 1071 ·

·1702 北京科技大学学报第36卷 21]Brockwell P J,Davis R A.Introduction to Time Series and Fore- 6]Liu C B,Wang QF,Pan F.Parameters selection and stimulation casting.New York:Springer-Verlag Ine.2002 of support vector machines based on ant colony optimization algo- 22]Box G E P,Jenkins G M.Reinsel G C.Time Series Analysis: rithm.J Cent South Unis Sci Technol,2008,39(6)1309 Forecasting and Control.New Jersey:Prentice-Hall Ine.,1994 (刘春波，王群芳，潘丰。基于蚁群优化算法的支持向量机 23]Li X F,Chu J H,Yu L D,et al.Variational characteristics of 参数选择及仿真.中南大学学报：自然科学版，2008,39 PM2.s concentration in a monitoring site in Beijing urban area.J (6:1309) Beijing Norm Univ Nat Sci,2011,47(3):258 7]Rakotomamonjy A,Le RR,Gualandris D,et al.A comparison (李旭芳，初钧晗，于令达，等.北京市城区单监测点PM25 of statistical learning approaches for engine torque estimation 质量浓度变化特征.北京师范大学学报：自然科学版，2011， Control Eng Pract,2008,16(1)43 47(3):258) [28]Chen R,Sun D Y,Qin D T,et al.A novel engine identification 4]Liu Y J.Zhang MG,Zhang R J,et al.Concentration variance model based on support vector machine and analysis of precision- of suspended particles PM2 s and black carbon in 2009s spring of influencing factors.J Cent South Univ Sci Technol,2010,41 Beijing.China Pouder Sci Technol,2010,16(1):18 (4):1391 (刘艳菊，张美根，张仁健，等.2009年北京市春季大气颗 (陈然，孙冬野，秦大同，等.发动机支持向量机建模及精度粒物PM25和黑碳浓度变化特征.中国粉体技术，2010,16 影响因素.中南大学学报：自然科学版，2010,41(4)： (1):18) 1391) 5]Yu J H,Yu T,Wei Q.Characteristics of mass concentration var- 29]Ministry of Environmental Protection of China.The 12th Fire- iations of PMo and PM2s in Beijing area.Res Environ Sci, Year Environmental Monitoring Work Manual.Beijing:China 2004,17(1):45 Environmental Science Press,2012:292 (于建华，虞统，魏强.北京地区PMo和PM2质量浓度的变 (环境保护部环境监测司.“十二五”环境监测工作手册.北化特征.环境科学研究，2004,17(1)：45) 京：中国环境科学出版社，2012：292)

北京科技大学学报第 36 卷［21］ Brockwell P J，Davis Ｒ A． Introduction to Time Series and Forecasting． New York: Springer-Verlag Inc．，2002 ［22］ Box G E P，Jenkins G M，Ｒeinsel G C． Time Series Analysis: Forecasting and Control． New Jersey: Prentice-Hall Inc．，1994 ［23］ Li X F，Chu J H，Yu L D，et al． Variational characteristics of PM2. 5 concentration in a monitoring site in Beijing urban area． J Beijing Norm Univ Nat Sci，2011，47( 3) : 258 ( 李旭芳，初钧晗，于令达，等．北京市城区单监测点 PM2. 5 质量浓度变化特征．北京师范大学学报: 自然科学版，2011， 47( 3) : 258) ［24］ Liu Y J，Zhang M G，Zhang Ｒ J，et al． Concentration variance of suspended particles PM2. 5 and black carbon in 2009＇s spring of Beijing． China Powder Sci Technol，2010，16( 1) : 18 ( 刘艳菊，张美根，张仁健，等． 2009 年北京市春季大气颗粒物 PM2. 5和黑碳浓度变化特征．中国粉体技术，2010，16 ( 1) : 18) ［25］ Yu J H，Yu T，Wei Q． Characteristics of mass concentration variations of PM10 and PM2. 5 in Beijing area．Ｒes Environ Sci， 2004，17( 1) : 45 ( 于建华，虞统，魏强．北京地区 PM10和 PM2. 5质量浓度的变化特征．环境科学研究，2004，17( 1) : 45) ［26］ Liu C B，Wang Q F，Pan F． Parameters selection and stimulation of support vector machines based on ant colony optimization algorithm． J Cent South Univ Sci Technol，2008，39( 6) : 1309 ( 刘春波，王群芳，潘丰．基于蚁群优化算法的支持向量机参数选择及仿真．中南大学学报: 自然科学版，2008，39 ( 6) : 1309) ［27］Ｒakotomamonjy A，Le ＲＲ，Gualandris D，et al． A comparison of statistical learning approaches for engine torque estimation． Control Eng Pract，2008，16( 1) : 43 ［28］ Chen Ｒ，Sun D Y，Qin D T，et al． A novel engine identification model based on support vector machine and analysis of precisioninfluencing factors． J Cent South Univ Sci Technol，2010，41 ( 4) : 1391 ( 陈然，孙冬野，秦大同，等．发动机支持向量机建模及精度影响因素．中南大学学报: 自然科学版，2010，41 ( 4 ) : 1391) ［29］ Ministry of Environmental Protection of China． The 12th FiveYear Environmental Monitoring Work Manual． Beijing: China Environmental Science Press，2012: 292 ( 环境保护部环境监测司． “十二五”环境监测工作手册．北京: 中国环境科学出版社，2012: 292) · 2071 ·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录