《工程科学学报》：基于图像混合核的列生成PM2.5预测（北京工业大学、北京科技大学）

传统 PM2.5 预测方法获取污染物浓度数据需要大型精密仪器，成本较高. 本文尝试利用图像数据进行 PM2.5 浓度预测. 大气 PM2.5 浓度的变化与图像的暗通道强度、对比度和 HSI（Hue-saturation-intensity）颜色差异有密切联系. 大气中 PM2.5 浓度的升高会导致非天空区域的暗通道强度值下降，图像对比度下降和 HSI 空间颜色差异变小. 通过分析 PM2.5 浓度与图像特征的关系，提出了一种基于图像混合核的列生成空气质量 PM2.5 预测模型.

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：1.05MB

工程科学学报 Chinese Journal of Engineering 基于图像混合核的列生成PM25预测李晓理张博杨旭 Column-generation PM2s prediction based on image mixture kernel LI Xiao-li.ZHANG Bo.YANG Xu 引用本文：李晓理，张博，杨旭.基于图像混合核的列生成PM2s预测[.工程科学学报，2020,42(7)922-929.doi:10.13374.iss2095- 9389.2019.07.15.002 LI Xiao-li,ZHANG Bo,YANG Xu.Column-generation PM2s prediction based on image mixture kernel[J]Chinese Journal of Engineering,2020,42(7):922-929.doi:10.13374j.issn2095-9389.2019.07.15.002 在线阅读View online:htps:/ldoi.org/10.13374j.issn2095-9389.2019.07.15.002 您可能感兴趣的其他文章 Articles you may be interested in 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报.2019,41(3：401 https:1doi.org/10.13374.issn2095-9389.2019.03.014 基于IPSO-RELM转炉冶炼终点锰含量预测模型 Improved prediction model for BOF end-point manganese content based on IPSO-RELM method 工程科学学报.2019,41(8)：1052htps:1doi.org10.13374斩.issn2095-9389.2019.08.011 磁场形式及参数对单纤维捕集钢铁行业粉尘中PM,性能影响 Performance of single fibercollection PMunder different magnetic field forms in the irn and stee industry 工程科学学报.2020,42(2：154 https:/1doi.org/10.13374.issn2095-9389.2019.02.24.004 新型硬质合金微坑车刀切削能对比研究与预测 Performance comparison and prediction of cutting energy of new cemented carbide micro-pit turning tool 工程科学学报.2017,398)：1207 https:/1doi.org/10.13374.issn2095-9389.2017.08.010 无钟高炉炉料分布预测模型 Burden distribution prediction model in a blast furnace with bell-less top 工程科学学报.2017,392：276 https:oi.org/10.13374.issn2095-9389.2017.02.016 BP神经网络F钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报.2017,394：511 https::/1doi.org10.13374.issn2095-9389.2017.04.005

基于图像混合核的列生成PM2.5预测李晓理张博杨旭 Column-generation PM2.5 prediction based on image mixture kernel LI Xiao-li, ZHANG Bo, YANG Xu 引用本文: 李晓理, 张博, 杨旭. 基于图像混合核的列生成PM2.5预测[J]. 工程科学学报, 2020, 42(7): 922-929. doi: 10.13374/j.issn2095- 9389.2019.07.15.002 LI Xiao-li, ZHANG Bo, YANG Xu. Column-generation PM2.5 prediction based on image mixture kernel[J]. Chinese Journal of Engineering, 2020, 42(7): 922-929. doi: 10.13374/j.issn2095-9389.2019.07.15.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.07.15.002 您可能感兴趣的其他文章 Articles you may be interested in 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报. 2019, 41(3): 401 https://doi.org/10.13374/j.issn2095-9389.2019.03.014 基于IPSO-RELM转炉冶炼终点锰含量预测模型 Improved prediction model for BOF end-point manganese content based on IPSO-RELM method 工程科学学报. 2019, 41(8): 1052 https://doi.org/10.13374/j.issn2095-9389.2019.08.011 磁场形式及参数对单纤维捕集钢铁行业粉尘中PM2.5性能影响 Performance of single fiber collection PM2.5 under different magnetic field forms in the iron and steel industry 工程科学学报. 2020, 42(2): 154 https://doi.org/10.13374/j.issn2095-9389.2019.02.24.004 新型硬质合金微坑车刀切削能对比研究与预测 Performance comparison and prediction of cutting energy of new cemented carbide micro-pit turning tool 工程科学学报. 2017, 39(8): 1207 https://doi.org/10.13374/j.issn2095-9389.2017.08.010 无钟高炉炉料分布预测模型 Burden distribution prediction model in a blast furnace with bell-less top 工程科学学报. 2017, 39(2): 276 https://doi.org/10.13374/j.issn2095-9389.2017.02.016 BP神经网络IF钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报. 2017, 39(4): 511 https://doi.org/10.13374/j.issn2095-9389.2017.04.005

工程科学学报.第42卷.第7期：922-929.2020年7月 Chinese Journal of Engineering,Vol.42,No.7:922-929,July 2020 https://doi.org/10.13374/j.issn2095-9389.2019.07.15.002;http://cje.ustb.edu.cn 基于图像混合核的列生成PM25预测李晓理2,3，，张博)，杨旭)区 1)北京工业大学信息学部，北京1001242)计算智能与智能系统北京市重点实验室，北京1001243)数字社区教育部工程研究中心，北京1001244)北京未来网络科技高精尖创新中心，北京1001245)北京科技大学自动化学院，北京100083 ☒通信作者，E-mail:yangxu@ustb.edu.cn 摘要传统PM25预测方法获取污染物浓度数据需要大型精密仪器，成本较高.本文尝试利用图像数据进行PM25浓度预测.大气PM2s浓度的变化与图像的暗通道强度、对比度和HSI(Hue-saturation--intensity)颜色差异有密切联系.大气中 PM25浓度的升高会导致非天空区域的暗通道强度值下降，图像对比度下降和HSI空间颜色差异变小.通过分析PM25浓度与图像特征的关系，提出了一种基于图像混合核的列生成空气质量PM2预测模型.首先，以1h为采样周期，每日 8:00~17:00为采样范围，采集多种天气条件下的景物图像，提取图像的对比度、暗通道强度和HSI颜色差异共5个图像特征.其次，数据存在样本规模大、样本不平坦分布等特点，单个核函数构成的预测模型难以满足预测精度需求，因此本文按照核结构从简单到复杂的原则，选择线性核函数、多项式核函数和高斯核函数三种核函数建立组合模型.然后计算每个核基于训练样本的Gram矩阵.并将所有Gram矩阵并列成一个混合核矩阵.利用列生成算法和混合核矩阵建立预测模型，求解模型参数.最后，进行仿真实验，实验结果表明本文提出的可满足预测精度要求，与单核预测模型相比，该预测模型预测精度更高，模型稳定性更好.计算复杂度分析结果显示基于图像混合核的列生成模型与单核预测模型相比计算量无明显增加关键词PM25预测；混合核函数；列生成算法；图像特征；预测模型分类号TP181 Column-generation PM25 prediction based on image mixture kernel LI Xiao-li2,ZHANG Bo,YANG Xu) 1)Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China 2)Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124,China 3)Engineering Research Center of Digital Community,Beijing 100124,China 4)Beijing Future Network Science and Technology Innovation Center,Beijing 100124,China 5)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:yangxu@ustb.edu.cn ABSTRACT The conventional method of PM2s prediction requires high-precision instruments to obtain data on the concentration of pollutants,resulting in a high prediction costs.In this work,we attempt to use image data to estimate PM2s concentration.The concentration of atmospheric PM2 is closely linked to the image's dark channel intensity,contrast,and color difference of HSI.The increase in atmospheric PM2s concentration leads to a decrease in the non-sky area dark channel intensity,image contrast,and HSI spatial color difference.In this paper,a Column-Generation PM2s prediction model based on image mixture kernel was proposed by analyzing the relationship between PM2s and image features.First,the sampling period was taken as 1 h,and 8:00-17:00 was taken as the sampling range daily.The scene images were recorded in different weather conditions,and five image features were extracted, 收稿日期：2019-07-15 基金项目：国家自然科学基金资助项目(61873006,61473034,61673053)：北京市科学重大专项资助项目(Z181100003118012):国家重点研发计划资助项目(2018YFC1602704.2018YFB1702704)

基于图像混合核的列生成 PM2.5 预测李晓理1,2,3,4)，张博1)，杨旭5) 苣 1) 北京工业大学信息学部，北京 100124 2) 计算智能与智能系统北京市重点实验室，北京 100124 3) 数字社区教育部工程研究中心，北京 100124 4) 北京未来网络科技高精尖创新中心，北京 100124 5) 北京科技大学自动化学院，北京 100083 苣通信作者，E-mail：yangxu@ustb.edu.cn 摘要传统 PM2.5 预测方法获取污染物浓度数据需要大型精密仪器，成本较高. 本文尝试利用图像数据进行 PM2.5 浓度预测. 大气 PM2.5 浓度的变化与图像的暗通道强度、对比度和 HSI（Hue-saturation-intensity）颜色差异有密切联系. 大气中 PM2.5 浓度的升高会导致非天空区域的暗通道强度值下降，图像对比度下降和 HSI 空间颜色差异变小. 通过分析 PM2.5 浓度与图像特征的关系，提出了一种基于图像混合核的列生成空气质量 PM2.5 预测模型. 首先，以 1 h 为采样周期，每日 8:00～17:00 为采样范围，采集多种天气条件下的景物图像，提取图像的对比度、暗通道强度和 HSI 颜色差异共 5 个图像特征. 其次，数据存在样本规模大、样本不平坦分布等特点，单个核函数构成的预测模型难以满足预测精度需求，因此本文按照核结构从简单到复杂的原则，选择线性核函数、多项式核函数和高斯核函数三种核函数建立组合模型. 然后计算每个核基于训练样本的 Gram 矩阵，并将所有 Gram 矩阵并列成一个混合核矩阵. 利用列生成算法和混合核矩阵建立预测模型，求解模型参数. 最后，进行仿真实验，实验结果表明本文提出的可满足预测精度要求，与单核预测模型相比，该预测模型预测精度更高，模型稳定性更好. 计算复杂度分析结果显示基于图像混合核的列生成模型与单核预测模型相比计算量无明显增加. 关键词 PM2.5 预测；混合核函数；列生成算法；图像特征；预测模型分类号 TP181 Column-generation PM2.5 prediction based on image mixture kernel LI Xiao-li1,2,3,4) ，ZHANG Bo1) ，YANG Xu5) 苣 1) Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China 2) Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124, China 3) Engineering Research Center of Digital Community, Beijing 100124, China 4) Beijing Future Network Science and Technology Innovation Center, Beijing 100124, China 5) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: yangxu@ustb.edu.cn ABSTRACT The conventional method of PM2.5 prediction requires high-precision instruments to obtain data on the concentration of pollutants, resulting in a high prediction costs. In this work, we attempt to use image data to estimate PM2.5 concentration. The concentration of atmospheric PM2.5 is closely linked to the image ’s dark channel intensity, contrast, and color difference of HSI. The increase in atmospheric PM2.5 concentration leads to a decrease in the non-sky area dark channel intensity, image contrast, and HSI spatial color difference. In this paper, a Column-Generation PM2.5 prediction model based on image mixture kernel was proposed by analyzing the relationship between PM2.5 and image features. First, the sampling period was taken as 1 h, and 8:00–17:00 was taken as the sampling range daily. The scene images were recorded in different weather conditions, and five image features were extracted, 收稿日期: 2019−07−15 基金项目: 国家自然科学基金资助项目（61873006，61473034，61673053）；北京市科学重大专项资助项目（Z181100003118012）；国家重点研发计划资助项目（2018YFC1602704，2018YFB1702704）工程科学学报，第 42 卷，第 7 期：922−929，2020 年 7 月 Chinese Journal of Engineering, Vol. 42, No. 7: 922−929, July 2020 https://doi.org/10.13374/j.issn2095-9389.2019.07.15.002; http://cje.ustb.edu.cn

李晓理等：基于图像混合核的列生成PM,预测 ·923· including contrast,dark channel intensity,and HSI color difference.Secondly,the image data has the characteristics of large sample size and uneven distribution,and the prediction model consists of a single kernel function,which makes it difficult to meet the prediction accuracy requirement.Therefore,the linear kernel function,polynomial kernel function,and Gauss kernel function were chosen to construct a composite model according to the concept of kernel structure from simple to complex.Then each kernel's Gram matrix was calculated based on training samples,and all gram matrices were placed into a mixture kernel matrix.Using the column generation algorithm and mixture kemnel matrix,the prediction model was developed and the parameters of the model were solved.Finally, simulation experiments were performed;the results show that the prediction model based on the image mixture kernel of Column- Generation PM2s can meet the prediction accuracy requirements.The model has higher prediction accuracy and better model stability in comparison with the single-kernel prediction model.A computational complexity analysis shows that the prediction model based on the image mixture kernel of column-generation PM2s has no significant increase in computational complexity in comparison with the one- kernel prediction model. KEY WORDS PM,s prediction;mixed kernel function;column generation algorithm;image feature;prediction model 伴随着雾霾在全国各地出现的频率越来越的预测结果高，环境问题越来越引起人们的关注，尤其以京津也有学者利用图像对PM25进行预测.文献[) 冀地区最为明显.PM25是造成雾霾的主要因素，利用大量室外图像，结合太阳位置、日期、时间、其在空气中滞留时间长，通过对太阳光的吸收、散地理信息、天气条件等相关数据对PM2s进行预射或反射，降低环境可见度；PM2s颗粒被吸入人测，该方法避免了大气测量装置的限制，为预测体后，会渗透到肺部组织，引发支气管炎等疾病， PM2s提供了一种更为便捷的方式.文献[8]以手对人体健康造成危害.加强大气环境污染控制已机照片为数据源，对良好天气下空间域和变换域成为亟待解决的问题，通过对PM25预测，可以为的图像嫡值建立自然度统计模型，通过计算污染环境治理和人们健康出行提供准确的环境质量信图像的嫡值的偏差度对PM25进行预测.文献[9) 息，有助于减轻环境污染对群众造成的危害. 对不同天气条件下的照片质量进行分析建模，通近年来，国内外学者都对PM2.5预测方法进行过提取PM2.5浓度相关的特征建立粒子群优化的了卓有成效的研究.文献[】基于单时间序列模型，将支持向量回归模型，实现了良好的预测效果动态指数平滑法和动态马尔科夫模型相结合，通鉴于大气环境复杂多变，PM25预测中需要考过PM25历史数据预先确定算法的最优参数，对虑的因素较多，本文在上述研究的基础上，提出了 PM25进行动态预测，并验证了模型的有效性.文一种基于图像混合核的列生成PM,5预测方法.该献2]通过构建空间平滑核，对梯度增强算法进行改方法通过分析图像变化与PM25浓度的关系，提取进，有效解决了PM25浓度与气溶胶光学深度、气象图像特征，并利用相关性分析完成特征选择.将图条件等预测变量之间的空间非平稳性，对日PM2.5 像特征经混合核映射到高维线性空间，有效避免进行预测.文献[3]提出了一种基于主成分分析和了单核函数选取不当造成的影响.最后使用列生最小二乘支持向量机的杜鹃搜索混合模型，并将模成方法来求解模型参数，保证了解的稀疏性和精型的预测效果与广义回归神经网络模型作对比，效确性，实现了对PM25的有效预测果更优.文献[4]提取大气温度、湿度和风速3个特 1问题描述与数学基础知识征，训练长短期记忆模型对1h后的PM25污染等级进行预测，证明了PM25污染与周边地区的气象条 1.1问题描述件有密切联系.文献[⑤]利用随机数据分析方法，在 PM2s指空气动力学当量直径小于等于2.5m 多变量系统中选择与PM25相关的随机变量，作为的悬浮物颗粒，会对可见光产生明显的散射作用神经网络的输入，实现了空气质量预测.文献【6]建大气中PM25浓度的变化会使图像呈现不同的对立基于互补集合经验模态分解和支持向量回归的混比度、暗通道强度、可见度等特征信息，这使得利合预测模型.对PM25质量浓度的原始时间序列进用图像实现PM2.5预测成为可能行分解，得到若干具有不同时间尺度的相对平稳分 1.2数学基础知识量，采用SVR算法对各个分量分别进行预测，求出本文采用了基于图像混合核的列生成方法研各个分量的预测值之和，作为原始PM25质量浓度究了PM2s预测问题，为了更好地介绍理论的原

including contrast, dark channel intensity, and HSI color difference. Secondly, the image data has the characteristics of large sample size and uneven distribution, and the prediction model consists of a single kernel function, which makes it difficult to meet the prediction accuracy requirement. Therefore, the linear kernel function, polynomial kernel function, and Gauss kernel function were chosen to construct a composite model according to the concept of kernel structure from simple to complex. Then each kernel's Gram matrix was calculated based on training samples, and all gram matrices were placed into a mixture kernel matrix. Using the column generation algorithm and mixture kernel matrix, the prediction model was developed and the parameters of the model were solved. Finally, simulation experiments were performed; the results show that the prediction model based on the image mixture kernel of ColumnGeneration PM2.5 can meet the prediction accuracy requirements. The model has higher prediction accuracy and better model stability in comparison with the single-kernel prediction model. A computational complexity analysis shows that the prediction model based on the image mixture kernel of column-generation PM2.5 has no significant increase in computational complexity in comparison with the onekernel prediction model. KEY WORDS PM2.5 prediction；mixed kernel function；column generation algorithm；image feature；prediction model 伴随着雾霾在全国各地出现的频率越来越高，环境问题越来越引起人们的关注，尤其以京津冀地区最为明显. PM2.5 是造成雾霾的主要因素，其在空气中滞留时间长，通过对太阳光的吸收、散射或反射，降低环境可见度；PM2.5 颗粒被吸入人体后，会渗透到肺部组织，引发支气管炎等疾病，对人体健康造成危害. 加强大气环境污染控制已成为亟待解决的问题，通过对 PM2.5 预测，可以为环境治理和人们健康出行提供准确的环境质量信息，有助于减轻环境污染对群众造成的危害. 近年来，国内外学者都对 PM2.5 预测方法进行了卓有成效的研究. 文献 [1] 基于单时间序列模型，将动态指数平滑法和动态马尔科夫模型相结合，通过 PM2.5 历史数据预先确定算法的最优参数，对 PM2.5 进行动态预测，并验证了模型的有效性. 文献 [2] 通过构建空间平滑核，对梯度增强算法进行改进,有效解决了 PM2.5 浓度与气溶胶光学深度、气象条件等预测变量之间的空间非平稳性，对日 PM2.5 进行预测. 文献 [3] 提出了一种基于主成分分析和最小二乘支持向量机的杜鹃搜索混合模型，并将模型的预测效果与广义回归神经网络模型作对比，效果更优. 文献 [4] 提取大气温度、湿度和风速 3 个特征，训练长短期记忆模型对 1 h 后的 PM2.5 污染等级进行预测，证明了 PM2.5 污染与周边地区的气象条件有密切联系. 文献 [5] 利用随机数据分析方法，在多变量系统中选择与 PM2.5 相关的随机变量，作为神经网络的输入，实现了空气质量预测. 文献 [6] 建立基于互补集合经验模态分解和支持向量回归的混合预测模型. 对 PM2.5 质量浓度的原始时间序列进行分解，得到若干具有不同时间尺度的相对平稳分量，采用 SVR 算法对各个分量分别进行预测，求出各个分量的预测值之和，作为原始 PM2.5 质量浓度的预测结果. 也有学者利用图像对 PM2.5 进行预测. 文献 [7] 利用大量室外图像，结合太阳位置、日期、时间、地理信息、天气条件等相关数据对 PM2.5 进行预测，该方法避免了大气测量装置的限制，为预测 PM2.5 提供了一种更为便捷的方式. 文献 [8] 以手机照片为数据源，对良好天气下空间域和变换域的图像熵值建立自然度统计模型，通过计算污染图像的熵值的偏差度对 PM2.5 进行预测. 文献 [9] 对不同天气条件下的照片质量进行分析建模，通过提取 PM2.5 浓度相关的特征建立粒子群优化的支持向量回归模型，实现了良好的预测效果. 鉴于大气环境复杂多变，PM2.5 预测中需要考虑的因素较多，本文在上述研究的基础上，提出了一种基于图像混合核的列生成 PM2.5 预测方法. 该方法通过分析图像变化与 PM2.5 浓度的关系，提取图像特征，并利用相关性分析完成特征选择. 将图像特征经混合核映射到高维线性空间，有效避免了单核函数选取不当造成的影响. 最后使用列生成方法来求解模型参数，保证了解的稀疏性和精确性，实现了对 PM2.5 的有效预测. 1 问题描述与数学基础知识 1.1 问题描述 PM2.5 指空气动力学当量直径小于等于 2.5 μm 的悬浮物颗粒，会对可见光产生明显的散射作用. 大气中 PM2.5 浓度的变化会使图像呈现不同的对比度、暗通道强度、可见度等特征信息，这使得利用图像实现 PM2.5 预测成为可能. 1.2 数学基础知识本文采用了基于图像混合核的列生成方法研究了 PM2.5 预测问题，为了更好地介绍理论的原李晓理等：基于图像混合核的列生成 PM2.5 预测 · 923 ·

924 工程科学学报，第42卷，第7期理，下面对方法中需要用到的一些数学基础知识以获得最优解进行简单地说明基于决策函数(5)，重写文献[13]中的线性列 1.2.1混合核生成增强算法，使用2范数正则化构建如下凸二核方法被证明了是解决许多应用中推理问题次规划问题：的有效方法.通过引入正半定核，可以使用线性 1 学习算法创建非线性模型.给定观测样本(x1, mina.2 y1),(x2,2),…,(x,y》∈X×Y.其中输入空间XeR, d (6) 输出空间Y∈R(回归问题)，通过非线性映射： S.t. y〉Kij+≥1,5i≥0，i=1,…,l Φ：X→F x→(x) (1) a≥0，j=1,…,d 把输入数据映射到一个新的特征空间F={(xx∈X, 求得其对偶问题为： d 其中F∈R”,原问题转化为： maxuming 1 i2 {(x1)y),(p(x2)y2),…,(x,ym}eF×Y（2) (7) 在满足Mercer条件情况下，一定存在一个特征空 s.t. uiyiKii≤aj,j=1,…,d, 间F和一个映射Φ：X→F,使得 i=I k(x,z）=x)Xz) 0≤h≤C,i=1,…,1 (3) 求解式(6)和(7)的最优解为(@，，)，根据文 k(x,z)即为核函数. 献[13引，验证如下问题：核函数有两种主要的类型：全局核函数和局部核函数，局部性核函数学习能力强、泛化性能较 T=max∑y,K (8) 弱，而全局性核函数泛化性能强、学习能力较弱， j 式中，遍历核矩阵中的所有列.列生成算法将因此考虑把这两类核函数混合起来构成混合核函列系数α分为两部分，使用启发式算法选出的一部数.对文献[10]中混合核函数的形式进行扩展得，. 分W用于训练模型，未选中的部分N作为备选，假到多核混合核函数的形式为k(x,)= 设未选中的部分αW=0,通过求解式(6)和(7)得当其中k(x,z)为单核函数，p是对应的核函数编号，前最优解得a",则d=(a",=0).经文献[14证 4p为组合系数.由SVM决策函数可知，混合核函明，（位，，）是原始-对偶问题的当前最优解，如果数的决策函数为：对于所有的jEN∑K≤0，则位，店即为满足 =1 (4) KKT条件的全局最优解.对于线性列生成增强模式中，α是模型参数，x是第个输入向量.本文中，型，每次选择N中使∑K,最大的列K加入到约 i=l 不单独计算每个核矩阵（核对样本的Gram矩阵），束问题中而是采用混合模型，其决策函数为：将列生成增强算法推广到解决具有不敏感参 f=∑∑k,x》数s的损失函数maxy-fx川-s,0的回归问题， (5) j=1p= 模型的下限约束α>0为非必需条件，所以在原模 1.22列生成型中去除下限约束.为了构建回归模型，本文将偏离真实值至少ε的点作为误差点.使用2范数正则列生成算法是用于求解大型线性规划问题的一种重要方法.在原始问题中，列生成算法并不是化，对应的凸二次规划问题为： d 一次性求解出所有参数心，而是选取混合核矩阵 mina2Z a+C(⑤+m) K(构造方法在第4章介绍)的列子集并求解对应的α的最优解四.根据拉格朗日对偶性，通过求 S.t. Kjj+≥7-e,i=1,…,l 解对偶问题可得到原始问题的最优解.原始问题 (9) 的每一列对应于对偶问题的一个约束，当约束问 K+i≥-%-e,i=1,…, 题的解违反对偶问题中不存在的约束时，则需将台该约束（原始问题中的一列）添加到约束问题中， 5≥0，≥0，i=1,…,1

理，下面对方法中需要用到的一些数学基础知识进行简单地说明. 1.2.1 混合核 K {(x1, y1),(x2, y2),··· ,(xl , yl)} ∈ X×Y X ∈ R n Y ∈ R 核方法被证明了是解决许多应用中推理问题的有效方法. 通过引入正半定核，可以使用线性学习算法创建非线性模型. 给定观测样本 . 其中输入空间，输出空间（回归问题），通过非线性映射： Φ : X → F x 7→ Φ(x) （1） F = {Φ(x)|x ∈ X} F ∈ R n 把输入数据映射到一个新的特征空间，其中，原问题转化为： {(Φ(x1), y1),(Φ(x2), y2),··· ,(Φ(xl), yl)} ∈ F×Y （2） F Φ : X → F 在满足 Mercer 条件情况下，一定存在一个特征空间和一个映射，使得 k(x,z) = Φ(x)×Φ(z) （3） k(x,z) 即为核函数. k(x,z) = ∑ P p=1 µpkp(x,z) kp (x,z) p µp 核函数有两种主要的类型：全局核函数和局部核函数，局部性核函数学习能力强、泛化性能较弱，而全局性核函数泛化性能强、学习能力较弱，因此考虑把这两类核函数混合起来构成混合核函数. 对文献 [10] 中混合核函数的形式进行扩展得到多核混合核函数的形式为，其中为单核函数，是对应的核函数编号，为组合系数. 由 SVM 决策函数可知，混合核函数的决策函数为： f(x) = ∑ l j=1 αj (∑ p µpkp(x, xj) ) （4） α xj 式中，是模型参数，是第 j 个输入向量. 本文中，不单独计算每个核矩阵（核对样本的 Gram 矩阵），而是采用混合模型，其决策函数为： f(x) = ∑ l j=1 ∑ P p=1 α p j kp(x, xj) （5） 1.2.2 列生成 α K α 列生成算法是用于求解大型线性规划问题的一种重要方法. 在原始问题中，列生成算法并不是一次性求解出所有参数，而是选取混合核矩阵（构造方法在第 4 章介绍）的列子集并求解对应的的最优解[11] . 根据拉格朗日对偶性[12] ，通过求解对偶问题可得到原始问题的最优解. 原始问题的每一列对应于对偶问题的一个约束，当约束问题的解违反对偶问题中不存在的约束时，则需将该约束（原始问题中的一列）添加到约束问题中，以获得最优解. 基于决策函数（5），重写文献 [13] 中的线性列生成增强算法，使用 2 范数正则化构建如下凸二次规划问题： minα,ξ 1 2 ∑ d j=1 α 2 j +C ∑ l i=1 ξi s.t. yi ∑ d j=1 Ki jαj +ξi ⩾ 1, ξi ⩾ 0,i = 1,··· ,l, αi ⩾ 0, j = 1,··· ,d （6）求得其对偶问题为： maxuminα ∑ l i=1 ui − 1 2 ∑ d j=1 α 2 j s.t. ∑ l i=1 uiyiKi j ⩽ αj , j = 1,··· ,d, 0 ⩽ ui ⩽ C,i = 1,··· ,l （7） (αˆ,ξˆ 求解式（6）和（7）的最优解为 ,uˆ) ，根据文献 [13]，验证如下问题： τ = max j ∑ l i=1 uˆiyiKi j （8） j K α W N α N = 0 α W αˆ= (α W ,α N= 0) (αˆ,ξˆ,uˆ) j ∈ N, ∑ l i=1 uiyiKi j ⩽ 0 (αˆ,ξˆ,uˆ) N ∑ l i=1 uiyiKi j K· j 式中，遍历核矩阵中的所有列. 列生成算法将列系数分为两部分，使用启发式算法选出的一部分用于训练模型，未选中的部分作为备选，假设未选中的部分，通过求解式（6）和（7）得当前最优解得，则 . 经文献 [14] 证明，是原始–对偶问题的当前最优解，如果对于所有的，则即为满足 KKT 条件的全局最优解. 对于线性列生成增强模型，每次选择中使最大的列加入到约束问题中. ε max{|y− f(x)|−ε,0} α > 0 ε 将列生成增强算法推广到解决具有不敏感参数的损失函数的回归问题[15] ，模型的下限约束为非必需条件，所以在原模型中去除下限约束. 为了构建回归模型，本文将偏离真实值至少的点作为误差点. 使用 2 范数正则化，对应的凸二次规划问题为： minα,ξ,η 1 2 ∑ d j=1 α 2 j +C ∑ l i=1 (ξi +ηi) s.t. ∑ l i=1 Ki jαj +ξi ⩾ yi −ε,i = 1,··· ,l, − ∑ l i=1 Ki jαj +ηi ⩾ −yi −ε,i = 1,··· ,l, ξi ⩾ 0,ηi ⩾ 0,i = 1,··· ,l. （9） · 924 · 工程科学学报，第 42 卷，第 7 期

李晓理等：基于图像混合核的列生成PM25预测 925· 设，为拉格朗日乘子，则原始问题(9)的对将式(14)和(15)代入大气透射模型中，得：偶问题为： t(x)=1-minmin y) EQ(x)C Ac (16) maxuy mina 式中，A为大气光，因此将(x)选为特征Fia 2.1.3HSI颜色差异(Fh,Fis,F) s.t ==a 根据Kim等的研究2o,天空在HSI颜色空间 (10) 中颜色差异与大气消光bx存在指数关系，可表示同理，求解如下问题：为：bet=aeAD,式中a和b为模型参数，△D用来描述HSI空间中的差异.由于很难获取bext中在HSI r max (11) 三部分的影响参数，因此使用三部分在H$I颜色 jEN 空间的差异值作为特征，定义如下：解为K;经文献[14)证明，若π=0，则当前最优解 (@,,,i,)即为回归问题的全局最优解，否则，将之Vdaw2+y2 Fih=- 15 K;加入到约束问题中去 y=1x=1 (17) dh(x)=In(x,y)-In(x+1,y) 2图像特征提取与相关性分析 d(y)=h(xy)-n(x.y+1) 式中，1是输入图像，其像素为m*n,h(x,y)是像素空气中的雾霾会对图像造成严重的影响，会点(，y)的h值.同样，Fs和F定义如下：导致图像的一些特征值变低，尤其会影响图像的 1 对比度、视见度、暗通道强度等本文提取多个 Vd.(x)2+d(y)2 (18) 与雾霾相关的图像特征，并将图像特征与PM25值做相关性分析完成特征选择 Fi=-1 Vdi(x)2+dicy)2 (19) 2.1特征提取 y=l x=l 本节提取与PM2.5浓度相关的空间对比度、非天 2.2相关性分析空区域的暗通道强度、HSI空间颜色差异等特征. 采用皮尔逊相关系数对图像特征进行相关性 2.1.1空间对比度(Fg) 计算.皮尔逊相关系数广泛用于度量两个变量之大气透射是指光线从场景辐射到观察者时，间的相关程度，其值介于-1与1之间.其中1表示减去空气中颗粒物等的折射剩余的部分，是一个完全正相关.其形式如下： 0到1之间的标量.根据大气透射模型，大气光的消光与透射率呈反比关系，两者满足如下公式： (X-)Y-) 1(x)=exp-bexr() (12) (20) 式中，bex是消光系数，r(x)是光的传输距离.根据 -2 文献[18：特征与PM25浓度值相关性越强，该特征越能 VI()=1(x)VxJ() (13) 表示图像的信息.当两组数据相关性系数大于定义空间对比度Fig为：Fg=Vxl(x 0.6时，可认为两组数据相关性较强，当相关性系 2.1.2暗通道强度(Fid) 数小于0.6时认为两组数据相关性较弱.因此，本图像的暗通道强度定义为：文选择与PM25相关性系数绝对值大于0.6的特征 Jark(闭）=f (14) 作为最终模型训练特征. 式中，2(x)是以像素x为中心的分块，J为场景辐射 3基于图像混合核的列生成PM2s预测光，J“表示其中一个颜色通道.从式中可以看出， PM,5浓度变化主要影响图像对比度、非天空给定像素的暗通道强度值为该分块三颜色同道中区域的暗通道强度、HSI空间颜色差异.由于图像的最小值.大量无雾霾图像的先验知识表明，无雾特征与PM2s浓度呈非线性关系，考虑到普通核霾图像的暗通道强度值为0，即：函数各有利弊，为了得到学习能力和泛化能力都 Jark→0 (15) 很强的核函数，采用混合核的方法建立图像特征

设ui，vi 为拉格朗日乘子，则原始问题（9）的对偶问题为： maxu,v minα 1 2 ∑ d j=1 α 2 j + ∑ l i=1 (ui −vi)yi − ∑ l i=1 (ui +vi)ε s.t. ∑ l i=1 (ui −vi)Ki j = αj （10）同理，求解如下问题： τ = max j∈N ∑ l i=1 ( ˆui −vˆi)Ki j （11） K· ˆj τ = 0 (αˆ,ξˆ,ηˆ,uˆ, vˆ) K· ˆj 解为 . 经文献 [14] 证明，若，则当前最优解即为回归问题的全局最优解，否则，将加入到约束问题中去. 2 图像特征提取与相关性分析空气中的雾霾会对图像造成严重的影响，会导致图像的一些特征值变低，尤其会影响图像的对比度、视见度、暗通道强度等[16] . 本文提取多个与雾霾相关的图像特征，并将图像特征与 PM2.5 值做相关性分析完成特征选择. 2.1 特征提取本节提取与 PM2.5 浓度相关的空间对比度、非天空区域的暗通道强度、HSI 空间颜色差异等特征. 2.1.1 空间对比度（ Fig ）大气透射是指光线从场景辐射到观察者时，减去空气中颗粒物等的折射剩余的部分，是一个 0 到 1 之间的标量. 根据大气透射模型，大气光的消光与透射率呈反比关系，两者满足如下公式[17] ： t(x) = exp−bextr(x) （12）式中， bext是消光系数，r(x) 是光的传输距离. 根据文献 [18]： |∇xI(x)| = t(x)|∇x J(x)| （13）定义空间对比度 Fig 为： Fig = |∇xI(x)|. 2.1.2 暗通道强度（ Fid ）图像的暗通道强度定义为[19] ： Jdark(x) = min y∈Ω(x) { min c∈{r,g,b} J c (y) } （14） Ω(x) x J J c 式中，是以像素为中心的分块，为场景辐射光，表示其中一个颜色通道. 从式中可以看出，给定像素的暗通道强度值为该分块三颜色同道中的最小值. 大量无雾霾图像的先验知识表明，无雾霾图像的暗通道强度值为 0，即： Jdark → 0 （15）将式（14）和（15）代入大气透射模型中，得： t(x) = 1− min y∈Ω(x) { min c I c (y) Ac } （16） A c 式中，为大气光，因此将 t(x) 选为特征 Fid. 2.1.3 HSI 颜色差异（ Fih，Fis，Fii ） bext bext = aeb∆D a b ∆D bext 根据 Kim 等的研究[20] ，天空在 HSI 颜色空间中颜色差异与大气消光存在指数关系，可表示为：，式中和为模型参数，用来描述 HSI 空间中的差异. 由于很难获取中在 HSI 三部分的影响参数，因此使用三部分在 HSI 颜色空间的差异值作为特征，定义如下： Fih = 1 m∗ n ∑n y=1 ∑m x=1 √ dh(x) 2 +dh(y)2 dh(x) = Ih(x, y)− Ih(x+1, y) dh(y) = Ih(x, y)− Ih(x, y+1) （17） I m∗ n Ih(x, y) (x, y) h Fis Fii 式中，是输入图像，其像素为，是像素点的值. 同样，和定义如下： Fis = 1 m∗ n ∑n y=1 ∑m x=1 √ ds(x) 2 +ds(y) 2 （18） Fii = 1 m∗ n ∑n y=1 ∑m x=1 √ di(x) 2 +di(y) 2 （19） 2.2 相关性分析采用皮尔逊相关系数对图像特征进行相关性计算. 皮尔逊相关系数广泛用于度量两个变量之间的相关程度，其值介于–1 与 1 之间，其中 1 表示完全正相关. 其形式如下： r = ∑n i=1 (Xi − X¯)(Yi −Y¯) vt∑n i=1 (Xi − X¯) 2 vt∑n i=1 (Yi −Y¯) 2 （20）特征与 PM2.5 浓度值相关性越强，该特征越能表示图像的信息. 当两组数据相关性系数大于 0.6 时，可认为两组数据相关性较强，当相关性系数小于 0.6 时认为两组数据相关性较弱. 因此，本文选择与 PM2.5 相关性系数绝对值大于 0.6 的特征作为最终模型训练特征. 3 基于图像混合核的列生成 PM2.5 预测 PM2.5 浓度变化主要影响图像对比度、非天空区域的暗通道强度、HSI 空间颜色差异. 由于图像特征与 PM2.5 浓度呈非线性关系[21] ，考虑到普通核函数各有利弊，为了得到学习能力和泛化能力都很强的核函数，采用混合核的方法建立图像特征李晓理等：基于图像混合核的列生成 PM2.5 预测 · 925 ·

926 工程科学学报，第42卷，第7期值与PM2s浓度之间的关系方程，并利用列生成算核矩阵利用列生成算法求解模型参数.实验中，法求解方程参数 L,PR表示单核预测模型，L+P+R表示本文提出的 3.1特征选择混合核模型，核函数中的标准差σ用x-x的均从图像中提取Fh,Fis,Fi,Fg,Fia共5个特征，值代替(，遍历所有的训练样本).基于图像混合对各特征和1h后的PM2s值进行相关性分析，结核的列生成预测步骤如下果如表1所示，5个特征与PM25浓度均呈负相步骤1：采集图像数据和PM2s浓度数据，经数关，可知PM25浓度升高，会导致图像对比度、暗据预处理后，配成样本对：通道强度下降，HSI颜色差异变小.其中Fg,Fia与步骤2：提取图像特征，与1h后的PMs浓度 PM25值的相关性强，Fh,Fs,F与PM25的相关性数据做相关性分析，别除弱相关特征；较强.因此，本文选择Fih,Fis,Fi,Fig,Fa共5个特步骤3：选取多个核函数，计算核函数基于图征进行模型训练像特征值的Gram矩阵；步骤4：将多个Gram矩阵合并为混合核矩阵；表1特征与PM25相关性值步骤5：抽取混合核矩阵的部分列构成列子 Table 1 Correlation between characteristics and PM,s 集，利用列生成算法基于列子集求取模型当 Fa Fid Fih Fis Fa 前解； -0.55 -0.46 -0.36 -0.4 -0.29 步骤6：验证当前解是否为最优解.若是，输出 3.2预测步骤最优解，模型构建完成；若否，抽取未选列中的最为方便预测，首先构造混合核矩阵，将给定的佳列添加到列子集中，返回步骤5；多个核函数组成核函数集S=(K1,K2,…,K,计算步骤7：利用验证集验证预测模型的精度与稳每个核基于训练样本K,(,x)的Gram矩阵KP 定性 (Kp(,x)对应第j个训练样本).然后，将所有Gram 3.3性能指标矩阵并列构成一个混合核矩阵K=[K,K2,…,KP], 为了衡量单核预测模型和本文混合核模型的则K为I×d的矩阵，其中d=l×p,K表示混合核矩性能优劣，采用均方根误差(em∝)，平均绝对百分比误差(empe)和相关系数(R2)3个指标对模型进阵的第行，K表示混合核矩阵的第列行评估：在没有任何先验知识的前提下，优先选择简单的、计算成本低的核函数.本实验中，当简单核 emse (yii),emape= 1- WnZi=1 n1 yi 函数对应的列没有可添加的列用于求解时，则需要从更加复杂的核函数列中选取列用于求解.因 R2=1- 》10-)2 此实验从简单到复杂采用三种核函数：线性核函丁”6-2 EI 数(L)、多项式核函数(P)、RBF核函数(R)构建混式中：y表示第个样本对应的PM25浓度的真实合核，将给定的3个核函数组成核函数集值，，表示第个样本对应的PM25浓度的预测值， S={KL,KP,…,KR,分别计算每个核基于训练样本表示模型预测输出平均值.emse反映模型预测输的Gram矩阵KL,KP,KR.将所有Gram矩阵并列构出值稳定性，emape反映模型预测输出值偏离实际成一个混合核矩阵K=[K,KP,K],然后基于混合值的程度，两者均是越小说明模型性能越好；反 (a) 图1数据采集设备(a)及数据样本(b) Fig.1 Data acquisition equipment(a)and data samples (b)

值与 PM2.5 浓度之间的关系方程，并利用列生成算法求解方程参数. 3.1 特征选择 Fih Fis Fii Fig Fid Fig Fid Fih Fis Fii Fih Fis Fii Fig Fid 从图像中提取，，，，共 5 个特征，对各特征和 1 h 后的 PM2.5 值进行相关性分析，结果如表 1 所示. 5 个特征与 PM2.5 浓度均呈负相关，可知 PM2.5 浓度升高，会导致图像对比度、暗通道强度下降，HSI 颜色差异变小. 其中 , 与 PM2.5 值的相关性强，，，与 PM2.5 的相关性较强. 因此，本文选择，，，，共 5 个特征进行模型训练. 3.2 预测步骤 S = {K1,K2,··· ,Kp} Kp(·, x j) K p Kp(·, x j) j K = [K 1 ,K 2 ,··· ,K p ] K l×d d = l× p Ki· i K· j j 为方便预测，首先构造混合核矩阵. 将给定的多个核函数组成核函数集，计算每个核基于训练样本的 Gram 矩阵（对应第个训练样本）. 然后，将所有 Gram 矩阵并列构成一个混合核矩阵，则为的矩阵，其中，表示混合核矩阵的第行，表示混合核矩阵的第列. L P R S = {KL,KP,··· ,KR} K L ,K P ,K R K = [K L ,K P ,K R ] 在没有任何先验知识的前提下，优先选择简单的、计算成本低的核函数. 本实验中，当简单核函数对应的列没有可添加的列用于求解时，则需要从更加复杂的核函数列中选取列用于求解. 因此实验从简单到复杂采用三种核函数：线性核函数 ( )、多项式核函数 ( )、RBF 核函数 ( ) 构建混合核 . 将给定的 3 个核函数组成核函数集，分别计算每个核基于训练样本的 Gram 矩阵 . 将所有 Gram 矩阵并列构成一个混合核矩阵，然后基于混合 L,P,R L+ P+R σ xi − xj 2 i j 核矩阵利用列生成算法求解模型参数. 实验中，表示单核预测模型，表示本文提出的混合核模型，核函数中的标准差用的均值代替（ , 遍历所有的训练样本）. 基于图像混合核的列生成预测步骤如下. 步骤 1：采集图像数据和 PM2.5 浓度数据，经数据预处理后，配成样本对；步骤 2：提取图像特征，与 1 h 后的 PM2.5 浓度数据做相关性分析，剔除弱相关特征；步骤 3：选取多个核函数，计算核函数基于图像特征值的 Gram 矩阵；步骤 4：将多个 Gram 矩阵合并为混合核矩阵；步骤 5：抽取混合核矩阵的部分列构成列子集，利用列生成算法基于列子集求取模型当前解；步骤 6：验证当前解是否为最优解. 若是，输出最优解，模型构建完成；若否，抽取未选列中的最佳列添加到列子集中，返回步骤 5；步骤 7：利用验证集验证预测模型的精度与稳定性. 3.3 性能指标 emse emape R 2 为了衡量单核预测模型和本文混合核模型的性能优劣，采用均方根误差（），平均绝对百分比误差（）和相关系数（）3 个指标对模型进行评估： emse = √ 1 n ∑n i=1 (yi −yˆi), emape = 1 n ∑n 1 yi −yˆi yi , R 2 = 1− ∑n i=1 (yi −yˆi) 2 ∑n i=1 (¯y−yˆi) 2 yi i yˆi i y¯ emse emape R 2 式中：表示第个样本对应的 PM2.5 浓度的真实值，表示第个样本对应的 PM2.5 浓度的预测值，表示模型预测输出平均值. 反映模型预测输出值稳定性，反映模型预测输出值偏离实际值的程度，两者均是越小说明模型性能越好；反表 1 特征与 PM2.5 相关性值 Table 1 Correlation between characteristics and PM2.5 Fig Fid Fih Fis Fii – 0.55 – 0.46 – 0.36 – 0.4 – 0.29 (a) (b) 图 1 数据采集设备（a）及数据样本（b） Fig.1 Data acquisition equipment (a) and data samples (b) · 926 · 工程科学学报，第 42 卷，第 7 期

李晓理等：基于图像混合核的列生成PM,预测 927 映模型预测输出值与真实值之间的关联程度，其到相对较高的预测精度.预测值的相对误差绝大值越接近1说明模型性能越好部分维持在较低范围内 4结果分析除了个别因环境因素、人为因素等造成的较大偏差外，基本可以认为该模型满足了预测精度本实验使用大气图像数据和对应的空气质量要求.同时，将基于图像混合核的列生成PM25预 PM25数据进行实验.图像数据来源于安装在北京测模型与单核预测模型进行对比实验，结果如图4 工业大学内的360智能摄像头，采集2019年1月所示 1日至2019年5月31日每日9：00~16：00的600× 12 320图像（每小时采样）共1000幅.PM2s数据来自 1.0 安装在北京工业大学校园内的808微型气象站 L+P+R 数据采集设备及数据样本如图1所示 0.6 0.4 。L+P+R 350 ·Original value 300 0 25 50 75100125 150175200 250 Image samples 200 图44种模型预测相对误差 150 Fig.4 Relative error in prediction for the four models 100 50 从图4中可以看出，对于同一测试样本，基于 0 图像混合核的列生成模型的预测相对误差要普遍 0 25 5075100125150175200 Image samples 小于其他单模型，且混合核模型的预测相对误差图2混合核模型预测值稳定维持在一定范围内，未出现较大误差，可认为 Fig.2 Prediction results of mixture kemel model 基于图像混合核的列生成模型在预测性能和模型稳定性方面优于其他三个单核预测模型 4.1预测结果分析结合3个性能指标对4种预测模型进行对比，从采集的图像数据中随机抽取600张图像，将结果如表2所示.相比于3种单核预测模型，基于经过标准化处理的特征数据随机取400组作为训图像混合核的列生成模型预测结果的均方根误差练样本，剩余200组作为测试样本.为了证明基于 (emse)和平均绝对百分比误差(emape)最小，相关系图像混合核与列生成模型的有效性，将该模型与数(2)最大，说明基于图像混合核的列生成模型单核预测模型实验结果进行对比. 表现出了更高的预测精度和预测稳定性针对基于图像混合核的列生成PM25预测模型，利用预留的验证集数据进行仿真实验，仿真结表24种模型性能对比果如图2和3所示.从图2和3中可以看出，采用 Table 2 Performance comparison of the four models 基于图像混合核的列生成模型对1h后的PM25值 Kernel emse emane% R 进行预测，预测值与期望输出值基本相吻合，能达 L 11.959 13.603 0.814 13.924 15.601 0.751 0.8 农 11.188 12.213 0.843 0.7 0 L+P+R 9.553 9.955 0.895 0.5 0.4 4.2计算复杂度分析 0.3 基于图像混合核的列生成预测模型的计算复 0.2 0 杂度取决于基于图像特征值的模型建立过程，因此其计算复杂度与列生成算法相等，列生成算法 0 25 50 75100125150175200 Image samples 的计算复杂度计算如下：设样本总数为m,则混合图3混合核模型预测相对误差核矩阵总列数为np,最终要抽取m列.抽取每列都 Fig.3 Relative error in mixture kemel model prediction 要与其余所有列进行计算对比，则计算次数依次

映模型预测输出值与真实值之间的关联程度，其值越接近 1 说明模型性能越好. 4 结果分析本实验使用大气图像数据和对应的空气质量 PM2.5 数据进行实验. 图像数据来源于安装在北京工业大学内的 360 智能摄像头，采集 2019 年 1 月 1 日至 2019 年 5 月 31 日每日 9:00～16:00 的 600× 320 图像（每小时采样）共 1000 幅. PM2.5 数据来自安装在北京工业大学校园内的 808 微型气象站. 数据采集设备及数据样本如图 1 所示. 4.1 预测结果分析从采集的图像数据中随机抽取 600 张图像，将经过标准化处理的特征数据随机取 400 组作为训练样本，剩余 200 组作为测试样本. 为了证明基于图像混合核与列生成模型的有效性，将该模型与单核预测模型实验结果进行对比. 针对基于图像混合核的列生成 PM2.5 预测模型，利用预留的验证集数据进行仿真实验，仿真结果如图 2 和 3 所示. 从图 2 和 3 中可以看出，采用基于图像混合核的列生成模型对 1 h 后的 PM2.5 值进行预测，预测值与期望输出值基本相吻合，能达到相对较高的预测精度. 预测值的相对误差绝大部分维持在较低范围内. 除了个别因环境因素、人为因素等造成的较大偏差外，基本可以认为该模型满足了预测精度要求. 同时，将基于图像混合核的列生成 PM2.5 预测模型与单核预测模型进行对比实验，结果如图 4 所示. 从图 4 中可以看出，对于同一测试样本，基于图像混合核的列生成模型的预测相对误差要普遍小于其他单模型，且混合核模型的预测相对误差稳定维持在一定范围内，未出现较大误差，可认为基于图像混合核的列生成模型在预测性能和模型稳定性方面优于其他三个单核预测模型. emse emape R 2 结合 3 个性能指标对 4 种预测模型进行对比，结果如表 2 所示. 相比于 3 种单核预测模型，基于图像混合核的列生成模型预测结果的均方根误差（）和平均绝对百分比误差（）最小，相关系数（）最大，说明基于图像混合核的列生成模型表现出了更高的预测精度和预测稳定性. 4.2 计算复杂度分析 n np m 基于图像混合核的列生成预测模型的计算复杂度取决于基于图像特征值的模型建立过程，因此其计算复杂度与列生成算法相等. 列生成算法的计算复杂度计算如下：设样本总数为，则混合核矩阵总列数为，最终要抽取列. 抽取每列都要与其余所有列进行计算对比，则计算次数依次表 2 4 种模型性能对比 Table 2 Performance comparison of the four models Kernel emse emape/% R 2 L 11.959 13.603 0.814 P 13.924 15.601 0.751 R 11.188 12.213 0.843 L+P+R 9.553 9.955 0.895 350 300 250 200 150 100 50 0 25 50 75 100 Image samples Original value and predictive value 0 125 150 175 200 Original value L+P+R 图 2 混合核模型预测值 Fig.2 Prediction results of mixture kernel model 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 25 50 75 100 Image samples Relative error of predictive value 0 125 150 175 200 图 3 混合核模型预测相对误差 Fig.3 Relative error in mixture kernel model prediction 1.2 1.0 0.8 0.6 0.4 0.2 0 25 50 75 100 Image samples Relative error of predictive value 0 125 150 175 200 L P R L+P+R 图 4 4 种模型预测相对误差 Fig.4 Relative error in prediction for the four models 李晓理等：基于图像混合核的列生成 PM2.5 预测 · 927 ·

928 工程科学学报，第42卷，第7期为np,np-1,np-2,…,np-m+1,总计算次数为 principal component analysis and LSSVM optimized by cuckoo mmp-（m2-m)/2.因为m冬n,所以混合核模型的计 search algorithm.J Environ Manage,2016,188:144 [4]Qu Y,Qian X.Song HO,et al.Machine-learning-based model and 算复杂度可表示为O(mp),同理的单核预测模型 simulation analysis of PM2s concentration prediction in Beijing. 计算复杂度为Ok)(k为单核矩阵中抽取的列数) Chin J Eng,2019,41(3):401 本文中p=3,m≤n,k<n,可得0mp)=0n)=0), (曲悦，钱旭，宋洪庆，等.基于机器学习的北京市PM2s浓度预测所以混合核预测模型与单核预测模型相比，计算模型及模拟分析.工程科学学报，2019,41(3)：401) 复杂度没有明显增加 [5] Russo A,Raischel F,Lind P G.Air quality prediction using 综上，本文提出的基于图像混合核的列生成 optimal neural networks with stochastic variables.Atmos Environ, 预测模型，在满足预测精度的前提下，获取数据的 2013,79:822 成本更低，获取数据的途径更便捷，计算复杂度与 [6]Li J G,Luo A R,Li X L.Prediction of PM2s mass concentration based on complementary ensemble empirical mode decomposition 单核预测模型相比无明显增加，对进行PM25预测 and support vector regression.J Beijing Univ Technol,2018, 有一定的借鉴意义. 44(12):1494 5结论 (李建更，罗奥荣，李晓理.基于互补集合经验模态分解与支持向量回归的PM25质量浓度预测.北京工业大学学报，2018 列生成算法是解决多变量线性规划问题的典 44(12):1494) 型方法，核函数可以将非线性数据映射到高维线 [7]Liu C B,Tsow F,Zou Y,et al.Particle pollution estimation based 性空间，本文将核技巧与列生成算法相结合，提出 on image analysis.PloS One,2016,11(2):e0145955 [8]Gu K,Qiao J F,Li X L.Highly efficient picture-based prediction 了一种基于图像混合核的列生成预测模型.通过 of PM2s concentration.IEEE Trans Ind Electron,2019,66(4): 实验得出以下结论： 3176 (I)针对大气PM25预测影响因素复杂、大气 [9]Li X L,Zhang S,Wang K.PM2s air quality prediction based on 污染物浓度数据难以获取等问题，基于图像数据 image quality analysis.J Beijing Uniy Technol,2020,46(2):191 建立模型进行预测是可行的，当选取的图像特征 (李晓理，张山，王康.基于图像质量分析的PM2空气质量预测. 与PM2；密切相关时，能够取得不错的预测效果北京工业大学学报，2020,46(2)：191) (2)基于图像混合核的列生成预测模型无需 [10]Wang H Q,Sun F C,Cai Y N,et al.On multiple kemel learning 考虑组合参数问题，且能从核矩阵中选择最佳的 methods.Acta Autom Sin,2010,36(8):1037 (汪洪桥，孙富春，蔡艳宁，等.多核学习方法.自动化学报，2010，列，使模型的解具备稀疏性且预测精度可观. 36(8):1037) (3)混合核模型比普通单核预测模型的预测 [11]Fink M,Desaulniers G.Frey M,et al.Column generation for 误差小、精度高，模型稳定性好，该模型具备良好 vehicle routing problems with multiple synchronization 的预测性能 constraints.Eur JOper Res,2019,272(2):699 (4)本文提出的模型对多雾、降雨和夜间等天 [12]Li H.Statistical Learning Method.Beijing:Tsinghua University 气无法适用，会影响模型预测效果，需要在今后的 Press,2012 工作中将此类特殊天气条件考虑到模型训练中， (李航.统计学习方法.北京：清华大学出版社，2012) [13]Demiriz A,Bennett K P,Shawe-Taylor J.Linear programming 期望得到泛化能力更强、预测精度更高的预测 boosting via column generation.Mach Learn,2002,46(1-3):225 模型 [14]Bi J B,Zhang T,Bennett K P.Column-generation boosting methods for mixture of kemels//Proceedings of the Tenth ACM 参考文献 SIGKDD International Conference on Knowledge Discovery and [1]Zhang X L.Zhao J H.Cai B.Prediction model with dynamic Data Mining.Seattle,2004:521 adjustment for single time series of PM2.s.Acta Automatica Sinica, [15]Vapnik V.The Nature of Statistical Learning Theory.Springer 2018,44(10:1790 Science Business Media,2013 (张熙来，赵俭辉，蔡波，针对PM2单时间序列数据的动态调整 [16]Berman D.Treibitz T,Avidan S.Single image dehazing using 预测模型.自动化学报，2018.44(10)：1790) haze-lines.IEEE Trans Pattern Anal Mach Intell,2018,42(3): [2]Zhan Y,Luo Y Z,Deng X F,et al.Spatiotemporal prediction of 720 continuous daily PM25.concentrations across China using a [17]Seinfeld J H,Pandis S N.Atmospheric Chemistry and Physics: spatially explicit machine learning algorithm.Atmos Environ, from Air Pollution to Climate Change.John Wiley Sons,2016 2017,155:129 [18]Graves N,Newsam S.Camera-based visibility estimation: [3]Sun W,Sun J Y.Daily PM2s concentration prediction based on Incorporating multiple regions and unlabeled observations.Ecol

np,np−1,np−2,··· ,np−m+1 mnp− ( m 2 −m ) /2 m ≪ n O(nmp) O(nk) k p = 3 m ≪ n k ≪ n O(nmp) = O(nk) = O(n) 为，总计算次数为 . 因为，所以混合核模型的计算复杂度可表示为，同理的单核预测模型计算复杂度为（为单核矩阵中抽取的列数）. 本文中，，，可得，所以混合核预测模型与单核预测模型相比，计算复杂度没有明显增加. 综上，本文提出的基于图像混合核的列生成预测模型，在满足预测精度的前提下，获取数据的成本更低，获取数据的途径更便捷，计算复杂度与单核预测模型相比无明显增加，对进行 PM2.5 预测有一定的借鉴意义. 5 结论列生成算法是解决多变量线性规划问题的典型方法，核函数可以将非线性数据映射到高维线性空间，本文将核技巧与列生成算法相结合，提出了一种基于图像混合核的列生成预测模型. 通过实验得出以下结论：（1）针对大气 PM2.5 预测影响因素复杂、大气污染物浓度数据难以获取等问题，基于图像数据建立模型进行预测是可行的，当选取的图像特征与 PM2.5 密切相关时，能够取得不错的预测效果. （2）基于图像混合核的列生成预测模型无需考虑组合参数问题，且能从核矩阵中选择最佳的列，使模型的解具备稀疏性且预测精度可观. （3）混合核模型比普通单核预测模型的预测误差小、精度高，模型稳定性好，该模型具备良好的预测性能. （4）本文提出的模型对多雾、降雨和夜间等天气无法适用，会影响模型预测效果，需要在今后的工作中将此类特殊天气条件考虑到模型训练中，期望得到泛化能力更强、预测精度更高的预测模型. 参考文献 Zhang X L, Zhao J H, Cai B. Prediction model with dynamic adjustment for single time series of PM2.5. Acta Automatica Sinica, 2018, 44（10）: 1790 （张熙来, 赵俭辉, 蔡波. 针对PM2.5单时间序列数据的动态调整预测模型. 自动化学报, 2018, 44（10）：1790） [1] Zhan Y, Luo Y Z, Deng X F, et al. Spatiotemporal prediction of continuous daily PM2.5, concentrations across China using a spatially explicit machine learning algorithm. Atmos Environ, 2017, 155: 129 [2] [3] Sun W, Sun J Y. Daily PM2.5 concentration prediction based on principal component analysis and LSSVM optimized by cuckoo search algorithm. J Environ Manage, 2016, 188: 144 Qu Y, Qian X, Song H Q, et al. Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing. Chin J Eng, 2019, 41（3）: 401 （曲悦, 钱旭, 宋洪庆, 等. 基于机器学习的北京市PM2.5浓度预测模型及模拟分析. 工程科学学报, 2019, 41（3）：401） [4] Russo A, Raischel F, Lind P G. Air quality prediction using optimal neural networks with stochastic variables. Atmos Environ, 2013, 79: 822 [5] Li J G, Luo A R, Li X L. Prediction of PM2.5 mass concentration based on complementary ensemble empirical mode decomposition and support vector regression. J Beijing Univ Technol, 2018, 44（12）: 1494 （李建更, 罗奥荣, 李晓理. 基于互补集合经验模态分解与支持向量回归的PM2.5质量浓度预测. 北京工业大学学报, 2018, 44（12）：1494） [6] Liu C B, Tsow F, Zou Y, et al. Particle pollution estimation based on image analysis. PloS One, 2016, 11（2）: e0145955 [7] Gu K, Qiao J F, Li X L. Highly efficient picture-based prediction of PM2.5 concentration. IEEE Trans Ind Electron, 2019, 66（4）: 3176 [8] Li X L, Zhang S, Wang K. PM2.5 air quality prediction based on image quality analysis. J Beijing Univ Technol, 2020, 46（2）: 191 （李晓理, 张山, 王康. 基于图像质量分析的PM2.5空气质量预测. 北京工业大学学报, 2020, 46（2）：191） [9] Wang H Q, Sun F C, Cai Y N, et al. On multiple kernel learning methods. Acta Autom Sin, 2010, 36（8）: 1037 （汪洪桥, 孙富春, 蔡艳宁, 等. 多核学习方法. 自动化学报, 2010, 36（8）：1037） [10] Fink M, Desaulniers G, Frey M, et al. Column generation for vehicle routing problems with multiple synchronization constraints. Eur J Oper Res, 2019, 272（2）: 699 [11] Li H. Statistical Learning Method. Beijing: Tsinghua University Press, 2012 （李航. 统计学习方法. 北京: 清华大学出版社, 2012） [12] Demiriz A, Bennett K P, Shawe-Taylor J. Linear programming boosting via column generation. Mach Learn, 2002, 46（1-3）: 225 [13] Bi J B, Zhang T, Bennett K P. Column-generation boosting methods for mixture of kernels//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle, 2004: 521 [14] Vapnik V. The Nature of Statistical Learning Theory. Springer Science & Business Media, 2013 [15] Berman D, Treibitz T, Avidan S. Single image dehazing using haze-lines. IEEE Trans Pattern Anal Mach Intell, 2018, 42（3）: 720 [16] Seinfeld J H, Pandis S N. Atmospheric Chemistry and Physics: from Air Pollution to Climate Change. John Wiley & Sons, 2016 [17] Graves N, Newsam S. Camera-based visibility estimation: Incorporating multiple regions and unlabeled observations. Ecol [18] · 928 · 工程科学学报，第 42 卷，第 7 期

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录