工程科学学报 Chinese Journal of Engineering 基于图像混合核的列生成PM25预测 李晓理张博杨旭 Column-generation PM2s prediction based on image mixture kernel LI Xiao-li.ZHANG Bo.YANG Xu 引用本文: 李晓理,张博,杨旭.基于图像混合核的列生成PM2s预测[.工程科学学报,2020,42(7)922-929.doi:10.13374.iss2095- 9389.2019.07.15.002 LI Xiao-li,ZHANG Bo,YANG Xu.Column-generation PM2s prediction based on image mixture kernel[J]Chinese Journal of Engineering,2020,42(7):922-929.doi:10.13374j.issn2095-9389.2019.07.15.002 在线阅读View online:htps:/ldoi.org/10.13374j.issn2095-9389.2019.07.15.002 您可能感兴趣的其他文章 Articles you may be interested in 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报.2019,41(3:401 https:1doi.org/10.13374.issn2095-9389.2019.03.014 基于IPSO-RELM转炉冶炼终点锰含量预测模型 Improved prediction model for BOF end-point manganese content based on IPSO-RELM method 工程科学学报.2019,41(8):1052htps:1doi.org10.13374斩.issn2095-9389.2019.08.011 磁场形式及参数对单纤维捕集钢铁行业粉尘中PM,性能影响 Performance of single fibercollection PMunder different magnetic field forms in the irn and stee industry 工程科学学报.2020,42(2:154 https:/1doi.org/10.13374.issn2095-9389.2019.02.24.004 新型硬质合金微坑车刀切削能对比研究与预测 Performance comparison and prediction of cutting energy of new cemented carbide micro-pit turning tool 工程科学学报.2017,398):1207 https:/1doi.org/10.13374.issn2095-9389.2017.08.010 无钟高炉炉料分布预测模型 Burden distribution prediction model in a blast furnace with bell-less top 工程科学学报.2017,392:276 https:oi.org/10.13374.issn2095-9389.2017.02.016 BP神经网络F钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报.2017,394:511 https::/1doi.org10.13374.issn2095-9389.2017.04.005
基于图像混合核的列生成PM2.5预测 李晓理 张博 杨旭 Column-generation PM2.5 prediction based on image mixture kernel LI Xiao-li, ZHANG Bo, YANG Xu 引用本文: 李晓理, 张博, 杨旭. 基于图像混合核的列生成PM2.5预测[J]. 工程科学学报, 2020, 42(7): 922-929. doi: 10.13374/j.issn2095- 9389.2019.07.15.002 LI Xiao-li, ZHANG Bo, YANG Xu. Column-generation PM2.5 prediction based on image mixture kernel[J]. Chinese Journal of Engineering, 2020, 42(7): 922-929. doi: 10.13374/j.issn2095-9389.2019.07.15.002 在线阅读 View online: https://doi.org/10.13374/j.issn2095-9389.2019.07.15.002 您可能感兴趣的其他文章 Articles you may be interested in 基于机器学习的北京市PM2.5浓度预测模型及模拟分析 Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing 工程科学学报. 2019, 41(3): 401 https://doi.org/10.13374/j.issn2095-9389.2019.03.014 基于IPSO-RELM转炉冶炼终点锰含量预测模型 Improved prediction model for BOF end-point manganese content based on IPSO-RELM method 工程科学学报. 2019, 41(8): 1052 https://doi.org/10.13374/j.issn2095-9389.2019.08.011 磁场形式及参数对单纤维捕集钢铁行业粉尘中PM2.5性能影响 Performance of single fiber collection PM2.5 under different magnetic field forms in the iron and steel industry 工程科学学报. 2020, 42(2): 154 https://doi.org/10.13374/j.issn2095-9389.2019.02.24.004 新型硬质合金微坑车刀切削能对比研究与预测 Performance comparison and prediction of cutting energy of new cemented carbide micro-pit turning tool 工程科学学报. 2017, 39(8): 1207 https://doi.org/10.13374/j.issn2095-9389.2017.08.010 无钟高炉炉料分布预测模型 Burden distribution prediction model in a blast furnace with bell-less top 工程科学学报. 2017, 39(2): 276 https://doi.org/10.13374/j.issn2095-9389.2017.02.016 BP神经网络IF钢铝耗的预测模型 Prediction model of aluminum consumption with BP neural networks in IF steel production 工程科学学报. 2017, 39(4): 511 https://doi.org/10.13374/j.issn2095-9389.2017.04.005
工程科学学报.第42卷.第7期:922-929.2020年7月 Chinese Journal of Engineering,Vol.42,No.7:922-929,July 2020 https://doi.org/10.13374/j.issn2095-9389.2019.07.15.002;http://cje.ustb.edu.cn 基于图像混合核的列生成PM25预测 李晓理2,3,,张博),杨旭)区 1)北京工业大学信息学部,北京1001242)计算智能与智能系统北京市重点实验室,北京1001243)数字社区教育部工程研究中心,北 京1001244)北京未来网络科技高精尖创新中心,北京1001245)北京科技大学自动化学院,北京100083 ☒通信作者,E-mail:yangxu@ustb.edu.cn 摘要传统PM25预测方法获取污染物浓度数据需要大型精密仪器,成本较高.本文尝试利用图像数据进行PM25浓度预 测.大气PM2s浓度的变化与图像的暗通道强度、对比度和HSI(Hue-saturation--intensity)颜色差异有密切联系.大气中 PM25浓度的升高会导致非天空区域的暗通道强度值下降,图像对比度下降和HSI空间颜色差异变小.通过分析PM25浓度 与图像特征的关系,提出了一种基于图像混合核的列生成空气质量PM2预测模型.首先,以1h为采样周期,每日 8:00~17:00为采样范围,采集多种天气条件下的景物图像,提取图像的对比度、暗通道强度和HSI颜色差异共5个图像特 征.其次,数据存在样本规模大、样本不平坦分布等特点,单个核函数构成的预测模型难以满足预测精度需求,因此本文按照 核结构从简单到复杂的原则,选择线性核函数、多项式核函数和高斯核函数三种核函数建立组合模型.然后计算每个核基于 训练样本的Gram矩阵.并将所有Gram矩阵并列成一个混合核矩阵.利用列生成算法和混合核矩阵建立预测模型,求解模型 参数.最后,进行仿真实验,实验结果表明本文提出的可满足预测精度要求,与单核预测模型相比,该预测模型预测精度更 高,模型稳定性更好.计算复杂度分析结果显示基于图像混合核的列生成模型与单核预测模型相比计算量无明显增加 关键词PM25预测;混合核函数;列生成算法;图像特征;预测模型 分类号TP181 Column-generation PM25 prediction based on image mixture kernel LI Xiao-li2,ZHANG Bo,YANG Xu) 1)Faculty of Information Technology,Beijing University of Technology,Beijing 100124,China 2)Beijing Key Laboratory of Computational Intelligence and Intelligent System,Beijing 100124,China 3)Engineering Research Center of Digital Community,Beijing 100124,China 4)Beijing Future Network Science and Technology Innovation Center,Beijing 100124,China 5)School of Automation and Electrical Engineering,University of Science and Technology Beijing,Beijing 100083,China Corresponding author,E-mail:yangxu@ustb.edu.cn ABSTRACT The conventional method of PM2s prediction requires high-precision instruments to obtain data on the concentration of pollutants,resulting in a high prediction costs.In this work,we attempt to use image data to estimate PM2s concentration.The concentration of atmospheric PM2 is closely linked to the image's dark channel intensity,contrast,and color difference of HSI.The increase in atmospheric PM2s concentration leads to a decrease in the non-sky area dark channel intensity,image contrast,and HSI spatial color difference.In this paper,a Column-Generation PM2s prediction model based on image mixture kernel was proposed by analyzing the relationship between PM2s and image features.First,the sampling period was taken as 1 h,and 8:00-17:00 was taken as the sampling range daily.The scene images were recorded in different weather conditions,and five image features were extracted, 收稿日期:2019-07-15 基金项目:国家自然科学基金资助项目(61873006,61473034,61673053):北京市科学重大专项资助项目(Z181100003118012):国家重点研 发计划资助项目(2018YFC1602704.2018YFB1702704)
基于图像混合核的列生成 PM2.5 预测 李晓理1,2,3,4),张 博1),杨 旭5) 苣 1) 北京工业大学信息学部,北京 100124 2) 计算智能与智能系统北京市重点实验室,北京 100124 3) 数字社区教育部工程研究中心,北 京 100124 4) 北京未来网络科技高精尖创新中心,北京 100124 5) 北京科技大学自动化学院,北京 100083 苣通信作者,E-mail:yangxu@ustb.edu.cn 摘 要 传统 PM2.5 预测方法获取污染物浓度数据需要大型精密仪器,成本较高. 本文尝试利用图像数据进行 PM2.5 浓度预 测. 大气 PM2.5 浓度的变化与图像的暗通道强度、对比度和 HSI(Hue-saturation-intensity)颜色差异有密切联系. 大气中 PM2.5 浓度的升高会导致非天空区域的暗通道强度值下降,图像对比度下降和 HSI 空间颜色差异变小. 通过分析 PM2.5 浓度 与图像特征的关系,提出了一种基于图像混合核的列生成空气质量 PM2.5 预测模型. 首先,以 1 h 为采样周期,每日 8:00~17:00 为采样范围,采集多种天气条件下的景物图像,提取图像的对比度、暗通道强度和 HSI 颜色差异共 5 个图像特 征. 其次,数据存在样本规模大、样本不平坦分布等特点,单个核函数构成的预测模型难以满足预测精度需求,因此本文按照 核结构从简单到复杂的原则,选择线性核函数、多项式核函数和高斯核函数三种核函数建立组合模型. 然后计算每个核基于 训练样本的 Gram 矩阵,并将所有 Gram 矩阵并列成一个混合核矩阵. 利用列生成算法和混合核矩阵建立预测模型,求解模型 参数. 最后,进行仿真实验,实验结果表明本文提出的可满足预测精度要求,与单核预测模型相比,该预测模型预测精度更 高,模型稳定性更好. 计算复杂度分析结果显示基于图像混合核的列生成模型与单核预测模型相比计算量无明显增加. 关键词 PM2.5 预测;混合核函数;列生成算法;图像特征;预测模型 分类号 TP181 Column-generation PM2.5 prediction based on image mixture kernel LI Xiao-li1,2,3,4) ,ZHANG Bo1) ,YANG Xu5) 苣 1) Faculty of Information Technology, Beijing University of Technology, Beijing 100124, China 2) Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing 100124, China 3) Engineering Research Center of Digital Community, Beijing 100124, China 4) Beijing Future Network Science and Technology Innovation Center, Beijing 100124, China 5) School of Automation and Electrical Engineering, University of Science and Technology Beijing, Beijing 100083, China 苣 Corresponding author, E-mail: yangxu@ustb.edu.cn ABSTRACT The conventional method of PM2.5 prediction requires high-precision instruments to obtain data on the concentration of pollutants, resulting in a high prediction costs. In this work, we attempt to use image data to estimate PM2.5 concentration. The concentration of atmospheric PM2.5 is closely linked to the image ’s dark channel intensity, contrast, and color difference of HSI. The increase in atmospheric PM2.5 concentration leads to a decrease in the non-sky area dark channel intensity, image contrast, and HSI spatial color difference. In this paper, a Column-Generation PM2.5 prediction model based on image mixture kernel was proposed by analyzing the relationship between PM2.5 and image features. First, the sampling period was taken as 1 h, and 8:00–17:00 was taken as the sampling range daily. The scene images were recorded in different weather conditions, and five image features were extracted, 收稿日期: 2019−07−15 基金项目: 国家自然科学基金资助项目(61873006,61473034,61673053);北京市科学重大专项资助项目(Z181100003118012);国家重点研 发计划资助项目(2018YFC1602704,2018YFB1702704) 工程科学学报,第 42 卷,第 7 期:922−929,2020 年 7 月 Chinese Journal of Engineering, Vol. 42, No. 7: 922−929, July 2020 https://doi.org/10.13374/j.issn2095-9389.2019.07.15.002; http://cje.ustb.edu.cn
李晓理等:基于图像混合核的列生成PM,预测 ·923· including contrast,dark channel intensity,and HSI color difference.Secondly,the image data has the characteristics of large sample size and uneven distribution,and the prediction model consists of a single kernel function,which makes it difficult to meet the prediction accuracy requirement.Therefore,the linear kernel function,polynomial kernel function,and Gauss kernel function were chosen to construct a composite model according to the concept of kernel structure from simple to complex.Then each kernel's Gram matrix was calculated based on training samples,and all gram matrices were placed into a mixture kernel matrix.Using the column generation algorithm and mixture kemnel matrix,the prediction model was developed and the parameters of the model were solved.Finally, simulation experiments were performed;the results show that the prediction model based on the image mixture kernel of Column- Generation PM2s can meet the prediction accuracy requirements.The model has higher prediction accuracy and better model stability in comparison with the single-kernel prediction model.A computational complexity analysis shows that the prediction model based on the image mixture kernel of column-generation PM2s has no significant increase in computational complexity in comparison with the one- kernel prediction model. KEY WORDS PM,s prediction;mixed kernel function;column generation algorithm;image feature;prediction model 伴随着雾霾在全国各地出现的频率越来越 的预测结果 高,环境问题越来越引起人们的关注,尤其以京津 也有学者利用图像对PM25进行预测.文献[) 冀地区最为明显.PM25是造成雾霾的主要因素, 利用大量室外图像,结合太阳位置、日期、时间、 其在空气中滞留时间长,通过对太阳光的吸收、散 地理信息、天气条件等相关数据对PM2s进行预 射或反射,降低环境可见度;PM2s颗粒被吸入人 测,该方法避免了大气测量装置的限制,为预测 体后,会渗透到肺部组织,引发支气管炎等疾病, PM2s提供了一种更为便捷的方式.文献[8]以手 对人体健康造成危害.加强大气环境污染控制已 机照片为数据源,对良好天气下空间域和变换域 成为亟待解决的问题,通过对PM25预测,可以为 的图像嫡值建立自然度统计模型,通过计算污染 环境治理和人们健康出行提供准确的环境质量信 图像的嫡值的偏差度对PM25进行预测.文献[9) 息,有助于减轻环境污染对群众造成的危害. 对不同天气条件下的照片质量进行分析建模,通 近年来,国内外学者都对PM2.5预测方法进行 过提取PM2.5浓度相关的特征建立粒子群优化的 了卓有成效的研究.文献[】基于单时间序列模型,将 支持向量回归模型,实现了良好的预测效果 动态指数平滑法和动态马尔科夫模型相结合,通 鉴于大气环境复杂多变,PM25预测中需要考 过PM25历史数据预先确定算法的最优参数,对 虑的因素较多,本文在上述研究的基础上,提出了 PM25进行动态预测,并验证了模型的有效性.文 一种基于图像混合核的列生成PM,5预测方法.该 献2]通过构建空间平滑核,对梯度增强算法进行改 方法通过分析图像变化与PM25浓度的关系,提取 进,有效解决了PM25浓度与气溶胶光学深度、气象 图像特征,并利用相关性分析完成特征选择.将图 条件等预测变量之间的空间非平稳性,对日PM2.5 像特征经混合核映射到高维线性空间,有效避免 进行预测.文献[3]提出了一种基于主成分分析和 了单核函数选取不当造成的影响.最后使用列生 最小二乘支持向量机的杜鹃搜索混合模型,并将模 成方法来求解模型参数,保证了解的稀疏性和精 型的预测效果与广义回归神经网络模型作对比,效 确性,实现了对PM25的有效预测 果更优.文献[4]提取大气温度、湿度和风速3个特 1问题描述与数学基础知识 征,训练长短期记忆模型对1h后的PM25污染等级 进行预测,证明了PM25污染与周边地区的气象条 1.1问题描述 件有密切联系.文献[⑤]利用随机数据分析方法,在 PM2s指空气动力学当量直径小于等于2.5m 多变量系统中选择与PM25相关的随机变量,作为 的悬浮物颗粒,会对可见光产生明显的散射作用 神经网络的输入,实现了空气质量预测.文献【6]建 大气中PM25浓度的变化会使图像呈现不同的对 立基于互补集合经验模态分解和支持向量回归的混 比度、暗通道强度、可见度等特征信息,这使得利 合预测模型.对PM25质量浓度的原始时间序列进 用图像实现PM2.5预测成为可能 行分解,得到若干具有不同时间尺度的相对平稳分 1.2数学基础知识 量,采用SVR算法对各个分量分别进行预测,求出 本文采用了基于图像混合核的列生成方法研 各个分量的预测值之和,作为原始PM25质量浓度 究了PM2s预测问题,为了更好地介绍理论的原
including contrast, dark channel intensity, and HSI color difference. Secondly, the image data has the characteristics of large sample size and uneven distribution, and the prediction model consists of a single kernel function, which makes it difficult to meet the prediction accuracy requirement. Therefore, the linear kernel function, polynomial kernel function, and Gauss kernel function were chosen to construct a composite model according to the concept of kernel structure from simple to complex. Then each kernel's Gram matrix was calculated based on training samples, and all gram matrices were placed into a mixture kernel matrix. Using the column generation algorithm and mixture kernel matrix, the prediction model was developed and the parameters of the model were solved. Finally, simulation experiments were performed; the results show that the prediction model based on the image mixture kernel of ColumnGeneration PM2.5 can meet the prediction accuracy requirements. The model has higher prediction accuracy and better model stability in comparison with the single-kernel prediction model. A computational complexity analysis shows that the prediction model based on the image mixture kernel of column-generation PM2.5 has no significant increase in computational complexity in comparison with the onekernel prediction model. KEY WORDS PM2.5 prediction;mixed kernel function;column generation algorithm;image feature;prediction model 伴随着雾霾在全国各地出现的频率越来越 高,环境问题越来越引起人们的关注,尤其以京津 冀地区最为明显. PM2.5 是造成雾霾的主要因素, 其在空气中滞留时间长,通过对太阳光的吸收、散 射或反射,降低环境可见度;PM2.5 颗粒被吸入人 体后,会渗透到肺部组织,引发支气管炎等疾病, 对人体健康造成危害. 加强大气环境污染控制已 成为亟待解决的问题,通过对 PM2.5 预测,可以为 环境治理和人们健康出行提供准确的环境质量信 息,有助于减轻环境污染对群众造成的危害. 近年来,国内外学者都对 PM2.5 预测方法进行 了卓有成效的研究. 文献 [1] 基于单时间序列模型,将 动态指数平滑法和动态马尔科夫模型相结合,通 过 PM2.5 历史数据预先确定算法的最优参数 ,对 PM2.5 进行动态预测,并验证了模型的有效性. 文 献 [2] 通过构建空间平滑核,对梯度增强算法进行改 进,有效解决了 PM2.5 浓度与气溶胶光学深度、气象 条件等预测变量之间的空间非平稳性,对日 PM2.5 进行预测. 文献 [3] 提出了一种基于主成分分析和 最小二乘支持向量机的杜鹃搜索混合模型,并将模 型的预测效果与广义回归神经网络模型作对比,效 果更优. 文献 [4] 提取大气温度、湿度和风速 3 个特 征,训练长短期记忆模型对 1 h 后的 PM2.5 污染等级 进行预测,证明了 PM2.5 污染与周边地区的气象条 件有密切联系. 文献 [5] 利用随机数据分析方法,在 多变量系统中选择与 PM2.5 相关的随机变量,作为 神经网络的输入,实现了空气质量预测. 文献 [6] 建 立基于互补集合经验模态分解和支持向量回归的混 合预测模型. 对 PM2.5 质量浓度的原始时间序列进 行分解,得到若干具有不同时间尺度的相对平稳分 量,采用 SVR 算法对各个分量分别进行预测,求出 各个分量的预测值之和,作为原始 PM2.5 质量浓度 的预测结果. 也有学者利用图像对 PM2.5 进行预测. 文献 [7] 利用大量室外图像,结合太阳位置、日期、时间、 地理信息、天气条件等相关数据对 PM2.5 进行预 测,该方法避免了大气测量装置的限制,为预测 PM2.5 提供了一种更为便捷的方式. 文献 [8] 以手 机照片为数据源,对良好天气下空间域和变换域 的图像熵值建立自然度统计模型,通过计算污染 图像的熵值的偏差度对 PM2.5 进行预测. 文献 [9] 对不同天气条件下的照片质量进行分析建模,通 过提取 PM2.5 浓度相关的特征建立粒子群优化的 支持向量回归模型,实现了良好的预测效果. 鉴于大气环境复杂多变,PM2.5 预测中需要考 虑的因素较多,本文在上述研究的基础上,提出了 一种基于图像混合核的列生成 PM2.5 预测方法. 该 方法通过分析图像变化与 PM2.5 浓度的关系,提取 图像特征,并利用相关性分析完成特征选择. 将图 像特征经混合核映射到高维线性空间,有效避免 了单核函数选取不当造成的影响. 最后使用列生 成方法来求解模型参数,保证了解的稀疏性和精 确性,实现了对 PM2.5 的有效预测. 1 问题描述与数学基础知识 1.1 问题描述 PM2.5 指空气动力学当量直径小于等于 2.5 μm 的悬浮物颗粒,会对可见光产生明显的散射作用. 大气中 PM2.5 浓度的变化会使图像呈现不同的对 比度、暗通道强度、可见度等特征信息,这使得利 用图像实现 PM2.5 预测成为可能. 1.2 数学基础知识 本文采用了基于图像混合核的列生成方法研 究了 PM2.5 预测问题,为了更好地介绍理论的原 李晓理等: 基于图像混合核的列生成 PM2.5 预测 · 923 ·
924 工程科学学报,第42卷,第7期 理,下面对方法中需要用到的一些数学基础知识 以获得最优解 进行简单地说明 基于决策函数(5),重写文献[13]中的线性列 1.2.1混合核 生成增强算法,使用2范数正则化构建如下凸二 核方法被证明了是解决许多应用中推理问题 次规划问题: 的有效方法.通过引入正半定核,可以使用线性 1 学习算法创建非线性模型.给定观测样本(x1, mina.2 y1),(x2,2),…,(x,y》∈X×Y.其中输入空间XeR, d (6) 输出空间Y∈R(回归问题),通过非线性映射: S.t. y〉Kij+≥1,5i≥0,i=1,…,l Φ:X→F x→(x) (1) a≥0,j=1,…,d 把输入数据映射到一个新的特征空间F={(xx∈X, 求得其对偶问题为: d 其中F∈R”,原问题转化为: maxuming 1 i2 {(x1)y),(p(x2)y2),…,(x,ym}eF×Y(2) (7) 在满足Mercer条件情况下,一定存在一个特征空 s.t. uiyiKii≤aj,j=1,…,d, 间F和一个映射Φ:X→F,使得 i=I k(x,z)=x)Xz) 0≤h≤C,i=1,…,1 (3) 求解式(6)和(7)的最优解为(@,,),根据文 k(x,z)即为核函数. 献[13引,验证如下问题: 核函数有两种主要的类型:全局核函数和局 部核函数,局部性核函数学习能力强、泛化性能较 T=max∑y,K (8) 弱,而全局性核函数泛化性能强、学习能力较弱, j 式中,遍历核矩阵中的所有列.列生成算法将 因此考虑把这两类核函数混合起来构成混合核函 列系数α分为两部分,使用启发式算法选出的一部 数.对文献[10]中混合核函数的形式进行扩展得 ,. 分W用于训练模型,未选中的部分N作为备选,假 到多核混合核函数的形式为k(x,)= 设未选中的部分αW=0,通过求解式(6)和(7)得当 其中k(x,z)为单核函数,p是对应的核函数编号, 前最优解得a",则d=(a",=0).经文献[14证 4p为组合系数.由SVM决策函数可知,混合核函 明,(位,,)是原始-对偶问题的当前最优解,如果 数的决策函数为: 对于所有的jEN∑K≤0,则位,店即为满足 =1 (4) KKT条件的全局最优解.对于线性列生成增强模 式中,α是模型参数,x是第个输入向量.本文中, 型,每次选择N中使∑K,最大的列K加入到约 i=l 不单独计算每个核矩阵(核对样本的Gram矩阵), 束问题中 而是采用混合模型,其决策函数为: 将列生成增强算法推广到解决具有不敏感参 f=∑∑k,x》 数s的损失函数maxy-fx川-s,0的回归问题, (5) j=1p= 模型的下限约束α>0为非必需条件,所以在原模 1.22列生成 型中去除下限约束.为了构建回归模型,本文将偏 离真实值至少ε的点作为误差点.使用2范数正则 列生成算法是用于求解大型线性规划问题的 一种重要方法.在原始问题中,列生成算法并不是 化,对应的凸二次规划问题为: d 一次性求解出所有参数心,而是选取混合核矩阵 mina2Z a+C(⑤+m) K(构造方法在第4章介绍)的列子集并求解对应 的α的最优解四.根据拉格朗日对偶性,通过求 S.t. Kjj+≥7-e,i=1,…,l 解对偶问题可得到原始问题的最优解.原始问题 (9) 的每一列对应于对偶问题的一个约束,当约束问 K+i≥-%-e,i=1,…, 题的解违反对偶问题中不存在的约束时,则需将 台 该约束(原始问题中的一列)添加到约束问题中, 5≥0,≥0,i=1,…,1
理,下面对方法中需要用到的一些数学基础知识 进行简单地说明. 1.2.1 混合核 K {(x1, y1),(x2, y2),··· ,(xl , yl)} ∈ X×Y X ∈ R n Y ∈ R 核方法被证明了是解决许多应用中推理问题 的有效方法. 通过引入正半定核 ,可以使用线性 学习算法创建非线性模型. 给定观测样本 . 其中输入空间 , 输出空间 (回归问题),通过非线性映射: Φ : X → F x 7→ Φ(x) (1) F = {Φ(x)|x ∈ X} F ∈ R n 把输入数据映射到一个新的特征空间 , 其中 ,原问题转化为: {(Φ(x1), y1),(Φ(x2), y2),··· ,(Φ(xl), yl)} ∈ F×Y (2) F Φ : X → F 在满足 Mercer 条件情况下,一定存在一个特征空 间 和一个映射 ,使得 k(x,z) = Φ(x)×Φ(z) (3) k(x,z) 即为核函数. k(x,z) = ∑ P p=1 µpkp(x,z) kp (x,z) p µp 核函数有两种主要的类型:全局核函数和局 部核函数,局部性核函数学习能力强、泛化性能较 弱,而全局性核函数泛化性能强、学习能力较弱, 因此考虑把这两类核函数混合起来构成混合核函 数. 对文献 [10] 中混合核函数的形式进行扩展得 到多核混合核函数的形式为 , 其中 为单核函数, 是对应的核函数编号, 为组合系数. 由 SVM 决策函数可知,混合核函 数的决策函数为: f(x) = ∑ l j=1 αj (∑ p µpkp(x, xj) ) (4) α xj 式中, 是模型参数, 是第 j 个输入向量. 本文中, 不单独计算每个核矩阵(核对样本的 Gram 矩阵), 而是采用混合模型,其决策函数为: f(x) = ∑ l j=1 ∑ P p=1 α p j kp(x, xj) (5) 1.2.2 列生成 α K α 列生成算法是用于求解大型线性规划问题的 一种重要方法. 在原始问题中,列生成算法并不是 一次性求解出所有参数 ,而是选取混合核矩阵 (构造方法在第 4 章介绍)的列子集并求解对应 的 的最优解[11] . 根据拉格朗日对偶性[12] ,通过求 解对偶问题可得到原始问题的最优解. 原始问题 的每一列对应于对偶问题的一个约束,当约束问 题的解违反对偶问题中不存在的约束时,则需将 该约束(原始问题中的一列)添加到约束问题中, 以获得最优解. 基于决策函数(5),重写文献 [13] 中的线性列 生成增强算法,使用 2 范数正则化构建如下凸二 次规划问题: minα,ξ 1 2 ∑ d j=1 α 2 j +C ∑ l i=1 ξi s.t. yi ∑ d j=1 Ki jαj +ξi ⩾ 1, ξi ⩾ 0,i = 1,··· ,l, αi ⩾ 0, j = 1,··· ,d (6) 求得其对偶问题为: maxuminα ∑ l i=1 ui − 1 2 ∑ d j=1 α 2 j s.t. ∑ l i=1 uiyiKi j ⩽ αj , j = 1,··· ,d, 0 ⩽ ui ⩽ C,i = 1,··· ,l (7) (αˆ,ξˆ 求解式(6)和(7)的最优解为 ,uˆ) ,根据文 献 [13],验证如下问题: τ = max j ∑ l i=1 uˆiyiKi j (8) j K α W N α N = 0 α W αˆ= (α W ,α N= 0) (αˆ,ξˆ,uˆ) j ∈ N, ∑ l i=1 uiyiKi j ⩽ 0 (αˆ,ξˆ,uˆ) N ∑ l i=1 uiyiKi j K· j 式中, 遍历核矩阵 中的所有列. 列生成算法将 列系数 分为两部分,使用启发式算法选出的一部 分 用于训练模型,未选中的部分 作为备选,假 设未选中的部分 ,通过求解式(6)和(7)得当 前最优解得 ,则 . 经文献 [14] 证 明, 是原始–对偶问题的当前最优解,如果 对于所有的 ,则 即为满足 KKT 条件的全局最优解. 对于线性列生成增强模 型,每次选择 中使 最大的列 加入到约 束问题中. ε max{|y− f(x)|−ε,0} α > 0 ε 将列生成增强算法推广到解决具有不敏感参 数 的损失函数 的回归问题[15] , 模型的下限约束 为非必需条件,所以在原模 型中去除下限约束. 为了构建回归模型,本文将偏 离真实值至少 的点作为误差点. 使用 2 范数正则 化,对应的凸二次规划问题为: minα,ξ,η 1 2 ∑ d j=1 α 2 j +C ∑ l i=1 (ξi +ηi) s.t. ∑ l i=1 Ki jαj +ξi ⩾ yi −ε,i = 1,··· ,l, − ∑ l i=1 Ki jαj +ηi ⩾ −yi −ε,i = 1,··· ,l, ξi ⩾ 0,ηi ⩾ 0,i = 1,··· ,l. (9) · 924 · 工程科学学报,第 42 卷,第 7 期
李晓理等:基于图像混合核的列生成PM25预测 925· 设,为拉格朗日乘子,则原始问题(9)的对 将式(14)和(15)代入大气透射模型中,得: 偶问题为: t(x)=1-minmin y) EQ(x)C Ac (16) maxuy mina 式中,A为大气光,因此将(x)选为特征Fia 2.1.3HSI颜色差异(Fh,Fis,F) s.t ==a 根据Kim等的研究2o,天空在HSI颜色空间 (10) 中颜色差异与大气消光bx存在指数关系,可表示 同理,求解如下问题: 为:bet=aeAD,式中a和b为模型参数,△D用来描 述HSI空间中的差异.由于很难获取bext中在HSI r max (11) 三部分的影响参数,因此使用三部分在H$I颜色 jEN 空间的差异值作为特征,定义如下: 解为K;经文献[14)证明,若π=0,则当前最优解 (@,,,i,)即为回归问题的全局最优解,否则,将 之Vdaw2+y2 Fih=- 15 K;加入到约束问题中去 y=1x=1 (17) dh(x)=In(x,y)-In(x+1,y) 2图像特征提取与相关性分析 d(y)=h(xy)-n(x.y+1) 式中,1是输入图像,其像素为m*n,h(x,y)是像素 空气中的雾霾会对图像造成严重的影响,会 点(,y)的h值.同样,Fs和F定义如下: 导致图像的一些特征值变低,尤其会影响图像的 1 对比度、视见度、暗通道强度等本文提取多个 Vd.(x)2+d(y)2 (18) 与雾霾相关的图像特征,并将图像特征与PM25值 做相关性分析完成特征选择 Fi=-1 Vdi(x)2+dicy)2 (19) 2.1特征提取 y=l x=l 本节提取与PM2.5浓度相关的空间对比度、非天 2.2相关性分析 空区域的暗通道强度、HSI空间颜色差异等特征. 采用皮尔逊相关系数对图像特征进行相关性 2.1.1空间对比度(Fg) 计算.皮尔逊相关系数广泛用于度量两个变量之 大气透射是指光线从场景辐射到观察者时, 间的相关程度,其值介于-1与1之间.其中1表示 减去空气中颗粒物等的折射剩余的部分,是一个 完全正相关.其形式如下: 0到1之间的标量.根据大气透射模型,大气光的 消光与透射率呈反比关系,两者满足如下公式: (X-)Y-) 1(x)=exp-bexr() (12) (20) 式中,bex是消光系数,r(x)是光的传输距离.根据 -2 文献[18: 特征与PM25浓度值相关性越强,该特征越能 VI()=1(x)VxJ() (13) 表示图像的信息.当两组数据相关性系数大于 定义空间对比度Fig为:Fg=Vxl(x 0.6时,可认为两组数据相关性较强,当相关性系 2.1.2暗通道强度(Fid) 数小于0.6时认为两组数据相关性较弱.因此,本 图像的暗通道强度定义为: 文选择与PM25相关性系数绝对值大于0.6的特征 Jark(闭)=f (14) 作为最终模型训练特征. 式中,2(x)是以像素x为中心的分块,J为场景辐射 3基于图像混合核的列生成PM2s预测 光,J“表示其中一个颜色通道.从式中可以看出, PM,5浓度变化主要影响图像对比度、非天空 给定像素的暗通道强度值为该分块三颜色同道中 区域的暗通道强度、HSI空间颜色差异.由于图像 的最小值.大量无雾霾图像的先验知识表明,无雾 特征与PM2s浓度呈非线性关系,考虑到普通核 霾图像的暗通道强度值为0,即: 函数各有利弊,为了得到学习能力和泛化能力都 Jark→0 (15) 很强的核函数,采用混合核的方法建立图像特征
设ui,vi 为拉格朗日乘子,则原始问题(9)的对 偶问题为: maxu,v minα 1 2 ∑ d j=1 α 2 j + ∑ l i=1 (ui −vi)yi − ∑ l i=1 (ui +vi)ε s.t. ∑ l i=1 (ui −vi)Ki j = αj (10) 同理,求解如下问题: τ = max j∈N ∑ l i=1 ( ˆui −vˆi)Ki j (11) K· ˆj τ = 0 (αˆ,ξˆ,ηˆ,uˆ, vˆ) K· ˆj 解为 . 经文献 [14] 证明,若 ,则当前最优解 即为回归问题的全局最优解,否则,将 加入到约束问题中去. 2 图像特征提取与相关性分析 空气中的雾霾会对图像造成严重的影响,会 导致图像的一些特征值变低,尤其会影响图像的 对比度、视见度、暗通道强度等[16] . 本文提取多个 与雾霾相关的图像特征,并将图像特征与 PM2.5 值 做相关性分析完成特征选择. 2.1 特征提取 本节提取与 PM2.5 浓度相关的空间对比度、非天 空区域的暗通道强度、HSI 空间颜色差异等特征. 2.1.1 空间对比度( Fig ) 大气透射是指光线从场景辐射到观察者时, 减去空气中颗粒物等的折射剩余的部分,是一个 0 到 1 之间的标量. 根据大气透射模型,大气光的 消光与透射率呈反比关系,两者满足如下公式[17] : t(x) = exp−bextr(x) (12) 式中, bext是消光系数,r(x) 是光的传输距离. 根据 文献 [18]: |∇xI(x)| = t(x)|∇x J(x)| (13) 定义空间对比度 Fig 为: Fig = |∇xI(x)|. 2.1.2 暗通道强度( Fid ) 图像的暗通道强度定义为[19] : Jdark(x) = min y∈Ω(x) { min c∈{r,g,b} J c (y) } (14) Ω(x) x J J c 式中, 是以像素 为中心的分块, 为场景辐射 光, 表示其中一个颜色通道. 从式中可以看出, 给定像素的暗通道强度值为该分块三颜色同道中 的最小值. 大量无雾霾图像的先验知识表明,无雾 霾图像的暗通道强度值为 0,即: Jdark → 0 (15) 将式(14)和(15)代入大气透射模型中,得: t(x) = 1− min y∈Ω(x) { min c I c (y) Ac } (16) A c 式中, 为大气光,因此将 t(x) 选为特征 Fid. 2.1.3 HSI 颜色差异( Fih,Fis,Fii ) bext bext = aeb∆D a b ∆D bext 根据 Kim 等的研究[20] ,天空在 HSI 颜色空间 中颜色差异与大气消光 存在指数关系,可表示 为 : ,式中 和 为模型参数, 用来描 述 HSI 空间中的差异. 由于很难获取 中在 HSI 三部分的影响参数,因此使用三部分在 HSI 颜色 空间的差异值作为特征,定义如下: Fih = 1 m∗ n ∑n y=1 ∑m x=1 √ dh(x) 2 +dh(y)2 dh(x) = Ih(x, y)− Ih(x+1, y) dh(y) = Ih(x, y)− Ih(x, y+1) (17) I m∗ n Ih(x, y) (x, y) h Fis Fii 式中, 是输入图像,其像素为 , 是像素 点 的 值. 同样, 和 定义如下: Fis = 1 m∗ n ∑n y=1 ∑m x=1 √ ds(x) 2 +ds(y) 2 (18) Fii = 1 m∗ n ∑n y=1 ∑m x=1 √ di(x) 2 +di(y) 2 (19) 2.2 相关性分析 采用皮尔逊相关系数对图像特征进行相关性 计算. 皮尔逊相关系数广泛用于度量两个变量之 间的相关程度,其值介于–1 与 1 之间,其中 1 表示 完全正相关. 其形式如下: r = ∑n i=1 (Xi − X¯)(Yi −Y¯) vt∑n i=1 (Xi − X¯) 2 vt∑n i=1 (Yi −Y¯) 2 (20) 特征与 PM2.5 浓度值相关性越强,该特征越能 表示图像的信息. 当两组数据相关性系数大于 0.6 时,可认为两组数据相关性较强,当相关性系 数小于 0.6 时认为两组数据相关性较弱. 因此,本 文选择与 PM2.5 相关性系数绝对值大于 0.6 的特征 作为最终模型训练特征. 3 基于图像混合核的列生成 PM2.5 预测 PM2.5 浓度变化主要影响图像对比度、非天空 区域的暗通道强度、HSI 空间颜色差异. 由于图像 特征与 PM2.5 浓度呈非线性关系[21] ,考虑到普通核 函数各有利弊,为了得到学习能力和泛化能力都 很强的核函数,采用混合核的方法建立图像特征 李晓理等: 基于图像混合核的列生成 PM2.5 预测 · 925 ·
926 工程科学学报,第42卷,第7期 值与PM2s浓度之间的关系方程,并利用列生成算 核矩阵利用列生成算法求解模型参数.实验中, 法求解方程参数 L,PR表示单核预测模型,L+P+R表示本文提出的 3.1特征选择 混合核模型,核函数中的标准差σ用x-x的均 从图像中提取Fh,Fis,Fi,Fg,Fia共5个特征, 值代替(,遍历所有的训练样本).基于图像混合 对各特征和1h后的PM2s值进行相关性分析,结 核的列生成预测步骤如下 果如表1所示,5个特征与PM25浓度均呈负相 步骤1:采集图像数据和PM2s浓度数据,经数 关,可知PM25浓度升高,会导致图像对比度、暗 据预处理后,配成样本对: 通道强度下降,HSI颜色差异变小.其中Fg,Fia与 步骤2:提取图像特征,与1h后的PMs浓度 PM25值的相关性强,Fh,Fs,F与PM25的相关性 数据做相关性分析,别除弱相关特征; 较强.因此,本文选择Fih,Fis,Fi,Fig,Fa共5个特 步骤3:选取多个核函数,计算核函数基于图 征进行模型训练 像特征值的Gram矩阵; 步骤4:将多个Gram矩阵合并为混合核矩阵; 表1特征与PM25相关性值 步骤5:抽取混合核矩阵的部分列构成列子 Table 1 Correlation between characteristics and PM,s 集,利用列生成算法基于列子集求取模型当 Fa Fid Fih Fis Fa 前解; -0.55 -0.46 -0.36 -0.4 -0.29 步骤6:验证当前解是否为最优解.若是,输出 3.2预测步骤 最优解,模型构建完成;若否,抽取未选列中的最 为方便预测,首先构造混合核矩阵,将给定的 佳列添加到列子集中,返回步骤5; 多个核函数组成核函数集S=(K1,K2,…,K,计算 步骤7:利用验证集验证预测模型的精度与稳 每个核基于训练样本K,(,x)的Gram矩阵KP 定性 (Kp(,x)对应第j个训练样本).然后,将所有Gram 3.3性能指标 矩阵并列构成一个混合核矩阵K=[K,K2,…,KP], 为了衡量单核预测模型和本文混合核模型的 则K为I×d的矩阵,其中d=l×p,K表示混合核矩 性能优劣,采用均方根误差(em∝),平均绝对百分 比误差(empe)和相关系数(R2)3个指标对模型进 阵的第行,K表示混合核矩阵的第列 行评估: 在没有任何先验知识的前提下,优先选择简 单的、计算成本低的核函数.本实验中,当简单核 emse (yii),emape= 1- WnZi=1 n1 yi 函数对应的列没有可添加的列用于求解时,则需 要从更加复杂的核函数列中选取列用于求解.因 R2=1- 》10-)2 此实验从简单到复杂采用三种核函数:线性核函 丁”6-2 EI 数(L)、多项式核函数(P)、RBF核函数(R)构建混 式中:y表示第个样本对应的PM25浓度的真实 合核,将给定的3个核函数组成核函数集 值,,表示第个样本对应的PM25浓度的预测值, S={KL,KP,…,KR,分别计算每个核基于训练样本 表示模型预测输出平均值.emse反映模型预测输 的Gram矩阵KL,KP,KR.将所有Gram矩阵并列构 出值稳定性,emape反映模型预测输出值偏离实际 成一个混合核矩阵K=[K,KP,K],然后基于混合 值的程度,两者均是越小说明模型性能越好;反 (a) 图1数据采集设备(a)及数据样本(b) Fig.1 Data acquisition equipment(a)and data samples (b)
值与 PM2.5 浓度之间的关系方程,并利用列生成算 法求解方程参数. 3.1 特征选择 Fih Fis Fii Fig Fid Fig Fid Fih Fis Fii Fih Fis Fii Fig Fid 从图像中提取 , , , , 共 5 个特征, 对各特征和 1 h 后的 PM2.5 值进行相关性分析,结 果如表 1 所示. 5 个特征与 PM2.5 浓度均呈负相 关,可知 PM2.5 浓度升高,会导致图像对比度、暗 通道强度下降,HSI 颜色差异变小. 其中 , 与 PM2.5 值的相关性强, , , 与 PM2.5 的相关性 较强. 因此,本文选择 , , , , 共 5 个特 征进行模型训练. 3.2 预测步骤 S = {K1,K2,··· ,Kp} Kp(·, x j) K p Kp(·, x j) j K = [K 1 ,K 2 ,··· ,K p ] K l×d d = l× p Ki· i K· j j 为方便预测,首先构造混合核矩阵. 将给定的 多个核函数组成核函数集 ,计算 每 个 核 基 于 训 练 样 本 的 Gram 矩 阵 ( 对应第 个训练样本). 然后,将所有 Gram 矩阵并列构成一个混合核矩阵 , 则 为 的矩阵,其中 , 表示混合核矩 阵的第 行, 表示混合核矩阵的第 列. L P R S = {KL,KP,··· ,KR} K L ,K P ,K R K = [K L ,K P ,K R ] 在没有任何先验知识的前提下,优先选择简 单的、计算成本低的核函数. 本实验中,当简单核 函数对应的列没有可添加的列用于求解时,则需 要从更加复杂的核函数列中选取列用于求解. 因 此实验从简单到复杂采用三种核函数:线性核函 数 ( )、多项式核函数 ( )、RBF 核函数 ( ) 构建混 合 核 . 将 给 定 的 3 个 核 函 数 组 成 核 函 数 集 ,分别计算每个核基于训练样本 的 Gram 矩阵 . 将所有 Gram 矩阵并列构 成一个混合核矩阵 ,然后基于混合 L,P,R L+ P+R σ xi − xj 2 i j 核矩阵利用列生成算法求解模型参数. 实验中, 表示单核预测模型, 表示本文提出的 混合核模型,核函数中的标准差 用 的均 值代替( , 遍历所有的训练样本). 基于图像混合 核的列生成预测步骤如下. 步骤 1:采集图像数据和 PM2.5 浓度数据,经数 据预处理后,配成样本对; 步骤 2:提取图像特征,与 1 h 后的 PM2.5 浓度 数据做相关性分析,剔除弱相关特征; 步骤 3:选取多个核函数,计算核函数基于图 像特征值的 Gram 矩阵; 步骤 4:将多个 Gram 矩阵合并为混合核矩阵; 步骤 5:抽取混合核矩阵的部分列构成列子 集 ,利用列生成算法基于列子集求取模型当 前解; 步骤 6:验证当前解是否为最优解. 若是,输出 最优解,模型构建完成;若否,抽取未选列中的最 佳列添加到列子集中,返回步骤 5; 步骤 7:利用验证集验证预测模型的精度与稳 定性. 3.3 性能指标 emse emape R 2 为了衡量单核预测模型和本文混合核模型的 性能优劣,采用均方根误差( ),平均绝对百分 比误差( )和相关系数( )3 个指标对模型进 行评估: emse = √ 1 n ∑n i=1 (yi −yˆi), emape = 1 n ∑n 1 yi −yˆi yi , R 2 = 1− ∑n i=1 (yi −yˆi) 2 ∑n i=1 (¯y−yˆi) 2 yi i yˆi i y¯ emse emape R 2 式中: 表示第 个样本对应的 PM2.5 浓度的真实 值 , 表示第 个样本对应的 PM2.5 浓度的预测值, 表示模型预测输出平均值. 反映模型预测输 出值稳定性, 反映模型预测输出值偏离实际 值的程度,两者均是越小说明模型性能越好; 反 表 1 特征与 PM2.5 相关性值 Table 1 Correlation between characteristics and PM2.5 Fig Fid Fih Fis Fii – 0.55 – 0.46 – 0.36 – 0.4 – 0.29 (a) (b) 图 1 数据采集设备(a)及数据样本(b) Fig.1 Data acquisition equipment (a) and data samples (b) · 926 · 工程科学学报,第 42 卷,第 7 期
李晓理等:基于图像混合核的列生成PM,预测 927 映模型预测输出值与真实值之间的关联程度,其 到相对较高的预测精度.预测值的相对误差绝大 值越接近1说明模型性能越好 部分维持在较低范围内 4结果分析 除了个别因环境因素、人为因素等造成的较 大偏差外,基本可以认为该模型满足了预测精度 本实验使用大气图像数据和对应的空气质量 要求.同时,将基于图像混合核的列生成PM25预 PM25数据进行实验.图像数据来源于安装在北京 测模型与单核预测模型进行对比实验,结果如图4 工业大学内的360智能摄像头,采集2019年1月 所示 1日至2019年5月31日每日9:00~16:00的600× 12 320图像(每小时采样)共1000幅.PM2s数据来自 1.0 安装在北京工业大学校园内的808微型气象站 L+P+R 数据采集设备及数据样本如图1所示 0.6 0.4 。L+P+R 350 ·Original value 300 0 25 50 75100125 150175200 250 Image samples 200 图44种模型预测相对误差 150 Fig.4 Relative error in prediction for the four models 100 50 从图4中可以看出,对于同一测试样本,基于 0 图像混合核的列生成模型的预测相对误差要普遍 0 25 5075100125150175200 Image samples 小于其他单模型,且混合核模型的预测相对误差 图2混合核模型预测值 稳定维持在一定范围内,未出现较大误差,可认为 Fig.2 Prediction results of mixture kemel model 基于图像混合核的列生成模型在预测性能和模型 稳定性方面优于其他三个单核预测模型 4.1预测结果分析 结合3个性能指标对4种预测模型进行对比, 从采集的图像数据中随机抽取600张图像,将 结果如表2所示.相比于3种单核预测模型,基于 经过标准化处理的特征数据随机取400组作为训 图像混合核的列生成模型预测结果的均方根误差 练样本,剩余200组作为测试样本.为了证明基于 (emse)和平均绝对百分比误差(emape)最小,相关系 图像混合核与列生成模型的有效性,将该模型与 数(2)最大,说明基于图像混合核的列生成模型 单核预测模型实验结果进行对比. 表现出了更高的预测精度和预测稳定性 针对基于图像混合核的列生成PM25预测模 型,利用预留的验证集数据进行仿真实验,仿真结 表24种模型性能对比 果如图2和3所示.从图2和3中可以看出,采用 Table 2 Performance comparison of the four models 基于图像混合核的列生成模型对1h后的PM25值 Kernel emse emane% R 进行预测,预测值与期望输出值基本相吻合,能达 L 11.959 13.603 0.814 13.924 15.601 0.751 0.8 农 11.188 12.213 0.843 0.7 0 L+P+R 9.553 9.955 0.895 0.5 0.4 4.2计算复杂度分析 0.3 基于图像混合核的列生成预测模型的计算复 0.2 0 杂度取决于基于图像特征值的模型建立过程,因 此其计算复杂度与列生成算法相等,列生成算法 0 25 50 75100125150175200 Image samples 的计算复杂度计算如下:设样本总数为m,则混合 图3混合核模型预测相对误差 核矩阵总列数为np,最终要抽取m列.抽取每列都 Fig.3 Relative error in mixture kemel model prediction 要与其余所有列进行计算对比,则计算次数依次
映模型预测输出值与真实值之间的关联程度,其 值越接近 1 说明模型性能越好. 4 结果分析 本实验使用大气图像数据和对应的空气质量 PM2.5 数据进行实验. 图像数据来源于安装在北京 工业大学内的 360 智能摄像头,采集 2019 年 1 月 1 日至 2019 年 5 月 31 日每日 9:00~16:00 的 600× 320 图像(每小时采样)共 1000 幅. PM2.5 数据来自 安装在北京工业大学校园内的 808 微型气象站. 数据采集设备及数据样本如图 1 所示. 4.1 预测结果分析 从采集的图像数据中随机抽取 600 张图像,将 经过标准化处理的特征数据随机取 400 组作为训 练样本,剩余 200 组作为测试样本. 为了证明基于 图像混合核与列生成模型的有效性,将该模型与 单核预测模型实验结果进行对比. 针对基于图像混合核的列生成 PM2.5 预测模 型,利用预留的验证集数据进行仿真实验,仿真结 果如图 2 和 3 所示. 从图 2 和 3 中可以看出,采用 基于图像混合核的列生成模型对 1 h 后的 PM2.5 值 进行预测,预测值与期望输出值基本相吻合,能达 到相对较高的预测精度. 预测值的相对误差绝大 部分维持在较低范围内. 除了个别因环境因素、人为因素等造成的较 大偏差外,基本可以认为该模型满足了预测精度 要求. 同时,将基于图像混合核的列生成 PM2.5 预 测模型与单核预测模型进行对比实验,结果如图 4 所示. 从图 4 中可以看出,对于同一测试样本,基于 图像混合核的列生成模型的预测相对误差要普遍 小于其他单模型,且混合核模型的预测相对误差 稳定维持在一定范围内,未出现较大误差,可认为 基于图像混合核的列生成模型在预测性能和模型 稳定性方面优于其他三个单核预测模型. emse emape R 2 结合 3 个性能指标对 4 种预测模型进行对比, 结果如表 2 所示. 相比于 3 种单核预测模型,基于 图像混合核的列生成模型预测结果的均方根误差 ( )和平均绝对百分比误差( )最小,相关系 数( )最大,说明基于图像混合核的列生成模型 表现出了更高的预测精度和预测稳定性. 4.2 计算复杂度分析 n np m 基于图像混合核的列生成预测模型的计算复 杂度取决于基于图像特征值的模型建立过程,因 此其计算复杂度与列生成算法相等. 列生成算法 的计算复杂度计算如下:设样本总数为 ,则混合 核矩阵总列数为 ,最终要抽取 列. 抽取每列都 要与其余所有列进行计算对比,则计算次数依次 表 2 4 种模型性能对比 Table 2 Performance comparison of the four models Kernel emse emape/% R 2 L 11.959 13.603 0.814 P 13.924 15.601 0.751 R 11.188 12.213 0.843 L+P+R 9.553 9.955 0.895 350 300 250 200 150 100 50 0 25 50 75 100 Image samples Original value and predictive value 0 125 150 175 200 Original value L+P+R 图 2 混合核模型预测值 Fig.2 Prediction results of mixture kernel model 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 25 50 75 100 Image samples Relative error of predictive value 0 125 150 175 200 图 3 混合核模型预测相对误差 Fig.3 Relative error in mixture kernel model prediction 1.2 1.0 0.8 0.6 0.4 0.2 0 25 50 75 100 Image samples Relative error of predictive value 0 125 150 175 200 L P R L+P+R 图 4 4 种模型预测相对误差 Fig.4 Relative error in prediction for the four models 李晓理等: 基于图像混合核的列生成 PM2.5 预测 · 927 ·
928 工程科学学报,第42卷,第7期 为np,np-1,np-2,…,np-m+1,总计算次数为 principal component analysis and LSSVM optimized by cuckoo mmp-(m2-m)/2.因为m冬n,所以混合核模型的计 search algorithm.J Environ Manage,2016,188:144 [4]Qu Y,Qian X.Song HO,et al.Machine-learning-based model and 算复杂度可表示为O(mp),同理的单核预测模型 simulation analysis of PM2s concentration prediction in Beijing. 计算复杂度为Ok)(k为单核矩阵中抽取的列数) Chin J Eng,2019,41(3):401 本文中p=3,m≤n,k<n,可得0mp)=0n)=0), (曲悦,钱旭,宋洪庆,等.基于机器学习的北京市PM2s浓度预测 所以混合核预测模型与单核预测模型相比,计算 模型及模拟分析.工程科学学报,2019,41(3):401) 复杂度没有明显增加 [5] Russo A,Raischel F,Lind P G.Air quality prediction using 综上,本文提出的基于图像混合核的列生成 optimal neural networks with stochastic variables.Atmos Environ, 预测模型,在满足预测精度的前提下,获取数据的 2013,79:822 成本更低,获取数据的途径更便捷,计算复杂度与 [6]Li J G,Luo A R,Li X L.Prediction of PM2s mass concentration based on complementary ensemble empirical mode decomposition 单核预测模型相比无明显增加,对进行PM25预测 and support vector regression.J Beijing Univ Technol,2018, 有一定的借鉴意义. 44(12):1494 5结论 (李建更,罗奥荣,李晓理.基于互补集合经验模态分解与支持 向量回归的PM25质量浓度预测.北京工业大学学报,2018 列生成算法是解决多变量线性规划问题的典 44(12):1494) 型方法,核函数可以将非线性数据映射到高维线 [7]Liu C B,Tsow F,Zou Y,et al.Particle pollution estimation based 性空间,本文将核技巧与列生成算法相结合,提出 on image analysis.PloS One,2016,11(2):e0145955 [8]Gu K,Qiao J F,Li X L.Highly efficient picture-based prediction 了一种基于图像混合核的列生成预测模型.通过 of PM2s concentration.IEEE Trans Ind Electron,2019,66(4): 实验得出以下结论: 3176 (I)针对大气PM25预测影响因素复杂、大气 [9]Li X L,Zhang S,Wang K.PM2s air quality prediction based on 污染物浓度数据难以获取等问题,基于图像数据 image quality analysis.J Beijing Uniy Technol,2020,46(2):191 建立模型进行预测是可行的,当选取的图像特征 (李晓理,张山,王康.基于图像质量分析的PM2空气质量预测. 与PM2;密切相关时,能够取得不错的预测效果 北京工业大学学报,2020,46(2):191) (2)基于图像混合核的列生成预测模型无需 [10]Wang H Q,Sun F C,Cai Y N,et al.On multiple kemel learning 考虑组合参数问题,且能从核矩阵中选择最佳的 methods.Acta Autom Sin,2010,36(8):1037 (汪洪桥,孙富春,蔡艳宁,等.多核学习方法.自动化学报,2010, 列,使模型的解具备稀疏性且预测精度可观. 36(8):1037) (3)混合核模型比普通单核预测模型的预测 [11]Fink M,Desaulniers G.Frey M,et al.Column generation for 误差小、精度高,模型稳定性好,该模型具备良好 vehicle routing problems with multiple synchronization 的预测性能 constraints.Eur JOper Res,2019,272(2):699 (4)本文提出的模型对多雾、降雨和夜间等天 [12]Li H.Statistical Learning Method.Beijing:Tsinghua University 气无法适用,会影响模型预测效果,需要在今后的 Press,2012 工作中将此类特殊天气条件考虑到模型训练中, (李航.统计学习方法.北京:清华大学出版社,2012) [13]Demiriz A,Bennett K P,Shawe-Taylor J.Linear programming 期望得到泛化能力更强、预测精度更高的预测 boosting via column generation.Mach Learn,2002,46(1-3):225 模型 [14]Bi J B,Zhang T,Bennett K P.Column-generation boosting methods for mixture of kemels//Proceedings of the Tenth ACM 参考文献 SIGKDD International Conference on Knowledge Discovery and [1]Zhang X L.Zhao J H.Cai B.Prediction model with dynamic Data Mining.Seattle,2004:521 adjustment for single time series of PM2.s.Acta Automatica Sinica, [15]Vapnik V.The Nature of Statistical Learning Theory.Springer 2018,44(10:1790 Science Business Media,2013 (张熙来,赵俭辉,蔡波,针对PM2单时间序列数据的动态调整 [16]Berman D.Treibitz T,Avidan S.Single image dehazing using 预测模型.自动化学报,2018.44(10):1790) haze-lines.IEEE Trans Pattern Anal Mach Intell,2018,42(3): [2]Zhan Y,Luo Y Z,Deng X F,et al.Spatiotemporal prediction of 720 continuous daily PM25.concentrations across China using a [17]Seinfeld J H,Pandis S N.Atmospheric Chemistry and Physics: spatially explicit machine learning algorithm.Atmos Environ, from Air Pollution to Climate Change.John Wiley Sons,2016 2017,155:129 [18]Graves N,Newsam S.Camera-based visibility estimation: [3]Sun W,Sun J Y.Daily PM2s concentration prediction based on Incorporating multiple regions and unlabeled observations.Ecol
np,np−1,np−2,··· ,np−m+1 mnp− ( m 2 −m ) /2 m ≪ n O(nmp) O(nk) k p = 3 m ≪ n k ≪ n O(nmp) = O(nk) = O(n) 为 , 总 计 算 次 数 为 . 因为 ,所以混合核模型的计 算复杂度可表示为 ,同理的单核预测模型 计算复杂度为 ( 为单核矩阵中抽取的列数). 本文中 , , ,可得 , 所以混合核预测模型与单核预测模型相比,计算 复杂度没有明显增加. 综上,本文提出的基于图像混合核的列生成 预测模型,在满足预测精度的前提下,获取数据的 成本更低,获取数据的途径更便捷,计算复杂度与 单核预测模型相比无明显增加,对进行 PM2.5 预测 有一定的借鉴意义. 5 结论 列生成算法是解决多变量线性规划问题的典 型方法,核函数可以将非线性数据映射到高维线 性空间,本文将核技巧与列生成算法相结合,提出 了一种基于图像混合核的列生成预测模型. 通过 实验得出以下结论: (1)针对大气 PM2.5 预测影响因素复杂、大气 污染物浓度数据难以获取等问题,基于图像数据 建立模型进行预测是可行的,当选取的图像特征 与 PM2.5 密切相关时,能够取得不错的预测效果. (2)基于图像混合核的列生成预测模型无需 考虑组合参数问题,且能从核矩阵中选择最佳的 列,使模型的解具备稀疏性且预测精度可观. (3)混合核模型比普通单核预测模型的预测 误差小、精度高,模型稳定性好,该模型具备良好 的预测性能. (4)本文提出的模型对多雾、降雨和夜间等天 气无法适用,会影响模型预测效果,需要在今后的 工作中将此类特殊天气条件考虑到模型训练中, 期望得到泛化能力更强、预测精度更高的预测 模型. 参 考 文 献 Zhang X L, Zhao J H, Cai B. Prediction model with dynamic adjustment for single time series of PM2.5. Acta Automatica Sinica, 2018, 44(10): 1790 (张熙来, 赵俭辉, 蔡波. 针对PM2.5单时间序列数据的动态调整 预测模型. 自动化学报, 2018, 44(10):1790) [1] Zhan Y, Luo Y Z, Deng X F, et al. Spatiotemporal prediction of continuous daily PM2.5, concentrations across China using a spatially explicit machine learning algorithm. Atmos Environ, 2017, 155: 129 [2] [3] Sun W, Sun J Y. Daily PM2.5 concentration prediction based on principal component analysis and LSSVM optimized by cuckoo search algorithm. J Environ Manage, 2016, 188: 144 Qu Y, Qian X, Song H Q, et al. Machine-learning-based model and simulation analysis of PM2.5 concentration prediction in Beijing. Chin J Eng, 2019, 41(3): 401 (曲悦, 钱旭, 宋洪庆, 等. 基于机器学习的北京市PM2.5浓度预测 模型及模拟分析. 工程科学学报, 2019, 41(3):401) [4] Russo A, Raischel F, Lind P G. Air quality prediction using optimal neural networks with stochastic variables. Atmos Environ, 2013, 79: 822 [5] Li J G, Luo A R, Li X L. Prediction of PM2.5 mass concentration based on complementary ensemble empirical mode decomposition and support vector regression. J Beijing Univ Technol, 2018, 44(12): 1494 (李建更, 罗奥荣, 李晓理. 基于互补集合经验模态分解与支持 向量回归的PM2.5质量浓度预测. 北京工业大学学报, 2018, 44(12):1494) [6] Liu C B, Tsow F, Zou Y, et al. Particle pollution estimation based on image analysis. PloS One, 2016, 11(2): e0145955 [7] Gu K, Qiao J F, Li X L. Highly efficient picture-based prediction of PM2.5 concentration. IEEE Trans Ind Electron, 2019, 66(4): 3176 [8] Li X L, Zhang S, Wang K. PM2.5 air quality prediction based on image quality analysis. J Beijing Univ Technol, 2020, 46(2): 191 (李晓理, 张山, 王康. 基于图像质量分析的PM2.5空气质量预测. 北京工业大学学报, 2020, 46(2):191) [9] Wang H Q, Sun F C, Cai Y N, et al. On multiple kernel learning methods. Acta Autom Sin, 2010, 36(8): 1037 (汪洪桥, 孙富春, 蔡艳宁, 等. 多核学习方法. 自动化学报, 2010, 36(8):1037) [10] Fink M, Desaulniers G, Frey M, et al. Column generation for vehicle routing problems with multiple synchronization constraints. Eur J Oper Res, 2019, 272(2): 699 [11] Li H. Statistical Learning Method. Beijing: Tsinghua University Press, 2012 (李航. 统计学习方法. 北京: 清华大学出版社, 2012) [12] Demiriz A, Bennett K P, Shawe-Taylor J. Linear programming boosting via column generation. Mach Learn, 2002, 46(1-3): 225 [13] Bi J B, Zhang T, Bennett K P. Column-generation boosting methods for mixture of kernels//Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Seattle, 2004: 521 [14] Vapnik V. The Nature of Statistical Learning Theory. Springer Science & Business Media, 2013 [15] Berman D, Treibitz T, Avidan S. Single image dehazing using haze-lines. IEEE Trans Pattern Anal Mach Intell, 2018, 42(3): 720 [16] Seinfeld J H, Pandis S N. Atmospheric Chemistry and Physics: from Air Pollution to Climate Change. John Wiley & Sons, 2016 [17] Graves N, Newsam S. Camera-based visibility estimation: Incorporating multiple regions and unlabeled observations. Ecol [18] · 928 · 工程科学学报,第 42 卷,第 7 期
李晓理等:基于图像混合核的列生成PMs预测 ·929· Inform,2014,23:62 1243 [19]He K M,Sun J,Tang X O.Single image haze removal using dark [21]Yuan L,Mu Z C,Liu L M.Ear recognition based on kernel channel prior.IEEE Trans Pattern Anal Mach Intell,2011. principal component analysis and support vector machine.JUnv 33(12):2341 Sci Technol Beijing,2006,28(9):890 [20]Kim K W,Kim Y J.Perceived visibility measurement using the (袁立,穆志纯,刘磊明.基于核主元分析法和支持向量机的人 HSI color difference method.J Korean Phys Soc,2005,46(5): 耳识别.北京科技大学学报,2006,28(9):890)
Inform, 2014, 23: 62 He K M, Sun J, Tang X O. Single image haze removal using dark channel prior. IEEE Trans Pattern Anal Mach Intell, 2011, 33(12): 2341 [19] Kim K W, Kim Y J. Perceived visibility measurement using the HSI color difference method. J Korean Phys Soc, 2005, 46(5): [20] 1243 Yuan L, Mu Z C, Liu L M. Ear recognition based on kernel principal component analysis and support vector machine. J Univ Sci Technol Beijing, 2006, 28(9): 890 (袁立, 穆志纯, 刘磊明. 基于核主元分析法和支持向量机的人 耳识别. 北京科技大学学报, 2006, 28(9):890) [21] 李晓理等: 基于图像混合核的列生成 PM2.5 预测 · 929 ·