第5期 周红标,等:基于高维k-近邻互信息的特征选择方法 .599. 6 0.3 100 200 300400500 样本数/(个·样本1) (a)原始TP数据 4 40 6080100120 测试样本 图6TP数据MLP预测误差 100 200300400 500 Fig.6 Predicted error using MLP for TP 样本数/(个·样本1) (b)小波包去噪TP数据 4结束语 图4出水TP数据小波包去噪 通过将数据驱动型k-近邻方法扩展用于多维特征 Fig.4 Wavelet packet denoising for TP 之间相关性计算,结合前向累加策略,能够较为准确地 表4TP数据特征选择及测试结果 获得全部特征的最优排序,进而剔除无关特征,再结合 Table 4 Feature selection and test results for TP 后向交叉策略,能够定位并删除冗余特征,最终得到最 优强相关特征子集。Friedman、Housing和实际污水处 方法 特征选择结果 RMSE 理出水TP预测实验证实了本文方法的有效性。下一 步的研究工作是实现无关特征的自动判定,避免人为 ALL x-X9 0.428±0.077 设置带来的无关特征误剔的可能。 ERR X3,X4X8Xg 0.519±0.071 参考文献: PLSR x3x5.X2X1X6 0.464±0.033 [1]0SELEDETS I V,TYRTYSHNIKOV E E.Breaking the curse of dimensionality,or how to use SVD in many dimensions[J] kNN-FABC x7,1x26 0.159±0.004 SIAM journal on scientific computing,2009,31(5):3744-3759. [2]GHAMISI P,BENEDIKTSSON J A.Feature selection based 注:ERR为随机选取特征,作对比。 on hybridization of genetic algorithm and particle swarm 图5和图6分别给出了MP模型对TP数据预测 optimization[J].IEEE geoscience and remote sensing 结果和预测误差。可见,通过kNN-FABC方法选出的 1 etters,2015,12(2):309-313. [3]RAUBER T W,ASSIS BOLDT de F,VAREJAO F M. 特征能够很好地表征原始数据,建模误差主要集中在 Heterogeneous feature models and feature selection applied -0.3~0.3mg/L之间,能够较好地满足污水处理厂对总 to bearing fault diagnosis[J].IEEE transactions on 磷检测精度的要求。 industrial electronics,2015,62(1):637-646. [4]WOLD S,SJOSTROM M,ERIKSSON L.PLS-regression:a basic tool of chemometrics[J].Chemometrics and intelligent 一真实值 ----预测值 laboratory systems,2001.58(2):109-130. [5]SONG Q,SHEPPERD M.Predicting software project effort: a grey relational analysis based method[]].Expert systems 1-w) with applications,2011,38(6):7302-7316. [6]FENG J,JIAO L.LIU F,et al.Mutual-information-based semi-supervised hyperspectral band selection with high discrimination,high information,and low redundancy [J]. 0 20 40 60 80100120 IEEE transactions on geoscience and remote sensing,2015, 测试样本 53(5):2956-2969. 图5TP数据MP预测结果 [7]BENNASAR M,HICKS Y,SETCHI R.Feature selection Fig.5 Predicted output using MLP for TP using joint mutual information maximisation [J].Expert(a)原始 TP 数据 (b)小波包去噪 TP 数据 图 4 出水 TP 数据小波包去噪 Fig.4 Wavelet packet denoising for TP 表 4 TP 数据特征选择及测试结果 Table 4 Feature selection and test results for TP 方法 特征选择结果 RMSE ALL x1 ~x9 0.428±0.077 ERR x3,x4,x8,x9 0.519±0.071 PLSR x3,x5,x2,x1,x6 0.464±0.033 kNN-FABC x7,x1,x2,x6 0.159±0.004 注: ERR 为随机选取特征,作对比。 图 5 和图 6 分别给出了 MLP 模型对 TP 数据预测 结果和预测误差。 可见,通过 kNN⁃FABC 方法选出的 特征能够很好地表征原始数据,建模误差主要集中在 -0.3~0.3 mg / L 之间,能够较好地满足污水处理厂对总 磷检测精度的要求。 图 5 TP 数据 MLP 预测结果 Fig.5 Predicted output using MLP for TP 图 6 TP 数据 MLP 预测误差 Fig.6 Predicted error using MLP for TP 4 结束语 通过将数据驱动型 k⁃近邻方法扩展用于多维特征 之间相关性计算,结合前向累加策略,能够较为准确地 获得全部特征的最优排序,进而剔除无关特征,再结合 后向交叉策略,能够定位并删除冗余特征,最终得到最 优强相关特征子集。 Friedman、Housing 和实际污水处 理出水 TP 预测实验证实了本文方法的有效性。 下一 步的研究工作是实现无关特征的自动判定,避免人为 设置带来的无关特征误剔的可能。 参考文献: [1]OSELEDETS I V, TYRTYSHNIKOV E E. Breaking the curse of dimensionality, or how to use SVD in many dimensions[J]. SIAM journal on scientific computing, 2009, 31(5): 3744-3759. [2]GHAMISI P, BENEDIKTSSON J A. Feature selection based on hybridization of genetic algorithm and particle swarm optimization [ J ]. IEEE geoscience and remote sensing letters, 2015, 12(2): 309-313. [3] RAUBER T W, ASSIS BOLDT de F, VAREJÃO F M. Heterogeneous feature models and feature selection applied to bearing fault diagnosis[J]. IEEE transactions on industrial electronics, 2015, 62(1): 637-646. [4]WOLD S, SJÖSTRÖM M, ERIKSSON L. PLS⁃regression: a basic tool of chemometrics[J]. Chemometrics and intelligent laboratory systems, 2001, 58(2): 109-130. [5]SONG Q, SHEPPERD M. Predicting software project effort: a grey relational analysis based method[ J]. Expert systems with applications, 2011, 38(6): 7302-7316. [6] FENG J, JIAO L, LIU F, et al. Mutual⁃information⁃based semi⁃supervised hyperspectral band selection with high discrimination, high information, and low redundancy [ J]. IEEE transactions on geoscience and remote sensing, 2015, 53(5): 2956-2969. [7] BENNASAR M, HICKS Y, SETCHI R. Feature selection using joint mutual information maximisation [ J ]. Expert 第 5 期 周红标,等:基于高维 k-近邻互信息的特征选择方法 ·599·
