正在加载图片...
2.1 MEIVS算法 MEVS算法2借鉴于排列的思想,以打乱输入变量在测试集上的序列后模型预测误差的增加 来衡量变量的重要性。基于排序的变量重要性度量方法是Breiman通过随机森林算法P引入的, Fisher将该算法拓展到任意模型Pl。其思路是模型会更依赖于重要的输入变量做预测,如果打乱某 个输入变量的序列会大幅度增加模型的预测误差,这个输入变量则被认为是重要的:反之,如果打 乱某个输入变量的序列几乎不影响的预测误差,这个输入变量则被认为是不重要的。不同的重要变 量提取方法得到的变量重要性得分(Variable Importance Score,.VIS)存在差异,因为每种方法对映射 输入变量和输出变量的底层回归函数有不同的假设。为保证结果的稳定性,MEVS算法组合了随 机森林(Random Forest,.RF)、梯度提升回归树(Gradient Boosted Regression Trees,GBRT)、BP神经网 络(Back-Propagation Neural Network,BPNN)三种具有代表性的机器学习算法,使得该算法不依赖 于单一的机器学习。其中RF和GBRT都属于决策树的集成学习算法,但RF采用Bagging的计算策 略,GBRT采用Boosting的计算策略:BPNN采用双隐层结构,激活函数采用众曲正切函数。本文 的损失函数采用的是均方根误差(Root Mean Squared Error,.RMSE): ∑(-)2 (1) RMSE N 其中,N为样本个数,),为第i个样本的预测值,y为第个样本的实际值。以样本的80%作 为训练集,20%作为测试集,使用Z,S0心标准化方法对省入委量通行预处理,经过处理的数据的 均值为0,标准差为1。为便于分析,对腐蚀电偶电流数据做对数化处理。记m个环境变量的集合 色0,最终得到个重要环境变量的家 ,具体算法请参考文献[21]。给出算 法流程图如下: (a) MEIVS Algorithm Permutation Algorithm (Begin 1 Standardization Calculate RMSE on the test set Train set Test set 7 Generate permutations ofS uniformly at random RF GBRT BPNN Algorithm Algorithm Algorithm Calculating average RMSE M loss w ermutation ermutation Permutation Calculate permutation Algorithm Algonthm Algorithm importance of S Compute the final importance score Yes j+1 广≤m? Select variables No Calculate standardized End importance score ■1 MEIVS算法流程图.(a)MEIVS算法主流程,(b)排列算法流程2.1 MEIVS 算法 MEIVS 算法[21]借鉴于排列的思想,以打乱输入变量在测试集上的序列后模型预测误差的增加 来衡量变量的重要性。基于排序的变量重要性度量方法是 Breiman 通过随机森林算法[22]引入的, Fisher 将该算法拓展到任意模型[23]。其思路是模型会更依赖于重要的输入变量做预测,如果打乱某 个输入变量的序列会大幅度增加模型的预测误差,这个输入变量则被认为是重要的;反之,如果打 乱某个输入变量的序列几乎不影响的预测误差,这个输入变量则被认为是不重要的。不同的重要变 量提取方法得到的变量重要性得分(Variable Importance Score, VIS)存在差异,因为每种方法对映射 输入变量和输出变量的底层回归函数有不同的假设。为保证结果的稳定性,MEIVS 算法组合了随 机森林(Random Forest, RF)、梯度提升回归树(Gradient Boosted Regression Trees, GBRT)、BP 神经网 络(Back-Propagation Neural Network, BPNN)三种具有代表性的机器学习算法,使得该算法不依赖 于单一的机器学习。其中 RF 和 GBRT 都属于决策树的集成学习算法,但 RF 采用 Bagging 的计算策 略,GBRT 采用 Boosting 的计算策略;BPNN 采用双隐层结构,激活函数采用双曲正切函数。本文 的损失函数采用的是均方根误差(Root Mean Squared Error, RMSE):   2 1 ˆ N i i i y y RMSE N     (1) 其中,N 为样本个数, ˆ i y 为第 i 个样本的预测值, i y 为第 i 个样本的实际值。以样本的 80%作 为训练集,20%作为测试集,使用 Z-Score 标准化方法对输入变量进行预处理,经过处理的数据的 均值为 0,标准差为 1。为便于分析,对腐蚀电偶电流数据做对数化处理。记 m 个环境变量的集合 为 S S 1 , ,  m ,最终得到 n 个重要环境变量的集合  X X 1 , ,  n ,具体算法请参考文献[21]。给出算 法流程图如下: 图 1 MEIVS 算法流程图. (a) MEIVS 算法主流程; (b) 排列算法流程 录用稿件,非最终出版稿
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有