正在加载图片...
AIC=2k-2In(L) (10) BIC kIn(N)-2In(L) (11) 其中,元为第1个样本的预测值,片为第1个样本的实际值,刀为所有样本实际值的均值,k是 模型参数个数,L是最大对数似然值。模型选择标准通常基于最低的AIC和BIC值,并以R作为参 考。对于尖点突变模型,当α、B位于分叉集内部时,根据延迟约定,二的预测值在离实际值最近的平 衡曲面上21,22。 1.1.3突变特征 在系统的势函数未知的情况下,常常根据系统表现的外部性态来判断系统是否存在突变,这些 性态被称为突变特征42。尖点突变有五个特征:(1)多模态:系统中可能出现9不同的状态;(2) 不可达性:系统存在不稳定的平衡态:(3)突跳:系统从一个势函数极小值跳到2个极小值:(4) 发散:控制因子的微小变化可以导致状态因子的质变:(⑤)滞后:当物理过程可逆时,发生突变时对 应的控制参数位置可能不同。当系统存在突变现象时,对外往往表现为淇中的一个或几个的组合。在 实际应用中,针对截面数据,应首先检查研究对象概率密度的双峰性,双峰性意味着系统可能存在 多个状态;针对时序数据,则应首先检查时间序列中的跳变现象火 1.2多横型集成要变■选择算法 而在传统的尖点突变模型的建模过程中,输入变量的迷取往往依赖于己有的实践或经验,这与 目前数据规模的爆发式增长相矛盾,不利于尖点突变模型的普及应用。为了解决上述问题,同时提 高模型的精度、降低模型的复杂度,本文基于排列想提出MEIVS算法。 排列的思想借鉴于随机森林的变量重要性度量法<认为模型会更依赖于重要的输入变量做预 测。当打乱某一变量在测试集上的观测序列后〈用新生成的数据做预测,更重要的输入变量会使模 型的精度损失更大。MEVS算法组合了RFGBRT、SVR三种常用的机器学习算法,其中RF和 GBRT都属于决策树的集成学习算法,但它们采用的计算策略不同:SVR采用高斯核函数。文献 [24,25,26]中对每种方法的机理都作了解释。本文的损失函数采用的是均方根误差(Root Mean Squared Error,RMSE): (12) RMSE N 以样本的80%作类 练集20%作为测试集,使用Z-Scor爬标准化方法对输入变量进行处理, 经过处理的数据的均值为Q 标准差为1。记m个待选变量的集合为S,,S】,目标是得到n个重 要变量的集合 ,作为尖点突变模型的输入变量。算法步骤及流程图如下: 步骤1利用训练集训练RF、GBRT、SVR模型,记为M、M、M,对于所建立的每个模型M, 分别基于置换算法计算变量重要性,即执行步骤2、步骤3: 步骤2计算模型M在测试集上的均方根误差并记为兴,对(S,,S,依次执行①H(3): (1)打乱S在测试集上的观测序列并重新计算模型的均方根误差,由于涉及随机性,此过程重 复10次,分别记为必,…,% (2)计算S在测试集上的平均预测精度损失:AIC k L   2 2ln   (10) BIC k N L   ln 2ln     (11) 其中, ˆ i y 为第 i 个样本的预测值, i y 为第 i 个样本的实际值, y 为所有样本实际值的均值,k 是 模型参数个数,L 是最大对数似然值。模型选择标准通常基于最低的 AIC 和 BIC 值,并以 R 2作为参 考。对于尖点突变模型,当 α、β 位于分叉集内部时,根据延迟约定,z 的预测值在离实际值最近的平 衡曲面上[21,22]。 1.1.3 突变特征 在系统的势函数未知的情况下,常常根据系统表现的外部性态来判断系统是否存在突变,这些 性态被称为突变特征[14,21]。尖点突变有五个特征:(1)多模态:系统中可能出现两个不同的状态;(2) 不可达性:系统存在不稳定的平衡态;(3)突跳:系统从一个势函数极小值跳到另一个极小值;(4) 发散:控制因子的微小变化可以导致状态因子的质变;(5)滞后:当物理过程可逆时,发生突变时对 应的控制参数位置可能不同。当系统存在突变现象时,对外往往表现为其中的一个或几个的组合。在 实际应用中,针对截面数据,应首先检查研究对象概率密度的双峰性,双峰性意味着系统可能存在 多个状态;针对时序数据,则应首先检查时间序列中的跳变现象[21]。 1.2 多模型集成重要变量选择算法 而在传统的尖点突变模型的建模过程中,输入变量的选取往往依赖于已有的实践或经验,这与 目前数据规模的爆发式增长相矛盾,不利于尖点突变模型的普及应用。为了解决上述问题,同时提 高模型的精度、降低模型的复杂度,本文基于排列[23]的思想提出 MEIVS 算法。 排列的思想借鉴于随机森林的变量重要性度量方法,认为模型会更依赖于重要的输入变量做预 测。当打乱某一变量在测试集上的观测序列后,用新生成的数据做预测,更重要的输入变量会使模 型的精度损失更大。MEIVS 算法组合了 RF、GBRT、SVR 三种常用的机器学习算法,其中 RF 和 GBRT 都属于决策树的集成学习算法,但它们采用的计算策略不同;SVR 采用高斯核函数。文献 [24,25,26]中对每种方法的机理都作了解释。本文的损失函数采用的是均方根误差(Root Mean Squared Error, RMSE):   2 1 ˆ N i i i y y RMSE N     (12) 以样本的 80%作为训练集,20%作为测试集,使用 Z-Score 标准化方法对输入变量进行处理, 经过处理的数据的均值为 0,标准差为 1。记 m 个待选变量的集合为 S S 1 , ,  m ,目标是得到 n 个重 要变量的集合 X X 1 , ,  n 作为尖点突变模型的输入变量。算法步骤及流程图如下: 步骤 1 利用训练集训练 RF、GBRT、SVR 模型,记为 M1、M2、M3,对于所建立的每个模型 Mi, 分别基于置换算法计算变量重要性,即执行步骤 2、步骤 3; 步骤 2 计算模型 Mi在测试集上的均方根误差并记为 Mi L ,对 S S 1 , ,  m ,依次执行(1)-(3): (1) 打乱 Sj在测试集上的观测序列并重新计算模型的均方根误差,由于涉及随机性,此过程重 复 10 次,分别记为 1 10 , , M M i i L L j j  ; (2) 计算 Sj在测试集上的平均预测精度损失: 录用稿件,非最终出版稿
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有