正在加载图片...
·950· 智能系统学报 第14卷 式中:x为实际值;为预测值;n为缺失值的全 6)计算得到各个群集中心之间的归一化欧几 部样本数量。 里德距离。 PSOECM方法采用与文献[6]相同的适应度 为了估算出隐藏层和输出层之间的权重,在 函数MSE(Xcov,Tcov)和(Det(Xcow)-Det(Tcov)D, 6)得到的距离中应用激活函数并进行非线性转 但文献[6)使用PSO重建缺失值,而PSOECM方 换,再应用Moore--Penrose广义逆矩阵得出H。 法使用P$O以迭代的方式完成了上述两个适应 最后,根据文献[12]使用Moore-Penrose广义 度函数的最小化工作,只有两个适应度函数在两 逆矩阵求解Hβ=T估算出隐藏层和输出层之间 个连续迭代中都小于预先设定ε值才停止运算, 的权重,其中B为权向量,T为目标向量。利用 并计算出最佳x值,再在ECM中使用PSO选择 式(12)计算平均绝对百分误差(MAPE)值。 最佳τ值进行缺失数据重建。这样不仅可以得出 最佳的数据重建,还可以保存数据的协方差结构。 3选取实验数据集与激活函数 2.2 MAAELM方法 实验选取UCI机器学习数据库中的6个标准 MAAELM方法采用PSOECM与AAELM混 数据集来进行验证,实验数据集如表1所示。同 合重建缺失数据。MAAELM结构如图1所示。 时,在选取的实验数据集上使用9个激活函数来 输人 隐藏 输出 研究它们对文章所提方法的影响。实验选取激活 (4 C 函数如表2所示。所选数据集中除Auto-mpg中 的马力属性值存在缺失,其他5个数据集均不存 PSOECM PSOECM (C2 在属性缺失值,所以通过随机删除原始数据集的 些值来进行实验,并创建了除目标变量以外的 所有变量中的缺失值。每一个数据集被分成 10个相等的小集合,其中9个小集合经过聚类处 理,剩下的1个留下为缺失值备用。 第1步 第2步 为了在每一个小集合中创建缺失值,随机删 图1 MAAELM结构 除了近10%的值(单元),并确保从每个记录中删 Fig.1 Architecture of the MAAELM 除至少一个单元。因此,在10倍交叉验证中,有 MAAELM方法步骤: 不同缺失记录的10个小集合。 1)将数据归一化至[0,1]范围内。 对于完整记录集合中的各个小集合,将它们 2)将数据集合分为完整记录集合和不完整记 从全部记录中分理并用于聚类。在完整记录集合 录集合。 中应用ECM算法,并通过最近群集中心属性的 3)在1)中执行基于PSOECM的重建,确定群 对应值重建出不完整记录集合中的属性缺失值。 集中心。 使用PSO优化算法和文献[6]提及的两个适 4)在2)中使用1)中得出的最佳τ值在完整 应度函数为PSOECM选出最佳τ值,并将相同的 记录集合中应用ECM。这相当于使用1)中得到 x值提供给MAAELM。对于所有数据集合,对比 的群集中心作为MAAELM结构中的隐藏节点。 了本文所提方法与文献[6,9-10,15,17]所提多种 5)执行PSOECM方法的3)。 混合方法的MAPE平均值。 表1实验数据集 Table 1 Data sets for the experiment 数据集名称 实例数属性数 链接地址 Auto-mpg 398 9 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg Boston Housing 506 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/housing Forest Fires 517 12 HTTP://archive.ics.uci.eduml/machine-learning-databases/forest-fires Iris Plants 150 4 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/iris Spectf heart 267 45 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/spect Wine ecognition 178 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/wine式中: xi 为实际值;xˆi 为预测值;n 为缺失值的全 部样本数量。 MSE(XCOV,TCOV) (|Det(XCOV)−Det(TCOV)|) ε τ τ PSOECM 方法采用与文献 [6] 相同的适应度 函 数 和 , 但文献 [6] 使用 PSO 重建缺失值,而 PSOECM 方 法使用 PSO 以迭代的方式完成了上述两个适应 度函数的最小化工作,只有两个适应度函数在两 个连续迭代中都小于预先设定 值才停止运算, 并计算出最佳 值,再在 ECM 中使用 PSO 选择 最佳 值进行缺失数据重建。这样不仅可以得出 最佳的数据重建,还可以保存数据的协方差结构。 2.2 MAAELM 方法 MAAELM 方法采用 PSOECM 与 AAELM 混 合重建缺失数据。MAAELM 结构如图 1 所示。 PSOECM PSOECM 输入 第1步 第2步 隐藏 输出 I1 C1 I′1 I′2 I′n C2 I2 In Cn ... ... ... 图 1 MAAELM 结构 Fig. 1 Architecture of the MAAELM MAAELM 方法步骤: 1) 将数据归一化至 [0,1] 范围内。 2) 将数据集合分为完整记录集合和不完整记 录集合。 3) 在 1) 中执行基于 PSOECM 的重建,确定群 集中心。 4) 在 2) 中使用 1) 中得出的最佳 τ 值在完整 记录集合中应用 ECM。这相当于使用 1) 中得到 的群集中心作为 MAAELM 结构中的隐藏节点。 5) 执行 PSOECM 方法的 3)。 6) 计算得到各个群集中心之间的归一化欧几 里德距离。 H 为了估算出隐藏层和输出层之间的权重,在 6) 得到的距离中应用激活函数并进行非线性转 换,再应用 Moore-Penrose 广义逆矩阵得出 。 Hβ = T β T 最后,根据文献 [12] 使用 Moore-Penrose 广义 逆矩阵求解 估算出隐藏层和输出层之间 的权重,其中 为权向量, 为目标向量。利用 式 (12) 计算平均绝对百分误差 (MAPE) 值。 3 选取实验数据集与激活函数 实验选取 UCI 机器学习数据库中的 6 个标准 数据集来进行验证,实验数据集如表 1 所示。同 时,在选取的实验数据集上使用 9 个激活函数来 研究它们对文章所提方法的影响。实验选取激活 函数如表 2 所示。所选数据集中除 Auto-mpg 中 的马力属性值存在缺失,其他 5 个数据集均不存 在属性缺失值,所以通过随机删除原始数据集的 一些值来进行实验,并创建了除目标变量以外的 所有变量中的缺失值。每一个数据集被分成 10 个相等的小集合,其中 9 个小集合经过聚类处 理,剩下的 1 个留下为缺失值备用。 为了在每一个小集合中创建缺失值,随机删 除了近 10% 的值 (单元),并确保从每个记录中删 除至少一个单元。因此,在 10 倍交叉验证中,有 不同缺失记录的 10 个小集合。 对于完整记录集合中的各个小集合,将它们 从全部记录中分理并用于聚类。在完整记录集合 中应用 ECM 算法,并通过最近群集中心属性的 对应值重建出不完整记录集合中的属性缺失值。 τ τ 使用 PSO 优化算法和文献 [6] 提及的两个适 应度函数为 PSOECM 选出最佳 值,并将相同的 值提供给 MAAELM。对于所有数据集合,对比 了本文所提方法与文献 [6, 9-10, 15, 17] 所提多种 混合方法的 MAPE 平均值。 表 1 实验数据集 Table 1 Data sets for the experiment 数据集名称 实例数 属性数 链接地址 Auto-mpg 398 9 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/auto-mpg Boston Housing 506 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/housing Forest Fires 517 12 HTTP://archive.ics.uci.eduml/machine-learning-databases/forest-fires Iris Plants 150 4 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/iris Spectf heart 267 45 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/spect Wine ecognition 178 13 HTTP://archive.ics.uci.edu/ml/machine-learning-databases/wine ·950· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有