正在加载图片...
第5期 于本成,等:缺失数据的混合式重建方法 ·949· 返回到2),否则进入4)。 H(a1,…,aL,b1,…,b,x1,…,xn)= 4)从已经创建的所有n个集群的中心中,通 G(a1,b1,x1) ..G(aL,bL,x1) (8) 过计算S=D+R,j=1,2,…,n,找出一个群集 Ca。再通过计算算出最小的Sa值,Sa=Da+Ra= G(a1,b1,xN) … G(aL,bL.xN) min{Sl,j=1,2,…,n,来找出Ca的群集中心Ca。 阳 5)如果Sa>2x,则样本:不属于任何现有群 B B= (9) 集,那么以与1)的相同方式创建新集群,执 行2)。 阳 Lxm 6)如果S。≤2r,则通过移动群集中心C:和 在已知权值和偏置的情况下,上面问题的求 增加群集半径R.来更新群集Ca,返回2)。 解就转化为求解线性系统Hβ=T的最小范数最 ECM算法不保持已传递样本的任何信息,但 小二乘解: B=H'T (10) 任一群集C:的群集中心C:到该群集的最远样本 之间距离都小于阈值t,即max(R)<T。 式中:H是H的Moore-penrose广义逆矩阵;B的 在ECM算法中,向量x和y之间的距离计算 范数是最小且唯一的。 使用归一化欧几里德距离,即 2提出的混合式重建方法 Igi,x.yER (3) i=l 2.1 PSOECM方法 在5)、6)中?值的大小影响到群集合数量, 全部数据记录X,可以分为两个部分:用于训 所以t值的选取影响到了基于ECM的数据重建 练模型的完整记录集X。和用于检验模型的不完 结果。 整记录集Xc。 1.3ELM算法 PSOECM方法步骤: 输入层的节点个数为n,隐藏层节点个数为 1)计算出X的协方差矩阵。 L,输出层节点个数为m,a代表第i个输入层节 2)在具有PSO随机初始化τ值的X.上应用 点与第j个隐藏层节点间的权值,b,代表隐藏层 ECM 中第j个节点的偏置。B:是需要计算的值,代表 3)对X执行基于ECM的重建:通过测量除 第方个隐藏层节点与第k个输出层节点间的权 去缺失值的不完整记录与除去相同位置上值的群 值。训练集实例个数为N的输入矩阵X以及输 集中心C'之间的欧几里德距离确定最近群集中 出矩阵T分别为 心,由最近群集中心的对应属性值重建不完整记 X11X12 XIN 录的属性值(x)。欧几里德距离的测定公式为 X22 X2N (11) X= (4) D,=∑k-C Xn2 XaN 式中:j为群集中心的数量;n为每条记录中完整 tu 成分的数量。 t21 t taN T= (5) 4)数据重建后计算X,的协方差矩阵。如果 X,为m×m)秩序的矩阵,则它的协方差矩阵Tcov 就是一个n×n矩阵。如果MSE(Xcow,Tcow)<E且 第i个实例在第j个隐藏层神经元上的输出 (Det(Xcow)-Det(Tcov))<E,则退出计算。否则,调 为G(a,b,x),整个的输出层值为 用PSO选出改善后的τ值。其中ε为预先设定的 BG(anbrx)=t i1.2...N (6) 小正值,MSE(Xcov,Tcow)为Xcov和Tcov元素之间 的均方差,Det(Xcow)是Xcov的行列式,Det(Tcov) 式(6)也可以表示为 是Tcov的行列式。 HB=T (7) 5)重复1)~4)直至收敛。 式中H表示隐藏层的矩阵。H矩阵第i行代表输 计算平均绝对百分比误差(mean absolute per- 人层中第ⅰ个实例在隐藏层所有神经元上的输 centage error,MAPE)值: 出,H矩阵的第j列代表所有训练样本在第j个隐 MAPE=1 ×100% (12) 藏层神经元上的输出,即 n返回到 2),否则进入 4)。 n S i j = Di j +Rj , j = 1,2,··· ,n Ca S ia S ia = Dia +Ra = min{ S i j} j = 1,2,··· ,n Ca C ′ a 4) 从已经创建的所有 个集群的中心中,通 过计算 ,找出一个群集 。再通过计算算出最小的 值, , ,来找出 的群集中心 。 5) 如果 S ia > 2τ,则样本 xi 不属于任何现有群 集,那么以 与 1 ) 的相同方式创建新集群,执 行 2)。 S ia ⩽ 2τ C ′ a Ra Ca 6) 如果 ,则通过移动群集中心 和 增加群集半径 来更新群集 ,返回 2)。 Ci C ′ i τ max(Ri) < τ ECM 算法不保持已传递样本的任何信息,但 任一群集 的群集中心 到该群集的最远样本 之间距离都小于阈值 ,即 。 在 ECM 算法中,向量 x 和 y 之间的距离计算 使用归一化欧几里德距离,即 ∥x− y∥ =   ∑q i=1 |xi − yi | 2   1/2 /q 1/2 , x, y ∈ R q (3) τ τ 在 5)、6) 中 值的大小影响到群集合数量, 所以 值的选取影响到了基于 ECM 的数据重建 结果。 1.3 ELM 算法 n L m ai j i j bj j βjk j k N X T 输入层的节点个数为 ,隐藏层节点个数为 ,输出层节点个数为 , 代表第 个输入层节 点与第 个隐藏层节点间的权值, 代表隐藏层 中第 个节点的偏置。 是需要计算的值, 代表 第 个隐藏层节点与第 个输出层节点间的权 值。训练集实例个数为 的输入矩阵 以及输 出矩阵 分别为 X =   x11 x12 ··· x1N x21 x22 ··· x2N . . . . . . . . . xn1 xn2 ··· xnN   (4) T =   t11 t12 ··· t1N t21 t22 ··· t2N . . . . . . . . . tn1 tn2 ··· tnN   (5) i j G ( aj ,bj , xi ) 第 个实例在第 个隐藏层神经元上的输出 为 ,整个的输出层值为 ∑L j=1 βjG ( aj ,bj , xi ) = ti , i = 1,2,··· ,N (6) 式 (6) 也可以表示为 Hβ = T (7) 式中 H 表示隐藏层的矩阵。H 矩阵第 i 行代表输 入层中第 i 个实例在隐藏层所有神经元上的输 出,H 矩阵的第 j 列代表所有训练样本在第 j 个隐 藏层神经元上的输出,即 H(a1,··· ,aL,b1,··· ,bl , x1,··· , xn) =   G(a1,b1, x1) ... G(aL,bL, x1) . . . . . . G(a1,b1, xN) ... G(aL,bL, xN)   N×L (8) β =   β T 1 β T 2 . . . β T L   L×m T =   t T 1 t T 2 . . . t T N   N×m (9) Hβ = T 在已知权值和偏置的情况下,上面问题的求 解就转化为求解线性系统 的最小范数最 小二乘解: βˆ = H †T (10) 式中: H† 是 H 的 Moore-penros βˆ e 广义逆矩阵; 的 范数是最小且唯一的。 2 提出的混合式重建方法 2.1 PSOECM 方法 Xt Xc Xic 全部数据记录 可以分为两个部分:用于训 练模型的完整记录集 和用于检验模型的不完 整记录集 。 PSOECM 方法步骤: 1) 计算出 Xc 的协方差矩阵。 2) 在具有 PSO 随机初始化 τ 值的 Xc 上应用 ECM。 Xic C ′ xk 3) 对 执行基于 ECM 的重建:通过测量除 去缺失值的不完整记录与除去相同位置上值的群 集中心 之间的欧几里德距离确定最近群集中 心,由最近群集中心的对应属性值重建不完整记 录的属性值 ( )。欧几里德距离的测定公式为 Dj = ∑n i=1;i,k xi −C ′ j 2 (11) 式中: j 为群集中心的数量;n 为每条记录中完整 成分的数量。 Xt Xt (m×n) TCOV n×n MSE(XCOV,TCOV) < ε (|Det(XCOV)−Det(TCOV)|) < ε τ ε MSE(XCOV,TCOV) XCOV TCOV Det(XCOV) XCOV Det(TCOV) TCOV 4) 数据重建后计算 的协方差矩阵。如果 为 秩序的矩阵,则它的协方差矩阵 就是一个 矩阵。如果 且 ,则退出计算。否则,调 用 PSO 选出改善后的 值。其中 为预先设定的 小正值, 为 和 元素之间 的均方差, 是 的行列式, 是 的行列式。 5) 重复 1)~4) 直至收敛。 计算平均绝对百分比误差 (mean absolute per￾centage error,MAPE) 值: MAPE = 1 n ∑n i=1 xi − xˆi xi ×100% (12) 第 5 期 于本成,等:缺失数据的混合式重建方法 ·949·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有