正在加载图片...
.244 北京科技大学学报 第35卷 减少“异常点”作用,对不同的点施加不同的权重, Tx的取值范围为[0,1.如果Tx趋于1,说 即对残差小的点给予较大的权重,而对残差较大的 明X与Y正交的成分很少,进行OSC预处理的 点给予较小的权重,根据残差大小确定权重,并建 效果不明显;如果Tx趋于0,则说明经过OSC预 立加权的最小二乘估计,反复迭代以改进权重系数, 处理后去除的正交成分很多,将有助于改善模型的 直至权重系数的改变小于设定的允许误差 性能 从稳健回归的迭代过程可以看出,权重函数的 本文主要采用Wold的非线性迭代偏最小二乘 选择对回归结果有直接的影响,常见的权重函数有 (nonlinear iterative partial least squares.NIPALS) Huber权重函数和双权数权重函数.与Huber权重 方法来实现OSC算法,具体步骤如下 函数相比,双权数估计权重主要优点体现在分布尾 (1)将X和Y矩阵标准化. 部的顶端,双权数估计权重函数在这一区域将权重 (2)计算X矩阵第一主成分,作为初始的t1 置为0,能更好地抵抗特异点的干扰,其权重函数 开始迭代,确保初始的t1是X矩阵所包含信息的 如下式所示: 一个较优综合. (3)计算tnew,tnew=(1-Y(YTY)-lYT)t1, 当e/6l≤cs e/6 显然 当le/l>c. (6) YTtnew=YT(1-Y(YTY)-1YT)t 式中,c为通过定义e/行的分布的中心和尾部来 =(YT-YTY(YTY)-IYT)t=0. 对估计量的稳定程度进行调整的细调常数.根据经 说明t1与Y正交. 验,在双权数权重函数中,c取值为4.685时能够较 (4)用一个内置的PLS算法,计算权重向量 好地抵抗特异点的干扰1o). D1=X-tnew,其中X为X的广义逆 2 基于正交信号校正的稳健回归方法 (5)通过X和01计算新的得分向量t1= Xw1. 2.1正交信号校正 (6)通过t⊥-tnewll/t‖求t1的收敛精度. Wold提出了正交信号校正方法,是一种数据 若不满足,转至第(3)步:若满足,继续第(7)步 预处理方法,其目的就是去除自变量与因变量不 第(③)至第(7)步迭代目的是使X1尽可能地接 相关的变异信息,以提高模型的预测能力叫.由 近于tnew,使得tnew既与Y正交,又能很好地综 于自变量X存在系统误差或随机误差,即存在与 合X的信息 因变量Y不相关的成分.因此希望能够将自变 (7)计算载荷向量p1=XTt1/tt红 量X中与因变量Y不相关的部分X2去掉,即 Xew=X-X2,如图1所示,然后用新的自变量 (⑧)从X矩阵中减去正交信息,E=X-t1pT 矩阵Xnew进行建模 (9)把E作为新的X矩阵,转至第(2)步开始 计算新的t1、p1和w⊥· 通过上面得到的W和P矩阵可以对新的样 本进行校正.当新来一个样本XTew·计算过程 如下:ti=Xeww1;eT=Xew-tip;t2= eTw2:e5=eT-t2p.依次类推. Y 另外,OSC去除的正交成分个数要选择合适, 图1自变量X的分解 否则很可能导致模型性能下降.可以根据去除的每 Fig.1 Decomposition of the variable X 个正交成分所能解释的X的变化信息来选择:当 正交成分所能解释的X的变化信息占总信息的比 为了评价OSC方法去除无关成分的效果,采 例小于某个阈值时,就不能再去除正交成分.更为 用一个统计指标Tx来表示自变量X经过OSC方 严格的方法可以采用交叉验证方法2-13来确定成 法处理后的剩余部分: 分个数 2.2OSC-IRLS算法 =j=1 Tx= (7) 正交信号校正-迭代加权最小二乘(orthogo- =1=1 nal signal correction-iteratively reweighted least
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有