正在加载图片...
·72· 工程科学学报,第41卷,第1期 问题进行求解: 链接网络基模型的泛化能力较差.为解决这个问 aJ 题,本文提出了一种基于鲁棒随机向量函数链接网 =0→A'am=0 (9) aβ 络的磨矿粒度集成建模方法. s=0-a=Pe 2.3基于Bagging与自适应加权数据融合算法的 de (10) 鲁棒集成建模方法 8s=0→4B-Y-e=0 Boosting和Bagging是两种常用的集成策略.其 aB (11) 中,Boosting是一种序列化方法:其首先将所有原始 由公式(9)和(10)可得: 样本用于第一个基模型的构建,并根据该模型精度 A'PE=0 (12) 将未达到容忍误差时所对应的样本筛选出来,处理 将等式(11)两边同时左乘A'P,则: 后用于下一个基模型的构建;而Bagging是一种并 APAB-ATPY-APE=0 (13) 行化方法:通过均匀采样,即随机地从原始样本中有 于是,得出优化后的权值如下: 放回地多次抽取,每次抽取相同个数的样本,因此各 B·=(ATPA)ATPY (14) 个子样本之间是相互独立的,从而使得各个基模型 其中,(ATPA)为矩阵ATPA的Moore-Penrose广 之间相互独立,可以通过并行训练快速建模.此外, 义逆[20] 针对实际工业中具有异常值的建模样本,若采用 以上为鲁棒随机向量函数链接网络基模型框 Boosting,上一个基模型会把包含异常值的样本留给 架,这里的惩罚权值P可以通过非参数核密度估计 下一个基模型,则基模型的性能会越来越差,因此 来获得,它代表了不同样本对于建模的贡献度.由 Boosting不适用于异常值存在的条件.鉴于此,本文 于异常值的残差分布总是偏离整体样本的残差分 以Bagging的集成策略构建基模型. 布,即异常值的残差密度较低,因此可以根据残差的 基模型之间的组合可以采用自适应加权数据融 概率密度函数来评估样本的可靠性.从而,异常值 合算法来实现.自适应加权数据融合的基本思想: 所对应样本的贡献度很小,甚至接近零具体过程 在最优条件下,即总方差最小时,根据基模型的输 描述如下: 出,以自适应的方式寻找它们对应的最优加权因子, 先初始化P为单位对角阵,根据公式(14)计算 使得融合后的结果达到最优.自适应加权数据融合 输出权值,得到鲁棒随机向量函数链接网络训练过 模型见图4,其中,,2,…,,表示s个独立基模型 程残差的概率分布,即: 的输出,不同基模型对应的加权因子分别为y1,y, …,Y,y则是数据融合的结果.具体过程描述如下 01.k+ 02h,(y,b,x:)-y: 设s个鲁棒随机向量函数链接网络基模型的方 (15) 差分别为σ,σ,…,σ,真实值为y,则融合后的模 然后,通过非参数核密度估计方法得到残差的概率 型输出夕满足下面的关系: 密度函数: 言) (16) (19) 其中,N为训练样本总个数,h=L.06GN-是窗口 ∑y.=1 宽度,G是残差的标准差,中是高斯核函数: 总方差σ2为: 中(x)= 1。2 (17) σ2=E[(y-y)2]= √2π 因此,可求出惩罚权值P: E[(三w-店成]= 1 1e( p,=f(e)=亦名2m (18) [(店w-)]= 注1:鲁棒随机向量函数链接网络引入加权最 E[三w-)2+2三g-9)g-)] 小二乘求解成本函数,并通过非参数核密度估计来 a=1,b=1 获得惩罚权值,从而提高模型的鲁棒性.可靠性高 (20) 的样本具有较高的惩罚权值,反之亦然,从而减弱异 其中,E表示数学期望.由于y1,2,…,,彼此相互 常值对建模的影响.然而,单个鲁棒随机向量函数 独立,且为y的无偏估计,则有:工程科学学报,第 41 卷,第 1 期 问题进行求解: 鄣Jl2 鄣茁 = 0寅A T琢 = 0 (9) 鄣Jl2 鄣着 = 0寅琢 = P着 (10) 鄣Jl2 鄣茁 = 0寅A茁 - Y - 着 = 0 (11) 由公式(9)和(10)可得: A TP着 = 0 (12) 将等式(11)两边同时左乘 A TP,则: A TPA茁 - A TPY - A TP着 = 0 (13) 于是,得出优化后的权值如下: 茁 * = (A TPA) 覮A TPY (14) 其中, ( A TPA) 覮 为矩阵 A TPA 的 Moore鄄Penrose 广 义逆[20] . 以上为鲁棒随机向量函数链接网络基模型框 架,这里的惩罚权值 P 可以通过非参数核密度估计 来获得,它代表了不同样本对于建模的贡献度. 由 于异常值的残差分布总是偏离整体样本的残差分 布,即异常值的残差密度较低,因此可以根据残差的 概率密度函数来评估样本的可靠性. 从而,异常值 所对应样本的贡献度很小,甚至接近零. 具体过程 描述如下: 先初始化 P 为单位对角阵,根据公式(14)计算 输出权值,得到鲁棒随机向量函数链接网络训练过 程残差的概率分布,即: 着i = 移 d k = 1 w1,k xi,k + 移 L j = 1 w2,jhj(vj,bj,xi) - yi (15) 然后,通过非参数核密度估计方法得到残差的概率 密度函数: f(x) = 1 hN 移 N l = 1 准 ( x - 着l ) h (16) 其中,N 为训练样本总个数,h = 1郾 06滓^N - 1 / 5是窗口 宽度,滓^ 是残差的标准差,准 是高斯核函数: 准(x) = 1 2仔 e - 1 2 x 2 (17) 因此,可求出惩罚权值 pi: pi = f(着i) = 1 hN 移 N l = 1 1 2仔 e - 1 2 着i - 着l ( ) h 2 (18) 注 1:鲁棒随机向量函数链接网络引入加权最 小二乘求解成本函数,并通过非参数核密度估计来 获得惩罚权值,从而提高模型的鲁棒性. 可靠性高 的样本具有较高的惩罚权值,反之亦然,从而减弱异 常值对建模的影响. 然而,单个鲁棒随机向量函数 链接网络基模型的泛化能力较差. 为解决这个问 题,本文提出了一种基于鲁棒随机向量函数链接网 络的磨矿粒度集成建模方法. 2郾 3 基于 Bagging 与自适应加权数据融合算法的 鲁棒集成建模方法 Boosting 和 Bagging 是两种常用的集成策略. 其 中,Boosting 是一种序列化方法:其首先将所有原始 样本用于第一个基模型的构建,并根据该模型精度 将未达到容忍误差时所对应的样本筛选出来,处理 后用于下一个基模型的构建;而 Bagging 是一种并 行化方法:通过均匀采样,即随机地从原始样本中有 放回地多次抽取,每次抽取相同个数的样本,因此各 个子样本之间是相互独立的,从而使得各个基模型 之间相互独立,可以通过并行训练快速建模. 此外, 针对实际工业中具有异常值的建模样本,若采用 Boosting,上一个基模型会把包含异常值的样本留给 下一个基模型,则基模型的性能会越来越差,因此 Boosting 不适用于异常值存在的条件. 鉴于此,本文 以 Bagging 的集成策略构建基模型. 基模型之间的组合可以采用自适应加权数据融 合算法来实现. 自适应加权数据融合的基本思想: 在最优条件下,即总方差最小时,根据基模型的输 出,以自适应的方式寻找它们对应的最优加权因子, 使得融合后的结果达到最优. 自适应加权数据融合 模型见图 4,其中,y^ 1 ,y^ 2 ,…,y^ s 表示 s 个独立基模型 的输出,不同基模型对应的加权因子分别为 酌1 ,酌2 , …,酌s,y^ 则是数据融合的结果. 具体过程描述如下. 设 s 个鲁棒随机向量函数链接网络基模型的方 差分别为 滓 2 1 ,滓 2 2 ,…,滓 2 s ,真实值为 y,则融合后的模 型输出 y^ 满足下面的关系: y^ = 移 s a = 1 酌a y^ a 移 s a = 1 酌a = ì î í ïï ïï 1 (19) 总方差 滓 2 为: 滓 2 = E[(y - y^) 2 ] = E [ ( 移 s a = 1 酌a y - 移 s a = 1 酌a y^ a ) ] 2 = E [ ( 移 s a = 1 酌a (y - y^ a ) ) ] 2 = E [ 移 s a = 1 酌 2 a (y - y^ a ) 2 + 2 移 s a = 1,b = 1 a屹b (y - y^ a )(y - y^ b) ] (20) 其中,E 表示数学期望. 由于 y^ 1 ,y^ 2 ,…,y^ s 彼此相互 独立,且为 y^ 的无偏估计,则有: ·72·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有