正在加载图片...
·834· 智能系统学报 第14卷 义性、概念复杂性进行有效处理,且无法满足目 则可以使得某些参数等于0。基于以上正则化特 前机器学习的高要求,由此建立了多标记学习框 点分析,结合这2种正则的弹性网络可以实现正 架可以解决这一问题。该框架通过对任意一个对 则和稀硫双重作用P1。本节将使用Elastic Net替 象,进行一个特征向量的描述,根据特征向量尽 换原有RELM中的L2正则,首次运用到多标记 可能将对象进行合适的类别标记和精准分类2。 学习中。 假定含有W个样本的多标记数据集,X为n维的 设多标记数据集D={x,Y,其中x,∈R”是 示例空间R”,Y为m类标记空间,则在多标记学 n维特征向量,Y∈R"为输出标记集合。则基于 习中,给定数据集D={x1,Y),(x2,Y2),…,(xn,Yn), L2正则RELM替换为Elastic Net,.通过式(Il)将 其中x∈X是一个示例,Y:eY是一组标记集合 y”,y,…y且y鼎∈卫,可得到映射关系f:X→2'。 式(13)改写为: 根据多标记学习的目标,同时结合ELM学习 C minLE l店+(R(B》 2 模型,ELM的随机映射函数h(x)将x从输人空间 i=l 映射到L维的特征空间,Y,∈R"为输出标记集 R.(B)=alll,+(1-a)1l6 s.t.5=Y,-f(x),i=1,2,…,N (16) 合。根据式(4)、(5)和(8),可得多标记ELM的输 出函数fx)为: 由于传统ELM算法需设置隐藏层节点数,并 [h(x) 且需初始随机权值和偏置,易受随机值的影响导 h(x2) 码 致计算结果不稳定,采用核ELM则可以解决这一 fi(x)=HB= (12) 问题。根据式(4)和(12),当映射函数h(x)未知 h(xN) N%L 时,即引人核矩阵(本文采用RBF核): 将式(9)和(12)结合即为正则ELM,即RELM H=QELM QELMn =K(i) 算法,该算法添加L2正则来提高原始ELM算法 K(x..x)=exp(-,x (17) 的稳定性和泛化性能,同时有效避免过拟合,目 式中y一般取值为1。结合式(3)、(12)和(17),式 标函数表示为: (16)可进一步改写为带有RBF核映射的目标函数: mLaw=ar+∑s (13) C mjnL-IY-P+R.(B) (18) 式中C为正则化系数;由式(6)、(7)和(13)求解目 由于Elastic Net本身结构特点,具有Ll正则 标函数,可得输出权值: 导致存在不可导点,无法使用类似于BP神经网 B=Hr+H四y (14) 络(back propagation)的梯度下降法(gradient des- cent)或传统ELM将神经网络转化为最小二乘 式中【为L维单位矩阵。这样最终多标记学习目 法。坐标下降法2则可以解决这一问题,因其是 标函数表示为: 一种非梯度优化算法,无需求导目标函数,只需 =a明=Hr+Hmy (15) 通过坐标方向搜寻最小值,符合弹性网络求解的 要求,因此本文采用坐标下降法对于弹性网络核 通过式(14)得到训练集的输出权值,再通过 随机映射函数(x)将测试集的特征向量映射,最 极限学习机进行目标求解。根据式(18)求解最小 终多标记预测结果可由式(15)得出。这种基于正 化目标,即 则化ELM的多标记学习算法,不仅在预测精度 +R.(B) (19) 上取得了不错的效果,并且求解速度也具有较大 min 优势。 通过坐标下降法,式(19)的更新公式可表示为: 2.2弹性核极限学习机的多标记学习算法 基于L2正则能够有效控制训练模型过拟合 s2aw化-) (20) 到某个特征上,即假设参数分布服从高斯分布以 1+A(1-a) 达到稳定模型的作用:而基于L1正则能够约束目 式中:为拟合值;Y:-为B的部分残差;S是 标方程稀疏性进而实现特征选择,即假设参数分 软阈值算子(soft-thresholding)2m,用于处理Ll惩 布服从拉普拉斯分布以保证稀疏化模型。简单来 罚。文献[28]给出详细求解算法,最后对于 说,即L2正则只能让某些参数逼近于0,而L1正 L2惩罚进行比例收缩。其中S详细定义为:D = {(x1,Y1),(x2,Y2),··· ,(xn,Yn)} xi ∈ X Yi ∈ Y { y (i) 1 , y (i) 2 ,··· , y (i) m } y (i) m ∈ Y f : X → 2 Y 义性、概念复杂性进行有效处理,且无法满足目 前机器学习的高要求,由此建立了多标记学习框 架可以解决这一问题。该框架通过对任意一个对 象,进行一个特征向量的描述,根据特征向量尽 可能将对象进行合适的类别标记和精准分类[25]。 假定含有 N 个样本的多标记数据集,X 为 n 维的 示例空间 R n ,Y 为 m 类标记空间,则在多标记学 习中,给定数据集 , 其 中 是一个示例, 是一组标记集合 ,且 ,可得到映射关系 。 h(xi) 根据多标记学习的目标,同时结合 ELM 学习 模型,ELM 的随机映射函数 将 xi 从输入空间 映射到 L 维的特征空间,Yi∈R m 为输出标记集 合。根据式 (4)、(5) 和 (8),可得多标记 ELM 的输 出函数 fl (x) 为: fl(x) = Hβ =   h(x1) h(x2) . . . h(xN)   N×L   β T 1 β T 2 . . . β T L   (12) 将式 (9) 和 (12) 结合即为正则 ELM,即 RELM 算法,该算法添加 L2 正则来提高原始 ELM 算法 的稳定性和泛化性能,同时有效避免过拟合,目 标函数表示为: min β LRELM = 1 2 ∥β∥ 2 + C 2 ∑N i=1 ∥ξi∥ 2 (13) 式中 C 为正则化系数;由式 (6)、(7) 和 (13) 求解目 标函数,可得输出权值 β: β = H T ( I C + HHT )−1 Y (14) 式中 I 为 L 维单位矩阵。这样最终多标记学习目 标函数表示为: fl(x) = Hβ = HHT ( I C + HHT )−1 Y (15) 通过式 (14) 得到训练集的输出权值,再通过 随机映射函数 h(x) 将测试集的特征向量映射,最 终多标记预测结果可由式 (15) 得出。这种基于正 则化 ELM 的多标记学习算法,不仅在预测精度 上取得了不错的效果,并且求解速度也具有较大 优势。 2.2 弹性核极限学习机的多标记学习算法 基于 L2 正则能够有效控制训练模型过拟合 到某个特征上,即假设参数分布服从高斯分布以 达到稳定模型的作用;而基于 L1 正则能够约束目 标方程稀疏性进而实现特征选择,即假设参数分 布服从拉普拉斯分布以保证稀疏化模型。简单来 说,即 L2 正则只能让某些参数逼近于 0,而 L1 正 则可以使得某些参数等于 0。基于以上正则化特 点分析,结合这 2 种正则的弹性网络可以实现正 则和稀疏双重作用[23]。本节将使用 Elastic Net 替 换原有 RELM 中的 L2 正则,首次运用到多标记 学习中。 D = {xi ,Yi} N 设多标记数据集 i=1,其中 xi∈R n 是 n 维特征向量,Yi∈R m 为输出标记集合。则基于 L2 正则 RELM 替换为 Elastic Net,通过式 (11) 将 式 (13) 改写为: min β LE = C 2 ∑N i=1 ∥ξi∥ 2 +λ (Rα (β)) Rα (β) = α∥β∥1 +(1−α)∥β∥ 2 2 s.t. ξi = Yi − fl(xi),i = 1,2,··· ,N (16) 由于传统 ELM 算法需设置隐藏层节点数,并 且需初始随机权值和偏置,易受随机值的影响导 致计算结果不稳定,采用核 ELM 则可以解决这一 问题。根据式 (4) 和 (12),当映射函数 h(x) 未知 时,即引入核矩阵 (本文采用 RBF 核): H = ΩELM : ΩELM(i, j) = K ( xi , xj ) K ( xi , xj ) = exp( −γ xi − xj 2 ) (17) 式中 γ 一般取值为 1。结合式 (3)、(12) 和 (17),式 (16) 可进一步改写为带有 RBF 核映射的目标函数: min β LE = C 2 ∥Y −ΩELMβ∥ 2 +λRα (β) (18) 由于 Elastic Net 本身结构特点,具有 L1 正则 导致存在不可导点,无法使用类似于 BP 神经网 络 (back propagation) 的梯度下降法 (gradient des￾cent) 或传统 ELM 将神经网络转化为最小二乘 法。坐标下降法[26] 则可以解决这一问题,因其是 一种非梯度优化算法,无需求导目标函数,只需 通过坐标方向搜寻最小值,符合弹性网络求解的 要求,因此本文采用坐标下降法对于弹性网络核 极限学习机进行目标求解。根据式 (18) 求解最小 化目标,即 min β C 2 ∑N i=1   Yi − ∑N j=1 ΩELM(i, j)βj   2 +λRα (β) (19) 通过坐标下降法,式 (19) 的更新公式可表示为: βj ← S ( ∑N i=1 ΩELM(i, j) ( Yi −Y˜ (j) i ) , λα ) + 1+λ(1−α) (20) Y˜ (j) i Yi −Y˜ (j) 式中: 为拟合值; i 为 βj 的部分残差;S 是 软阈值算子 (soft-thresholding)[27] ,用于处理 L1 惩 罚。文 献 [ 2 8 ] 给出详细求解算法,最后对 于 L2 惩罚进行比例收缩。其中 S 详细定义为: ·834· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有