正在加载图片...
第4期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·833· 义为: L1正则化和弹性网络正则化等使用较为普遍。 五X》=∑Bg(X 这些正则化方法详细描述如下: (1) i=1 1)L2正则(Ridge Regression) 式中:B,=BB2…BmJ'表示输出权值;g,表示第 L2正则化模型(也称为岭回归)是在最小化 i个隐藏节点的输出,实质为激活函数,并可表示 损失函数后添加正则项,其中参数 为: 1∈[0,+o],起到降低权重的作用,最终得到目标 8i(X)=8(w;.X;+bi) (2) 函数: 式中:w,=waw2…wmJT为输人权值;b,表示第i个 L2=minllβ-Y匠+IlB (9) 隐藏神经元的偏置;·表示为点积。通常式(1) 2)L1正则(Lasso)) 用来建模回归,对于分类问题可使用sigmoid函 L1正则化模型(也称为Lasso模型)则是在最 数来限制输出值的范围,从而达到分类效果。 小化损失函数添加正则项B刚1,其中1∈0,+∞, 以上为ELM的第1阶段即随机特征映射,对 而Lasso最大的特点在于产生稀疏权值矩阵,构 于第2阶段的线性参数求解,通过最小化平方误 造出稀疏模型已达到特征选择的作用,最终目标 差的近似误差来求解连接隐藏层和输出层的权 函数为 值B。可表示为: L1=minlβ-YTg+IlB (10) minlHB-Y2 (3) 3)L2&Ll正则(Elastic Net) 式中H为隐藏层输出矩阵,即 弹性网络正则化是一种结合L1正则与L2正 h(x) h1(x1)h2(x1) hi(x1)1 则的各自优点的新型正则化方法,即在最小化损 h(x2) h1(x2)h2(x2) h(x2) H= (4) 失函数添加正则项(aB吼,+(1-a)),其中 h(xN) h(xN)h(xN) ·hz(xw) 1∈[0,+oo,a∈0,1],目标函数定义为 Y为训练标记矩阵: LElastieNet minellHB-Y+ y11 y12 y1m 2(aBL,+(1-a)IB1) (11) y21 '22 通过式(11)可知:当a=0时,Elastic Net即为 Y= (5) L2正则;当a=l时,Elastic Net即为L1正则;当 yN2 a∈(O,1)时,Elastic Net将保留L2和L1正则各自 通过式(1)、式(3),最小二乘解为 特点,达到弹性2种正则的作用。根据这一特点 B=HY (6) 给出3种正则化的二维图像描述,如图1所示。 式中H表示H的Moore-Penrose广义逆矩阵,表 示为 一Ridge -Lasso -Elastic Net s.t.H= (H)H,HH非奇异 H(HH),HHT非奇异 (7) 最终求出的B即可以预测未知标记,表示为 》=H邱 (8) 1.2正则化理论 在机器学习中,偏差(bias)与方差(variance) 共同影响模型的准确率。高偏差容易导致模型欠 拟合(unfitting),高方差则会导致模型过拟合 (overfitting)。通常,解决高偏差可选择使用更为 复杂的模型或增加模型参数来降低偏差值,但这 就会导致模型过拟合情况发生。而正则化理论是 图13种正则化比较 解决高方差或避免训练模型过拟合的有效方法之 Fig.1 The comparison of three regularizations 一,在机器学习领域被广泛使用。 2基于弹性网络核极限学习机算法 通过正则化方式,可以降低模型的复杂度,避 免可能的过度拟合。近年来,研究者提出了多种 2.1基于ELM的多标记学习 适合机器学习的正则化方法,其中L2正则化、 传统单标记学习无法对于真实世界对象多语义为: fL(Xj) = ∑L i=1 βigi(Xj) (1) βi = [ βi1βi2 ···βim 式中: ]T表示输出权值; gi 表示第 i 个隐藏节点的输出,实质为激活函数,并可表示 为: gi ( Xj ) = g ( wi · Xj +bi ) (2) wi = [wi1wi2 ···wim] 式中: T为输入权值;bi 表示第 i 个 隐藏神经元的偏置; ∙表示为点积。通常式 (1) 用来建模回归,对于分类问题可使用 sigmoid 函 数来限制输出值的范围,从而达到分类效果。 以上为 ELM 的第 1 阶段即随机特征映射,对 于第 2 阶段的线性参数求解,通过最小化平方误 差的近似误差来求解连接隐藏层和输出层的权 值 β。可表示为: min β ∥Hβ−Y∥ 2 (3) 式中 H 为隐藏层输出矩阵,即 H =   h(x1) h(x2) . . . h(xN)   =   h1 (x1) h2 (x1) ··· hL (x1) h1 (x2) h2 (x2) ··· hL (x2) . . . . . . h1 (xN) h2 (xN) ··· hL (xN)   (4) Y 为训练标记矩阵: Y =   y T 1 y T 2 . . . y T N   =   y11 y12 ··· y1m y21 y22 ··· y2m . . . . . . yN1 yN2 ··· yNm   (5) 通过式 (1)、式 (3),最小二乘解为 βˆ = H †Y (6) 式中 H †表示 H 的 Moore-Penrose 广义逆矩阵,表 示为 s.t. H † = { ( HTH )−1HT , HTH非奇异 HT ( HHT )−1 , HHT非奇异 (7) 最终求出的 βˆ即可以预测未知标记,表示为 Yˆ = Hβˆ (8) 1.2 正则化理论 在机器学习中,偏差 (bias) 与方差 (variance) 共同影响模型的准确率。高偏差容易导致模型欠 拟合 (unfitting),高方差则会导致模型过拟合 (overfitting)。通常,解决高偏差可选择使用更为 复杂的模型或增加模型参数来降低偏差值,但这 就会导致模型过拟合情况发生。而正则化理论是 解决高方差或避免训练模型过拟合的有效方法之 一,在机器学习领域被广泛使用。 通过正则化方式,可以降低模型的复杂度,避 免可能的过度拟合。近年来,研究者提出了多种 适合机器学习的正则化方法,其中 L2 正则化、 L1 正则化和弹性网络正则化等使用较为普遍。 这些正则化方法详细描述如下: 1) L2 正则 (Ridge Regression) λ ∥β∥ 2 2 λ ∈ [0,+∞] L2 正则化模型 (也称为岭回归) 是在最小化 损失函数后添加正则项 ,其中参数 ,起到降低权重的作用,最终得到目标 函数: L2 = min β ∥Hβ−Y∥ 2 2 +λ ∥β∥ 2 2 (9) 2) L1 正则 (Lasso) λ∥β∥1 λ ∈ [0,+∞] L1 正则化模型 (也称为 Lasso 模型) 则是在最 小化损失函数添加正则项 ,其中 , 而 Lasso 最大的特点在于产生稀疏权值矩阵,构 造出稀疏模型已达到特征选择的作用,最终目标 函数为 L1 = min β ∥Hβ−Y∥ 2 2 +λ ∥β∥1 (10) 3) L2&L1 正则 (Elastic Net) λ ( α∥β∥1 +(1−α)∥β∥ 2 2 ) λ ∈ [0,+∞] α ∈ [0,1] 弹性网络正则化是一种结合 L1 正则与 L2 正 则的各自优点的新型正则化方法,即在最小化损 失函数添加正则项 ,其中 , ,目标函数定义为 LElasticNet = minβ ∥Hβ−Y∥ 2 2 + λ ( α∥β∥1 +(1−α)∥β∥ 2 2 ) (11) α ∈ (0,1) 通过式 (11) 可知:当 α=0 时,Elastic Net 即为 L2 正则;当 α=1 时,Elastic Net 即为 L1 正则;当 时,Elastic Net 将保留 L2 和 L1 正则各自 特点,达到弹性 2 种正则的作用。根据这一特点 给出 3 种正则化的二维图像描述,如图 1 所示。 Ridge Lasso Elastic Net β 2 β O 1 图 1 3 种正则化比较 Fig. 1 The comparison of three regularizations 2 基于弹性网络核极限学习机算法 2.1 基于 ELM 的多标记学习 传统单标记学习无法对于真实世界对象多语 第 4 期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·833·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有