义为： fL(Xj) = ∑L i=1 βigi(Xj) (1) βi =

正在加载图片...

第4期王一宾，等：弹性网络核极限学习机的多标记学习算法 ·833· 义为： L1正则化和弹性网络正则化等使用较为普遍。五X》=∑Bg(X 这些正则化方法详细描述如下： (1) i=1 1)L2正则(Ridge Regression) 式中：B,=BB2…BmJ'表示输出权值；g,表示第 L2正则化模型（也称为岭回归）是在最小化 i个隐藏节点的输出，实质为激活函数，并可表示损失函数后添加正则项，其中参数为： 1∈[0，+o],起到降低权重的作用，最终得到目标 8i(X)=8(w;.X;+bi) (2) 函数：式中：w,=waw2…wmJT为输人权值；b,表示第i个 L2=minllβ-Y匠+IlB (9) 隐藏神经元的偏置；·表示为点积。通常式(1) 2)L1正则(Lasso)) 用来建模回归，对于分类问题可使用sigmoid函 L1正则化模型（也称为Lasso模型）则是在最数来限制输出值的范围，从而达到分类效果。小化损失函数添加正则项B刚1，其中1∈0，+∞，以上为ELM的第1阶段即随机特征映射，对而Lasso最大的特点在于产生稀疏权值矩阵，构于第2阶段的线性参数求解，通过最小化平方误造出稀疏模型已达到特征选择的作用，最终目标差的近似误差来求解连接隐藏层和输出层的权函数为值B。可表示为： L1=minlβ-YTg+IlB (10) minlHB-Y2 (3) 3)L2&Ll正则(Elastic Net) 式中H为隐藏层输出矩阵，即弹性网络正则化是一种结合L1正则与L2正 h(x) h1(x1)h2(x1) hi(x1)1 则的各自优点的新型正则化方法，即在最小化损 h(x2) h1(x2)h2(x2) h(x2) H= (4) 失函数添加正则项(aB吼，+(1-a)),其中 h(xN) h(xN)h(xN) ·hz(xw) 1∈[0，+oo,a∈0,1]，目标函数定义为 Y为训练标记矩阵： LElastieNet minellHB-Y+ y11 y12 y1m 2(aBL,+(1-a)IB1) (11) y21 '22 通过式(11)可知：当a=0时，Elastic Net即为 Y= (5) L2正则；当a=l时，Elastic Net即为L1正则；当 yN2 a∈(O,1)时，Elastic Net将保留L2和L1正则各自通过式(1)、式(3)，最小二乘解为特点，达到弹性2种正则的作用。根据这一特点 B=HY (6) 给出3种正则化的二维图像描述，如图1所示。式中H表示H的Moore-Penrose广义逆矩阵，表示为一Ridge -Lasso -Elastic Net s.t.H= (H)H,HH非奇异 H(HH),HHT非奇异 (7) 最终求出的B即可以预测未知标记，表示为》=H邱 (8) 1.2正则化理论在机器学习中，偏差(bias)与方差(variance) 共同影响模型的准确率。高偏差容易导致模型欠拟合(unfitting),高方差则会导致模型过拟合 (overfitting)。通常，解决高偏差可选择使用更为复杂的模型或增加模型参数来降低偏差值，但这就会导致模型过拟合情况发生。而正则化理论是图13种正则化比较解决高方差或避免训练模型过拟合的有效方法之 Fig.1 The comparison of three regularizations 一，在机器学习领域被广泛使用。 2基于弹性网络核极限学习机算法通过正则化方式，可以降低模型的复杂度，避免可能的过度拟合。近年来，研究者提出了多种 2.1基于ELM的多标记学习适合机器学习的正则化方法，其中L2正则化、传统单标记学习无法对于真实世界对象多语义为： fL(Xj) = ∑L i=1 βigi(Xj) (1) βi = [ βi1βi2 ···βim 式中： ]T表示输出权值； gi 表示第 i 个隐藏节点的输出，实质为激活函数，并可表示为： gi ( Xj ) = g ( wi · Xj +bi ) (2) wi = [wi1wi2 ···wim] 式中： T为输入权值；bi 表示第 i 个隐藏神经元的偏置； ∙表示为点积。通常式 (1) 用来建模回归，对于分类问题可使用 sigmoid 函数来限制输出值的范围，从而达到分类效果。以上为 ELM 的第 1 阶段即随机特征映射，对于第 2 阶段的线性参数求解，通过最小化平方误差的近似误差来求解连接隐藏层和输出层的权值 β。可表示为： min β ∥Hβ−Y∥ 2 (3) 式中 H 为隐藏层输出矩阵，即 H =   h(x1) h(x2) . . . h(xN)   =   h1 (x1) h2 (x1) ··· hL (x1) h1 (x2) h2 (x2) ··· hL (x2) . . . . . . h1 (xN) h2 (xN) ··· hL (xN)   (4) Y 为训练标记矩阵： Y =   y T 1 y T 2 . . . y T N   =   y11 y12 ··· y1m y21 y22 ··· y2m . . . . . . yN1 yN2 ··· yNm   (5) 通过式 (1)、式 (3)，最小二乘解为 βˆ = H †Y (6) 式中 H †表示 H 的 Moore-Penrose 广义逆矩阵，表示为 s.t. H † = { ( HTH )−1HT , HTH非奇异 HT ( HHT )−1 , HHT非奇异 (7) 最终求出的 βˆ即可以预测未知标记，表示为 Yˆ = Hβˆ (8) 1.2 正则化理论在机器学习中，偏差 (bias) 与方差 (variance) 共同影响模型的准确率。高偏差容易导致模型欠拟合 (unfitting)，高方差则会导致模型过拟合 (overfitting)。通常，解决高偏差可选择使用更为复杂的模型或增加模型参数来降低偏差值，但这就会导致模型过拟合情况发生。而正则化理论是解决高方差或避免训练模型过拟合的有效方法之一，在机器学习领域被广泛使用。通过正则化方式，可以降低模型的复杂度，避免可能的过度拟合。近年来，研究者提出了多种适合机器学习的正则化方法，其中 L2 正则化、 L1 正则化和弹性网络正则化等使用较为普遍。这些正则化方法详细描述如下： 1) L2 正则 (Ridge Regression) λ ∥β∥ 2 2 λ ∈ [0,+∞] L2 正则化模型 (也称为岭回归) 是在最小化损失函数后添加正则项，其中参数，起到降低权重的作用，最终得到目标函数： L2 = min β ∥Hβ−Y∥ 2 2 +λ ∥β∥ 2 2 (9) 2) L1 正则 (Lasso) λ∥β∥1 λ ∈ [0,+∞] L1 正则化模型 (也称为 Lasso 模型) 则是在最小化损失函数添加正则项，其中，而 Lasso 最大的特点在于产生稀疏权值矩阵，构造出稀疏模型已达到特征选择的作用，最终目标函数为 L1 = min β ∥Hβ−Y∥ 2 2 +λ ∥β∥1 (10) 3) L2&L1 正则 (Elastic Net) λ ( α∥β∥1 +(1−α)∥β∥ 2 2 ) λ ∈ [0,+∞] α ∈ [0,1] 弹性网络正则化是一种结合 L1 正则与 L2 正则的各自优点的新型正则化方法，即在最小化损失函数添加正则项，其中，，目标函数定义为 LElasticNet = minβ ∥Hβ−Y∥ 2 2 + λ ( α∥β∥1 +(1−α)∥β∥ 2 2 ) (11) α ∈ (0,1) 通过式 (11) 可知：当 α=0 时，Elastic Net 即为 L2 正则；当 α=1 时，Elastic Net 即为 L1 正则；当时，Elastic Net 将保留 L2 和 L1 正则各自特点，达到弹性 2 种正则的作用。根据这一特点给出 3 种正则化的二维图像描述，如图 1 所示。 Ridge Lasso Elastic Net β 2 β O 1 图 1 3 种正则化比较 Fig. 1 The comparison of three regularizations 2 基于弹性网络核极限学习机算法 2.1 基于 ELM 的多标记学习传统单标记学习无法对于真实世界对象多语第 4 期王一宾，等：弹性网络核极限学习机的多标记学习算法 ·833·

<<向上翻页向下翻页>>

点击下载：【机器学习】弹性网络核极限学习机的多标记学习算法