正在加载图片...
第4期 王一宾,等:弹性网铬核极限学习机的多标记学习算法 ·835· S(6,y)≡sign(6)-y).= 对应的平均标记数为4.24。Scene数据集由 6-y,6>0且y<1l 2407张图片组成,人工手动标记图片6类标记, 6+y,6<0且y< (21) 平均每张图片有1.24±0.44个类标记,特征向量维 0,y≥l 度为294维,其中1211个训练集和1196个测试 在训练集中通过坐标下降法求出输出权值矩 集。雅虎网页数据集是从雅虎网站收集,包括 阵B,设x为测试数据第j个示例的特征向量,则 多标记预测结果可以表示为 11个版块(Arts”、“Business”、“Computers”等), 各数据子集特征数在400~1100之间,各数据子 fi(x)=2ELM.B (22) 集中包含2000个训练集以及3000个测试集,详 式中:2M表示将训练集全部特征向量与测试 细信息如表1所示。 集特征向量共同使用式(17)的RBF核函数映射, 表1雅虎网页数据集 最后提出算法具体步骤如算法1所示。 Table 1 Yahoo web pages data set 算法1基于弹性网络核极限学习机的多标 数据集 特征数训练平均标记 测试平均标记 记学习算法ML-EKELM). Arts 462 1.627±0.8828 1.642±0.9589 输入训练数据集D={x,Y,测试数据集 D-然,RBF核参数,正则化参数X、a,最大 Business 438 1.590±0.8398 1.586±0.8494 迭代次数Q: Computers 681 1.487±1.0869 1.522±1.0468 输出测试数据集预测标记Y。 Education 550 1.465±0.7642 1.458±0.7522 训练training set D Entertainment 640 1.426±0.9306 1.4170.9913 for training set D Health 612 1.667±0.8517 1.659±0.9013 step 1:compute training data kernel matrix in Recreation 606 1.414±0.8136 1.429±0.8679 according to Eq.(17) Reference 793 1.159±0.4295 1.177±0.5369 step 2:calculate the output weight Science 743 1.4890.7875 1.425±0.7580 for i=1 to O Social 1047 1.274±0.6388 1.290±0.6174 update output weight B according to Eq.(20)and Eq.(21) Society 636 1.705±1.2062 1.684±1.2464 end for 3.2多标记评价指标 end for 对于多标记学习,传统单标记评价指标例如 测试testing set D Accuracy、Precision和Recall都无法直接对多标记 for testing set D 学习算法进行指标评价。为有效验证算法综合性 step 1:compute training and testing data kernel 能,本文将使用5种多标记通用评价指标进行算 matrix es according to Eq.(17) 法评价,评价指标包括:Hamming Loss、One-Error、 step 2:get predicted result fx)according to Eq. Coverage、Ranking Loss和Average Precision"。 (22) 设多标记分类器为(),预测函数f(,),排序 end for 函数rankro多标记数据集D={(x,Y)l≤i≤n}o return predicted testing data label setf. 上述5种评价指标HL、OE、CV、RL和AP形式化 j=1,2,…,M0o 定义如下: 3实验方案及结果分析 1 HLD(h)=- 名 h(x)△Y (23) 3.1实验数据描述 式中:△表示两个集合之间的对称差。海明损失 为验证本文算法的有效性,特选取了Yeast 是评估对象标记被错误分类标记的次数情况,正 Gene2、Scene!、Yahoo Web Pagest(包含Il个子 确的标记被错误预测情况。当HL(h)=0时为最 数据集)等l3个数据集。其中Yeast Gene包含 好的情况,即HL(h)越小,h()的性能越高。 2417个样本,训练数据集有1500个样本,测试 数据集有917个样本,每个样本包含103个属性 OE,(n=∑arg max,r,叨4H n (24) 值,所有的样本大致有14种类别属性,每个样本 1-错误率是评估对象最高排位标记并未正确S (δ, γ) ≡ sign(δ) (|δ|−γ)+ =    δ−γ, δ > 0 且 γ < |δ| δ+γ, δ < 0 且 γ < |δ| 0, γ ⩾ |δ| (21) 在训练集中通过坐标下降法求出输出权值矩 阵 β,设 xj *为测试数据第 j 个示例的特征向量,则 多标记预测结果可以表示为 fl ( x ∗ j ) = ΩELM(i, j)β (22) 式中: ΩELM(i, j) 表示将训练集全部特征向量与测试 集特征向量共同使用式 (17) 的 RBF 核函数映射, 最后提出算法具体步骤如算法 1 所示。 算法 1 基于弹性网络核极限学习机的多标 记学习算法 (ML-EKELM)。 D = {xi ,Yi} N i=1 D ∗ = { x ∗ j }M j=1 输入 训练数据集 ,测试数据集 ,RBF 核参数 γ,正则化参数 λ、α,最大 迭代次数 Q; 输出 测试数据集预测标记 Y *。 训练 training set D for training set D step 1: compute training data kernel matrix Ωtrain according to Eq. (17); step 2: calculate the output weight β; for i =1 to Q update output weight β according to Eq. (20) and Eq. (21) end for end for 测试 testing set D * for testing set D * step 1: compute training and testing data kernel matrix Ωtest according to Eq. (17); step 2: get predicted result fl (x * ) according to Eq. (22) end for { y ∗ j fl ( x ∗ j ) > 0 , j = 1,2,··· , M} return predicted testing data label set Y * = 。 3 实验方案及结果分析 3.1 实验数据描述 为验证本文算法的有效性,特选取了 Yeast Gene[12] 、Scene[4] 、Yahoo Web Pages[10] (包含 11 个子 数据集) 等 13 个数据集。其中 Yeast Gene 包含 2 417 个样本,训练数据集有 1 500 个样本,测试 数据集有 917 个样本,每个样本包含 103 个属性 值,所有的样本大致有 14 种类别属性,每个样本 对应的平均标记数 为 4.24。 Scene 数据集由 2 407 张图片组成,人工手动标记图片 6 类标记, 平均每张图片有 1.24±0.44 个类标记,特征向量维 度为 294 维,其中 1 211 个训练集和 1 196 个测试 集。雅虎网页数据集是从雅虎网站收集,包括 11 个版块 (“Arts”、“Business”、“Computers”等), 各数据子集特征数在 400~1 100 之间,各数据子 集中包含 2 000 个训练集以及 3 000 个测试集,详 细信息如表 1 所示。 表 1 雅虎网页数据集 Table 1 Yahoo web pages data set 数据集 特征数 训练平均标记 测试平均标记 Arts 462 1.627±0.882 8 1.642±0.958 9 Business 438 1.590±0.839 8 1.586±0.849 4 Computers 681 1.487±1.086 9 1.522±1.046 8 Education 550 1.465±0.764 2 1.458±0.752 2 Entertainment 640 1.426±0.930 6 1.417±0.991 3 Health 612 1.667±0.851 7 1.659±0.901 3 Recreation 606 1.414±0.813 6 1.429±0.867 9 Reference 793 1.159±0.429 5 1.177±0.536 9 Science 743 1.489±0.787 5 1.425±0.758 0 Social 1047 1.274±0.638 8 1.290±0.617 4 Society 636 1.705±1.206 2 1.684±1.246 4 3.2 多标记评价指标 对于多标记学习,传统单标记评价指标例如 Accuracy、Precision 和 Recall 都无法直接对多标记 学习算法进行指标评价。为有效验证算法综合性 能,本文将使用 5 种多标记通用评价指标进行算 法评价,评价指标包括:Hamming Loss、One-Error、 Coverage、Ranking Loss 和 Average Precision[1]。 f (·,·) D = {(xi ,Yi)|1 ⩽ i ⩽ n} 设多标记分类器为 h(∙),预测函数 ,排序 函数 rankf。多标记数据集 。 上述 5 种评价指标 HL、OE、CV、RL 和 AP 形式化 定义如下: HLD (h) = 1 n ∑n i=1 1 |Y| |h(xi)∆Yi | (23) 式中: ∆ 表示两个集合之间的对称差。海明损失 是评估对象标记被错误分类标记的次数情况,正 确的标记被错误预测情况。当 HLD(h)=0 时为最 好的情况,即 HLD(h) 越小,h(∙) 的性能越高。 OED (f) = 1 n ∑n i=1 [[argmaxy∈Y f (xi , y) ] < Yi ] (24) 1-错误率是评估对象最高排位标记并未正确 第 4 期 王一宾,等:弹性网络核极限学习机的多标记学习算法 ·835·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有