２）预处理已标记样本集Ｌ．对于任一对未处理的标记（ｙ∗ｐ，ｙ∗ｑ），遍

正在加载图片...

·442. 智能系统学报第8卷 2)预处理已标记样本集L对于任一对未处理 6)对于测试集T中的未标记样本x”,若R> 的标记(ypyg),遍历x∈L,将满足以下规则的x Ro(=1,2,…,n),则样本x"的最后标记y”=1,否则放入集合Vm中若y=1,y=0则样本(x,1)放入 y,=0,最终输出预测标记集合"={y”,s=1,2, 集合V中：若yp=0,y=1则将样本(x,0)放人集 …,10}. 合V中；若y=yn则不考虑样本x:,即样本x:不放 3 实验结果及分析入集合V中. 3)将集合V作为新的已标记样本集L",结合本文在emotions、scene、yeast、enron这4个较为未标记样本集U,在训练集中利用Tri-training算法常用的多标记数据集[2]上与多标记学习的多种典学习得到3个分类器. 型方法进行实验比较，其中包括ML-kNN[)、RANK- 4)使用投票法和得到的3个分类器对测试集T SVML10]以及TRAM6].实验数据集的相关信息如表中的未标记样本(s=1,2,…,)进行预测，得到预 1所示. 测结果，并统计对应的标记投票个数若，=1则表1实验数据集相关信息表示样本x属于第p类标记，Rm=R,+1;若T=0 Table 1 The characteristics of datasets 则表示样本x"属于第q类标记，R=R+1. 数据集名称所属领域样本个数属性个数类标记个数 5)将标记(y,y)设置为已处理，若还有未处理的标记对，则转步骤2)，否则下一步. emotions music 593 72 6 scene image 2407 294 6 (开始 yeast biology 2417 103 14 输入数据集 L、U和7 enron text 1702 1001 53 为L中每个样本添加实验采用4种常用的多标记学习评价指标4) 一个虚拟标记对算法性能进行评估：Hamming Loss、One-Emor、 Coverage和Ranking Loss.以上4种评估指标的值越针对一对未处理过的标记小，表明该算法的性能越好对，预处理L,得到Lnew 实验将抽取各数据集的90%作为训练样本集根据Lew,结合U, (其中20%的训练样本是已标记样本集，80%的训利用Tri-training得到练样本是未标记样本集)，其余10%的数据为测试 3个分类器样本集，重复10次统计其平均结果.由于TRAM方对测试集样本进行预测法是直推式方法，不能直接对测试样本集以外的未并统计投票结果见样本进行预测，实验中将最终测试样本作为 TRAM训练时的未标记样本集.表2~5给出了实验结果，加粗部分为每个指标上的最佳性能。是否有未处理的标记对表2数据集emotions上各算法的实验结果 Table 2 The summary results of four algorithms on emo- N tions dataset 根据投票结果获取最后标记Y Hamming Ranking t 算法 One-Error Coverage Loss Loss 输出预测标记集合Y MLkNN 0.2571 0.4068 2.2034 0.2399 RankSVM 0.2797 0.4237 2.2373 0.2781 结束) TRAM 0.2768 0.3390 2.1525 0.2321 图1SMLT算法 SMLT 0.2420 0.3139 1.7970 0.1845 Fig.1 Flow chart of the SMLT algorithm２）预处理已标记样本集Ｌ．对于任一对未处理的标记（ｙ∗ｐ，ｙ∗ｑ），遍历ｘｉ∈Ｌ，将满足以下规则的ｘｉ放入集合Ｖｐｑ中．若ｙｉｐ＝１，ｙｉｑ＝０则样本（ｘｉ，１）放入集合Ｖｐｑ中；若ｙｉｐ＝０，ｙｉｑ＝１则将样本（ｘｉ，０）放入集合Ｖｐｑ中；若ｙｉｐ＝ｙｉｑ则不考虑样本ｘｉ，即样本ｘｉ不放入集合Ｖｐｑ中．３）将集合Ｖｐｑ作为新的已标记样本集Ｌｎｅｗ，结合未标记样本集Ｕ，在训练集中利用Ｔｒｉ⁃ｔｒａｉｎｉｎｇ算法学习得到３个分类器．４）使用投票法和得到的３个分类器对测试集Ｔ中的未标记样本ｘｓ ″（ｓ＝１，２，…，ｗ）进行预测，得到预测结果ｒｓｐｑ并统计对应的标记投票个数．若ｒｓｐｑ＝１则表示样本ｘｓ ″属于第ｐ类标记，Ｒｓｐ＝Ｒｓｐ＋１；若ｒｓｐｑ＝０则表示样本ｘｓ ″属于第ｑ类标记，Ｒｓｑ＝Ｒｓｑ＋１．图１ＳＭＬＴ算法Ｆｉｇ．１ＦｌｏｗｃｈａｒｔｏｆｔｈｅＳＭＬＴａｌｇｏｒｉｔｈｍ５）将标记（ｙ∗ｐ，ｙ∗ｑ）设置为已处理，若还有未处理的标记对，则转步骤２），否则下一步．６）对于测试集Ｔ中的未标记样本ｘｓ ″，若Ｒｓｊ＞Ｒｓ０（ｊ＝１，２，…，ｎ），则样本ｘｓ ″的最后标记ｙｓｊ ″＝１，否则ｙｓｊ ″＝０，最终输出预测标记集合Ｙ″ ＝｛Ｙｓ ″，ｓ＝１，２， …，ｗ｝．３实验结果及分析本文在ｅｍｏｔｉｏｎｓ、ｓｃｅｎｅ、ｙｅａｓｔ、ｅｎｒｏｎ这４个较为常用的多标记数据集［２０］上与多标记学习的多种典型方法进行实验比较，其中包括ＭＬ⁃ｋＮＮ［９］、ＲＡＮＫ⁃ ＳＶＭ［１０］以及ＴＲＡＭ［１６］．实验数据集的相关信息如表１所示．表１实验数据集相关信息Ｔａｂｌｅ１Ｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｄａｔａｓｅｔｓ数据集名称所属领域样本个数属性个数类标记个数ｅｍｏｔｉｏｎｓｍｕｓｉｃ５９３７２６ｓｃｅｎｅｉｍａｇｅ２４０７２９４６ｙｅａｓｔｂｉｏｌｏｇｙ２４１７１０３１４ｅｎｒｏｎｔｅｘｔ１７０２１００１５３实验采用４种常用的多标记学习评价指标［４］对算法性能进行评估：ＨａｍｍｉｎｇＬｏｓｓ、Ｏｎｅ⁃Ｅｒｒｏｒ、Ｃｏｖｅｒａｇｅ和ＲａｎｋｉｎｇＬｏｓｓ．以上４种评估指标的值越小，表明该算法的性能越好［４］．实验将抽取各数据集的９０％作为训练样本集（其中２０％的训练样本是已标记样本集，８０％的训练样本是未标记样本集），其余１０％的数据为测试样本集，重复１０次统计其平均结果．由于ＴＲＡＭ方法是直推式方法，不能直接对测试样本集以外的未见样本进行预测，实验中将最终测试样本作为ＴＲＡＭ训练时的未标记样本集．表２～５给出了实验结果，加粗部分为每个指标上的最佳性能．表２数据集ｅｍｏｔｉｏｎｓ上各算法的实验结果Ｔａｂｌｅ２Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒａｌｇｏｒｉｔｈｍｓｏｎｅｍｏ⁃ ｔｉｏｎｓｄａｔａｓｅｔ算法ＨａｍｍｉｎｇＬｏｓｓＯｎｅ⁃ＥｒｒｏｒＣｏｖｅｒａｇｅＲａｎｋｉｎｇＬｏｓｓＭＬｋＮＮ０．２５７１０．４０６８２．２０３４０．２３９９ＲａｎｋＳＶＭ０．２７９７０．４２３７２．２３７３０．２７８１ＴＲＡＭ０．２７６８０．３３９０２．１５２５０．２３２１ＳＭＬＴ０．２４２００．３１３９１．７９７００．１８４５ ·４４２· 智能系统学报第８卷

<<向上翻页向下翻页>>

点击下载：机器学习：基于Tri-training的半监督多标记学习算法