图４数据集ｙｅａｓｔ在４项评估指标上的实验结果Ｆｉｇ．４Ｔ

正在加载图片...

·444. 智能系统学报第8卷记样本集比例增加到一定程度时，监督信息不再是 0.222 0.225 o218i 影响分类性能的主要因素， 4结束语写0.210 里0206 021s 本文针对广泛存在于实际生活中的半监督多标 0.202 0.210 .1 0.20.3 0.40.5 0.10.20.30.40.5 记学习问题，以协同训练思想为核心，以两两标记之已标记样本集比例已标记样本集比例间的关系为出发点，利用Tri-training算法训练分类 (a)Hamming Loss (b)One-Eror 器，并将多标记学习问题转化为标记排序问题进行 2.78 0.178 求解，实验结果表明了该算法的有效性.但是，当多标记的数量和规模较大时，如何进一步降低算法的计算复杂度仍将是需要深入讨论的问题. 2.70 号0.166 参考文献： 2.66 0162 .1 0.20.30.40.5 .10.20.30.40.5 [1]TSOUMAKAS G,KATAKIS I.Multi-label classification:an 已标记样本集比例已标记样本集比例 overview[]].International Journal of Data Warehousing and (c)Coverage (d)Ranking Loss Mining,2007,3(3):1-l3, [2]ZHU Xiaojin.Semi-supervised learning literature survey 图4数据集yeast在4项评估指标上的实验结果 [R].Madison,USA:University of Wisconsin-Madison, Fig.4 The summary results of four evaluation metrics 2008. on yeast dataset 「31常瑜，梁吉业，高嘉伟，等.一种基于Seeds集和成对约束的半监督聚类算法[J].南京大学学报：自然科学版 0.057 0.24 2012,48(4):405-411. 0.055 CHANG Yu,LIANG Jiye,GAO Jiawei,et al.A semi-su- 0.053 0.20 pervised clustering algorithm based on seeds and pair wise 0.051 号o constraints[J].Journal of Nanjing University:Natural Sci- 0.049 0.16 ences.2012.48(4):405-411. .10.2 0.30.40.5 0.10.20.30.40.5 [4]ZHOU Zhihua,ZHANG Minling,HUANG Shengjun,et al. 已标记样本集比例已标记样本集比例 Multi-instance multi-label learning J].Artificial Intelli- (a)Hamming Loss (b)One-Error gence,2012,176(1):2291-2320. 1.62 Q094 [5]ZHANG Minling,ZHANG Kun.Multi-label learing by ex- 1.60 1.58 0.090 ploiting label dependency C]//Proceedings of the 16th 1.56 ACM SIGKDD International Conference on Knowledge Dis- 1.54 1.52 covery and Data Mining.Washington,DC,USA,2010: 1.50 999-1007. 1.4 0.07 0.10.20.30.40.5 0.10.20.30.40.5 [6]BOUTELL M R,LUO Jiebo,SHEN Xipeng,et al.Learning 已标记样本集比例已标记样本集比例 multi-label scene classification J].Pattern Recognition, (c)Coverage (d)Ranking Loss 2004,37(9):1757-1771. 图5数据集enron在4项评估指标上的实验结果 [7]FURNKRANZ J,HULLERMEIER E,MENCIA E L,et al. Fig.5 The summary results of four evaluation metrics Multi-label classification via calibrated label ranking J]. on enron dataset Machine Learning,2008,73(2):133-153. [8]TSOUMAKAS G,VLAHAVAS I.Random k-labelsets:an 根据图2~5可以发现，在半监督学习的意义 ensemble method for multilabel classification[C]//Proceed- 下，SMLT算法对应的4项评估指标的值大多随着 ings of the 18th European Conference on Machine Learning. 已标记样本集比例的增加而不断减小，即算法的分 Berlin:Springer,2007:406-417. 类性能越来越好.并且在已标记样本集比例较小时 [9]ZHANG Minling,ZHOU Zhihua.ML-kNN:a lazy learning approach to multi-label learning[J].Pattern Recognition, 曲线下降较快，随着已标记样本集比例的增加，曲线 2007,40(7):2038-2048. 趋于平缓.仅在yeast数据集上的One-Emor评价指 [10]ELISSEEFF A,WESTON J.A kernel method for multi-la- 标的曲线比较特殊这是因为给定的监督信息越多， belled classification M]//DIETTERICH T G,BECKER 越有助于分类，从而得到更好的分类结果，而当已标 S,GHAHRAMANI Z.Advances in Neural Information图４数据集ｙｅａｓｔ在４项评估指标上的实验结果Ｆｉｇ．４Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒｅｖａｌｕａｔｉｏｎｍｅｔｒｉｃｓｏｎｙｅａｓｔｄａｔａｓｅｔ图５数据集ｅｎｒｏｎ在４项评估指标上的实验结果Ｆｉｇ．５Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒｅｖａｌｕａｔｉｏｎｍｅｔｒｉｃｓｏｎｅｎｒｏｎｄａｔａｓｅｔ根据图２～５可以发现，在半监督学习的意义下，ＳＭＬＴ算法对应的４项评估指标的值大多随着已标记样本集比例的增加而不断减小，即算法的分类性能越来越好．并且在已标记样本集比例较小时曲线下降较快，随着已标记样本集比例的增加，曲线趋于平缓．仅在ｙｅａｓｔ数据集上的Ｏｎｅ⁃Ｅｒｒｏｒ评价指标的曲线比较特殊．这是因为给定的监督信息越多，越有助于分类，从而得到更好的分类结果，而当已标记样本集比例增加到一定程度时，监督信息不再是影响分类性能的主要因素．４结束语本文针对广泛存在于实际生活中的半监督多标记学习问题，以协同训练思想为核心，以两两标记之间的关系为出发点，利用Ｔｒｉ⁃ｔｒａｉｎｉｎｇ算法训练分类器，并将多标记学习问题转化为标记排序问题进行求解，实验结果表明了该算法的有效性．但是，当多标记的数量和规模较大时，如何进一步降低算法的计算复杂度仍将是需要深入讨论的问题．参考文献：［１］ＴＳＯＵＭＡＫＡＳＧ，ＫＡＴＡＫＩＳＩ．Ｍｕｌｔｉ⁃ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ：ａｎｏｖｅｒｖｉｅｗ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＤａｔａＷａｒｅｈｏｕｓｉｎｇａｎｄＭｉｎｉｎｇ，２００７，３（３）：１⁃１３．［２］ＺＨＵＸｉａｏｊｉｎ．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｌｉｔｅｒａｔｕｒｅｓｕｒｖｅｙ［Ｒ］．Ｍａｄｉｓｏｎ，ＵＳＡ：ＵｎｉｖｅｒｓｉｔｙｏｆＷｉｓｃｏｎｓｉｎ⁃Ｍａｄｉｓｏｎ，２００８．［３］常瑜，梁吉业，高嘉伟，等．一种基于Ｓｅｅｄｓ集和成对约束的半监督聚类算法［Ｊ］．南京大学学报：自然科学版，２０１２，４８（４）：４０５⁃４１１．ＣＨＡＮＧＹｕ，ＬＩＡＮＧＪｉｙｅ，ＧＡＯＪｉａｗｅｉ，ｅｔａｌ．Ａｓｅｍｉ⁃ｓｕ⁃ ｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｓｅｅｄｓａｎｄｐａｉｒｗｉｓｅｃｏｎｓｔｒａｉｎｔｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙ：ＮａｔｕｒａｌＳｃｉ⁃ ｅｎｃｅｓ，２０１２，４８（４）：４０５⁃４１１．［４］ＺＨＯＵＺｈｉｈｕａ，ＺＨＡＮＧＭｉｎｌｉｎｇ，ＨＵＡＮＧＳｈｅｎｇｊｕｎ，ｅｔａｌ．Ｍｕｌｔｉ⁃ｉｎｓｔａｎｃｅｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ［Ｊ］．ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉ⁃ ｇｅｎｃｅ，２０１２，１７６（１）：２２９１⁃２３２０．［５］ＺＨＡＮＧＭｉｎｌｉｎｇ，ＺＨＡＮＧＫｕｎ．Ｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｂｙｅｘ⁃ ｐｌｏｉｔｉｎｇｌａｂｅｌｄｅｐｅｎｄｅｎｃｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１６ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓ⁃ ｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｗａｓｈｉｎｇｔｏｎ，ＤＣ，ＵＳＡ，２０１０：９９９⁃１００７．［６］ＢＯＵＴＥＬＬＭＲ，ＬＵＯＪｉｅｂｏ，ＳＨＥＮＸｉｐｅｎｇ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｍｕｌｔｉ⁃ｌａｂｅｌｓｃｅｎｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００４，３７（９）：１７５７⁃１７７１．［７］ＦＵＲＮＫＲＡＮＺＪ，ＨＵＬＬＥＲＭＥＩＥＲＥ，ＭＥＮＣＩＡＥＬ，ｅｔａｌ．Ｍｕｌｔｉ⁃ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｖｉａｃａｌｉｂｒａｔｅｄｌａｂｅｌｒａｎｋｉｎｇ［Ｊ］．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２００８，７３（２）：１３３⁃１５３．［８］ＴＳＯＵＭＡＫＡＳＧ，ＶＬＡＨＡＶＡＳＩ．Ｒａｎｄｏｍｋ⁃ｌａｂｅｌｓｅｔｓ：ａｎｅｎｓｅｍｂｌｅｍｅｔｈｏｄｆｏｒｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅ１８ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２００７：４０６⁃４１７．［９］ＺＨＡＮＧＭｉｎｌｉｎｇ，ＺＨＯＵＺｈｉｈｕａ．ＭＬ⁃ｋＮＮ：ａｌａｚｙｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｔｏｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００７，４０（７）：２０３８⁃２０４８．［１０］ＥＬＩＳＳＥＥＦＦＡ，ＷＥＳＴＯＮＪ．Ａｋｅｒｎｅｌｍｅｔｈｏｄｆｏｒｍｕｌｔｉ⁃ｌａ⁃ ｂｅｌｌｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｍ］／／ＤＩＥＴＴＥＲＩＣＨＴＧ，ＢＥＣＫＥＲＳ，ＧＨＡＨＲＡＭＡＮＩＺ．ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎ ·４４４· 智能系统学报第８卷

<<向上翻页向下翻页>>

点击下载：机器学习：基于Tri-training的半监督多标记学习算法