机器学习：基于Tri-training的半监督多标记学习算法

团购合买资源类别：文库，文档格式：PDF，文档页数：7，文件大小：962.39KB

第8卷第5期智能系统学报 Vol.8 No.5 2013年10月 CAAI Transactions on Intelligent Systems 0ct.2013 D0L:10.3969/j.issn.1673-4785.201305033 网络出版地址：http:/www.cnki.net/kcms/detail/23.1538.TP.20130929.1105.006.html 基于Tri-training的半监督多标记学习算法刘杨磊2，梁吉业2，高嘉伟2，杨静2 (1.山西大学计算机与信息技术学院，山西太原030006：2.山西大学计算智能与中文信息处理教育部重点实验室，山西太原030006) 摘要：传统的多标记学习是监督意义下的学习，它要求获得完整的类别标记但是当数据规模较大且类别数目较多时，获得完整类别标记的训练样本集是非常困难的.因而，在半监督协同训练思想的框架下，提出了基于Tmi-training 的半监督多标记学习算法(SMT).在学习阶段，SMLT引入一个虚拟类标记，然后针对每一对类别标记，利用协同训练机制Ti-training算法训练得到对应的分类器：在预测阶段，给定一个新的样本，将其代入上述所得的分类器中，根据类别标记得票数的多少将多标记学习问题转化为标记排序问题，并将虚拟类标记的得票数作为阈值对标记排序结果进行划分.在UCI中4个常用的多标记数据集上的对比实验表明，SMLT算法在4个评价指标上的性能大多优于其他对比算法，验证了该算法的有效性。关键词：多标记学习：半监督学习：Tmi-training 中图分类号：TP181文献标志码：A文章编号：1673-4785(2013)05-439-07 中文引用格式：刘杨磊，梁吉业，高嘉伟，等.基于Ti-training的半监督多标记学习算法[J】.智能系统学报，2013,8(5)：439-445，英文引用格式：LIU Yanglei,LIANG Jiye,GAO Jiawei,etal.Semi-supervised multi-.label learning algorithm based on Tri-training [J].CAAI Transactions on Intelligent Systems,2013,8(5):439-445. Semi-supervised multi-label learning algorithm based on Tri-training LIU Yanglei,LIANG Jiye2,GAO Jiawei',YANG Jing2 (1.School of Computer and Information Technology,Shanxi University,Taiyuan 030006,China;2.Key Laboratory of Computational Intelligence and Chinese Information Processing of Ministry of Education,Shanxi University,Taiyuan 030006,China) Abstract:Traditional multi-label learning is in the sense of supervision,in which the complete category labels are required.However,when the size of data is large and there are several categories of labels,it is quite difficult to obtain the training sample sets with complete labels.Therefore,a semi-supervised multi-label learning algorithm based on Tri-training (SMLT)is proposed.In the learning stage,SMLT initially introduces a virtual label,then for each pair of virtual labels,the Tri-training algorithm is utilized to train the corresponding classifiers for each pair of labels.In the forecast stage,a new sample is given,which will be substituted into the obtained classifier described above.According to the votes of each label,the multi-label learning problem is transformed into a label ranking problem,subsequently;the votes of the virtual label are taken as the threshold for distinguishing the label ranking results.The contrast experiments on four commonly used UCI multi-label datasets show the SMLT algorithm behaves better than other comparative algorithms in four evaluation indices and the effectiveness of the proposed algorithm is verified. Keywords:multi-label learning;semi-supervised learning;Tri-training 多标记学习(muli--label learning)们是机器学习个训练样本可能同时对应于一个或多个不同的概念领域的重要研究方向之一.在多标记学习问题中，一标记，以表达其语义信息，学习的任务是为待学习样本预测其对应的概念标记集合.多标记学习问题普收稿日期：2013-05-09.网络出版日期：2013-09-29 遍存在于真实世界中，比如在图像场景分类任务中，基金项目：国家“973”计划前期研究专项(2011CB311805):山西省科技攻关计划资助项目(20110321027-01)：山西省科技基础一幅图像可能因包含“树木”、“天空”、“湖泊”以及条件平台建设项目(2012091002-0101). 通信作者：梁吉业.E-mail:jy@sxu.cdu.cm “山峰”等语义概念，而拥有多个概念标记

第８卷第５期智能系统学报Ｖｏｌ．８ №．５２０１３年１０月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＯｃｔ．２０１３ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０５０３３网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１３０９２９．１１０５．００６．ｈｔｍｌ基于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ的半监督多标记学习算法刘杨磊１，２，梁吉业１，２，高嘉伟１，２，杨静１，２（１．山西大学计算机与信息技术学院，山西太原０３０００６；２．山西大学计算智能与中文信息处理教育部重点实验室，山西太原０３０００６）摘要：传统的多标记学习是监督意义下的学习，它要求获得完整的类别标记．但是当数据规模较大且类别数目较多时，获得完整类别标记的训练样本集是非常困难的．因而，在半监督协同训练思想的框架下，提出了基于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ的半监督多标记学习算法（ＳＭＬＴ）．在学习阶段，ＳＭＬＴ引入一个虚拟类标记，然后针对每一对类别标记，利用协同训练机制Ｔｒｉ⁃ｔｒａｉｎｉｎｇ算法训练得到对应的分类器；在预测阶段，给定一个新的样本，将其代入上述所得的分类器中，根据类别标记得票数的多少将多标记学习问题转化为标记排序问题，并将虚拟类标记的得票数作为阈值对标记排序结果进行划分．在ＵＣＩ中４个常用的多标记数据集上的对比实验表明，ＳＭＬＴ算法在４个评价指标上的性能大多优于其他对比算法，验证了该算法的有效性．关键词：多标记学习；半监督学习；Ｔｒｉ⁃ｔｒａｉｎｉｎｇ中图分类号：ＴＰ１８１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１３）０５⁃４３９⁃０７中文引用格式：刘杨磊，梁吉业，高嘉伟，等．基于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ的半监督多标记学习算法［Ｊ］．智能系统学报，２０１３，８（５）：４３９⁃４４５．英文引用格式：ＬＩＵＹａｎｇｌｅｉ，ＬＩＡＮＧＪｉｙｅ，ＧＡＯＪｉａｗｅｉ，ｅｔａｌ．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＴｒｉ⁃ｔｒａｉｎｉｎｇ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１３，８（５）：４３９⁃４４５．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＴｒｉ⁃ｔｒａｉｎｉｎｇＬＩＵＹａｎｇｌｅｉ１，２，ＬＩＡＮＧＪｉｙｅ１，２，ＧＡＯＪｉａｗｅｉ１，２，ＹＡＮＧＪｉｎｇ１，２（１．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒａｎｄＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ，ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ；２．ＫｅｙＬａｂｏｒａｔｏｒｙｏｆＣｏｍｐｕｔａｔｉｏｎａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇｏｆＭｉｎｉｓｔｒｙｏｆＥｄｕｃａｔｉｏｎ，ＳｈａｎｘｉＵｎｉｖｅｒｓｉｔｙ，Ｔａｉｙｕａｎ０３０００６，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｒａｄｉｔｉｏｎａｌｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｉｓｉｎｔｈｅｓｅｎｓｅｏｆｓｕｐｅｒｖｉｓｉｏｎ，ｉｎｗｈｉｃｈｔｈｅｃｏｍｐｌｅｔｅｃａｔｅｇｏｒｙｌａｂｅｌｓａｒｅｒｅｑｕｉｒｅｄ．Ｈｏｗｅｖｅｒ，ｗｈｅｎｔｈｅｓｉｚｅｏｆｄａｔａｉｓｌａｒｇｅａｎｄｔｈｅｒｅａｒｅｓｅｖｅｒａｌｃａｔｅｇｏｒｉｅｓｏｆｌａｂｅｌｓ，ｉｔｉｓｑｕｉｔｅｄｉｆｆｉｃｕｌｔｔｏｏｂｔａｉｎｔｈｅｔｒａｉｎｉｎｇｓａｍｐｌｅｓｅｔｓｗｉｔｈｃｏｍｐｌｅｔｅｌａｂｅｌｓ．Ｔｈｅｒｅｆｏｒｅ，ａｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＴｒｉ⁃ｔｒａｉｎｉｎｇ（ＳＭＬＴ）ｉｓｐｒｏｐｏｓｅｄ．Ｉｎｔｈｅｌｅａｒｎｉｎｇｓｔａｇｅ，ＳＭＬＴｉｎｉｔｉａｌｌｙｉｎｔｒｏｄｕｃｅｓａｖｉｒｔｕａｌｌａｂｅｌ，ｔｈｅｎｆｏｒｅａｃｈｐａｉｒｏｆｖｉｒｔｕａｌｌａｂｅｌｓ，ｔｈｅＴｒｉ⁃ｔｒａｉｎｉｎｇａｌｇｏｒｉｔｈｍｉｓｕｔｉｌｉｚｅｄｔｏｔｒａｉｎｔｈｅｃｏｒｒｅｓｐｏｎｄｉｎｇｃｌａｓｓｉｆｉｅｒｓｆｏｒｅａｃｈｐａｉｒｏｆｌａｂｅｌｓ．Ｉｎｔｈｅｆｏｒｅｃａｓｔｓｔａｇｅ，ａｎｅｗｓａｍｐｌｅｉｓｇｉｖｅｎ，ｗｈｉｃｈｗｉｌｌｂｅｓｕｂｓｔｉｔｕｔｅｄｉｎｔｏｔｈｅｏｂｔａｉｎｅｄｃｌａｓｓｉｆｉｅｒｄｅｓｃｒｉｂｅｄａｂｏｖｅ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｖｏｔｅｓｏｆｅａｃｈｌａｂｅｌ，ｔｈｅｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｐｒｏｂｌｅｍｉｓｔｒａｎｓｆｏｒｍｅｄｉｎｔｏａｌａｂｅｌｒａｎｋｉｎｇｐｒｏｂｌｅｍ，ｓｕｂｓｅｑｕｅｎｔｌｙ；ｔｈｅｖｏｔｅｓｏｆｔｈｅｖｉｒｔｕａｌｌａｂｅｌａｒｅｔａｋｅｎａｓｔｈｅｔｈｒｅｓｈｏｌｄｆｏｒｄｉｓｔｉｎｇｕｉｓｈｉｎｇｔｈｅｌａｂｅｌｒａｎｋｉｎｇｒｅｓｕｌｔｓ．ＴｈｅｃｏｎｔｒａｓｔｅｘｐｅｒｉｍｅｎｔｓｏｎｆｏｕｒｃｏｍｍｏｎｌｙｕｓｅｄＵＣＩｍｕｌｔｉ⁃ｌａｂｅｌｄａｔａｓｅｔｓｓｈｏｗｔｈｅＳＭＬＴａｌｇｏｒｉｔｈｍｂｅｈａｖｅｓｂｅｔｔｅｒｔｈａｎｏｔｈｅｒｃｏｍｐａｒａｔｉｖｅａｌｇｏｒｉｔｈｍｓｉｎｆｏｕｒｅｖａｌｕａｔｉｏｎｉｎｄｉｃｅｓａｎｄｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｉｓｖｅｒｉｆｉｅｄ．Ｋｅｙｗｏｒｄｓ：ｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ；ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ；Ｔｒｉ⁃ｔｒａｉｎｉｎｇ收稿日期：２０１３⁃０５⁃０９．网络出版日期：２０１３⁃０９⁃２９．基金项目：国家“９７３”计划前期研究专项（２０１１ＣＢ３１１８０５）；山西省科技攻关计划资助项目（２０１１０３２１０２７⁃０１）；山西省科技基础条件平台建设项目（２０１２０９１００２⁃０１０１）．通信作者：梁吉业．Ｅ⁃ｍａｉｌ：ｌｊｙ＠ｓｘｕ．ｅｄｕ．ｃｎ．多标记学习（ｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ）［１］是机器学习领域的重要研究方向之一．在多标记学习问题中，一个训练样本可能同时对应于一个或多个不同的概念标记，以表达其语义信息，学习的任务是为待学习样本预测其对应的概念标记集合．多标记学习问题普遍存在于真实世界中，比如在图像场景分类任务中，一幅图像可能因包含“树木”、“天空”、“湖泊”以及 “山峰”等语义概念，而拥有多个概念标记．

·440· 智能系统学报第8卷传统的多标记学习通常是在监督意义下进行学习系统的泛化性能较低. 的，即要求训练数据集的训练样本必须全部是已标 2)“二阶”策略：考察两两标记之间的相关性，记样本然而，在现实生活中，虽然获取大量的训练将多标记学习问题转化成标记排序问题进行求解. 数据集并不十分困难，但是为这些数据提供正确的该类方法在一定程度上考虑了标记之间的相关性，类别标记却需要耗费大量的人力和时间.比如，在图学习系统的泛化性能较好，但是当实际问题中标记像场景分类任务中，现实世界中存在着海量的未标之间具有超越二阶的相关性时，该类方法的性能将记图像，而且一幅图像往往拥有大量的候选类别标会受到很大影响. 记，要完整标注训练集中的每一个样本就意味着需 3)“高阶”策略：考察高阶的标记相关性，充分要人工查看每一幅图像的所有候选类别并逐一标利用标记之间的结构信息进行求解.该类方法可以注.当数据规模较大且类别数目较多时，要获得完整较好地反映真实世界问题的标记相关性，但其模型类别标记的训练样本集是非常困难的.此时，在监督复杂度较高，且在缺乏领域知识指导的情况下，几乎意义下如果只使用少量已标记样本训练，则得到的无法利用标记之间的结构信息. 模型很难具有较强的泛化能力.而半监督学习能够另一方面，近几年来，多标记学习越来越受到机较好地解决上述问题，它综合利用少量的已标记样器学习领域学者的关注，研究人员对多标记学习问本和大量的未标记样本以提高泛化性能[2) 题提出了许多学习方法和策略，对这些问题的研究因此，本文主要以协同训练思想为核心，提出了大致可分为2种思路：一种是问题转化，另一种是算基于Tri-training的半监督多标记学习算法(a semi- 法改编第1种思路试图将多标记学习任务转化为 supervised multi-label learning algorithm based on Tri- 一个或多个单标记学习任务，然后利用已有的学习 training,SMLT),以解决广泛存在于实际生活中的算法求解.代表性学习算法有一阶方法Binary Rele- 文本分类、图像场景分类以及生物信息学等半监督 vancets],它将多标记学习问题转化为二分类问题进多标记学习问题. 行求解；二阶方法Calibrated Label Ranking将多标 1背景知识记学习问题转化为标记排序问题求解：高阶方法 Random k-labelsets8]将多标记学习问题转化为多类 1.1多标记学习分类问题求解.第2种思路是对现有算法进行改编在多标记学习框架下，每个对象由一个样本描或设计新算法，使之能直接处理多标记学习任务.代述，该样本具有多个类别标记，学习的目的是将所有表性学习算法有一阶方法ML-kNN),它将“惰性学合适的类别标记赋予待学习样本〔)形式化地来说，习”算法k近邻进行改造以适应多标记数据：二阶令X表示样本空间，Y表示类别标记空间，给定数据方法Rank-SVM10]将“核学习"算法SVM进行改造集{(x1,Y),(x2,Y2),…,(xm,Ym)},目标是学得f: 用于多类别标记：高阶方法LEAD5]将“贝叶斯学 X→2'其中，x:∈X(i=1,2,…,m)为一个样本，YS 习”算法中的Bayes网络进行改造，以适应多标记 Y为x的一组类别标记{ya,ya,…,ym},y∈Y(j= 数据 1,2,…,n),n为Y:中所含类别标记的个数上述的多标记学习算法通常为监督学习算法如果限定每个样本只对应一个类别标记，那么然而，为训练数据集提供正确的类别标记需要耗费传统的2类或多类学习问题均可以看作是多标记学大量的人力和时间因此，当只有少量已标记样本可习问题的特例然而，多标记学习的一般性也使得其用时，传统的多标记学习算法将不再适用相较于传统的学习问题更加难以解决.目前，多标记 1.2半监督多标记学习学习面临的最大挑战在于其输出空间过大，即与一近来年，有一些研究者开始研究半监督/直推式个待学习样本相关联的候选类别标记集合的数量将多标记学习(semi-supervised/transductive multi-label 会随着标记空间的增大而呈指数规模增长.如何充 learning)方法.半监督学习和直推式学习都是试图分利用标记之间的相关性是构造具有强泛化能力多利用大量的未标记样本来辅助对少量已标记样本的标记学习系统的关键.根据考察标记之间相关性的学习，但二者的基本思想却有显著的不同直推式学不同方式，已有的多标记学习问题求解策略大致可习的测试样本是训练集中的未标记样本，测试环境以分为以下3类) 是封闭的：而半监督学习的测试样本与训练样本无 1)“一阶”策略：将多标记学习问题分解为多个关，测试环境是相对开放的，独立的二分类问题进行求解.该类方法效率较高且 2006年，Liu等[基于如果样本之间具有很大实现简单，但是由于忽略了标记之间的相关性，通常的相似性，那么它们的标记集合之间也应该具有很

传统的多标记学习通常是在监督意义下进行的，即要求训练数据集的训练样本必须全部是已标记样本．然而，在现实生活中，虽然获取大量的训练数据集并不十分困难，但是为这些数据提供正确的类别标记却需要耗费大量的人力和时间．比如，在图像场景分类任务中，现实世界中存在着海量的未标记图像，而且一幅图像往往拥有大量的候选类别标记，要完整标注训练集中的每一个样本就意味着需要人工查看每一幅图像的所有候选类别并逐一标注．当数据规模较大且类别数目较多时，要获得完整类别标记的训练样本集是非常困难的．此时，在监督意义下如果只使用少量已标记样本训练，则得到的模型很难具有较强的泛化能力．而半监督学习能够较好地解决上述问题，它综合利用少量的已标记样本和大量的未标记样本以提高泛化性能［２⁃ ３］．因此，本文主要以协同训练思想为核心，提出了基于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ的半监督多标记学习算法（ａｓｅｍｉ⁃ ｓｕｐｅｒｖｉｓｅｄｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎＴｒｉ⁃ ｔｒａｉｎｉｎｇ，ＳＭＬＴ），以解决广泛存在于实际生活中的文本分类、图像场景分类以及生物信息学等半监督多标记学习问题．１背景知识１．１多标记学习在多标记学习框架下，每个对象由一个样本描述，该样本具有多个类别标记，学习的目的是将所有合适的类别标记赋予待学习样本［４］．形式化地来说，令Ｘ表示样本空间，Ｙ表示类别标记空间，给定数据集｛（ｘ１，Ｙ１），（ｘ２，Ｙ２），…，（ｘｍ，Ｙｍ）｝，目标是学得ｆ：Ｘ→２Ｙ．其中，ｘｉ∈Ｘ（ｉ＝１，２，…，ｍ）为一个样本，Ｙｉ⊆ Ｙ为ｘｉ的一组类别标记｛ｙｉ１，ｙｉ２，…，ｙｉｎ｝，ｙｉｊ∈Ｙ（ｊ＝１，２，…，ｎ），ｎ为Ｙｉ中所含类别标记的个数．如果限定每个样本只对应一个类别标记，那么传统的２类或多类学习问题均可以看作是多标记学习问题的特例．然而，多标记学习的一般性也使得其相较于传统的学习问题更加难以解决．目前，多标记学习面临的最大挑战在于其输出空间过大，即与一个待学习样本相关联的候选类别标记集合的数量将会随着标记空间的增大而呈指数规模增长．如何充分利用标记之间的相关性是构造具有强泛化能力多标记学习系统的关键．根据考察标记之间相关性的不同方式，已有的多标记学习问题求解策略大致可以分为以下３类［５］：１）“一阶”策略：将多标记学习问题分解为多个独立的二分类问题进行求解．该类方法效率较高且实现简单，但是由于忽略了标记之间的相关性，通常学习系统的泛化性能较低．２）“二阶”策略：考察两两标记之间的相关性，将多标记学习问题转化成标记排序问题进行求解．该类方法在一定程度上考虑了标记之间的相关性，学习系统的泛化性能较好，但是当实际问题中标记之间具有超越二阶的相关性时，该类方法的性能将会受到很大影响．３）“高阶”策略：考察高阶的标记相关性，充分利用标记之间的结构信息进行求解．该类方法可以较好地反映真实世界问题的标记相关性，但其模型复杂度较高，且在缺乏领域知识指导的情况下，几乎无法利用标记之间的结构信息．另一方面，近几年来，多标记学习越来越受到机器学习领域学者的关注，研究人员对多标记学习问题提出了许多学习方法和策略，对这些问题的研究大致可分为２种思路：一种是问题转化，另一种是算法改编．第１种思路试图将多标记学习任务转化为一个或多个单标记学习任务，然后利用已有的学习算法求解．代表性学习算法有一阶方法ＢｉｎａｒｙＲｅｌｅ⁃ ｖａｎｃｅ［６］，它将多标记学习问题转化为二分类问题进行求解；二阶方法ＣａｌｉｂｒａｔｅｄＬａｂｅｌＲａｎｋｉｎｇ［７］将多标记学习问题转化为标记排序问题求解；高阶方法Ｒａｎｄｏｍｋ⁃ｌａｂｅｌｓｅｔｓ［８］将多标记学习问题转化为多类分类问题求解．第２种思路是对现有算法进行改编或设计新算法，使之能直接处理多标记学习任务．代表性学习算法有一阶方法ＭＬ⁃ｋＮＮ［９］，它将“惰性学习”算法ｋ近邻进行改造以适应多标记数据；二阶方法Ｒａｎｋ⁃ＳＶＭ［１０］将“核学习”算法ＳＶＭ进行改造用于多类别标记；高阶方法ＬＥＡＤ［５］将“贝叶斯学习”算法中的Ｂａｙｅｓ网络进行改造，以适应多标记数据．上述的多标记学习算法通常为监督学习算法．然而，为训练数据集提供正确的类别标记需要耗费大量的人力和时间．因此，当只有少量已标记样本可用时，传统的多标记学习算法将不再适用．１．２半监督多标记学习近来年，有一些研究者开始研究半监督／直推式多标记学习（ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄ／ｔｒａｎｓｄｕｃｔｉｖｅｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ）方法．半监督学习和直推式学习都是试图利用大量的未标记样本来辅助对少量已标记样本的学习，但二者的基本思想却有显著的不同．直推式学习的测试样本是训练集中的未标记样本，测试环境是封闭的；而半监督学习的测试样本与训练样本无关，测试环境是相对开放的．２００６年，Ｌｉｕ等［１１］基于如果样本之间具有很大的相似性，那么它们的标记集合之间也应该具有很 ·４４０· 智能系统学报第８卷

第5期刘杨磊，等：基于Ti-training的半监督多标记学习算法 441. 大的相似性这样的假设，提出了CNMF(constrained 督多标记学习 non-negative matrix factorization)方法，通过解一个带 2 约束的非负矩阵分解问题，期望使得这2种相似性基于Tri-training的半监督多标记学差值最小，从而获得最优的对未标记样本的标记习算法 2008年，姜远等2]提出了基于随机游走(random 下面提出一种基于Ti-training的半监督多标记 wak)的直推式多标记学习算法TML,并将其用于文学习算法，该算法考察两两标记之间的相关性，将多本分类.同年，Chen等1基于样本相似性度量与标标记学习问题转化为标记排序问题进行求解：因此记相似性度量构建图，提出了SMSE(semi-supervised 在一定程度上考虑了标记之间的相关性，并采用半 algorithm for multi-label learning by solving a Sylvester 监督学习中的协同训练思想，利用Tri-training过程 equation)方法，采用标记传播的思想对未标记样本来训练分类器」的标记进行学习，整个优化问题可采用Sylvester方本文中相关量的定义如下：L={(x,Y:),i=1, 程进行快速求解.2010年，Sun等4]和周志华等[5] 2,…,m}是包含m个样本的已标记样本集.其中，x 考虑多标记学习中的弱标记问题，即训练样本对应表示第i个样本的属性集合；Y={ya,y2,…,ym}表的标记集合中只有一小部分得到了标记，或者根本示样本x:对应的包含n个标记的类别标记集合，且没有任何的标记，分别提出了WELL(weak label y∈{0,1}，j=1,2,…,n,若y=1,则表示第j个标 learning）方法和TML-WL(transductive multi-label 记是当前样本x:的真实标记，否则y=0.U={x, learning method for weak labeling)方法，他们同样采 k=1,2,…,t}是包含t个样本的未标记样本集.LUU 用标记传播的思想对缺失标记进行学习.2013年，周是包含m+t个样本的训练集.为了验证所提分类算志华等6]还采用标记传播的思想，首先将学习任务法的有效性，构建的T={x”,s=1,2,…,0}是包含0 看作是一个对标记集合进行估计的优化问题，然后个样本的测试集.数组R(s=1,2,…,0,j=1,2,…, 为这个优化问题找到一个封闭解，提出的TRAM算 n)用于存放测试集T中样本x"在第j类标记上的得法为未标记样本分配其对应的标记集合.以上方法票数都是直推式方法，这类方法不能自然地对除测试样为了对后续过程中产生的标记排序结果进行分本以外的未见样本进行预测.2012年，周志华等[] 析，并得到最终的预测标记集合，需要设置一个阈值在传统经验风险最小化原理基础上，引入2种正则来划分上述标记排序结果因此，在算法的预处理阶项分别用于约束分类器的复杂度和相似样本拥有相段，为每一个训练样本x:添加一个虚拟标记y0,把似结构化的多标记输出，针对归纳式半监督多标记虚拟类标记的得票数作为阈值对标记排序结果进行学习，提出了一种正则化方法MAss(multi-label 划分.此时，涉及到标记的下标应从0开始 semi-supervised learning). SMLT算法的基本思想是：首先，为已标记样本 l.3Ti-training算法集L中的每一个样本x:添加一个虚拟标记y0,然后从20世纪90年代末标准协同训练算法被提出考虑两两标记之间的相关性，对L中每一对标记开始，很多研究者对协同训练技术进行了研究，不仅 (ypyg)(0≤pR(=1, 条件.而Ti-training算法[19]是周志华等在2005年 2,…,n),则样本x,"的最后标记y”=1,否则y=0,即提出的一种新的协同训练方法，它使用3个分类器可得到一组测试集样本的预测结果Y 进行训练.在学习过程中，Tri-training算法采用集成 SMLT算法的流程如图1所示.SMLT算法的详学习中经常用到的投票法，使用3个分类器对未见细步骤如下样本进行预测。输入：已标记样本集L,未标记样本集U,测试由于Ti-training对属性集和3个分类器所用监集T 督学习算法都没有约束，而且不使用交叉验证，其适输出：对测试集T的预测结果Y" 用范围更广、效率更高，因此本文以协同训练思想为 1)初始化R,=0(s=1,2,…,0,j=0,1,…,n)和核心，利用Ti-training算法训练分类器，来研究半监用于存放训练样本的集合Vm=☑(0≤p<q≤n)

大的相似性这样的假设，提出了ＣＮＭＦ（ｃｏｎｓｔｒａｉｎｅｄｎｏｎ⁃ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａｔｉｏｎ）方法，通过解一个带约束的非负矩阵分解问题，期望使得这２种相似性差值最小，从而获得最优的对未标记样本的标记．２００８年，姜远等［１２］提出了基于随机游走（ｒａｎｄｏｍｗａｌｋ）的直推式多标记学习算法ＴＭＬ，并将其用于文本分类．同年，Ｃｈｅｎ等［１３］基于样本相似性度量与标记相似性度量构建图，提出了ＳＭＳＥ（ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄａｌｇｏｒｉｔｈｍｆｏｒｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｂｙｓｏｌｖｉｎｇａＳｙｌｖｅｓｔｅｒｅｑｕａｔｉｏｎ）方法，采用标记传播的思想对未标记样本的标记进行学习，整个优化问题可采用Ｓｙｌｖｅｓｔｅｒ方程进行快速求解．２０１０年，Ｓｕｎ等［１４］和周志华等［１５］考虑多标记学习中的弱标记问题，即训练样本对应的标记集合中只有一小部分得到了标记，或者根本没有任何的标记，分别提出了ＷＥＬＬ（ｗｅａｋｌａｂｅｌｌｅａｒｎｉｎｇ）方法和ＴＭＬ⁃ＷＬ（ｔｒａｎｓｄｕｃｔｉｖｅｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｍｅｔｈｏｄｆｏｒｗｅａｋｌａｂｅｌｉｎｇ）方法，他们同样采用标记传播的思想对缺失标记进行学习．２０１３年，周志华等［１６］还采用标记传播的思想，首先将学习任务看作是一个对标记集合进行估计的优化问题，然后为这个优化问题找到一个封闭解，提出的ＴＲＡＭ算法为未标记样本分配其对应的标记集合．以上方法都是直推式方法，这类方法不能自然地对除测试样本以外的未见样本进行预测．２０１２年，周志华等［１７］在传统经验风险最小化原理基础上，引入２种正则项分别用于约束分类器的复杂度和相似样本拥有相似结构化的多标记输出，针对归纳式半监督多标记学习，提出了一种正则化方法ＭＡＳＳ（ｍｕｌｔｉ⁃ｌａｂｅｌｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）．１．３Ｔｒｉ⁃ｔｒａｉｎｉｎｇ算法从２０世纪９０年代末标准协同训练算法被提出开始，很多研究者对协同训练技术进行了研究，不仅提出了很多学习方式不同、限制条件强弱各异的算法，而且对协同训练的理论分析和应用研究也取得了不少进展，使得协同训练成为半监督学习中重要的研究方向之一［１８］．初期的协同训练算法引入了很多的限制和约束条件．而Ｔｒｉ⁃ｔｒａｉｎｉｎｇ算法［１９］是周志华等在２００５年提出的一种新的协同训练方法，它使用３个分类器进行训练．在学习过程中，Ｔｒｉ⁃ｔｒａｉｎｉｎｇ算法采用集成学习中经常用到的投票法，使用３个分类器对未见样本进行预测．由于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ对属性集和３个分类器所用监督学习算法都没有约束，而且不使用交叉验证，其适用范围更广、效率更高，因此本文以协同训练思想为核心，利用Ｔｒｉ⁃ｔｒａｉｎｉｎｇ算法训练分类器，来研究半监督多标记学习．２基于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ的半监督多标记学习算法下面提出一种基于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ的半监督多标记学习算法，该算法考察两两标记之间的相关性，将多标记学习问题转化为标记排序问题进行求解；因此在一定程度上考虑了标记之间的相关性，并采用半监督学习中的协同训练思想，利用Ｔｒｉ⁃ｔｒａｉｎｉｎｇ过程来训练分类器．本文中相关量的定义如下：Ｌ＝｛（ｘｉ，Ｙｉ），ｉ＝１，２，…，ｍ｝是包含ｍ个样本的已标记样本集．其中，ｘｉ表示第ｉ个样本的属性集合；Ｙｉ＝｛ｙｉ１，ｙｉ２，…，ｙｉｎ｝表示样本ｘｉ对应的包含ｎ个标记的类别标记集合，且ｙｉｊ∈｛０，１｝，ｊ＝１，２，…，ｎ，若ｙｉｊ＝１，则表示第ｊ个标记是当前样本ｘｉ的真实标记，否则ｙｉｊ＝０．Ｕ＝｛ｘｋ ′，ｋ＝１，２，…，ｔ｝是包含ｔ个样本的未标记样本集．Ｌ∪Ｕ是包含ｍ＋ｔ个样本的训练集．为了验证所提分类算法的有效性，构建的Ｔ＝｛ｘｓ ″，ｓ＝１，２，…，ｗ｝是包含ｗ个样本的测试集．数组Ｒｓｊ（ｓ＝１，２，…，ｗ，ｊ＝１，２，…，ｎ）用于存放测试集Ｔ中样本ｘｓ ″在第ｊ类标记上的得票数．为了对后续过程中产生的标记排序结果进行分析，并得到最终的预测标记集合，需要设置一个阈值来划分上述标记排序结果．因此，在算法的预处理阶段，为每一个训练样本ｘｉ添加一个虚拟标记ｙｉ０，把虚拟类标记的得票数作为阈值对标记排序结果进行划分．此时，涉及到标记的下标应从０开始．ＳＭＬＴ算法的基本思想是：首先，为已标记样本集Ｌ中的每一个样本ｘｉ添加一个虚拟标记ｙｉ０，然后考虑两两标记之间的相关性，对Ｌ中每一对标记（ｙ∗ｐ，ｙ∗ｑ）（０≤ｐ＜ｑ≤ｎ）进行训练，并利用Ｔｒｉ⁃ｔｒａｉｎ⁃ ｉｎｇ过程学习得到相应的３个分类器．对一个新的测试样本，用学习到的分类器对相应的每一对标记进行预测，并统计每个标记所得的票数Ｒｓｊ，得到该测试样本的一个标记排序结果．最后以虚拟标记ｙｓ０ ″的得票数Ｒｓ０作为确定类标记的依据，若Ｒｓｊ＞Ｒｓ０（ｊ＝１，２，…，ｎ），则样本ｘｓ ″的最后标记ｙｓｊ ″＝１，否则ｙｓｊ ″＝０，即可得到一组测试集样本的预测结果Ｙ″．ＳＭＬＴ算法的流程如图１所示．ＳＭＬＴ算法的详细步骤如下．输入：已标记样本集Ｌ，未标记样本集Ｕ，测试集Ｔ．输出：对测试集Ｔ的预测结果Ｙ″．１）初始化Ｒｓｊ＝０（ｓ＝１，２，…，ｗ，ｊ＝０，１，…，ｎ）和用于存放训练样本的集合Ｖｐｑ＝∅（０≤ｐ＜ｑ≤ｎ）．第５期刘杨磊，等：基于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ的半监督多标记学习算法 ·４４１·

·442. 智能系统学报第8卷 2)预处理已标记样本集L对于任一对未处理 6)对于测试集T中的未标记样本x”,若R> 的标记(ypyg),遍历x∈L,将满足以下规则的x Ro(=1,2,…,n),则样本x"的最后标记y”=1,否则放入集合Vm中若y=1,y=0则样本(x,1)放入 y,=0,最终输出预测标记集合"={y”,s=1,2, 集合V中：若yp=0,y=1则将样本(x,0)放人集 …,10}. 合V中；若y=yn则不考虑样本x:,即样本x:不放 3 实验结果及分析入集合V中. 3)将集合V作为新的已标记样本集L",结合本文在emotions、scene、yeast、enron这4个较为未标记样本集U,在训练集中利用Tri-training算法常用的多标记数据集[2]上与多标记学习的多种典学习得到3个分类器. 型方法进行实验比较，其中包括ML-kNN[)、RANK- 4)使用投票法和得到的3个分类器对测试集T SVML10]以及TRAM6].实验数据集的相关信息如表中的未标记样本(s=1,2,…,)进行预测，得到预 1所示. 测结果，并统计对应的标记投票个数若，=1则表1实验数据集相关信息表示样本x属于第p类标记，Rm=R,+1;若T=0 Table 1 The characteristics of datasets 则表示样本x"属于第q类标记，R=R+1. 数据集名称所属领域样本个数属性个数类标记个数 5)将标记(y,y)设置为已处理，若还有未处理的标记对，则转步骤2)，否则下一步. emotions music 593 72 6 scene image 2407 294 6 (开始 yeast biology 2417 103 14 输入数据集 L、U和7 enron text 1702 1001 53 为L中每个样本添加实验采用4种常用的多标记学习评价指标4) 一个虚拟标记对算法性能进行评估：Hamming Loss、One-Emor、 Coverage和Ranking Loss.以上4种评估指标的值越针对一对未处理过的标记小，表明该算法的性能越好对，预处理L,得到Lnew 实验将抽取各数据集的90%作为训练样本集根据Lew,结合U, (其中20%的训练样本是已标记样本集，80%的训利用Tri-training得到练样本是未标记样本集)，其余10%的数据为测试 3个分类器样本集，重复10次统计其平均结果.由于TRAM方对测试集样本进行预测法是直推式方法，不能直接对测试样本集以外的未并统计投票结果见样本进行预测，实验中将最终测试样本作为 TRAM训练时的未标记样本集.表2~5给出了实验结果，加粗部分为每个指标上的最佳性能。是否有未处理的标记对表2数据集emotions上各算法的实验结果 Table 2 The summary results of four algorithms on emo- N tions dataset 根据投票结果获取最后标记Y Hamming Ranking t 算法 One-Error Coverage Loss Loss 输出预测标记集合Y MLkNN 0.2571 0.4068 2.2034 0.2399 RankSVM 0.2797 0.4237 2.2373 0.2781 结束) TRAM 0.2768 0.3390 2.1525 0.2321 图1SMLT算法 SMLT 0.2420 0.3139 1.7970 0.1845 Fig.1 Flow chart of the SMLT algorithm

２）预处理已标记样本集Ｌ．对于任一对未处理的标记（ｙ∗ｐ，ｙ∗ｑ），遍历ｘｉ∈Ｌ，将满足以下规则的ｘｉ放入集合Ｖｐｑ中．若ｙｉｐ＝１，ｙｉｑ＝０则样本（ｘｉ，１）放入集合Ｖｐｑ中；若ｙｉｐ＝０，ｙｉｑ＝１则将样本（ｘｉ，０）放入集合Ｖｐｑ中；若ｙｉｐ＝ｙｉｑ则不考虑样本ｘｉ，即样本ｘｉ不放入集合Ｖｐｑ中．３）将集合Ｖｐｑ作为新的已标记样本集Ｌｎｅｗ，结合未标记样本集Ｕ，在训练集中利用Ｔｒｉ⁃ｔｒａｉｎｉｎｇ算法学习得到３个分类器．４）使用投票法和得到的３个分类器对测试集Ｔ中的未标记样本ｘｓ ″（ｓ＝１，２，…，ｗ）进行预测，得到预测结果ｒｓｐｑ并统计对应的标记投票个数．若ｒｓｐｑ＝１则表示样本ｘｓ ″属于第ｐ类标记，Ｒｓｐ＝Ｒｓｐ＋１；若ｒｓｐｑ＝０则表示样本ｘｓ ″属于第ｑ类标记，Ｒｓｑ＝Ｒｓｑ＋１．图１ＳＭＬＴ算法Ｆｉｇ．１ＦｌｏｗｃｈａｒｔｏｆｔｈｅＳＭＬＴａｌｇｏｒｉｔｈｍ５）将标记（ｙ∗ｐ，ｙ∗ｑ）设置为已处理，若还有未处理的标记对，则转步骤２），否则下一步．６）对于测试集Ｔ中的未标记样本ｘｓ ″，若Ｒｓｊ＞Ｒｓ０（ｊ＝１，２，…，ｎ），则样本ｘｓ ″的最后标记ｙｓｊ ″＝１，否则ｙｓｊ ″＝０，最终输出预测标记集合Ｙ″ ＝｛Ｙｓ ″，ｓ＝１，２， …，ｗ｝．３实验结果及分析本文在ｅｍｏｔｉｏｎｓ、ｓｃｅｎｅ、ｙｅａｓｔ、ｅｎｒｏｎ这４个较为常用的多标记数据集［２０］上与多标记学习的多种典型方法进行实验比较，其中包括ＭＬ⁃ｋＮＮ［９］、ＲＡＮＫ⁃ ＳＶＭ［１０］以及ＴＲＡＭ［１６］．实验数据集的相关信息如表１所示．表１实验数据集相关信息Ｔａｂｌｅ１Ｔｈｅｃｈａｒａｃｔｅｒｉｓｔｉｃｓｏｆｄａｔａｓｅｔｓ数据集名称所属领域样本个数属性个数类标记个数ｅｍｏｔｉｏｎｓｍｕｓｉｃ５９３７２６ｓｃｅｎｅｉｍａｇｅ２４０７２９４６ｙｅａｓｔｂｉｏｌｏｇｙ２４１７１０３１４ｅｎｒｏｎｔｅｘｔ１７０２１００１５３实验采用４种常用的多标记学习评价指标［４］对算法性能进行评估：ＨａｍｍｉｎｇＬｏｓｓ、Ｏｎｅ⁃Ｅｒｒｏｒ、Ｃｏｖｅｒａｇｅ和ＲａｎｋｉｎｇＬｏｓｓ．以上４种评估指标的值越小，表明该算法的性能越好［４］．实验将抽取各数据集的９０％作为训练样本集（其中２０％的训练样本是已标记样本集，８０％的训练样本是未标记样本集），其余１０％的数据为测试样本集，重复１０次统计其平均结果．由于ＴＲＡＭ方法是直推式方法，不能直接对测试样本集以外的未见样本进行预测，实验中将最终测试样本作为ＴＲＡＭ训练时的未标记样本集．表２～５给出了实验结果，加粗部分为每个指标上的最佳性能．表２数据集ｅｍｏｔｉｏｎｓ上各算法的实验结果Ｔａｂｌｅ２Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒａｌｇｏｒｉｔｈｍｓｏｎｅｍｏ⁃ ｔｉｏｎｓｄａｔａｓｅｔ算法ＨａｍｍｉｎｇＬｏｓｓＯｎｅ⁃ＥｒｒｏｒＣｏｖｅｒａｇｅＲａｎｋｉｎｇＬｏｓｓＭＬｋＮＮ０．２５７１０．４０６８２．２０３４０．２３９９ＲａｎｋＳＶＭ０．２７９７０．４２３７２．２３７３０．２７８１ＴＲＡＭ０．２７６８０．３３９０２．１５２５０．２３２１ＳＭＬＴ０．２４２００．３１３９１．７９７００．１８４５ ·４４２· 智能系统学报第８卷

第5期刘杨磊，等：基于Ti-training的半监督多标记学习算法 .443. 表3数据集scene上各算法的实验结果息，更能提高分类算法的性能。 Table 3 The summary results of four algorithms on scene 为了进一步验证已标记样本集的规模对SMLT dataset 算法的影响，在4个数据集上分别进行实验.训练样 Hamming One- Ranking 本集和测试样本集的构成方法与上文实验相同，但算法 Coverage Loss Error Loss 是已标记样本集占训练数据集的比例依次调整为 10%、20%、30%、40%和50%时，SMLT算法在4项 MLkNN 0.0989 0.2531 0.5602 0.0955 评估指标上的取值与已标记样本集比例的关系如图 RankSVM 0.1127 0.2324 0.4730 0.0768 2~5所示 TRAM 0.1010 0.2697 0.5104 0.0854 0.38 0.28 0.36 SMLT 0.1141 0.2178 0.4596 0.0771 0.26 兽02 表4数据集yeast上各算法的实验结果 0.30 0.22 Table 4 The summary results of four algorithms on yeast .10.20.30.40.5 02810.203040.5 dataset 已标记样本集比例已标记样本集比例 (a)Hamming Loss (b)One-Error Hamming One- 算法 Ranking Coverage Loss Error L088 2.1 0.24 MLkNN 0.2043 0.2356 6.4256 0.1733 1.9 0.20 1.8 RankSVM 0.2084 0.2190 6.3884 0.1778 1> 1.6 0.16 TRAM 0.2214 0.33476.5000 0.1879 0.10.20.30.4 0.5 .10.2 0.30.40.5 已标记样本集比例已标记样本集比例 SMLT 0.2105 0.2172 6.31680.1681 (c)Coverage (d)Ranking Loss 图2数据集emotions在4项评估指标上的实验结果表5数据集enron上各算法的实验结果 Fig.2 The summary results of four evaluation metrics Table 5 The summary results of four algorithms on enron on emotions dataset dataset One- 算法 Hamming Ranking Coverage 0.130 0.29m Loss Error Loss sso 0.125 0.27 MLkNN 0.0587 0.3706 15.3000 0.1048 月02 RankSVM 0.0747 0.3559 14.0659 0.0996 0.2 0.1 0.20.30.40.5 0.10.20.30.40.5 TRAM 0.0533 0.2412 13.8529 0.0875 已标记样本集比例已标记样本集比伤例 (a)Hamming Loss (b)One-Error SMLT 0.0488 0.1647 13.6528 0.0857 0.60 0.11r 0.55 0.10 通过分析表2~5，在emotions和enron这2个数 0.50 0.09 据集上，提出的算法SMLT在4个评估指标上都优于其他算法，而在scene数据集上有2个评估指标 0.4510203040 0.0 0.10.20.30.40.5 优于其他算法，但在Hamming Loss和Ranking loss 已标记样本集比例已标记样本集比例上略差于其他算法，在yeast数据集上有3个评估指 (c)Coverage (d)Ranking Loss 标优于其他算法，仅在Hamming Loss上略差于其他图3数据集scene在4项评估指标上的实验结果算法可能的原因是本文提出的算法充分利用了已 Fig.3 The summary results of four evaluation metrics 标记样本集和未标记样本集的信息，这要比不利用 on scene dataset 已标记样本集或者单纯只利用已标记样本集的信

表３数据集ｓｃｅｎｅ上各算法的实验结果Ｔａｂｌｅ３Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒａｌｇｏｒｉｔｈｍｓｏｎｓｃｅｎｅｄａｔａｓｅｔ算法ＨａｍｍｉｎｇＬｏｓｓＯｎｅ⁃ ＥｒｒｏｒＣｏｖｅｒａｇｅＲａｎｋｉｎｇＬｏｓｓＭＬｋＮＮ０．０９８９０．２５３１０．５６０２０．０９５５ＲａｎｋＳＶＭ０．１１２７０．２３２４０．４７３００．０７６８ＴＲＡＭ０．１０１００．２６９７０．５１０４０．０８５４ＳＭＬＴ０．１１４１０．２１７８０．４５９６０．０７７１表４数据集ｙｅａｓｔ上各算法的实验结果Ｔａｂｌｅ４Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒａｌｇｏｒｉｔｈｍｓｏｎｙｅａｓｔｄａｔａｓｅｔ算法ＨａｍｍｉｎｇＬｏｓｓＯｎｅ⁃ ＥｒｒｏｒＣｏｖｅｒａｇｅＲａｎｋｉｎｇＬｏｓｓＭＬｋＮＮ０．２０４３０．２３５６６．４２５６０．１７３３ＲａｎｋＳＶＭ０．２０８４０．２１９０６．３８８４０．１７７８ＴＲＡＭ０．２２１４０．３３４７６．５００００．１８７９ＳＭＬＴ０．２１０５０．２１７２６．３１６８０．１６８１表５数据集ｅｎｒｏｎ上各算法的实验结果Ｔａｂｌｅ５Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒａｌｇｏｒｉｔｈｍｓｏｎｅｎｒｏｎｄａｔａｓｅｔ算法ＨａｍｍｉｎｇＬｏｓｓＯｎｅ⁃ ＥｒｒｏｒＣｏｖｅｒａｇｅＲａｎｋｉｎｇＬｏｓｓＭＬｋＮＮ０．０５８７０．３７０６１５．３００００．１０４８ＲａｎｋＳＶＭ０．０７４７０．３５５９１４．０６５９０．０９９６ＴＲＡＭ０．０５３３０．２４１２１３．８５２９０．０８７５ＳＭＬＴ０．０４８８０．１６４７１３．６５２８０．０８５７通过分析表２～５，在ｅｍｏｔｉｏｎｓ和ｅｎｒｏｎ这２个数据集上，提出的算法ＳＭＬＴ在４个评估指标上都优于其他算法，而在ｓｃｅｎｅ数据集上有２个评估指标优于其他算法，但在ＨａｍｍｉｎｇＬｏｓｓ和Ｒａｎｋｉｎｇｌｏｓｓ上略差于其他算法，在ｙｅａｓｔ数据集上有３个评估指标优于其他算法，仅在ＨａｍｍｉｎｇＬｏｓｓ上略差于其他算法．可能的原因是本文提出的算法充分利用了已标记样本集和未标记样本集的信息，这要比不利用已标记样本集或者单纯只利用已标记样本集的信息，更能提高分类算法的性能．为了进一步验证已标记样本集的规模对ＳＭＬＴ算法的影响，在４个数据集上分别进行实验．训练样本集和测试样本集的构成方法与上文实验相同，但是已标记样本集占训练数据集的比例依次调整为１０％、２０％、３０％、４０％和５０％时，ＳＭＬＴ算法在４项评估指标上的取值与已标记样本集比例的关系如图２～５所示．图２数据集ｅｍｏｔｉｏｎｓ在４项评估指标上的实验结果Ｆｉｇ．２Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒｅｖａｌｕａｔｉｏｎｍｅｔｒｉｃｓｏｎｅｍｏｔｉｏｎｓｄａｔａｓｅｔ图３数据集ｓｃｅｎｅ在４项评估指标上的实验结果Ｆｉｇ．３Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒｅｖａｌｕａｔｉｏｎｍｅｔｒｉｃｓｏｎｓｃｅｎｅｄａｔａｓｅｔ第５期刘杨磊，等：基于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ的半监督多标记学习算法 ·４４３·

·444. 智能系统学报第8卷记样本集比例增加到一定程度时，监督信息不再是 0.222 0.225 o218i 影响分类性能的主要因素， 4结束语写0.210 里0206 021s 本文针对广泛存在于实际生活中的半监督多标 0.202 0.210 .1 0.20.3 0.40.5 0.10.20.30.40.5 记学习问题，以协同训练思想为核心，以两两标记之已标记样本集比例已标记样本集比例间的关系为出发点，利用Tri-training算法训练分类 (a)Hamming Loss (b)One-Eror 器，并将多标记学习问题转化为标记排序问题进行 2.78 0.178 求解，实验结果表明了该算法的有效性.但是，当多标记的数量和规模较大时，如何进一步降低算法的计算复杂度仍将是需要深入讨论的问题. 2.70 号0.166 参考文献： 2.66 0162 .1 0.20.30.40.5 .10.20.30.40.5 [1]TSOUMAKAS G,KATAKIS I.Multi-label classification:an 已标记样本集比例已标记样本集比例 overview[]].International Journal of Data Warehousing and (c)Coverage (d)Ranking Loss Mining,2007,3(3):1-l3, [2]ZHU Xiaojin.Semi-supervised learning literature survey 图4数据集yeast在4项评估指标上的实验结果 [R].Madison,USA:University of Wisconsin-Madison, Fig.4 The summary results of four evaluation metrics 2008. on yeast dataset 「31常瑜，梁吉业，高嘉伟，等.一种基于Seeds集和成对约束的半监督聚类算法[J].南京大学学报：自然科学版 0.057 0.24 2012,48(4):405-411. 0.055 CHANG Yu,LIANG Jiye,GAO Jiawei,et al.A semi-su- 0.053 0.20 pervised clustering algorithm based on seeds and pair wise 0.051 号o constraints[J].Journal of Nanjing University:Natural Sci- 0.049 0.16 ences.2012.48(4):405-411. .10.2 0.30.40.5 0.10.20.30.40.5 [4]ZHOU Zhihua,ZHANG Minling,HUANG Shengjun,et al. 已标记样本集比例已标记样本集比例 Multi-instance multi-label learning J].Artificial Intelli- (a)Hamming Loss (b)One-Error gence,2012,176(1):2291-2320. 1.62 Q094 [5]ZHANG Minling,ZHANG Kun.Multi-label learing by ex- 1.60 1.58 0.090 ploiting label dependency C]//Proceedings of the 16th 1.56 ACM SIGKDD International Conference on Knowledge Dis- 1.54 1.52 covery and Data Mining.Washington,DC,USA,2010: 1.50 999-1007. 1.4 0.07 0.10.20.30.40.5 0.10.20.30.40.5 [6]BOUTELL M R,LUO Jiebo,SHEN Xipeng,et al.Learning 已标记样本集比例已标记样本集比例 multi-label scene classification J].Pattern Recognition, (c)Coverage (d)Ranking Loss 2004,37(9):1757-1771. 图5数据集enron在4项评估指标上的实验结果 [7]FURNKRANZ J,HULLERMEIER E,MENCIA E L,et al. Fig.5 The summary results of four evaluation metrics Multi-label classification via calibrated label ranking J]. on enron dataset Machine Learning,2008,73(2):133-153. [8]TSOUMAKAS G,VLAHAVAS I.Random k-labelsets:an 根据图2~5可以发现，在半监督学习的意义 ensemble method for multilabel classification[C]//Proceed- 下，SMLT算法对应的4项评估指标的值大多随着 ings of the 18th European Conference on Machine Learning. 已标记样本集比例的增加而不断减小，即算法的分 Berlin:Springer,2007:406-417. 类性能越来越好.并且在已标记样本集比例较小时 [9]ZHANG Minling,ZHOU Zhihua.ML-kNN:a lazy learning approach to multi-label learning[J].Pattern Recognition, 曲线下降较快，随着已标记样本集比例的增加，曲线 2007,40(7):2038-2048. 趋于平缓.仅在yeast数据集上的One-Emor评价指 [10]ELISSEEFF A,WESTON J.A kernel method for multi-la- 标的曲线比较特殊这是因为给定的监督信息越多， belled classification M]//DIETTERICH T G,BECKER 越有助于分类，从而得到更好的分类结果，而当已标 S,GHAHRAMANI Z.Advances in Neural Information

图４数据集ｙｅａｓｔ在４项评估指标上的实验结果Ｆｉｇ．４Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒｅｖａｌｕａｔｉｏｎｍｅｔｒｉｃｓｏｎｙｅａｓｔｄａｔａｓｅｔ图５数据集ｅｎｒｏｎ在４项评估指标上的实验结果Ｆｉｇ．５Ｔｈｅｓｕｍｍａｒｙｒｅｓｕｌｔｓｏｆｆｏｕｒｅｖａｌｕａｔｉｏｎｍｅｔｒｉｃｓｏｎｅｎｒｏｎｄａｔａｓｅｔ根据图２～５可以发现，在半监督学习的意义下，ＳＭＬＴ算法对应的４项评估指标的值大多随着已标记样本集比例的增加而不断减小，即算法的分类性能越来越好．并且在已标记样本集比例较小时曲线下降较快，随着已标记样本集比例的增加，曲线趋于平缓．仅在ｙｅａｓｔ数据集上的Ｏｎｅ⁃Ｅｒｒｏｒ评价指标的曲线比较特殊．这是因为给定的监督信息越多，越有助于分类，从而得到更好的分类结果，而当已标记样本集比例增加到一定程度时，监督信息不再是影响分类性能的主要因素．４结束语本文针对广泛存在于实际生活中的半监督多标记学习问题，以协同训练思想为核心，以两两标记之间的关系为出发点，利用Ｔｒｉ⁃ｔｒａｉｎｉｎｇ算法训练分类器，并将多标记学习问题转化为标记排序问题进行求解，实验结果表明了该算法的有效性．但是，当多标记的数量和规模较大时，如何进一步降低算法的计算复杂度仍将是需要深入讨论的问题．参考文献：［１］ＴＳＯＵＭＡＫＡＳＧ，ＫＡＴＡＫＩＳＩ．Ｍｕｌｔｉ⁃ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ：ａｎｏｖｅｒｖｉｅｗ［Ｊ］．ＩｎｔｅｒｎａｔｉｏｎａｌＪｏｕｒｎａｌｏｆＤａｔａＷａｒｅｈｏｕｓｉｎｇａｎｄＭｉｎｉｎｇ，２００７，３（３）：１⁃１３．［２］ＺＨＵＸｉａｏｊｉｎ．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｌｉｔｅｒａｔｕｒｅｓｕｒｖｅｙ［Ｒ］．Ｍａｄｉｓｏｎ，ＵＳＡ：ＵｎｉｖｅｒｓｉｔｙｏｆＷｉｓｃｏｎｓｉｎ⁃Ｍａｄｉｓｏｎ，２００８．［３］常瑜，梁吉业，高嘉伟，等．一种基于Ｓｅｅｄｓ集和成对约束的半监督聚类算法［Ｊ］．南京大学学报：自然科学版，２０１２，４８（４）：４０５⁃４１１．ＣＨＡＮＧＹｕ，ＬＩＡＮＧＪｉｙｅ，ＧＡＯＪｉａｗｅｉ，ｅｔａｌ．Ａｓｅｍｉ⁃ｓｕ⁃ ｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｂａｓｅｄｏｎｓｅｅｄｓａｎｄｐａｉｒｗｉｓｅｃｏｎｓｔｒａｉｎｔｓ［Ｊ］．ＪｏｕｒｎａｌｏｆＮａｎｊｉｎｇＵｎｉｖｅｒｓｉｔｙ：ＮａｔｕｒａｌＳｃｉ⁃ ｅｎｃｅｓ，２０１２，４８（４）：４０５⁃４１１．［４］ＺＨＯＵＺｈｉｈｕａ，ＺＨＡＮＧＭｉｎｌｉｎｇ，ＨＵＡＮＧＳｈｅｎｇｊｕｎ，ｅｔａｌ．Ｍｕｌｔｉ⁃ｉｎｓｔａｎｃｅｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ［Ｊ］．ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉ⁃ ｇｅｎｃｅ，２０１２，１７６（１）：２２９１⁃２３２０．［５］ＺＨＡＮＧＭｉｎｌｉｎｇ，ＺＨＡＮＧＫｕｎ．Ｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｂｙｅｘ⁃ ｐｌｏｉｔｉｎｇｌａｂｅｌｄｅｐｅｎｄｅｎｃｙ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１６ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓ⁃ ｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｗａｓｈｉｎｇｔｏｎ，ＤＣ，ＵＳＡ，２０１０：９９９⁃１００７．［６］ＢＯＵＴＥＬＬＭＲ，ＬＵＯＪｉｅｂｏ，ＳＨＥＮＸｉｐｅｎｇ，ｅｔａｌ．Ｌｅａｒｎｉｎｇｍｕｌｔｉ⁃ｌａｂｅｌｓｃｅｎｅｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００４，３７（９）：１７５７⁃１７７１．［７］ＦＵＲＮＫＲＡＮＺＪ，ＨＵＬＬＥＲＭＥＩＥＲＥ，ＭＥＮＣＩＡＥＬ，ｅｔａｌ．Ｍｕｌｔｉ⁃ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｖｉａｃａｌｉｂｒａｔｅｄｌａｂｅｌｒａｎｋｉｎｇ［Ｊ］．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２００８，７３（２）：１３３⁃１５３．［８］ＴＳＯＵＭＡＫＡＳＧ，ＶＬＡＨＡＶＡＳＩ．Ｒａｎｄｏｍｋ⁃ｌａｂｅｌｓｅｔｓ：ａｎｅｎｓｅｍｂｌｅｍｅｔｈｏｄｆｏｒｍｕｌｔｉｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅ１８ｔｈＥｕｒｏｐｅａｎＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｂｅｒｌｉｎ：Ｓｐｒｉｎｇｅｒ，２００７：４０６⁃４１７．［９］ＺＨＡＮＧＭｉｎｌｉｎｇ，ＺＨＯＵＺｈｉｈｕａ．ＭＬ⁃ｋＮＮ：ａｌａｚｙｌｅａｒｎｉｎｇａｐｐｒｏａｃｈｔｏｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ［Ｊ］．ＰａｔｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，２００７，４０（７）：２０３８⁃２０４８．［１０］ＥＬＩＳＳＥＥＦＦＡ，ＷＥＳＴＯＮＪ．Ａｋｅｒｎｅｌｍｅｔｈｏｄｆｏｒｍｕｌｔｉ⁃ｌａ⁃ ｂｅｌｌｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｍ］／／ＤＩＥＴＴＥＲＩＣＨＴＧ，ＢＥＣＫＥＲＳ，ＧＨＡＨＲＡＭＡＮＩＺ．ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎ ·４４４· 智能系统学报第８卷

第5期刘杨磊，等：基于Ti-training的半监督多标记学习算法 ·445. Processing Systems 14.Cambridge,USA:The MIT Press, LI Yufeng,HUANG Shengjun,ZHOU Zhihua.Regularized 2002:681-687. semi-supervised multi-label learning[J].Journal of Com- [11]LIU Yi,JIN Rong,YANG Liu.Semi-supervised multi-la- puter Research and Development,2012,49(6):1272- bel learning by constrained non-negative matrix factoriza- 1278. tion[C]//Proceedings of the 21st National Conference on [18]周志华，王珏.机器学习及其应用M].北京：清华大学 Artificial Intelligence.Menlo Park,USA,2006:421-426. 出版社，2007：259-275. [12]姜远，余俏俏，黎铭，等.一种直推式多标记文档分类方 [19]ZHOU Zhihua,LI Ming.Tri-training:exploiting unlabeled 法[J]计算机研究与发展，2008,45(11)：1817-1823. data using three classifiers[J].IEEE Transactions on JIANG Yuan,SHE Qiaogiao,LI Ming,et al.A transduc- Knowledge and Data Engineering,2005,17(11):1529- tive multi-label text categorization approach[J].Joural of 1541. Computer Research and Development,2008,45(11 ) [20]Multi-label datasets EB/OL].2013-01-06 ]http:// 1817-1823. sourceforge.net/projects/mulan/files/datasets/. [13]CHEN Gang,SONG Yangqiu,WANG Fei,et al.Semi-su- 作者简介： pervised multi-label learning by solving a Sylvester equa- 刘杨磊，男，1990年生，硕士研究 tion[C]//Proceedings of SIAM International Conference 生，主要研究方向为机器学习.发表学 on Data Mining.Los Alamitos,USA,2008:410-419. 术论文3篇，获得计算机软件著作权登 [14]SUN Yuyin,ZHANG Yin,ZHOU Zhihua.Multi-label 记3项 learning with weak label[C]//Proceedings of the 24th AAAI Conference on Artificial Intelligence.Menlo Park, USA,2010:593-598. [15]孔祥南，黎铭，姜远，等.一种针对弱标记的直推式多标梁吉业，男.1962年生，教授.博士记分类方法[J].计算机研究与发展，2010.47(8)：生导师，博士，主要研究方向为机器学 1392-1399. 习、计算智能、数据挖掘等.先后主持国 KONG Xiangnan,LI Ming,JIANG Yuan,et al.A trans- 家自然科学基金重点项目1项、国家 ductive multi-label classification method for weak labeling “863”计划项目2项.国家“973”计划前 [J].Journal of Computer Research and Development, 期研究专项1项、国家自然科学基金项 2010,47(8):1392-1399. 目4项.发表学术论文150余篇，出版著作2部，获发明专利 [16]KONG Xiangnan,NG M K,ZHOU Zhihua.Transductive 8项. multi-label learning via label set propagation[J].IEEE 高嘉伟，男，1980年生，讲师，主要 Transactions on Knowledge and Data Engineering,2013, 研究方向为机器学习.参与国家“863 25(3)：704-719. 计划项目1项、国家自然科学基金项目 [17]李宇峰，黄圣君，周志华.一种基于正则化的半监督多标 3项和山西省自然科学基金项目4项. 记学习方法[J].计算机研究与发展，2012,49(6)：发表学术论文10余篇. 1272-1278

ＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ１４．Ｃａｍｂｒｉｄｇｅ，ＵＳＡ：ＴｈｅＭＩＴＰｒｅｓｓ，２００２：６８１⁃６８７．［１１］ＬＩＵＹｉ，ＪＩＮＲｏｎｇ，ＹＡＮＧＬｉｕ．Ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｍｕｌｔｉ⁃ｌａ⁃ ｂｅｌｌｅａｒｎｉｎｇｂｙｃｏｎｓｔｒａｉｎｅｄｎｏｎ⁃ｎｅｇａｔｉｖｅｍａｔｒｉｘｆａｃｔｏｒｉｚａ⁃ ｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＮａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＭｅｎｌｏＰａｒｋ，ＵＳＡ，２００６：４２１⁃４２６．［１２］姜远，佘俏俏，黎铭，等．一种直推式多标记文档分类方法［Ｊ］．计算机研究与发展，２００８，４５（１１）：１８１７⁃１８２３．ＪＩＡＮＧＹｕａｎ，ＳＨＥＱｉａｏｑｉａｏ，ＬＩＭｉｎｇ，ｅｔａｌ．Ａｔｒａｎｓｄｕｃ⁃ ｔｉｖｅｍｕｌｔｉ⁃ｌａｂｅｌｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎａｐｐｒｏａｃｈ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２００８，４５（１１）：１８１７⁃１８２３．［１３］ＣＨＥＮＧａｎｇ，ＳＯＮＧＹａｎｇｑｉｕ，ＷＡＮＧＦｅｉ，ｅｔａｌ．Ｓｅｍｉ⁃ｓｕ⁃ ｐｅｒｖｉｓｅｄｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｂｙｓｏｌｖｉｎｇａＳｙｌｖｅｓｔｅｒｅｑｕａ⁃ ｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＳＩＡＭＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ．ＬｏｓＡｌａｍｉｔｏｓ，ＵＳＡ，２００８：４１０⁃４１９．［１４］ＳＵＮＹｕｙｉｎ，ＺＨＡＮＧＹｉｎ，ＺＨＯＵＺｈｉｈｕａ．Ｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｗｉｔｈｗｅａｋｌａｂｅｌ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．ＭｅｎｌｏＰａｒｋ，ＵＳＡ，２０１０：５９３⁃５９８．［１５］孔祥南，黎铭，姜远，等．一种针对弱标记的直推式多标记分类方法［Ｊ］．计算机研究与发展，２０１０，４７（８）：１３９２⁃１３９９．ＫＯＮＧＸｉａｎｇｎａｎ，ＬＩＭｉｎｇ，ＪＩＡＮＧＹｕａｎ，ｅｔａｌ．Ａｔｒａｎｓ⁃ ｄｕｃｔｉｖｅｍｕｌｔｉ⁃ｌａｂｅｌｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｆｏｒｗｅａｋｌａｂｅｌｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２０１０，４７（８）：１３９２⁃１３９９．［１６］ＫＯＮＧＸｉａｎｇｎａｎ，ＮＧＭＫ，ＺＨＯＵＺｈｉｈｕａ．Ｔｒａｎｓｄｕｃｔｉｖｅｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇｖｉａｌａｂｅｌｓｅｔｐｒｏｐａｇａｔｉｏｎ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２０１３，２５（３）：７０４⁃７１９．［１７］李宇峰，黄圣君，周志华．一种基于正则化的半监督多标记学习方法［Ｊ］．计算机研究与发展，２０１２，４９（６）：１２７２⁃１２７８．ＬＩＹｕｆｅｎｇ，ＨＵＡＮＧＳｈｅｎｇｊｕｎ，ＺＨＯＵＺｈｉｈｕａ．Ｒｅｇｕｌａｒｉｚｅｄｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｍｕｌｔｉ⁃ｌａｂｅｌｌｅａｒｎｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｏｍ⁃ ｐｕｔｅｒＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔ，２０１２，４９（６）：１２７２⁃ １２７８．［１８］周志华，王珏．机器学习及其应用［Ｍ］．北京：清华大学出版社，２００７：２５９⁃２７５．［１９］ＺＨＯＵＺｈｉｈｕａ，ＬＩＭｉｎｇ．Ｔｒｉ⁃ｔｒａｉｎｉｎｇ：ｅｘｐｌｏｉｔｉｎｇｕｎｌａｂｅｌｅｄｄａｔａｕｓｉｎｇｔｈｒｅｅｃｌａｓｓｉｆｉｅｒｓ［Ｊ］．ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓｏｎＫｎｏｗｌｅｄｇｅａｎｄＤａｔａＥｎｇｉｎｅｅｒｉｎｇ，２００５，１７（１１）：１５２９⁃ １５４１．［２０］Ｍｕｌｔｉ⁃ｌａｂｅｌｄａｔａｓｅｔｓ［ＥＢ／ＯＬ］．［２０１３⁃０１⁃０６］．ｈｔｔｐ：／／ｓｏｕｒｃｅｆｏｒｇｅ．ｎｅｔ／ｐｒｏｊｅｃｔｓ／ｍｕｌａｎ／ｆｉｌｅｓ／ｄａｔａｓｅｔｓ／．作者简介：刘杨磊，男，１９９０年生，硕士研究生，主要研究方向为机器学习．发表学术论文３篇，获得计算机软件著作权登记３项．梁吉业，男，１９６２年生，教授，博士生导师，博士，主要研究方向为机器学习、计算智能、数据挖掘等．先后主持国家自然科学基金重点项目１项、国家 “８６３”计划项目２项，国家“９７３”计划前期研究专项１项、国家自然科学基金项目４项．发表学术论文１５０余篇，出版著作２部，获发明专利８项．高嘉伟，男，１９８０年生，讲师，主要研究方向为机器学习．参与国家“８６３” 计划项目１项、国家自然科学基金项目３项和山西省自然科学基金项目４项，发表学术论文１０余篇．第５期刘杨磊，等：基于Ｔｒｉ⁃ｔｒａｉｎｉｎｇ的半监督多标记学习算法 ·４４５·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录