正在加载图片...
第13卷第6期 智能系统学报 Vol.13 No.6 2018年12月 CAAI Transactions on Intelligent Systems Dec.2018 D0:10.11992/tis.201711027 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180411.1021.006html SUCE:基于聚类集成的半监督二分类方法 闵帆,王宏杰,刘福伦,王轩 (西南石油大学计算机科学学院,四川成都610500) 摘要:半监督学习和集成学习是目前机器学习领域中的重要方法。半监督学习利用未标记样本,而集成学习 综合多个弱学习器,以提高分类精度。针对名词型数据,本文提出一种融合聚类和集成学习的半监督分类方 法SUCE。在不同的参数设置下,采用多个聚类算法生成大量的弱学习器:利用已有的类标签信息,对弱学习 器进行评价和选择;通过集成弱学习器对测试集进行预分类,并将置信度高的样本放入训练集;利用扩展的训 练集,使用ID3、Nave Bayes、kNN、C4.5、OneR、Logistic等基础算法对其他样本进行分类。在UCI数据集上的 实验结果表明,当训练样本较少时,本方法能稳定提高多数基础算法的准确性。 关键词:集成学习;聚类;聚类集成;半监督;二分类 中图分类号:TP181文献标志码:A文章编号:1673-4785(2018)06-0974-07 中文引用格式:闵帆,王宏杰,刘福伦,等.SUCE:基于聚类集成的半监督二分类方法J.智能系统学报,2018,13(6): 974-980. 英文引用格式:MIN Fan,WANG Hongjie,LIUFulun,.et al.SUCE:semi-supervised binary classification based on clustering en semble[J].CAAI transactions on intelligent systems,2018,13(6):974-980. SUCE:semi-supervised binary classification based on clustering ensemble MIN Fan,WANG Hongjie,LIU Fulun,WANG Xuan (School of Computer Science,Southwest Petroleum University,Chengdu 610500,China) Abstract:Semi-supervised learning and ensemble learning are important methods in the field of machine learning. Semi-supervised learning utilize unlabeled samples,while ensemble learning combines multiple weak learners to im- prove classification accuracy.This paper proposes a new method called Semi-sUpervised classification through Cluster- ing and Ensemble learning(SUCE)for symbolic data.Under different parameter settings,a number of weak learners are generated using multiple clustering algorithms.Using existing class label information the weak learners are evaluated and selected.The test sets are pre-classified by weak learners ensemble.The samples with high confidence are moved to the training set,and the other samples are classified through the extended training set by using the basic algorithms such as ID3,Nave Bayes,kNN,C4.5,OneR,Logistic and so on.The experimental on the UCI datasets results show that SUCE can steadily improve the accuracy of most of the basic algorithms when there are fewer training samples. Keywords:ensemble learning;clustering,clustering ensemble;semi-supervised;binary classification 在机器学习领域中,半监督学习2和集成 用少量已标记样本进行学习,那么训练得到的分 学习是当前的研究热点。它们被广泛应用于智 类模型通常会造成过度拟合9。为此,Merz等1o 能信息处理、图像处理、生物医学四等领域。 于1992年提出半监督分类,它不依赖外界交互, 在许多大数据场景中,样本属性的获取容易且廉 充分利用未标记样本,有效提高分类模型的稳定 性和精度。 价,而其标签的获取则困难且昂贵⑧。如果只使 集成学习是指先构建多个学习器,再采用某 收稿日期:2017-11-21.网络出版日期:2018-04-11. 基金项目:国家自然科学基金项目(61379089)】 种集成策略进行结合,最后综合各个学习器的结 通信作者:闵帆.E-mail:minfanphd@I63.com, 果输出最终结果。集成学习中的多个学习器可以DOI: 10.11992/tis.201711027 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180411.1021.006.html SUCE:基于聚类集成的半监督二分类方法 闵帆,王宏杰,刘福伦,王轩 (西南石油大学 计算机科学学院,四川 成都 610500) 摘 要:半监督学习和集成学习是目前机器学习领域中的重要方法。半监督学习利用未标记样本,而集成学习 综合多个弱学习器,以提高分类精度。针对名词型数据,本文提出一种融合聚类和集成学习的半监督分类方 法 SUCE。在不同的参数设置下,采用多个聚类算法生成大量的弱学习器;利用已有的类标签信息,对弱学习 器进行评价和选择;通过集成弱学习器对测试集进行预分类,并将置信度高的样本放入训练集;利用扩展的训 练集,使用 ID3、Nave Bayes、 kNN、C4.5、OneR、Logistic 等基础算法对其他样本进行分类。在 UCI 数据集上的 实验结果表明,当训练样本较少时,本方法能稳定提高多数基础算法的准确性。 关键词:集成学习;聚类;聚类集成;半监督;二分类 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2018)06−0974−07 中文引用格式:闵帆, 王宏杰, 刘福伦, 等. SUCE:基于聚类集成的半监督二分类方法[J]. 智能系统学报, 2018, 13(6): 974–980. 英文引用格式:MIN Fan, WANG Hongjie, LIU Fulun, et al. SUCE: semi-supervised binary classification based on clustering en￾semble[J]. CAAI transactions on intelligent systems, 2018, 13(6): 974–980. SUCE: semi-supervised binary classification based on clustering ensemble MIN Fan,WANG Hongjie,LIU Fulun,WANG Xuan (School of Computer Science, Southwest Petroleum University, Chengdu 610500, China) Abstract: Semi-supervised learning and ensemble learning are important methods in the field of machine learning. Semi-supervised learning utilize unlabeled samples, while ensemble learning combines multiple weak learners to im￾prove classification accuracy. This paper proposes a new method called Semi-sUpervised classification through Cluster￾ing and Ensemble learning (SUCE) for symbolic data. Under different parameter settings, a number of weak learners are generated using multiple clustering algorithms. Using existing class label information the weak learners are evaluated and selected. The test sets are pre-classified by weak learners ensemble. The samples with high confidence are moved to the training set, and the other samples are classified through the extended training set by using the basic algorithms such as ID3, Nave Bayes, kNN, C4.5, OneR, Logistic and so on. The experimental on the UCI datasets results show that SUCE can steadily improve the accuracy of most of the basic algorithms when there are fewer training samples. Keywords: ensemble learning; clustering; clustering ensemble; semi-supervised; binary classification 在机器学习[1]领域中,半监督学习[2-3]和集成 学习[4]是当前的研究热点。它们被广泛应用于智 能信息处理[5] 、图像处理[6] 、生物医学[7]等领域。 在许多大数据场景中,样本属性的获取容易且廉 价,而其标签的获取则困难且昂贵[8]。如果只使 用少量已标记样本进行学习,那么训练得到的分 类模型通常会造成过度拟合[9]。为此,Merz 等 [10] 于 1992 年提出半监督分类,它不依赖外界交互, 充分利用未标记样本,有效提高分类模型的稳定 性和精度。 集成学习是指先构建多个学习器,再采用某 种集成策略进行结合,最后综合各个学习器的结 果输出最终结果。集成学习中的多个学习器可以 收稿日期:2017−11−21. 网络出版日期:2018−04−11. 基金项目:国家自然科学基金项目 (61379089). 通信作者:闵帆. E-mail:minfanphd@163.com. 第 13 卷第 6 期 智 能 系 统 学 报 Vol.13 No.6 2018 年 12 月 CAAI Transactions on Intelligent Systems Dec. 2018
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有