正在加载图片...
第4卷第2期 智能系统学报 Vol 4 Ng 2 2009年4月 CAA I Transactions on Intelligent System s Apr 2009 基于支持向量数据描述的无标签数据多类分类 朱帮助',林健2 (1五邑大学系统科学与技术研究所,广东江门529020,2北京航空航天大学经济管理学院,北京100083) 摘要:为解决支持向量机(SM)在处理无标签数据多类分类上的难题,提出了一种基于支持向量数据描述 (DD)的无标签数据多类分类算法.该方法只需要建立一个分类模型就可以实现多类聚类分类.首先采用主成分 分析作数据预处理,提取输入数据的统计特征值,得到主成分特征指标输入到SDD分类器进行多类聚类分类.以珠 三角地区物流中心城市分类评价为研究对象,实证结果表明,采用主成分分析降低了数据维度,有效浓缩了评估信 息,DD分类器很好地区分了各中心城市,实现了多类分类的目的. 关键词:多类分类;无标签数据;支持向量数据描述;主成分分析 中图分类号:TP18文献标识码:A文章编号:1673-4785(2009)02-013106 Multi-class classification a lgor ithm for unlabeled da ta using SVDD ZHU Bang-zhu,L N Jian' (1.Institute of System Science and Technobgy,Wuyi University,Jiangen 529020,China;2 School of Econom ics and Manage- ment,Beijing University of Aeronautics and A stronautics,Beijing 100083,China) A bstract:Support vectormachines SVM)may encounter problem s in dealing with multi-class classification of un- labeled data So we suggested a new multi-class classification algorithm based on support vector data description (SVDD)in this paper Compared with othermulti-class classification algorithms,the proposed algorithm only nee- ded one classifier to complete the multi-class clustering classification W ith thismethod,principal component anal- ysis (PCA)was used to preprocess original data o extract statistically characteristic values inputting these values into an SVDD classifier comp leted multi-class clustering classification Taking nine cities in the Pearl River delta area as an example,an evaluation wasmade of the devebpmental levels of the logistics of these cities The test re- sults showed that data dimensions were reduced by using principal component analysis,and the evaluated infoma- tion was effectively concentrated by adopting feature extraction with PCA.Moreover,the SVDD classifier could dis- tinguish the central cities very well,so it can be used as an effective app roach for multi-class classification of unla- beled data Keywords:multi-class classification,unlabeled data;support vector data description;princ p le component analysis 多类分类问题是目前模式识别领域中的一个热一法、决策树法、Weson法等2].但这些方法通常 点与难点课题.基于统计学习理论的支持向量机 需要构造多个两类分类器,算法计算复杂度较高;此 (SM)从新的角度有效地解决了两类分类问题.在外,这些方法无一例外都是有监督学习方法,需要为 此基础上,一些学者开展了多类分类问题研究,提出每个样本附上类别标签.但在实际应用(如区域物 了一些具体的实现方法,代表性的有一对多法、一对 流中心城市分类评价)中广泛存在着大量的无标签 收稿日期:200807-12 数据,上述要求常常很难得以满足),因此在一定 基金项目:国家自然科学基金资助项目(70471074) 程度上降低了这些方法的实用价值」 通信作者:朱帮助.E1mai让wp办z@126com 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net第 4卷第 2期 智 能 系 统 学 报 Vol. 4 №. 2 2009年 4月 CAA I Transactions on Intelligent System s Ap r. 2009 基于支持向量数据描述的无标签数据多类分类 朱帮助 1 , 林 健 2 (1. 五邑大学 系统科学与技术研究所 ,广东 江门 529020; 2. 北京航空航天大学 经济管理学院 ,北京 100083) 摘 要 :为解决支持向量机 ( SVM )在处理无标签数据多类分类上的难题 ,提出了一种基于支持向量数据描述 ( SVDD)的无标签数据多类分类算法. 该方法只需要建立一个分类模型就可以实现多类聚类分类. 首先采用主成分 分析作数据预处理 ,提取输入数据的统计特征值 ,得到主成分特征指标输入到 SVDD分类器进行多类聚类分类. 以珠 三角地区物流中心城市分类评价为研究对象 ,实证结果表明 ,采用主成分分析降低了数据维度 ,有效浓缩了评估信 息 , SVDD分类器很好地区分了各中心城市 ,实现了多类分类的目的. 关键词 :多类分类 ;无标签数据 ;支持向量数据描述 ;主成分分析 中图分类号 : TP18 文献标识码 : A 文章编号 : 167324785 (2009) 0220131206 M ulti2class classification algor ithm for unlabeled data using SVDD ZHU Bang2zhu 1 , L IN Jian 2 (1. Institute of System Science and Technology, W uyi University, Jiangmen 529020, China; 2. School of Economics and Manage2 ment, Beijing University of Aeronautics and A stronautics, Beijing 100083, China) Abstract:Support vectormachines (SVM) may encounter p roblem s in dealing with multi2class classification of un2 labeled data. So we suggested a new multi2class classification algorithm based on support vector data descrip tion (SVDD) in this paper. Compared with othermulti2class classification algorithm s, the p roposed algorithm only nee2 ded one classifier to comp lete the multi2class clustering classification. W ith thismethod, p rincipal component anal2 ysis (PCA) was used to p rep rocess original data to extract statistically characteristic values; inputting these values into an SVDD classifier comp leted multi2class clustering classification. Taking nine cities in the Pearl River delta area as an examp le, an evaluation wasmade of the developmental levels of the logistics of these cities. The test re2 sults showed that data dimensions were reduced by using p rincipal component analysis, and the evaluated informa2 tion was effectively concentrated by adop ting feature extraction with PCA. Moreover, the SVDD classifier could dis2 tinguish the central cities very well, so it can be used as an effective app roach formulti2class classification of unla2 beled data. Keywords:multi2class classification; unlabeled data; support vector data descrip tion; p rincip le component analysis 收稿日期 : 2008207212. 基金项目 :国家自然科学基金资助项目 (70471074). 通信作者 :朱帮助. E2mail: wpzbz@126. com. 多类分类问题是目前模式识别领域中的一个热 点与难点课题. 基于统计学习理论 [ 1 ]的支持向量机 (SVM)从新的角度有效地解决了两类分类问题. 在 此基础上 ,一些学者开展了多类分类问题研究 ,提出 了一些具体的实现方法 ,代表性的有一对多法、一对 一法、决策树法、W eston法等 [ 223 ] . 但这些方法通常 需要构造多个两类分类器 ,算法计算复杂度较高 ;此 外 ,这些方法无一例外都是有监督学习方法 ,需要为 每个样本附上类别标签. 但在实际应用 (如区域物 流中心城市分类评价 )中广泛存在着大量的无标签 数据 ,上述要求常常很难得以满足 [ 4 ] ,因此在一定 程度上降低了这些方法的实用价值
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有