正在加载图片...
第2期 朱帮助,等:基于支持向量数据描述的无标签数据多类分类 ·135· 表2第一、二主成分 合水平较高;第3层次是第3类城市,包括江门和肇 Table 2 The fisrt and second princ iple com ponen ts 庆,这2个城市位于珠三角西部,经济实力不强,物 序号 h 乃 流人才短缺,交通基础设施较落后,尚未真正形成交 -066 .101 通运输网络,造成物流发展综合水平偏低.该分类评 2 221 .051 价结果基本符合目前珠三角地区物流发展的实际情 况,也得到了有关政府和物流专家的认可. 1.05 010 0.04 1.33 4结论 5 -056 099 本文结合一类分类方法的最新成果,提出了基 6 -047 .027 于支持向量数据描述的无标签数据多类分类算法, > -0.27 1.10 并将该方法应用于珠三角物流中心城市分类评价 8 -077 .011 中,分类边界明确,分类结果合理,从而验证了该方 9 -058 .1.62 法的有效性与可行性 与已有的多类分类算法相比,本文提出的基于 将前2个主成分值作为SVDD分类器的输入向 量进行多类分类.分类器核函数采用高斯径向基核 主成分分析的支持向量数据描述无标签数据多类分 类方法具有如下几点优势: 函数.调节核函数的参数σ等于05,即 K(x.x)exp(-l x -x2/0 )采用主成分分析作数据预处理,提取主成分 SVDD的分类结果为3类: 特征指标作为SVDD分类器的输入,大大降低了数 据维度,有效浓缩了评估信息,实现了多类分类的可 X=2,3:X2=f4,5.6,7,8:X3=1,9. 视化; SVDD的分类效果如图2所示.从图2可以发现,基 于SVDD的无标签数据多类分类方法可以获得较为 2)将一类分类分类思想引入多类分类中,有效 地解决了传统SM在处理无标签数据多类分类问 理想的分类边界 题上存在的困难,较大程度上简化了多类分类过程 1.5 中的计算复杂度,提高了模型的实用价值; 1.0 3)多类分类问题十分普遍,虽然本文是以珠三 角地区物流中心城市分类评价为应用对象验证了所 0 提出方法的有效性;但该方法具有较强的通用性,稍 -0.5 加变化就可以用于解决其他领域的多类分类问题: 当然,在实际应用中,如何合理确定核函数的参数大 -1.5 小,将是未来进一步研究的问题之一 -1.0-0.500.51.01.52.0 第一主成分 参考文献: 图2分类效果 [1 ]VAPN IK V.Statistical leaming theory [M ]New York:Wi- Fig 2 Classification outcome ey,1998:5964 为了对比,本文还采用Kmeans法进行了3类 [2]PLATT J C,CR ISTAN NIN,SHAW E T J.Large margin 分类,分类结果与SVDD分类结果一致,从而验证了 DAGs for multiclass classification [C]//Advances in Neural 本文所提出方法的有效性与可行性 Inmation Processing Systems 12 Cambridge,Mass MIT 依据SVDD分类结果,珠三角9个中心城市的 Press 547-553. 物流发展水平大致可分为3个层次:第1层次是第 [3 ]W ESION J,WATKNS C Multi-class support vector ma- chines[R ]CSD-TR-98-04.London:Royal Holloway Uni- 1类城市,包括广州和深圳,由于在经济实力、消费 versity.1998 能力、人力资源、物流运输能力等方面均很雄厚,导 [4 ]ZHOU Z H,LIM.Tri-training exp biting unlabeled data 致物流发展综合水平很高,遥遥领先于其他城市:第 using three classifiers[J].EEE Transactions on Knowledge 2层次是第2类城市,包括佛山、中山、珠海、东莞和 and Data Engineering.2005,17(11):1529-1541. 惠州,这些城市在经济增长、工业总产值及交通运输 [5]TAX D M J,DUN R PW.Support vector domain descrip- 网络密度上具有一定的相对优势,致使物流发展综 tion[J Patter Recognition Letters,1999,20 (11/13): 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net表 2 第一、二主成分 Table 2 The fisrt and second pr inc iple com ponen ts 序号 y1 y2 1 - 0. 66 - 1. 01 2 2. 21 - 0. 51 3 1. 05 0. 10 4 0. 04 1. 33 5 - 0. 56 0. 99 6 - 0. 47 - 0. 27 7 - 0. 27 1. 10 8 - 0. 77 - 0. 11 9 - 0. 58 - 1. 62 将前 2个主成分值作为 SVDD分类器的输入向 量进行多类分类. 分类器核函数采用高斯径向基核 函数. 调节核函数的参数 σ等于 0. 5,即 K ( xi , xj ) = exp ( - ‖xi - x‖ 2 /0. 5 2 ). SVDD的分类结果为 3类 : X1 = { 2, 3}; X2 = { 4, 5, 6, 7, 8}; X3 = { 1, 9}. SVDD的分类效果如图 2所示. 从图 2可以发现 ,基 于 SVDD的无标签数据多类分类方法可以获得较为 理想的分类边界. 图 2 分类效果 Fig. 2 Classification outcome 为了对比 ,本文还采用 K2means法进行了 3类 分类 ,分类结果与 SVDD分类结果一致 ,从而验证了 本文所提出方法的有效性与可行性. 依据 SVDD分类结果 ,珠三角 9个中心城市的 物流发展水平大致可分为 3个层次 :第 1层次是第 1类城市 ,包括广州和深圳 ,由于在经济实力、消费 能力、人力资源、物流运输能力等方面均很雄厚 ,导 致物流发展综合水平很高 ,遥遥领先于其他城市 ;第 2层次是第 2类城市 ,包括佛山、中山、珠海、东莞和 惠州 ,这些城市在经济增长、工业总产值及交通运输 网络密度上具有一定的相对优势 ,致使物流发展综 合水平较高 ;第 3层次是第 3类城市 ,包括江门和肇 庆 ,这 2个城市位于珠三角西部 ,经济实力不强 ,物 流人才短缺 ,交通基础设施较落后 ,尚未真正形成交 通运输网络 ,造成物流发展综合水平偏低. 该分类评 价结果基本符合目前珠三角地区物流发展的实际情 况 ,也得到了有关政府和物流专家的认可. 4 结 论 本文结合一类分类方法的最新成果 ,提出了基 于支持向量数据描述的无标签数据多类分类算法 , 并将该方法应用于珠三角物流中心城市分类评价 中 ,分类边界明确 ,分类结果合理 ,从而验证了该方 法的有效性与可行性. 与已有的多类分类算法相比 ,本文提出的基于 主成分分析的支持向量数据描述无标签数据多类分 类方法具有如下几点优势 : 1)采用主成分分析作数据预处理 ,提取主成分 特征指标作为 SVDD分类器的输入 ,大大降低了数 据维度 ,有效浓缩了评估信息 ,实现了多类分类的可 视化 ; 2)将一类分类分类思想引入多类分类中 ,有效 地解决了传统 SVM 在处理无标签数据多类分类问 题上存在的困难 ,较大程度上简化了多类分类过程 中的计算复杂度 ,提高了模型的实用价值 ; 3)多类分类问题十分普遍 ,虽然本文是以珠三 角地区物流中心城市分类评价为应用对象验证了所 提出方法的有效性 ;但该方法具有较强的通用性 ,稍 加变化就可以用于解决其他领域的多类分类问题. 当然 ,在实际应用中 ,如何合理确定核函数的参数大 小 ,将是未来进一步研究的问题之一. 参考文献 : [ 1 ]VAPN IK V. Statistical learning theory[M ]. New York:W i2 ley, 1998: 59264. [ 2 ] PLATT J C, CR ISTIAN IN IN, SHAW E T J. Large margin DAGs for multiclass classification[C ] / /Advances in Neural Information Processing Systems 12. Cambridge, Mass: M IT Press: 5472553. [ 3 ]W ESTON J, WATKINS C. Multi2class support vector ma2 chines[R ]. CSD2TR298204. London: Royal Holloway Uni2 versity, 1998. [ 4 ] ZHOU Z H , L IM. Tri2training: exp loiting unlabeled data using three classifiers[J ]. IEEE Transactions on Knowledge and Data Engineering, 2005, 17 (11) : 152921541. [ 5 ] TAX D M J, DU IN R PW. Support vector domain descrip2 tion[J ]. Pattern Recognition Letters, 1999, 20 ( 11 /13) : 第 2期 朱帮助 ,等 :基于支持向量数据描述的无标签数据多类分类 ·135·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有