正在加载图片...
,1088, 北京科技大学学报 第32卷 表2随机排序的前六个对象数据表 Table 2 Data table of the first six objects of the randam sequence 序号对象a郎 a5a6asa胸a10a12a2021 22324a25a26272835 1 302 1 0 0 2 1 2 1 0 3 0 1 1 0 0000 8 5 0 0 2 1 2 2 0 2 1 0 3 0 0 0 2 1 0 0 3 322 2 2 0 0 3 1 2 0 1 0 0 0 0 3 0 2 1 0 0 0 0 0 0 3 1 5 X47 0 2 0 0 0 0 3 1 6 02 0 0 0 0 0 0 表3应用CAB0S③D进行聚类的过程(b=Q450) Table 3 Chustering pmocess by CABOSD (b=Q 450) 序号 扫描 对象 lyI lEAV(Y)I SD(Y)=2-EAV()L X lEAV(Y)I 新类的创建及对象到类的归并 1 1x 新类C1=g{ 2 CiU Ixs 2 6 1768>b(%) 新类C2=s CU Ix21 2 9 Q943>b(*) 3 C2U Ixz2 新类Cs=2{ 2 4 3005 CiU Ixoos1 2 10 0778 CaU xos1 2 4 3005 新类C,={肠{ CaU xos1 2 12 0530>b(%) GU{x! 2 9 0943 C=CU Ix7 I=1x6.x7: CaU 1x7 2 1.414 sR(C4)=(21(21)(32),(41),(50).(7,1) 7 CaU Ix7I 2 13 0435 (121),(200),(222),(230),(240),(25,0), CaU Ix7 2 15 0283≤b(*) (26,0),(27,0),(283),(35,1),0283) CUx 2 16 022≤b(%) CI=GU Ix1=1: C2Uo1 2 6 1.768 sR(C)=(21(20),(32)(4,1)(50),(7,0,(91) CU1}2 11 0643 (121),(20,0),(21,3),(231,(24,1),(250), CaUx 3 8 0938 (260),(27,0),(280),(35,0).0221) 进行20次对象随机排序的聚类实验,每次实验 着b的逐渐增加,会使类的数目减少而类内的对象 都调整阈值b使得聚类达到最佳效果,在考虑各对 数目增加,因此通过b可以调整类的规模和大小. 象取值不全相同的21个属性和全部35个属性的情 CABOSD的聚类结果还受数据输入顺序的影响,在 况下,聚类平均正确率分别是94.89%和96.91%. 数据输入顺序不同的情况下,聚类结果趋同,但不一 其中,正确率定义为正确聚类的对象数占全部对象 定完全一致, 数的比率山 参考文献 4结论 [1]Han JW,KaberM.Data M ining Concepts and Techniues Bei 高维数据聚类一直是数据挖掘领域研究的难点 jing China Machine Press 2006 [2]Yang B Li D Y.Lu JM.etal Complex network clustering al 和重,点之一,本文提出的CABOSD针对分类属性高 gorithms J Sofwam 2009 20(1):54 维数据,通过定义的集合差异度和集合精简表示对 (杨博,刘大有,LmJM,等.复杂网络聚类方法.软件学报, 数据进行高度压缩,不损失聚类所需信息,保证了计 200A20(1):54) 算的精确性·在聚类过程中,不需计算两两对象间 [3]Carvaho LE Law rence C E Centroi estination n diserete high 的距离,根据集合差异度直接完成新类的创建及对 dinensional spaces w ith applications in bolgy Pmcdings of the National Academy of Sciences of the United States of America 象到类的归并,仅需一次数据扫描,计算时间复杂度 2008105(9):3209 接近线性,CABOSD的聚类结果受阈值b影响,随 [4]Guha S RastogiR.Shin K.ROCK:a mobust clstering algorithm北 京 科 技 大 学 学 报 第 32卷 表 2 随机排序的前六个对象数据表 Table2 Datatableofthefirstsixobjectsoftherandomsequence 序号 对象 a1 a2 a3 a4 a5 a6 a7 a8 a9 a10 a12 a20 a21 a22 a23 a24 a25 a26 a27 a28 a35 1 x8 3 0 2 1 0 1 0 2 1 2 1 0 3 0 1 1 0 0 0 0 0 2 x18 5 0 0 2 1 2 2 1 0 2 1 1 0 3 0 0 0 2 1 0 0 3 x22 2 1 2 0 0 3 1 2 0 1 0 0 1 1 0 1 0 0 0 3 0 4 x36 1 1 2 1 0 0 1 2 1 1 1 0 2 2 0 0 0 0 0 3 1 5 x47 0 1 2 1 0 3 1 1 0 2 1 0 1 2 0 0 0 0 0 3 1 6 x9 6 0 2 1 0 3 0 1 1 1 1 0 3 1 1 1 0 0 0 0 0 表 3 应用 CABOSD进行聚类的过程 (b=0.450) Table3 ClusteringprocessbyCABOSD (b=0.450) 序号 扫描 对象 Y |Y| |EAV(Y)| SD(Y)= 21—|EAV(Y)| |Y|×|EAV(Y)| 新类的创建及对象到类的归并 1 x8 {x8} — — — 新类 C1={x8} 2 x18 C1∪{x18} 2 6 1.768>b(∗ ) 新类 C2={x18} 3 x22 C1∪{x22} 2 9 0.943>b(∗ ) 新类 C3={x22} C2∪{x22} 2 4 3.005 C1∪{x36} 2 10 0.778 4 x36 C2∪{x36} 2 4 3.005 新类 C4={x36} C3∪{x36} 2 12 0.530>b(∗ ) 5 x47 C1∪{x47} 2 9 0.943 C2∪{x47} 2 7 1.414 C3∪{x47} 2 13 0.435 C4∪{x47} 2 15 0.283≤b(∗ ) C4=C4∪{x47}={x36‚x47}; SR(C4)=(2‚{(2‚1)‚(3‚2)‚(4‚1)‚(5‚0)‚(7‚1)‚ (12‚1)‚(20‚0)‚(22‚2)‚(23‚0)‚(24‚0)‚(25‚0)‚ (26‚0)‚(27‚0)‚(28‚3)‚(35‚1)}‚0.283) 6 x9 C1∪{x9} 2 16 0.221≤b(∗ ) C2∪{x9} 2 6 1.768 C3∪{x9} 2 11 0.643 C4∪{x9} 3 8 0.938 C1=C1∪{x9}={x8‚x9}; SR(C1)=(2‚{(2‚0)‚(3‚2)‚(4‚1)‚(5‚0)‚(7‚0)‚(9‚1)‚ (12‚1)‚(20‚0)‚(21‚3)‚(23‚1)‚(24‚1)‚(25‚0)‚ (26‚0)‚(27‚0)‚(28‚0)‚(35‚0)}‚0.221) 进行 20次对象随机排序的聚类实验‚每次实验 都调整阈值 b使得聚类达到最佳效果.在考虑各对 象取值不全相同的 21个属性和全部 35个属性的情 况下‚聚类平均正确率分别是 94∙89%和 96∙91%. 其中‚正确率定义为正确聚类的对象数占全部对象 数的比率 [11]. 4 结论 高维数据聚类一直是数据挖掘领域研究的难点 和重点之一.本文提出的 CABOSD针对分类属性高 维数据‚通过定义的集合差异度和集合精简表示对 数据进行高度压缩‚不损失聚类所需信息‚保证了计 算的精确性.在聚类过程中‚不需计算两两对象间 的距离‚根据集合差异度直接完成新类的创建及对 象到类的归并‚仅需一次数据扫描‚计算时间复杂度 接近线性.CABOSD的聚类结果受阈值 b影响‚随 着 b的逐渐增加‚会使类的数目减少而类内的对象 数目增加‚因此通过 b可以调整类的规模和大小. CABOSD的聚类结果还受数据输入顺序的影响‚在 数据输入顺序不同的情况下‚聚类结果趋同‚但不一 定完全一致. 参 考 文 献 [1] HanJW‚KamberM.DataMiningConceptsandTechniques.Bei- jing:ChinaMachinePress‚2006 [2] YangB‚LiuDY‚LiuJM‚etal.Complexnetworkclusteringal- gorithms.JSoftware‚2009‚20(1):54 (杨博‚刘大有‚LiuJM‚等.复杂网络聚类方法.软件学报‚ 2009‚20(1):54) [3] CarvalhoLE‚LawrenceCE.Centroidestimationindiscretehigh- dimensionalspaceswithapplicationsinbiology∥Proceedingsofthe NationalAcademyofSciencesoftheUnitedStatesofAmerica‚ 2008‚105(9):3209 [4] GuhaS‚RastogiR‚ShimK.ROCK:arobustclusteringalgorithm ·1088·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有