正在加载图片...
·1022 工程科学学报,第38卷,第7期 作为该次算法的最终输入参数,该结果为该次算法的 ig数据集的对象个数为435,因此对该数据集的实验 最终结果 采用的聚类数上限参数值为2,3,4,,30:Soybean (4)K-modes算法初始聚类数将直接选择各数据 数据集的对象个数为47,因此该数据集实验的聚类数 集实际的类个数作为输入参数. 上限参数值为2~20:Balloon数据集的对象个数为20, (5)HABOS算法采用多类合并规则,该方法不受 因此设定实验需要的聚类数上限参数值为2,3,4, 数据输入顺序影响,因此该算法运行100次的结果是 …,15. 唯一的.其他两个算法不论是受到数据输入顺序影响 表2列出CVISFD指标对三个数据集聚类结果各 还是初始随机性的影响,各算法运行100次的结果不 层次的评价值及其实际准确率,CVISFD指标值保留小 是唯一的.实验采用平均值作为算法最终的结果. 数点后两位数字,准确率保留小数点后一位数字(下 表1数据集描述 同).多数情况下,CVISFD值越小,算法的正确率越 Table 1 Dataset description 高,但是针对Balloon数据集而言,由于Balloon数据集 二值属性分类属性 对象个数较少以及对象间相似度相对较大,所以在最 数据集 样本个数类个数 个数个数 大簇个数的条件下,算法将数据集聚为两个簇,满足终 Voting 435 2 16 止条件后只产生一个可供评价的层次,因此HABOS算 Soybean(small) 47 4 12 9 法中CVISFD有效性评价指标只有唯一选择,而该层 Balloon (adult stretch) 20 0 表2 CVISFD指标对各聚类结果层次的评价值及准确率 Table 2 Evaluation values and accuracy of CVISFD indexes on the re- 此外,聚类结果的正确率也是衡量算法有效性的 sults of clustering 一个重要依据.本文实验选用Micro-p圆作为评价聚 Voting数据集 Soybean数据集 Balloon数据集 类结果的正确率指标.该方法将每个类中得到正确聚 CVISFD正确率/%CVISFD正确率/%CVISFD正确率/% 类的对象个数与数据样本总数相除,从而得到该算法 聚类结果的正确率。该正确率计算方法的具体表述 0.21 57.4 2499.84100.0 如下. 0.11 78.7 假设X为数据集,已知该数据集有m个类,其类 0.09 100.0 标识分别记为C,C2,…,Cm,采用某聚类算法后,得 5 0.15 97.9 到n个类的聚类结果,将其分别标记为P,P2,…, 65.91 93.8 0.57 93.6 P。,A是类P中属于类C,的对象个数,则可以得到如 72.77 93.8 017 93.6 下矩阵: 8 1.93 93.8 010 91.5 Ap AB Aim 9 1.65 0.1 89. 10 87 A3m 11 24 74 12 0.8 130.01 15 14 r= 15 1X1 (3) 16 由此可以得到聚类正确率的计算公式(式(3)), 17 0.01 07 其中IXI为整个数据集中的对象个数.该r值越大,则 0.38 表明通过算法得到的聚类结果越接近已知类标识,聚 8 类质量越好 0.45 3.2实验结果分析 20 上节提到根据经验预先将聚类数上限参数ncx 0.44 定义为9,为了验证聚类数上限参数取值对聚类结果 24 0.45 的影响,本小节实验将设定不同的聚类数上限值,分别 0.45 使用Voting数据集、Soybean数据集和Balloon数据集 27 0.51 86. 进行HABOS聚类操作.本文根据数据集所包含的数 280.40 86.7 据个数不同,设置不同的参数值范围.具体来说,V- 30工程科学学报,第 38 卷,第 7 期 作为该次算法的最终输入参数,该结果为该次算法的 最终结果. ( 4) K-modes 算法初始聚类数将直接选择各数据 集实际的类个数作为输入参数. ( 5) HABOS 算法采用多类合并规则,该方法不受 数据输入顺序影响,因此该算法运行 100 次的结果是 唯一的. 其他两个算法不论是受到数据输入顺序影响 还是初始随机性的影响,各算法运行 100 次的结果不 是唯一的. 实验采用平均值作为算法最终的结果. 表 1 数据集描述 Table 1 Dataset description 数据集 样本个数 类个数 二值属性 个数 分类属性 个数 Voting 435 2 16 0 Soybean( small) 47 4 12 9 Balloon( adult + stretch) 20 2 0 4 此外,聚类结果的正确率也是衡量算法有效性的 一个重要依据. 本文实验选用 Micro-p[13]作为评价聚 类结果的正确率指标. 该方法将每个类中得到正确聚 类的对象个数与数据样本总数相除,从而得到该算法 聚类结果的正确率. 该正确率计算方法的具体表述 如下. 假设 X 为数据集,已知该数据集有 m 个类,其类 标识分别记为 C1,C2,…,Cm,采用某聚类算法后,得 到 n 个类的聚类结果,将其分别标记为 P1,P2,…, Pn,Aij是类 Pi中属于类 Cj的对象个数,则可以得到如 下矩阵: A11 A12 A13 … A1m A21 A22 A23 … A2m A31 A32 A33 … A3m … … … … … An1 An2 An3 … A               nm , r = ∑ m j = 1 maxAij | X | . ( 3) 由此可以得到聚类正确率的计算公式( 式( 3) ) , 其中| X| 为整个数据集中的对象个数. 该 r 值越大,则 表明通过算法得到的聚类结果越接近已知类标识,聚 类质量越好. 3. 2 实验结果分析 上节提到根据经验预先将聚类数上限参数 ncmax 定义为 9,为了验证聚类数上限参数取值对聚类结果 的影响,本小节实验将设定不同的聚类数上限值,分别 使用 Voting 数据集、Soybean 数据集和 Balloon 数据集 进行 HABOS 聚类操作. 本文根据数据集所包含的数 据个数不同,设置不同的参数值范围. 具体来说,Vot￾ing 数据集的对象个数为 435,因此对该数据集的实验 采用的聚类数上限参数值为 2,3,4,…,30; Soybean 数据集的对象个数为 47,因此该数据集实验的聚类数 上限参数值为 2 ~ 20; Balloon 数据集的对象个数为 20, 因此设定实验需要的聚类数上限参数值为 2,3,4, …,15. 表 2 列出 CVISFD 指标对三个数据集聚类结果各 层次的评价值及其实际准确率,CVISFD 指标值保留小 数点后两位数字,准确率保留小数点后一位数字( 下 同) . 多数情况下,CVISFD 值越小,算法的正确率越 高,但是针对 Balloon 数据集而言,由于 Balloon 数据集 对象个数较少以及对象间相似度相对较大,所以在最 大簇个数的条件下,算法将数据集聚为两个簇,满足终 止条件后只产生一个可供评价的层次,因此 HABOS 算 法 中 CVISFD 有效性评价指标只有唯一选择,而该层 表 2 CVISFD 指标对各聚类结果层次的评价值及准确率 Table 2 Evaluation values and accuracy of CVISFD indexes on the re￾sults of clustering nc Voting 数据集 Soybean 数据集 Balloon 数据集 CVISFD 正确率/% CVISFD 正确率/% CVISFD 正确率/% 2 — — 0. 21 57. 4 2499. 84 100. 0 3 — — 0. 11 78. 7 — — 4 — — 0. 09 100. 0 — — 5 — — 0. 15 97. 9 — — 6 5. 91 93. 8 0. 57 93. 6 — — 7 2. 77 93. 8 0. 17 93. 6 — — 8 1. 93 93. 8 0. 19 91. 5 — — 9 1. 65 93. 8 0. 18 89. 3 — — 10 1. 42 93. 8 0. 19 87. 2 — — 11 1. 28 93. 8 0. 24 74. 5 — — 12 0. 83 93. 8 — — — — 13 0. 01 93. 8 — — 0. 09 45. 0 14 — — 0. 64 63. 8 — — 15 — — 0. 64 61. 7 — — 16 — — 0. 68 57. 4 ∕ ∕ 17 0. 01 92. 9 0. 70 51. 1 ∕ ∕ 18 0. 38 92. 6 0. 70 48. 9 ∕ ∕ 19 0. 45 86. 7 0. 71 46. 8 ∕ ∕ 20 — — 0. 69 46. 8 ∕ ∕ 23 0. 44 86. 7 ∕ ∕ ∕ ∕ 24 0. 45 86. 7 ∕ ∕ ∕ ∕ 25 0. 45 86. 7 ∕ ∕ ∕ ∕ 27 0. 51 86. 7 ∕ ∕ ∕ ∕ 28 0. 40 86. 7 ∕ ∕ ∕ ∕ 30 — — ∕ ∕ ∕ ∕ · 2201 ·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有