第1期 朱林,等:鲁棒的模糊方向相似性聚类算法 ·47 在使用方向性聚类算法分析各数据集前,以上 表5模糊程度常数I变化时DSC算法针 数据都经过L2归一化处理 对tr5数据集的实验结果 3.3实验结果及分析 Table 5 The results of RFDSC on tr45 datasets with 为了测试算法性能,对以上数据集分别采用 the change of n SPKmeans、soft-novMF、FDSC和RFDSC4种相 0.05 0.1 0.15 02 似性聚类算法的结果进行比较.为保证实验的公平 性,所有算法均采用随机初始化的策略选取初始聚 互信息 0657n0606610050673n050640h04 类中心,并对每种算法进行20次聚类实验后取平均 值作为最终实验结果」 平均准确率0894 0.895 0.899 0.884 首先,对FDSC算法和RFDSC算法采用不同 大小的尺度参数k、模糊程度常数?和权重指数m 来测试其对聚类结果的影响. 表6表7分别给出了RFDSC算法采用不同大 表2、表3分别给出了FDSC算法采用不同大 小的权重指数m针对NG17-19和tr45数据集进行 小的尺度参数k针对NG1719和tr45数据集进行 聚类实验后得到的互信息NMI的均值和标准差及 聚类实验后得到的互信息NMI的均值和标准差及 平均准确率AA的均值.实验中模糊程度常数7取 平均准确率AA的均值.实验中权重指数m取0.9. 0.15,尺度参数k取3 表2尺度参数k变化时DSC算法针对 表6权重指数m变化时RDSC算法针对 NG下19数据集的实验结果 NG719数据集的实验结果 Table 2 The results of FDSC on NGI7-19 datasets Table 6 The results of RFDSC on NGl7-19 with the change of k datasets with the change of m k 1 2 4 085 0.9 0.95 互信息 0326005041000504310040394h05 互信息 03970.0604180.05 0375010 平均准确率0.596 0.677 0.682 0642 平均准确率 0.675 0674 0.640 表3尺度参数k变化时FDSC算法针对 r45数据集的实验结果 表7权重指数m变化时RDSC算法 ble 3 The results of FDSC on tr45 datasets with the change of k 针对tr45数据集的实验结果 2 3 4 Table 7 The results of RFDSC on tr45 datasets with 互信息0564h030630h030649h030594h04 the change of m 平均准确率08620876 0893 0845 085 0.9 0.95 表4表5分别给出了RFDSC算法采用不同大 互信息 06490.040.6740.030649004 小的模糊程度常数n针对NG1下19和tr45数据集 进行聚类实验后得到的互信息NMI的均值和标准 平均准确率 0.885 0.902 0.887 差及平均准确率AA的均值.实验中权重指数m取 0.9,尺度参数k取3 从上述实验结果可以看出,当尺度参数k取3、 模糊程度常数取0.15、权重指数m取0.9时,FD 表4模糊程度常数n变化时RDSC算法针对 NG下19数据集的实验结果 SC算法和RFDSC算法取得比较好的聚类结果 Ta ble 4 The results of RFDSC on NGI7-19 datasets with 下面给出SPKmeans、soft-movMF、FDSC和 the change of n RFDSC4种相似性聚类算法对上述10种文本数据 集的聚类结果。 2 0.05 0.1 0.15 02 表8、表9给出了4种算法进行聚类实验后得 互信息0.3780.080397h080.418005Q399h09 到的互信息NMI的均值和标准差, 平均准确率 0.645 0.647 0.674 0673 1994-2009 China Academic Journal Electronic Publishing House.All rights reserved. http://www.cnki.net在使用方向性聚类算法分析各数据集前 ,以上 数据都经过 L2 归一化处理. 313 实验结果及分析 为了测试算法性能 ,对以上数据集分别采用 SP Kmeans、soft2movMF、FDSC 和 RFDSC 4 种相 似性聚类算法的结果进行比较. 为保证实验的公平 性 ,所有算法均采用随机初始化的策略选取初始聚 类中心 ,并对每种算法进行 20 次聚类实验后取平均 值作为最终实验结果. 首先 ,对 FDSC 算法和 RFDSC 算法采用不同 大小的尺度参数 k、模糊程度常数η和权重指数 m 来测试其对聚类结果的影响. 表 2、表 3 分别给出了 FDSC 算法采用不同大 小的尺度参数 k 针对 N G17219 和 tr45 数据集进行 聚类实验后得到的互信息 NMI 的均值和标准差及 平均准确率 AA 的均值. 实验中权重指数 m 取 019. 表 2 尺度参数 k变化时 FDSC算法针对 NG17219 数据集的实验结果 Table 2 The results of FDSC on NG17219 datasets with the change of k k 1 2 3 4 互信息 01326 ±0105 01410 ±0105 01431 ±0104 01394 ±0105 平均准确率 01596 01677 01682 01642 表 3 尺度参数 k 变化时 FDSC算法针对 tr45 数据集的实验结果 Table 3 The results of FDSC on tr45 datasets with the change of k k 1 2 3 4 互信息 01564 ±0103 01630 ±0103 01649 ±0103 01594 ±0104 平均准确率 01862 01876 01893 01845 表 4 表 5 分别给出了 RFDSC 算法采用不同大 小的模糊程度常数η针对 N G17219 和 tr45 数据集 进行聚类实验后得到的互信息 NMI 的均值和标准 差及平均准确率 AA 的均值. 实验中权重指数 m 取 019 ,尺度参数 k 取 3. 表 4 模糊程度常数η变化时 RFDSC算法针对 NG17219 数据集的实验结果 Table 4 The results of RFDSC on NG17219 datasets with the change of η η 0105 011 0115 012 互信息 01378 ±0108 01397 ±0108 01418 ±0105 01399 ±0109 平均准确率 01645 01647 01674 01673 表 5 模糊程度常数η变化时 RFDSC算法针 对 tr45 数据集的实验结果 Table 5 The results of RFDSC on tr45 datasets with the change of η η 0105 011 0115 012 互信息 01657 ±0105 01661 ±0105 01673 ±0105 01640 ±0104 平均准确率 01894 01895 01899 01884 表 6 表 7 分别给出了 RFDSC 算法采用不同大 小的权重指数 m 针对 N G17219 和 tr45 数据集进行 聚类实验后得到的互信息 NMI 的均值和标准差及 平均准确率 AA 的均值. 实验中模糊程度常数η取 0115 ,尺度参数 k 取 3. 表 6 权重指数 m变化时 RFDSC算法针对 NG17219 数据集的实验结果 Table 6 The results of RFDSC on NG17219 datasets with the change of m m 0185 019 0195 互信息 01397 ±0106 01418 ±0105 01375 ±0110 平均准确率 01675 01674 01640 表 7 权重指数 m变化时 RFDSC算法 针对 tr45 数据集的实验结果 Table 7 The results of RFDSC on tr45 datasets with the change of m m 0185 019 0195 互信息 01649 ±0104 01674 ±0103 01649 ±0104 平均准确率 01885 01902 01887 从上述实验结果可以看出 ,当尺度参数 k 取 3、 模糊程度常数η取 0115、权重指数 m 取 019 时 ,FD2 SC 算法和 RFDSC 算法取得比较好的聚类结果. 下面给出 SP Kmeans、soft2movMF、FDSC 和 RFDSC 4 种相似性聚类算法对上述 10 种文本数据 集的聚类结果. 表 8、表 9 给出了 4 种算法进行聚类实验后得 到的互信息 NMI 的均值和标准差. 第 1 期 朱 林 ,等 :鲁棒的模糊方向相似性聚类算法 ·47 ·