表２实验环境Ｔａｂｌｅ２Ｅｘｐｅｒｉｍｅｎｔｅｎｖｉｒｏｎｍｅ

正在加载图片...

第2期李滔，等：适合大规模数据集的增量式模糊聚类算法 ·193 表2实验环境本文中所有的参数都按如下取值：模糊指数 Table 2 Experiment environment m取2，最大迭代次数均为100，迭代终止参数ε 结构具体参数取1e-3,聚类中心附近的样本点个数no取5，其操作系统 Windows7专业版64位中数据集2D15、waveform重复试验50次，由于数处理器 Intel(R)Xeon(R)E5-1620 v2@3.7GHz 据集MNIST和forest样本过大，我们重复试验20 运行内存 64G 次。数据块的大小应由用户指定，但在实验中，软件及版本 MATLAB7.11.0.584(R2010h) 由于计算机内存受限，forest数据集的数据块大小依次取0.1%、0.5%、1%、2.5%、5%，其余均按表3各数据集的分布情况照整个数据集的1%、2.5%、5%、10%、25%、50% Table 3 Distribution of the datasets 随机抽取。取MNIST数据集70%的样本、forest 数据集大小维数类别数数据集10%的样本参与FCPM算法的聚类。平 2D15 5000 2 15 衡因子α的具体取值也由用户指定，但是必须在 waveform 5000 21 3 给定的经验值范围内取值，本文中的所有α值均 forest 581012 54 7 是在多次重复实验中，提到的聚类指标的均值达 MNIST 70000 784 10 到最好的时候的取值。我们计算提到的几种算 MNIST数据集是手写数字集的一个子集，包含了法在各个数据集上的NMI和RI的最值、均值以 70000张28×28像素的数字0~9的图像，每个像素及标准差，其中均值反映了算法的平均聚类性都在整数0~255之间取值。为加快运算，对MNIST 能，最值和标准差反映了算法的稳定鲁棒性。数据集中的所有样本分别除以255进行归一化处 4)算法性能比较理1s。为方便计算，本文随机取forest的581000个本文采用SPFCM算法和rseFCM算法同IFCM 样本进行计算。同样，对其他数据集也进行归一化处 (c+p)算法在聚类性能和加速比上进行比较。理以加快运算，即用每个特征的所有样本与该特征的 1)各算法在数据集上的聚类性能比较最小值作差再除以该特征的最大值与最小值之差。各算法在指定数据集下的聚类性能如表4~11 3)实验参数设置所示，其中最优均值已用黑体标出。表4FCM(c+p)、SPFCM、rseFCM算法的NMI值 Table 4 NMI of IFCM(c+p),SPFCM,rseFCM FCM(c+p)(a=2.1) IFCM(c+p)(a=0) SPFCM rseFCM 样本大小 avg. std. avg. std. avg. std. avg. std. 0.4107 0.0233 0.4091 0.0026 0.3909 0.0074 0.3078 0.0037 1% 0.3855 0.4398 0.3980 0.4173 0.3567 0.4248 0.3061 0.3332 0.4329 0.0062 0.3484 0 0.3613 0.0018 0.3199 0.0040 2.50% 0.4320 0.4756 0.3472 0.3485 0.3488 0.3616 0.3185 0.3474 0.4194 0.0079 0.3345 0.0010 0.3369 0 0.3463 0 5% 0.3872 0.4220 0.3343 0.3415 0.3365 0.3371 0.3463 0.3464 0.3411 a 0.3332 0 0.3259 0 0.2964 0 10% 0.3409 0.3415 0.3299 0.3333 0.3258 0.3263 0.2958 0.2968 0.3350 0.0049 0.3308 0 0.3245 0 0.3362 0 25% 0.3025 0.3442 0.3307 0.3309 0.3237 0.3251 0.3361 0.3363 0.3656 0 0.3253 0 0.3311 0 0.3259 0 35% 0.3617 0.3660 0.3251 0.3254 0.3311 0.3312 0.3257 0.3265 0.3556 0 0.3354 0 0.3361 0 0.3241 50% 0 0.3554 0.3558 0.3353 0.3354 0.3349 0.3365 0.3239 0.3246 0.3285 0.0081 FCPM 0.2892 0.3302 从各表中的实验结果对比发现，增量式模糊聚类算法的聚类性能均优于FCPM算法。在人工数据表２实验环境Ｔａｂｌｅ２Ｅｘｐｅｒｉｍｅｎｔｅｎｖｉｒｏｎｍｅｎｔ结构具体参数操作系统Ｗｉｎｄｏｗｓ７专业版６４位处理器Ｉｎｔｅｌ（Ｒ）Ｘｅｏｎ（Ｒ）Ｅ５⁃１６２０ｖ２＠３．７ＧＨｚ运行内存６４Ｇ软件及版本ＭＡＴＬＡＢ７．１１．０．５８４（Ｒ２０１０ｂ）表３各数据集的分布情况Ｔａｂｌｅ３Ｄｉｓｔｒｉｂｕｔｉｏｎｏｆｔｈｅｄａｔａｓｅｔｓ数据集大小维数类别数２Ｄ１５５０００２１５ｗａｖｅｆｏｒｍ５０００２１３ｆｏｒｅｓｔ５８１０１２５４７ＭＮＩＳＴ７００００７８４１０ＭＮＩＳＴ数据集是手写数字集的一个子集，包含了７００００张２８ × ２８像素的数字０～９的图像，每个像素都在整数０～２５５之间取值。为加快运算，对ＭＮＩＳＴ数据集中的所有样本分别除以２５５进行归一化处理［１５］。为方便计算，本文随机取ｆｏｒｅｓｔ的５８１０００个样本进行计算。同样，对其他数据集也进行归一化处理以加快运算，即用每个特征的所有样本与该特征的最小值作差再除以该特征的最大值与最小值之差。３）实验参数设置本文中所有的参数都按如下取值：模糊指数ｍ取２，最大迭代次数均为１００，迭代终止参数 ε 取１ｅ－３，聚类中心附近的样本点个数ｎ０取５，其中数据集２Ｄ１５、ｗａｖｅｆｏｒｍ重复试验５０次，由于数据集ＭＮＩＳＴ和ｆｏｒｅｓｔ样本过大，我们重复试验２０次。数据块的大小应由用户指定，但在实验中，由于计算机内存受限，ｆｏｒｅｓｔ数据集的数据块大小依次取０．１％、０．５％、１％、２．５％、５％，其余均按照整个数据集的１％、２．５％、５％、１０％、２５％、５０％随机抽取。取ＭＮＩＳＴ数据集７０％的样本、ｆｏｒｅｓｔ数据集１０％的样本参与ＦＣＰＭ算法的聚类。平衡因子 α 的具体取值也由用户指定，但是必须在给定的经验值范围内取值，本文中的所有 α 值均是在多次重复实验中，提到的聚类指标的均值达到最好的时候的取值。我们计算提到的几种算法在各个数据集上的ＮＭＩ和ＲＩ的最值、均值以及标准差，其中均值反映了算法的平均聚类性能，最值和标准差反映了算法的稳定鲁棒性。４）算法性能比较本文采用ＳＰＦＣＭ算法和ｒｓｅＦＣＭ算法同ＩＦＣＭ（ｃ＋ｐ）算法在聚类性能和加速比上进行比较。１）各算法在数据集上的聚类性能比较各算法在指定数据集下的聚类性能如表４～１１所示，其中最优均值已用黑体标出。表４ＩＦＣＭ（ｃ＋ｐ）、ＳＰＦＣＭ、ｒｓｅＦＣＭ算法的ＮＭＩ值Ｔａｂｌｅ４ＮＭＩｏｆＩＦＣＭ（ｃ＋ｐ），ＳＰＦＣＭ，ｒｓｅＦＣＭ样本大小ＩＦＣＭ（ｃ＋ｐ）（ α ＝２．１）ａｖｇ．ｓｔｄ．ＩＦＣＭ（ｃ＋ｐ）（ α ＝０）ａｖｇ．ｓｔｄ．ＳＰＦＣＭａｖｇ．ｓｔｄ．ｒｓｅＦＣＭａｖｇ．ｓｔｄ．１％０．４１０７０．０２３３０．４０９１０．００２６０．３９０９０．００７４０．３０７８０．００３７０．３８５５０．４３９８０．３９８００．４１７３０．３５６７０．４２４８０．３０６１０．３３３２２．５０％０．４３２９０．００６２０．３４８４００．３６１３０．００１８０．３１９９０．００４００．４３２００．４７５６０．３４７２０．３４８５０．３４８８０．３６１６０．３１８５０．３４７４５％０．４１９４０．００７９０．３３４５０．００１００．３３６９００．３４６３００．３８７２０．４２２００．３３４３０．３４１５０．３３６５０．３３７１０．３４６３０．３４６４１０％０．３４１１００．３３３２００．３２５９００．２９６４００．３４０９０．３４１５０．３２９９０．３３３３０．３２５８０．３２６３０．２９５８０．２９６８２５％０．３３５００．００４９０．３３０８００．３２４５００．３３６２００．３０２５０．３４４２０．３３０７０．３３０９０．３２３７０．３２５１０．３３６１０．３３６３３５％０．３６５６００．３２５３００．３３１１００．３２５９００．３６１７０．３６６００．３２５１０．３２５４０．３３１１０．３３１２０．３２５７０．３２６５５０％０．３５５６００．３３５４００．３３６１００．３２４１００．３５５４０．３５５８０．３３５３０．３３５４０．３３４９０．３３６５０．３２３９０．３２４６ＦＣＰＭ０．３２８５０．００８１０．２８９２０．３３０２从各表中的实验结果对比发现，增量式模糊聚类算法的聚类性能均优于ＦＣＰＭ算法。在人工数据第２期李滔，等：适合大规模数据集的增量式模糊聚类算法 ·１９３·

<<向上翻页向下翻页>>

点击下载：【机器学习】适合大规模数据集的增量式模糊聚类算法编辑部