息加入到新增数据中，即每次都有ｃ＋ｎ０个样本点加入到新增数据中参

正在加载图片...

·192· 智能系统学报第11卷息加入到新增数据中，即每次都有c+n。个样本点加 3 相关实验研究入到新增数据中参与聚类，那么这些历史信息的加入势必将影响新增数据的聚类效果。如果历史信息恰 3.1评价指标好位于新增数据附近，则其聚类效果将变好，如果历为了公正地对各聚类算法的聚类效果做出合理史信息远离它们，历史信息的加入反而会导致一个很的评价，本文采用如下3种评价指标进行算法的性差的聚类效果。对于SPFCM算法和OFCM算法而能分析。言，它们通过添加样本权值以增加聚类效果，在一定 3.l.1算法运行时间的加速比speedup 程度上比仅仅添加历史信息得到的聚类效果要好，但该指标反映了聚类算法在指定数据集下运行时也存在上面所提到的一些问题。为了克服以上问题，间的比较情况。定义加速比：提到的FCM(c+p)算法添加了平衡项，通过平衡项 speedup =tfall/tineremental 中的平衡因子去改变数据块间聚类中心的相互影响式中：t表示在整个数据集下采用FCPM算法所运程度，此时即便历史信息远离新增数据，通过合理调行的时间；incremea表示采用增量式算法比如SPF 节平衡因子α的取值也可以使得聚类中心吸引它周 CM、IFCM(c+p)等所运行的时间。围的新增数据，从而提高聚类效果。 2)归一化互信息(normalized mutual informa- tion,NMI)[20-21] 2.3算法复杂度文献[I5]详细介绍了rseFCM、SPFCM算法的时间和空间复杂度，如表1所示，本文提到的CPM NMI 及FCM(c+p)算法的时间和空间复杂度也如表I 会N·会g 所示。其中t表示非增量式算法的迭代次数，t表示增量式算法中每个数据块的平均迭代次数，d表式中：N表示样本总数，N表示经本文聚类算法之后第i簇的样本总数，N表示真实数据集的第j类示数据集维数，c表示未知类的聚类个数，p表示已的样本总数，M表示第i簇与第j类的契合程度，即知类的聚类个数，s表示数据块的个数，。表示在二者共有的样本总数。 IFCM(c+p)算法中距每个数据块的聚类中心最近的 3)芮氏指标(rand index,RI)[20-2] 样本点个数。表1各算法的时间、空间复杂度 foo +f RI = -N(N-1)/2 Table 1 Time and space complexity of algorithms 式中：∫表示样本点具有不同的类标签并且属于不算法时间复杂度空间复杂度同类的配对样本数目，∫，则表示样本点具有相同的 FCPM O(tnd(c p)+te) O(n(d+c+p)) 类标签并且属于同一类的配对样本数目，N表示样 rseFCM 0(te'dn/s) O((d+c)n/s) 本总数。 SPFCM 0(nd'c2) 0((d+c)n/s) 以上NMI、I两种指标，其取值范围均为[O, 1],且取值越靠近1越能反映该聚类算法在某数据 IFCM(c+p)0(t'nd(c p)+t'c)O((d +e+p+no)n/'s) 集下的聚类效果越好，反之越靠近0则反映该聚类如表1所示，本文提到的算法均在相同环境下算法的聚类效果越差。加速比speedup越大反映了运行，都对同一数据集X进行处理，时间复杂度都增量式聚类算法的运行时间越短。为O(n)。然而从第3部分的实验可以看出，各算 3.2实验结果法的运行时间存在着显著不同。对于增量式模糊聚 1)实验环境类算法，由于它们在每个数据块的处理中能够快速本文所有的实验均在如表2的环境中进行。收敛因而可以使得算法总的运行时间减少。 2)实验数据集本文提到的增量式模糊聚类算法都是对数据进实验所选取的数据集包括人工数据集2D15 行分块处理，因此需要计算每个数据块所占用的空 http://www.uef.fi/en/sipu/datasets)UCI http:// 间即为n/s。如表1所示，同seFCM和SPFCM算 archive.ics.uci.edu/ml/datasets..html)、标准数据集法相比，由于IFCM(c+p)算法需要存储聚类中心及 waveform、forest和手写数字数据集MNIST(htp:/ 其周围的一些样本，因此需要占用相对较多的存储 yann.lecun.com/exdb/mnist/)。各数据集的分布情空间，也就拥有相对高的空间复杂度。况如表3。息加入到新增数据中，即每次都有ｃ＋ｎ０个样本点加入到新增数据中参与聚类，那么这些历史信息的加入势必将影响新增数据的聚类效果。如果历史信息恰好位于新增数据附近，则其聚类效果将变好，如果历史信息远离它们，历史信息的加入反而会导致一个很差的聚类效果。对于ＳＰＦＣＭ算法和ＯＦＣＭ算法而言，它们通过添加样本权值以增加聚类效果，在一定程度上比仅仅添加历史信息得到的聚类效果要好，但也存在上面所提到的一些问题。为了克服以上问题，提到的ＩＦＣＭ（ｃ＋ｐ）算法添加了平衡项，通过平衡项中的平衡因子去改变数据块间聚类中心的相互影响程度，此时即便历史信息远离新增数据，通过合理调节平衡因子 α 的取值也可以使得聚类中心吸引它周围的新增数据，从而提高聚类效果。２．３算法复杂度文献［１５］详细介绍了ｒｓｅＦＣＭ、ＳＰＦＣＭ算法的时间和空间复杂度，如表１所示，本文提到的ＦＣＰＭ及ＩＦＣＭ（ｃ＋ｐ）算法的时间和空间复杂度也如表１所示。其中ｔ表示非增量式算法的迭代次数，ｔ＇表示增量式算法中每个数据块的平均迭代次数，ｄ表示数据集维数，ｃ表示未知类的聚类个数，ｐ表示已知类的聚类个数，ｓ表示数据块的个数，ｎ０表示在ＩＦＣＭ（ｃ＋ｐ）算法中距每个数据块的聚类中心最近的样本点个数。表１各算法的时间、空间复杂度Ｔａｂｌｅ１Ｔｉｍｅａｎｄｓｐａｃｅｃｏｍｐｌｅｘｉｔｙｏｆａｌｇｏｒｉｔｈｍｓ算法时间复杂度空间复杂度ＦＣＰＭＯ（ｔｎｄ（ｃ＋ｐ）＋ｔｃ）Ｏ（ｎ（ｄ＋ｃ＋ｐ））ｒｓｅＦＣＭＯ（ｔｃ２ｄｎ／ｓ）Ｏ（（ｄ＋ｃ）ｎ／ｓ）ＳＰＦＣＭＯ（ｎｄｔ′ｃ２）Ｏ（（ｄ＋ｃ）ｎ／ｓ）ＩＦＣＭ（ｃ＋ｐ）Ｏ（ｔ′ｎｄ（ｃ＋ｐ）＋ｔ′ｃ）Ｏ（（ｄ＋ｃ＋ｐ＋ｎ０）ｎ／ｓ）如表１所示，本文提到的算法均在相同环境下运行，都对同一数据集Ｘ进行处理，时间复杂度都为Ｏ（ｎ）。然而从第３部分的实验可以看出，各算法的运行时间存在着显著不同。对于增量式模糊聚类算法，由于它们在每个数据块的处理中能够快速收敛因而可以使得算法总的运行时间减少。本文提到的增量式模糊聚类算法都是对数据进行分块处理，因此需要计算每个数据块所占用的空间即为ｎ／ｓ。如表１所示，同ｒｓｅＦＣＭ和ＳＰＦＣＭ算法相比，由于ＩＦＣＭ（ｃ＋ｐ）算法需要存储聚类中心及其周围的一些样本，因此需要占用相对较多的存储空间，也就拥有相对高的空间复杂度。３相关实验研究３．１评价指标为了公正地对各聚类算法的聚类效果做出合理的评价，本文采用如下３种评价指标进行算法的性能分析。３．１．１算法运行时间的加速比ｓｐｅｅｄｕｐ该指标反映了聚类算法在指定数据集下运行时间的比较情况。定义加速比：ｓｐｅｅｄｕｐ＝ｔｆｕｌｌ／ｔｉｎｃｒｅｍｅｎｔａｌ式中：ｔｆｕｌｌ表示在整个数据集下采用ＦＣＰＭ算法所运行的时间；ｔｉｎｃｒｅｍｅｎｔａｌ表示采用增量式算法比如ＳＰＦ⁃ ＣＭ、ＩＦＣＭ（ｃ＋ｐ）等所运行的时间。２）归一化互信息（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａ⁃ ｔｉｏｎ，ＮＭＩ）［２０⁃２１］ＮＭＩ＝ ∑ ｃｉ＝１ ∑ ｃｊ＝１ＮｊｉｌｏｇＮ·ＮｊｉＮｉ·Ｎｊ æ è ç ö ø ÷ ∑ ｃｉ＝１ＮｉｌｏｇＮｉＮ æ è ç ö ø ÷ · ∑ ｃｊ＝１ＮｊｌｏｇＮｊＮ æ è ç ö ø ÷ 式中：Ｎ表示样本总数，Ｎｉ表示经本文聚类算法之后第ｉ簇的样本总数，Ｎｊ表示真实数据集的第ｊ类的样本总数，Ｎｊｉ表示第ｉ簇与第ｊ类的契合程度，即二者共有的样本总数。３）芮氏指标（ｒａｎｄｉｎｄｅｘ，ＲＩ）［２０⁃２２］ＲＩ＝ｆ００＋ｆ１１Ｎ（Ｎ－１）／２式中：ｆ００表示样本点具有不同的类标签并且属于不同类的配对样本数目，ｆ１１则表示样本点具有相同的类标签并且属于同一类的配对样本数目，Ｎ表示样本总数。以上ＮＭＩ、ＲＩ两种指标，其取值范围均为［０，１］，且取值越靠近１越能反映该聚类算法在某数据集下的聚类效果越好，反之越靠近０则反映该聚类算法的聚类效果越差。加速比ｓｐｅｅｄｕｐ越大反映了增量式聚类算法的运行时间越短。３．２实验结果１）实验环境本文所有的实验均在如表２的环境中进行。２）实验数据集实验所选取的数据集包括人工数据集２Ｄ１５（ｈｔｔｐ：／／ｗｗｗ．ｕｅｆ．ｆｉ／ｅｎ／ｓｉｐｕ／ｄａｔａｓｅｔｓ）、ＵＣＩ（ｈｔｔｐ：／／ａｒｃｈｉｖｅ．ｉｃｓ．ｕｃｉ．ｅｄｕ／ｍｌ／ｄａｔａｓｅｔｓ．ｈｔｍｌ）、标准数据集ｗａｖｅｆｏｒｍ、ｆｏｒｅｓｔ和手写数字数据集ＭＮＩＳＴ（ｈｔｔｐ：／／ｙａｎｎ．ｌｅｃｕｎ．ｃｏｍ／ｅｘｄｂ／ｍｎｉｓｔ／）。各数据集的分布情况如表３。 ·１９２· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】适合大规模数据集的增量式模糊聚类算法编辑部