正在加载图片...
·192· 智能系统学报 第11卷 息加入到新增数据中,即每次都有c+n。个样本点加 3 相关实验研究 入到新增数据中参与聚类,那么这些历史信息的加入 势必将影响新增数据的聚类效果。如果历史信息恰 3.1评价指标 好位于新增数据附近,则其聚类效果将变好,如果历 为了公正地对各聚类算法的聚类效果做出合理 史信息远离它们,历史信息的加入反而会导致一个很 的评价,本文采用如下3种评价指标进行算法的性 差的聚类效果。对于SPFCM算法和OFCM算法而 能分析。 言,它们通过添加样本权值以增加聚类效果,在一定 3.l.1算法运行时间的加速比speedup 程度上比仅仅添加历史信息得到的聚类效果要好,但 该指标反映了聚类算法在指定数据集下运行时 也存在上面所提到的一些问题。为了克服以上问题, 间的比较情况。定义加速比: 提到的FCM(c+p)算法添加了平衡项,通过平衡项 speedup =tfall/tineremental 中的平衡因子去改变数据块间聚类中心的相互影响 式中:t表示在整个数据集下采用FCPM算法所运 程度,此时即便历史信息远离新增数据,通过合理调 行的时间;incremea表示采用增量式算法比如SPF 节平衡因子α的取值也可以使得聚类中心吸引它周 CM、IFCM(c+p)等所运行的时间。 围的新增数据,从而提高聚类效果。 2)归一化互信息(normalized mutual informa- tion,NMI)[20-21] 2.3算法复杂度 文献[I5]详细介绍了rseFCM、SPFCM算法的 时间和空间复杂度,如表1所示,本文提到的CPM NMI 及FCM(c+p)算法的时间和空间复杂度也如表I 会N·会g 所示。其中t表示非增量式算法的迭代次数,t表 示增量式算法中每个数据块的平均迭代次数,d表 式中:N表示样本总数,N表示经本文聚类算法之 后第i簇的样本总数,N表示真实数据集的第j类 示数据集维数,c表示未知类的聚类个数,p表示已 的样本总数,M表示第i簇与第j类的契合程度,即 知类的聚类个数,s表示数据块的个数,。表示在 二者共有的样本总数。 IFCM(c+p)算法中距每个数据块的聚类中心最近的 3)芮氏指标(rand index,RI)[20-2] 样本点个数。 表1各算法的时间、空间复杂度 foo +f RI = -N(N-1)/2 Table 1 Time and space complexity of algorithms 式中:∫表示样本点具有不同的类标签并且属于不 算法 时间复杂度 空间复杂度 同类的配对样本数目,∫,则表示样本点具有相同的 FCPM O(tnd(c p)+te) O(n(d+c+p)) 类标签并且属于同一类的配对样本数目,N表示样 rseFCM 0(te'dn/s) O((d+c)n/s) 本总数。 SPFCM 0(nd'c2) 0((d+c)n/s) 以上NMI、I两种指标,其取值范围均为[O, 1],且取值越靠近1越能反映该聚类算法在某数据 IFCM(c+p)0(t'nd(c p)+t'c)O((d +e+p+no)n/'s) 集下的聚类效果越好,反之越靠近0则反映该聚类 如表1所示,本文提到的算法均在相同环境下 算法的聚类效果越差。加速比speedup越大反映了 运行,都对同一数据集X进行处理,时间复杂度都 增量式聚类算法的运行时间越短。 为O(n)。然而从第3部分的实验可以看出,各算 3.2实验结果 法的运行时间存在着显著不同。对于增量式模糊聚 1)实验环境 类算法,由于它们在每个数据块的处理中能够快速 本文所有的实验均在如表2的环境中进行。 收敛因而可以使得算法总的运行时间减少。 2)实验数据集 本文提到的增量式模糊聚类算法都是对数据进 实验所选取的数据集包括人工数据集2D15 行分块处理,因此需要计算每个数据块所占用的空 http://www.uef.fi/en/sipu/datasets)UCI http:// 间即为n/s。如表1所示,同seFCM和SPFCM算 archive.ics.uci.edu/ml/datasets..html)、标准数据集 法相比,由于IFCM(c+p)算法需要存储聚类中心及 waveform、forest和手写数字数据集MNIST(htp:/ 其周围的一些样本,因此需要占用相对较多的存储 yann.lecun.com/exdb/mnist/)。各数据集的分布情 空间,也就拥有相对高的空间复杂度。 况如表3。息加入到新增数据中,即每次都有 c + n0 个样本点加 入到新增数据中参与聚类,那么这些历史信息的加入 势必将影响新增数据的聚类效果。 如果历史信息恰 好位于新增数据附近,则其聚类效果将变好,如果历 史信息远离它们,历史信息的加入反而会导致一个很 差的聚类效果。 对于 SPFCM 算法和 OFCM 算法而 言,它们通过添加样本权值以增加聚类效果,在一定 程度上比仅仅添加历史信息得到的聚类效果要好,但 也存在上面所提到的一些问题。 为了克服以上问题, 提到的 IFCM(c+p)算法添加了平衡项,通过平衡项 中的平衡因子去改变数据块间聚类中心的相互影响 程度,此时即便历史信息远离新增数据,通过合理调 节平衡因子 α 的取值也可以使得聚类中心吸引它周 围的新增数据,从而提高聚类效果。 2.3 算法复杂度 文献[15] 详细介绍了 rseFCM、SPFCM 算法的 时间和空间复杂度,如表 1 所示,本文提到的 FCPM 及 IFCM( c+p) 算法的时间和空间复杂度也如表 1 所示。 其中 t 表示非增量式算法的迭代次数, t ' 表 示增量式算法中每个数据块的平均迭代次数, d 表 示数据集维数, c 表示未知类的聚类个数, p 表示已 知类的聚类个数, s 表示数据块的个数, n0 表示在 IFCM(c+p)算法中距每个数据块的聚类中心最近的 样本点个数。 表 1 各算法的时间、空间复杂度 Table 1 Time and space complexity of algorithms 算法 时间复杂度 空间复杂度 FCPM O(tnd(c + p) + tc) O(n(d + c + p)) rseFCM O(tc 2 dn / s) O((d + c)n / s) SPFCM O(ndt′c 2 ) O((d + c)n / s) IFCM(c+p) O(t′nd(c + p) + t′c) O((d + c + p + n0 )n / s) 如表 1 所示,本文提到的算法均在相同环境下 运行,都对同一数据集 X 进行处理,时间复杂度都 为 O(n) 。 然而从第 3 部分的实验可以看出,各算 法的运行时间存在着显著不同。 对于增量式模糊聚 类算法,由于它们在每个数据块的处理中能够快速 收敛因而可以使得算法总的运行时间减少。 本文提到的增量式模糊聚类算法都是对数据进 行分块处理,因此需要计算每个数据块所占用的空 间即为 n / s 。 如表 1 所示,同 rseFCM 和 SPFCM 算 法相比,由于 IFCM(c+p)算法需要存储聚类中心及 其周围的一些样本,因此需要占用相对较多的存储 空间,也就拥有相对高的空间复杂度。 3 相关实验研究 3.1 评价指标 为了公正地对各聚类算法的聚类效果做出合理 的评价,本文采用如下 3 种评价指标进行算法的性 能分析。 3.1.1 算法运行时间的加速比 speedup 该指标反映了聚类算法在指定数据集下运行时 间的比较情况。 定义加速比: speedup = t full / t incremental 式中: t full 表示在整个数据集下采用 FCPM 算法所运 行的时间; t incremental 表示采用增量式算法比如 SPF⁃ CM、IFCM(c+p)等所运行的时间。 2) 归一化互信息 ( normalized mutual informa⁃ tion,NMI) [20⁃21] NMI = ∑ c i = 1 ∑ c j = 1 N j i log N·N j i Ni·Nj æ è ç ö ø ÷ ∑ c i = 1 Ni log Ni N æ è ç ö ø ÷ · ∑ c j = 1 Nj log Nj N æ è ç ö ø ÷ 式中: N 表示样本总数, Ni 表示经本文聚类算法之 后第 i 簇的样本总数, Nj 表示真实数据集的第 j 类 的样本总数, N j i 表示第 i 簇与第 j 类的契合程度,即 二者共有的样本总数。 3)芮氏指标(rand index,RI) [20⁃22] RI = f 00 + f 11 N(N - 1) / 2 式中: f 00 表示样本点具有不同的类标签并且属于不 同类的配对样本数目, f 11 则表示样本点具有相同的 类标签并且属于同一类的配对样本数目, N 表示样 本总数。 以上 NMI、RI 两种指标,其取值范围均为[ 0, 1],且取值越靠近 1 越能反映该聚类算法在某数据 集下的聚类效果越好,反之越靠近 0 则反映该聚类 算法的聚类效果越差。 加速比 speedup 越大反映了 增量式聚类算法的运行时间越短。 3.2 实验结果 1)实验环境 本文所有的实验均在如表 2 的环境中进行。 2)实验数据集 实验所选取的数据集包括人工数据集 2D15 ( http: / / www. uef. fi / en / sipu / datasets)、UCI ( http: / / archive.ics. uci. edu / ml / datasets. html)、 标准数据集 waveform、forest 和手写数字数据集 MNIST( http: / / yann.lecun. com / exdb / mnist / )。 各数据集的分布情 况如表 3。 ·192· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有