我们将进一步将聚类集成问题构造为一个二部图模型。在所构造的二部图模型中

正在加载图片...

第3期黄栋，等：基于决策加权的聚类集成算法 ·421· 我们将进一步将聚类集成问题构造为一个二部图模是Glass、Ecoli、Image Segmentation(IS)、MNIST 型。在所构造的二部图模型中，聚类集合中各个聚 ISOLET、Pen Digits(PD)、USPS以及Letter Recog- 类成员的簇与数据点同时作为节点。簇节点与簇节 nition(LR)。其中，除MNIST数据集来自于文献点之间不存在连接边：数据点节点与数据点节点之 [18]之外，其他7个数据集均来自于UCI机器学习间亦不存在连接边。两个节点之间存在连接边，当数据仓库(UCI machine learning repository)【o。所且仅当其中一个节点是数据点节点，另一个节点是用的测试数据集的具体情况如表1所示。簇节点，并且该数据点位于该簇之内。边的权值由表1实验数据集该簇所在的聚类成员的权值决定（见式(3）)。由 Table 1 Description of datasets 此，可得到一个二部图结构，其左部为数据点节点的数据集数据点数维度类别数集合，右部为簇节点的集合。我们将该二部图结构 Glass 214 9 7 表示为 Ecoli 336 7 8 G=(U,V,E) 9 2310 19 7 式中：U=X表示左部节点集（数据点集合），V=C表示右部节点集（簇集合），E表示边的集合。给定两 MNIST 5000 784 10 个节点u,和v,两者之间的边的权值定义为 ISOLET 7797 617 26 (w(T()), :∈X,y∈C,4:∈ PD 10992 16 10 e= 0. 否则 USPS 11000 256 10 式中：π(e)表示簇U所在的聚类成员，即如果巴∈ LR 20000 16 26 π，则T(u)=π。 3.2实验设置与评价指标接下来，利用图G的二部图结构，我们采用在本文实验中，我们首先需要生成一个包含若 Tcut算法[1将图G快速地分割为若千块，进而将每干聚类成员的聚类集合，以对比分析本文方法以及一块中数据点集合作为最终聚类的一个簇，由此可其他聚类集成方法的聚类效果。具体地，我们在每以得到最终聚类结果。一次运行中使用k均值聚类算法生成M个聚类成 2.4时间复杂度员，每一个聚类成员的生成均采用随机初始化，并在第2.3节所构造的二部图G包含有N+N。个节区间[2，√厅]中随机选取初始聚类个数k。对于点，其中N是数据点个数，Nc是簇个数。如果使用每一个方法在每一个数据集上的实验，我们均运行经典的Ncut算法[9)对图G进行分割，其时间复杂 10次（每次使用随机生成的聚类集合，如前所述），度是O(k(N+N)32),其中k是图分割的块数。与然后得到各个方法的平均性能得分，以实现客观公之相比，本文采用的Tcut算法[9)可利用图G的二平的对比与分析。部图结构，进行快速图分割，其时间复杂度是我们将聚类成员个数M称为聚类集成规模：将 O(kWN+kN2):考虑式(3)中权值计算的复杂度是数据集的数据点数N称为数据规模。在后续实验 O(N),故本文总体算法的时间复杂度即是中，我们首先固定聚类集成规模M=10,接下来分别 O(kW+kN)。由于在实际聚类问题中数据点个进行本文方法与聚类成员以及与其他聚类集成方法数N通常远大于簇个数N。,因此使用Tcut算法相当的对比实验，并进一步测试在不同聚类集成规模M 于可使时间复杂度由O(kN2)降低至O(kN)。当下各个聚类集成方法的聚类表现。最后，将对比测面对大数据集时，本文算法在运算效率上的优势尤试各个聚类集成方法的运算效率。在本文实验中，其显著；在本文后续的对比实验中，本文聚类集成算采用标准互信息量(normalized mutual information, 法相比于现有算法的效率优势也得到了验证。 NMI)山作为评价指标。NMI可根据两个聚类之间 3 实验结果与分析的互信息量来度量其相似性，是聚类研究中被广泛应用的一个评价指标。一个聚类结果（与真实聚类在本节中，我们将在多个实际数据集中进行实比较)的NMI值越大，则表示其聚类质量越好。验，与若干现有聚类集成算法进行对比分析，以验证 3.3与聚类成员的对比实验本文方法的有效性及运算效率。聚类集成的目标是融合多个聚类成员的信息以 3.1数据集期得到一个更优聚类。在本节中，我们将本文方法本文的实验一共使用了8个实际数据集，分别的聚类集成结果，与聚类成员进行对比实验。在每我们将进一步将聚类集成问题构造为一个二部图模型。在所构造的二部图模型中，聚类集合中各个聚类成员的簇与数据点同时作为节点。簇节点与簇节点之间不存在连接边；数据点节点与数据点节点之间亦不存在连接边。两个节点之间存在连接边，当且仅当其中一个节点是数据点节点，另一个节点是簇节点，并且该数据点位于该簇之内。边的权值由该簇所在的聚类成员的权值决定（见式（３））。由此，可得到一个二部图结构，其左部为数据点节点的集合，右部为簇节点的集合。我们将该二部图结构表示为Ｇ＝（Ｕ，Ｖ，Ｅ）式中：Ｕ＝Ｘ表示左部节点集（数据点集合），Ｖ＝Ｃ表示右部节点集（簇集合），Ｅ表示边的集合。给定两个节点ｕｉ和ｖｊ，两者之间的边的权值定义为ｅｉｊ＝ｗ π ｖｊ ( ( ) ) ，ｕｉ ∈ Ｘ，ｖｊ ∈ Ｃ，ｕｉ ∈ ｖｊ {０，否则式中：π ｖｊ ( ) 表示簇ｖｊ所在的聚类成员，即如果ｖｊ ∈ π ｍ，则 π ｖｊ ( ) ＝π ｍ。接下来，利用图Ｇ的二部图结构，我们采用Ｔｃｕｔ算法［１９］将图Ｇ快速地分割为若干块，进而将每一块中数据点集合作为最终聚类的一个簇，由此可以得到最终聚类结果。２．４时间复杂度第２．３节所构造的二部图Ｇ包含有Ｎ＋Ｎｃ个节点，其中Ｎ是数据点个数，Ｎｃ是簇个数。如果使用经典的Ｎｃｕｔ算法［１９］对图Ｇ进行分割，其时间复杂度是ＯｋＮ＋Ｎｃ ( ) ３／２ ( ) ，其中ｋ是图分割的块数。与之相比，本文采用的Ｔｃｕｔ算法［１９］可利用图Ｇ的二部图结构，进行快速图分割，其时间复杂度是ＯｋＮ＋ｋＮｃ３／２ ( ) ；考虑式（３）中权值计算的复杂度是Ｏ (Ｎ) ，故本文总体算法的时间复杂度即是ＯｋＮ＋ｋＮｃ３／２ ( ) 。由于在实际聚类问题中数据点个数Ｎ通常远大于簇个数Ｎｃ，因此使用Ｔｃｕｔ算法相当于可使时间复杂度由ＯｋＮ３／２ ( ) 降低至Ｏ(ｋＮ) 。当面对大数据集时，本文算法在运算效率上的优势尤其显著；在本文后续的对比实验中，本文聚类集成算法相比于现有算法的效率优势也得到了验证。３实验结果与分析在本节中，我们将在多个实际数据集中进行实验，与若干现有聚类集成算法进行对比分析，以验证本文方法的有效性及运算效率。３．１数据集本文的实验一共使用了８个实际数据集，分别是Ｇｌａｓｓ、Ｅｃｏｌｉ、ＩｍａｇｅＳｅｇｍｅｎｔａｔｉｏｎ（ＩＳ）、ＭＮＩＳＴ、ＩＳＯＬＥＴ、ＰｅｎＤｉｇｉｔｓ（ＰＤ）、ＵＳＰＳ以及ＬｅｔｔｅｒＲｅｃｏｇ⁃ ｎｉｔｉｏｎ（ＬＲ）。其中，除ＭＮＩＳＴ数据集来自于文献［１８］之外，其他７个数据集均来自于ＵＣＩ机器学习数据仓库（ＵＣＩｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｐｏｓｉｔｏｒｙ）［２０］。所用的测试数据集的具体情况如表１所示。表１实验数据集Ｔａｂｌｅ１Ｄｅｓｃｒｉｐｔｉｏｎｏｆｄａｔａｓｅｔｓ数据集数据点数维度类别数Ｇｌａｓｓ２１４９７Ｅｃｏｌｉ３３６７８ＩＳ２３１０１９７ＭＮＩＳＴ５０００７８４１０ＩＳＯＬＥＴ７７９７６１７２６ＰＤ１０９９２１６１０ＵＳＰＳ１１０００２５６１０ＬＲ２００００１６２６３．２实验设置与评价指标在本文实验中，我们首先需要生成一个包含若干聚类成员的聚类集合，以对比分析本文方法以及其他聚类集成方法的聚类效果。具体地，我们在每一次运行中使用ｋ均值聚类算法生成Ｍ个聚类成员，每一个聚类成员的生成均采用随机初始化，并在区间 [２，Ｎ ] 中随机选取初始聚类个数ｋ。对于每一个方法在每一个数据集上的实验，我们均运行１０次（每次使用随机生成的聚类集合，如前所述），然后得到各个方法的平均性能得分，以实现客观公平的对比与分析。我们将聚类成员个数Ｍ称为聚类集成规模；将数据集的数据点数Ｎ称为数据规模。在后续实验中，我们首先固定聚类集成规模Ｍ＝１０，接下来分别进行本文方法与聚类成员以及与其他聚类集成方法的对比实验，并进一步测试在不同聚类集成规模Ｍ下各个聚类集成方法的聚类表现。最后，将对比测试各个聚类集成方法的运算效率。在本文实验中，采用标准互信息量（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ，ＮＭＩ）［１］作为评价指标。ＮＭＩ可根据两个聚类之间的互信息量来度量其相似性，是聚类研究中被广泛应用的一个评价指标。一个聚类结果（与真实聚类比较）的ＮＭＩ值越大，则表示其聚类质量越好。３．３与聚类成员的对比实验聚类集成的目标是融合多个聚类成员的信息以期得到一个更优聚类。在本节中，我们将本文方法的聚类集成结果，与聚类成员进行对比实验。在每第３期黄栋，等：基于决策加权的聚类集成算法 ·４２１·

<<向上翻页向下翻页>>

点击下载：【机器学习】基于决策加权的聚类集成算法编辑部