数（ｍ＝２，ε ＝１０－５，Ｔ＝１００，Ｃ＝１０

正在加载图片...

·848. 智能系统学报第10卷数(m=2,e=10-5,T=100,C=10-5)。实验将重算法一样应用于FCM聚类算法中以评价。复每个聚类过程20次，实验结果取其均值。 3.3实验结果与分析为了评估聚类效果，采用一种类似F,-measure 对于各个数据集，本文所提出算法与其他算法的成对约束评价方法，评价参数包括：pairwise Preci- 在8个数据集上的实验结果对比如图1所示，其中 sion,pairwise Recall和pairwise F,定义为[ 每一个子图的纵坐标表示了各个算法在相同参数下 #TruePositive 在该数据集上的聚类效果的评价指标均值，横坐标 Precision #TruePositive +#FalsePositive 上的柱形分为3组，每一组分别表示F,、precsion和 #TruePositive Recall = recall。每个颜色代表一个算法，从左至右分别为 #TruePositive #FalseNegative FCM算法[a,C-Euc算法[)，PGDM-Ad算法[)， 2 X Precision×Recall F1= PGDM-Af算法[]和HDFCM算法，数据集名称标注 Precision Recall 在图标题上。表2展示了本文算法相对于传统式中：#TruePositive为将正约束对预测为正约束对 FCM算法聚类效果的提升率，提升率使用如下公式的个数，#FalsePositive为将负约束对预测为正约束计算得到：对的个数，#FalseNegative为将正约束对预测为负 HDFCM_F FCM_F 约束对的个数。由于该评价方法的对象为约束对，提升率= -×100% FCM_F 因此不仅可以应用于二分类的评价，也可应用于多从图1可以看出，本文提出的算法在大部分数类分类的评价。据集上获得了最好的表现。相对于其他距离学习算 3.2对比算法法而言，本文算法在sonar数据集和cmc数据集中本文使用了若干经典距离学习算法进行对比，虽未获得最好的表现，但是结合表2可以发现本文包括：使用欧式距离的传统FCM算法(FCM),使用算法的聚类效果相对于传统CM算法仍有一定的欧氏距离但含有约束条件的K-均值聚类算法(C- 提升。由于本文使用的距离分量有限，因此对于不 Ec)【2),基于凸优化的全局距离学习算法(PG 同的数据集不一定能拟合出最适合于该数据集的距 DM)[3] 离度量。此外，从表2可以观察到，本文算法在与本文提出的算法类似，C-Euc算法也是一种利 breast数据集和wine数据集上有相当卓越的表现。用边信息进行距离学习的半监督聚类算法，它在传统结合图1和表1可以得出，本文算法不仅适用 K-均值算法的基础上加上成对约束，在这些约束的监于2类数据集，对于多类数据集也有较好的聚类效督下进行聚类。C-Euc算法在聚类的过程中要求每果。比如，2类数据集breast,3类数据集wine,7类一次划分都满足已知的约束条件，每个样本在没有违数据集segment在聚类效果上均取得了30%以上的反约束条件的情况下，被划分给最近的类，最终得到提升。的聚类结果将满足所有的约束对信息[]。 1.0 PGDM算法由Xing等提出，是一种基于凸优化 0.8 的全局距离度量学习算法。它将正约束对构成的集合记为S,负约束对构成的集合记为D。通过以下凸优化问题对距离矩阵A进行求解： FCM min∑Ix-x,I C-Euc (xi》eS 0.2 PGDM-Ad GDM-Af st.∑‖x-xI4≥1，A≥0 HDFCM ()eD F precision recall (a)breast 式中：Ⅱ：，‖A=√(x,)A(,x)表示2个 1.0 样本点x,和x之间的距离。根据预期得到的矩阵 0.8 A的不同将有不同的解法。如果期望得到对角形式的距离矩阵，可以通过牛顿法进行求解，本文将此算 0.6 法记为PGDM-Ad。如果期待得到全矩阵形式的距 0.4 IFCM 离矩阵，则可以通过梯度下降和逐次映射的方法进 C-Euc 0.2 PGDM-Ad 行求解，本文将此算法记为PGDM-Af。为了保证对 PGDM-AF HDFCM 比性，在实验中本文将学习得到的距离矩阵和本文 precision recall (b)sonar数（ｍ＝２，ε ＝１０－５，Ｔ＝１００，Ｃ＝１０－５）。实验将重复每个聚类过程２０次，实验结果取其均值。为了评估聚类效果，采用一种类似Ｆ１ ⁃ｍｅａｓｕｒｅ的成对约束评价方法，评价参数包括：ｐａｉｒｗｉｓｅＰｒｅｃｉ⁃ ｓｉｏｎ，ｐａｉｒｗｉｓｅＲｅｃａｌｌ和ｐａｉｒｗｉｓｅＦ１，定义为［２］Ｐｒｅｃｉｓｉｏｎ＝＃ＴｒｕｅＰｏｓｉｔｉｖｅ＃ＴｒｕｅＰｏｓｉｔｉｖｅ＋＃ＦａｌｓｅＰｏｓｉｔｉｖｅＲｅｃａｌｌ＝＃ＴｒｕｅＰｏｓｉｔｉｖｅ＃ＴｒｕｅＰｏｓｉｔｉｖｅ＋＃ＦａｌｓｅＮｅｇａｔｉｖｅＦ１＝２ × Ｐｒｅｃｉｓｉｏｎ × ＲｅｃａｌｌＰｒｅｃｉｓｉｏｎ＋Ｒｅｃａｌｌ式中：＃ＴｒｕｅＰｏｓｉｔｉｖｅ为将正约束对预测为正约束对的个数，＃ＦａｌｓｅＰｏｓｉｔｉｖｅ为将负约束对预测为正约束对的个数，＃ＦａｌｓｅＮｅｇａｔｉｖｅ为将正约束对预测为负约束对的个数。由于该评价方法的对象为约束对，因此不仅可以应用于二分类的评价，也可应用于多类分类的评价。３．２对比算法本文使用了若干经典距离学习算法进行对比，包括：使用欧式距离的传统ＦＣＭ算法（ＦＣＭ），使用欧氏距离但含有约束条件的Ｋ⁃均值聚类算法（Ｃ⁃ Ｅｕｃ）［１２］，基于凸优化的全局距离学习算法（ＰＧ⁃ ＤＭ）［３］。与本文提出的算法类似，Ｃ⁃Ｅｕｃ算法也是一种利用边信息进行距离学习的半监督聚类算法，它在传统Ｋ⁃均值算法的基础上加上成对约束，在这些约束的监督下进行聚类。Ｃ⁃Ｅｕｃ算法在聚类的过程中要求每一次划分都满足已知的约束条件，每个样本在没有违反约束条件的情况下，被划分给最近的类，最终得到的聚类结果将满足所有的约束对信息［１３］。ＰＧＤＭ算法由Ｘｉｎｇ等提出，是一种基于凸优化的全局距离度量学习算法。它将正约束对构成的集合记为Ｓ，负约束对构成的集合记为Ｄ。通过以下凸优化问题对距离矩阵Ａ进行求解：ｍｉｎＡ（ｘ∑ｉ，ｘｊ）∈Ｓ ‖ ｘｉ－ｘｊ‖２Ａｓ．ｔ．（ｘ∑ｉ，ｘｊ）∈Ｄ ‖ ｘｉ－ｘｊ‖Ａ ≥ １，Ａ ≥ ０式中： ‖ ｘｉ，ｘｊ‖Ａ＝（ｘｉ，ｘｊ）ＴＡ（ｘｉ，ｘｊ）表示２个样本点ｘｉ和ｘｊ之间的距离。根据预期得到的矩阵Ａ的不同将有不同的解法。如果期望得到对角形式的距离矩阵，可以通过牛顿法进行求解，本文将此算法记为ＰＧＤＭ⁃Ａｄ。如果期待得到全矩阵形式的距离矩阵，则可以通过梯度下降和逐次映射的方法进行求解，本文将此算法记为ＰＧＤＭ⁃Ａｆ。为了保证对比性，在实验中本文将学习得到的距离矩阵和本文算法一样应用于ＦＣＭ聚类算法中以评价。３．３实验结果与分析对于各个数据集，本文所提出算法与其他算法在８个数据集上的实验结果对比如图１所示，其中每一个子图的纵坐标表示了各个算法在相同参数下在该数据集上的聚类效果的评价指标均值，横坐标上的柱形分为３组，每一组分别表示Ｆ１、ｐｒｅｃｓｉｏｎ和ｒｅｃａｌｌ。每个颜色代表一个算法，从左至右分别为ＦＣＭ算法［１４］，Ｃ⁃Ｅｕｃ算法［１２］，ＰＧＤＭ⁃Ａｄ算法［３］，ＰＧＤＭ⁃Ａｆ算法［３］和ＨＤＦＣＭ算法，数据集名称标注在图标题上。表２展示了本文算法相对于传统ＦＣＭ算法聚类效果的提升率，提升率使用如下公式计算得到：提升率＝ＨＤＦＣＭ＿Ｆ１－ＦＣＭ＿Ｆ１ＦＣＭ＿Ｆ１ × １００％从图１可以看出，本文提出的算法在大部分数据集上获得了最好的表现。相对于其他距离学习算法而言，本文算法在ｓｏｎａｒ数据集和ｃｍｃ数据集中虽未获得最好的表现，但是结合表２可以发现本文算法的聚类效果相对于传统ＦＣＭ算法仍有一定的提升。由于本文使用的距离分量有限，因此对于不同的数据集不一定能拟合出最适合于该数据集的距离度量。此外，从表２可以观察到，本文算法在ｂｒｅａｓｔ数据集和ｗｉｎｅ数据集上有相当卓越的表现。结合图１和表１可以得出，本文算法不仅适用于２类数据集，对于多类数据集也有较好的聚类效果。比如，２类数据集ｂｒｅａｓｔ，３类数据集ｗｉｎｅ，７类数据集ｓｅｇｍｅｎｔ在聚类效果上均取得了３０％以上的提升。 ·８４８· 智能系统学报第１０卷

<<向上翻页向下翻页>>

点击下载：【人工智能基础】基于最大间隔理论的组合距离学习算法编辑部