正在加载图片...
·314· 智能系统学报 第11卷 集、UCI真实数据集以及文本数据集进行相关的实 验验证。 35 在进行聚类结果评价时,选取了相关的4种聚 吃 类评价指标:正确率AC(Accuracy)u)、归一化互信 5 息NM(normalized mutual information),]、芮氏指 标RI(Rand Index),9和F-measure。4个指标 10 的值域均在0到1,值越大表示聚类质量越好。 实验中选取了LSSMTCU、Co-Clustering) 5 FPCM、TSC)]、T-GIP-FCM四算法进行对比实实 验:评价结果将进行10次计算取平均值。 -10 510 152025 3.1人工数据集 为了模拟源场景和当前目标场景,实验使用文 (a)数据集Setl 献[11]的方法:首先利用高斯函数生成相关的数据 40 集,随机生成类别数为3,每类250个样本点,每个 样本点为两微的源场景数据,如图1所示。 30 50 20 40 ·器 10 30 0 -10 -10 -5051015202530 0 24 0 (b)数据集Set2 class-1 .class-2 图2目标数据集 -10 *class-3 Fig.2 Target dataset -10-505 1015202530 k 两个数据集分别模拟当前的数据样本信息匮乏 (数据不足)、充足(数据足够)但是受污染(有噪 图1源数据 声)的不同情况下进行聚类。 Fig.1 Source Dataset 实验时,SS-FPCM,TSS-FPCM,ITSS-FPCM算法 如图2所示,同样利用高斯分布函数产生当前 需要已知部分源标签,随机从源数据中抽取3%的 数据集Set1和Set2两个数据集:其中Setl每类样 样本作为已知标签数据进行实验,实验结果如表1 本数目为20,如图2(a)所示:Set2每类样本数目为 所示,表格中“一”表示该数据集不满足算法运行的 100,再向其中加入高斯噪声构成,如图2(b)所示。 基本条件。 表18个算法在人工数据集的对比 Tablel Comparison of 8 algorithms on artificial data sets 算法 数据集 评价指标 LSSMTC Co-Clustering FPCM TSC T-GIFP-FCM SS-FPCM TSS-FPCM ITSS-FPCM F-measure 0.8981 0.8837 0.8658 0.8956 0.9017 0.9017 0.9159 RI 0.8729 0.8593 0.8435 0.8627 0.8842 0.8842 0.8955 Setl AC 0.9000 0.8833 0.8667 一 0.8933 0.9000 0.9000 0.9167 NMI 0.7067 0.7434 0.6561 一 0.7364 0.7322 0.7322 0.7698 F-measure 0.8771 0.9117 0.9010 一 0.9184 0.9107 0.9124 0.9538 RI 0.8615 0.8698 0.8847 0.8967 0.8920 0.8920 0.9410 Set2 AC 0.8467 0.9010 0.9000 0.9200 0.9100 0.9133 0.9542 NMI 0.7187 0.7705 0.7616 0.8016 0.7810 0.7880 0.8444集、UCI 真实数据集以及文本数据集进行相关的实 验验证。 在进行聚类结果评价时,选取了相关的 4 种聚 类评价指标:正确率 AC(Accuracy) [18] 、归一化互信 息 NMI(normalized mutual information) [11,18] 、芮氏指 标 RI(Rand Index) [11,19] 和 F⁃measure [19] 。 4 个指标 的值域均在 0 到 1,值越大表示聚类质量越好。 实验 中 选 取 了 LSSMTC [18] 、 Co⁃Clustering [20] 、 FPCM、TSC [12] 、T⁃GIFP⁃FCM [11] 算法进行对比实实 验;评价结果将进行 10 次计算取平均值。 3.1 人工数据集 为了模拟源场景和当前目标场景,实验使用文 献[11]的方法:首先利用高斯函数生成相关的数据 集,随机生成类别数为 3,每类 250 个样本点,每个 样本点为两微的源场景数据,如图 1 所示。 图 1 源数据 Fig.1 Source Dataset 如图 2 所示,同样利用高斯分布函数产生当前 数据集 Set1 和 Set2 两个数据集;其中 Set1 每类样 本数目为 20,如图 2(a)所示;Set2 每类样本数目为 100,再向其中加入高斯噪声构成,如图 2(b)所示。 (a)数据集 Set1 (b)数据集 Set2 图 2 目标数据集 Fig.2 Target dataset 两个数据集分别模拟当前的数据样本信息匮乏 (数据不足)、充足(数据足够) 但是受污染(有噪 声)的不同情况下进行聚类。 实验时,SS⁃FPCM,TSS⁃FPCM,ITSS⁃FPCM 算法 需要已知部分源标签,随机从源数据中抽取 3%的 样本作为已知标签数据进行实验,实验结果如表 1 所示,表格中“—”表示该数据集不满足算法运行的 基本条件。 表 1 8 个算法在人工数据集的对比 Table1 Comparison of 8 algorithms on artificial data sets 数据集 评价指标 算法 LSSMTC Co⁃Clustering FPCM TSC T⁃GIFP⁃FCM SS⁃FPCM TSS⁃FPCM ITSS⁃FPCM Set1 F⁃measure 0.898 1 0.883 7 0.865 8 — 0.895 6 0.901 7 0.901 7 0.915 9 RI 0.872 9 0.859 3 0.843 5 — 0.862 7 0.884 2 0.884 2 0.895 5 AC 0.900 0 0.883 3 0.866 7 — 0.893 3 0.900 0 0.900 0 0.916 7 NMI 0.706 7 0.743 4 0.656 1 — 0.736 4 0.732 2 0.732 2 0.769 8 Set2 F⁃measure 0.877 1 0.911 7 0.901 0 — 0.918 4 0.910 7 0.912 4 0.953 8 RI 0.861 5 0.869 8 0.884 7 — 0.896 7 0.892 0 0.892 0 0.941 0 AC 0.846 7 0.901 0 0.900 0 — 0.920 0 0.910 0 0.913 3 0.954 2 NMI 0.718 7 0.770 5 0.761 6 — 0.801 6 0.781 0 0.788 0 0.844 4 ·314· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有