集、ＵＣＩ真实数据集以及文本数据集进行相关的实验验证。在进行聚类结果

正在加载图片...

·314· 智能系统学报第11卷集、UCI真实数据集以及文本数据集进行相关的实验验证。 35 在进行聚类结果评价时，选取了相关的4种聚吃类评价指标：正确率AC(Accuracy)u)、归一化互信 5 息NM(normalized mutual information),]、芮氏指标RI(Rand Index),9和F-measure。4个指标 10 的值域均在0到1，值越大表示聚类质量越好。实验中选取了LSSMTCU、Co-Clustering) 5 FPCM、TSC)]、T-GIP-FCM四算法进行对比实实验：评价结果将进行10次计算取平均值。 -10 510 152025 3.1人工数据集为了模拟源场景和当前目标场景，实验使用文 (a)数据集Setl 献[11]的方法：首先利用高斯函数生成相关的数据 40 集，随机生成类别数为3，每类250个样本点，每个样本点为两微的源场景数据，如图1所示。 30 50 20 40 ·器 10 30 0 -10 -10 -5051015202530 0 24 0 (b)数据集Set2 class-1 .class-2 图2目标数据集 -10 *class-3 Fig.2 Target dataset -10-505 1015202530 k 两个数据集分别模拟当前的数据样本信息匮乏 (数据不足)、充足（数据足够）但是受污染（有噪图1源数据声)的不同情况下进行聚类。 Fig.1 Source Dataset 实验时，SS-FPCM,TSS-FPCM,ITSS-FPCM算法如图2所示，同样利用高斯分布函数产生当前需要已知部分源标签，随机从源数据中抽取3%的数据集Set1和Set2两个数据集：其中Setl每类样样本作为已知标签数据进行实验，实验结果如表1 本数目为20，如图2(a)所示：Set2每类样本数目为所示，表格中“一”表示该数据集不满足算法运行的 100,再向其中加入高斯噪声构成，如图2(b)所示。基本条件。表18个算法在人工数据集的对比 Tablel Comparison of 8 algorithms on artificial data sets 算法数据集评价指标 LSSMTC Co-Clustering FPCM TSC T-GIFP-FCM SS-FPCM TSS-FPCM ITSS-FPCM F-measure 0.8981 0.8837 0.8658 0.8956 0.9017 0.9017 0.9159 RI 0.8729 0.8593 0.8435 0.8627 0.8842 0.8842 0.8955 Setl AC 0.9000 0.8833 0.8667 一 0.8933 0.9000 0.9000 0.9167 NMI 0.7067 0.7434 0.6561 一 0.7364 0.7322 0.7322 0.7698 F-measure 0.8771 0.9117 0.9010 一 0.9184 0.9107 0.9124 0.9538 RI 0.8615 0.8698 0.8847 0.8967 0.8920 0.8920 0.9410 Set2 AC 0.8467 0.9010 0.9000 0.9200 0.9100 0.9133 0.9542 NMI 0.7187 0.7705 0.7616 0.8016 0.7810 0.7880 0.8444集、ＵＣＩ真实数据集以及文本数据集进行相关的实验验证。在进行聚类结果评价时，选取了相关的４种聚类评价指标：正确率ＡＣ（Ａｃｃｕｒａｃｙ）［１８］、归一化互信息ＮＭＩ（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）［１１，１８］、芮氏指标ＲＩ（ＲａｎｄＩｎｄｅｘ）［１１，１９］和Ｆ⁃ｍｅａｓｕｒｅ［１９］。４个指标的值域均在０到１，值越大表示聚类质量越好。实验中选取了ＬＳＳＭＴＣ［１８］、Ｃｏ⁃Ｃｌｕｓｔｅｒｉｎｇ［２０］、ＦＰＣＭ、ＴＳＣ［１２］、Ｔ⁃ＧＩＦＰ⁃ＦＣＭ［１１］算法进行对比实实验；评价结果将进行１０次计算取平均值。３．１人工数据集为了模拟源场景和当前目标场景，实验使用文献［１１］的方法：首先利用高斯函数生成相关的数据集，随机生成类别数为３，每类２５０个样本点，每个样本点为两微的源场景数据，如图１所示。图１源数据Ｆｉｇ．１ＳｏｕｒｃｅＤａｔａｓｅｔ如图２所示，同样利用高斯分布函数产生当前数据集Ｓｅｔ１和Ｓｅｔ２两个数据集；其中Ｓｅｔ１每类样本数目为２０，如图２（ａ）所示；Ｓｅｔ２每类样本数目为１００，再向其中加入高斯噪声构成，如图２（ｂ）所示。（ａ）数据集Ｓｅｔ１（ｂ）数据集Ｓｅｔ２图２目标数据集Ｆｉｇ．２Ｔａｒｇｅｔｄａｔａｓｅｔ两个数据集分别模拟当前的数据样本信息匮乏（数据不足）、充足（数据足够）但是受污染（有噪声）的不同情况下进行聚类。实验时，ＳＳ⁃ＦＰＣＭ，ＴＳＳ⁃ＦＰＣＭ，ＩＴＳＳ⁃ＦＰＣＭ算法需要已知部分源标签，随机从源数据中抽取３％的样本作为已知标签数据进行实验，实验结果如表１所示，表格中“—”表示该数据集不满足算法运行的基本条件。表１８个算法在人工数据集的对比Ｔａｂｌｅ１Ｃｏｍｐａｒｉｓｏｎｏｆ８ａｌｇｏｒｉｔｈｍｓｏｎａｒｔｉｆｉｃｉａｌｄａｔａｓｅｔｓ数据集评价指标算法ＬＳＳＭＴＣＣｏ⁃ＣｌｕｓｔｅｒｉｎｇＦＰＣＭＴＳＣＴ⁃ＧＩＦＰ⁃ＦＣＭＳＳ⁃ＦＰＣＭＴＳＳ⁃ＦＰＣＭＩＴＳＳ⁃ＦＰＣＭＳｅｔ１Ｆ⁃ｍｅａｓｕｒｅ０．８９８１０．８８３７０．８６５８ — ０．８９５６０．９０１７０．９０１７０．９１５９ＲＩ０．８７２９０．８５９３０．８４３５ — ０．８６２７０．８８４２０．８８４２０．８９５５ＡＣ０．９００００．８８３３０．８６６７ — ０．８９３３０．９００００．９００００．９１６７ＮＭＩ０．７０６７０．７４３４０．６５６１ — ０．７３６４０．７３２２０．７３２２０．７６９８Ｓｅｔ２Ｆ⁃ｍｅａｓｕｒｅ０．８７７１０．９１１７０．９０１０ — ０．９１８４０．９１０７０．９１２４０．９５３８ＲＩ０．８６１５０．８６９８０．８８４７ — ０．８９６７０．８９２００．８９２００．９４１０ＡＣ０．８４６７０．９０１００．９０００ — ０．９２０００．９１０００．９１３３０．９５４２ＮＭＩ０．７１８７０．７７０５０．７６１６ — ０．８０１６０．７８１００．７８８００．８４４４ ·３１４· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【机器学习】一种基于少量标签的改进迁移模糊聚类编辑部