从表１可以看出：１）在Ｓｅｔ１数据集中样本量很少，少量的源标签

正在加载图片...

第3期王跃，等：一种基于少量标签的改进迁移模糊聚类 ·315. 从表1可以看出： 3.3文本真实数据集 1)在St1数据集中样本量很少，少量的源标签 20NG(20 Newsgroups)【21是一个真实的新闻文数据样本和其他信息都能够对目标数据产生正向的本数据集，数据集收集了大约2万条新闻组，均匀地推动作用，从而达到较好的结果，SS-FPCM与TSS- 分布到20个不同的集合中，20个小集合又可以分 FPCM的结果验证了这一点；T-GITP-FCM算法也可为4个大的类别，该数据集在大量迁移学习分类算以得到很好的结果；法中被使用。 2)在有噪声的数据集St2上，少量的标签不足 TDT2[2](NIST话题检测与跟踪的语料库)共收以取得令人满意的效果，仍需要源数据的其他帮助，集1998年上半年6个来源的数据，包含2个通讯社 SS-FPCM与TSS-FPCM算法的结果不如T-GIFP (APW,NYT),2个电台节目(VOA,PRI)和2个电 FCM算法：说明SS-FPCM与TSS-FPCM算法在抗干视节目(CNN,ABC),共1万多个样本数据。扰方面存在不足： Reuters-215782)语料库包含21578个文件，放 3)改进后的ITSS-FPCM算法则在Set1和Set2 在135个文件夹下。上均取得了良好的聚类效果。说明当在数据信息不实验时分别对3个文本数据集抽取其中一部分足，数据样本有限，数据受污染的时候，在有大量历类别，利用工具进行降维处理后构成新的数据集样史数据的帮助下迁移算法可以取得不错的效果，改本，数据具体构成如表3所示。进的TSS-FPCM算法在抗噪声和干扰方面优于其表3数据集构成情况他算法。 Table3 Composition of data sets 3.2UCI真实数据集数据来源数据类型样本数维数类别 UCI中的Image Segment Data Set是一个图片数据集，它由7个室外图像数据库中随机抽取，组成7 源数据 1200 400 个不同的类别，共2100个样本数据，其中每个类别 comp vs sci(20NG) 含有300个样本点。实验从数据中抽取70%的数据目标数据 400 400 作为源数据，剩下的构成目标数据进行实验，数据构成如表2。源数据 1200 40 表2 Image Segment数据集构成情况 rec vs talk(20NG) Table2 Composition of image segment data sets 目标数据 400 400 数据类型样本数维数类别源数据 1800 40 源数据 1470 19 7 TDT2 目标数据 630 19 目标数据 600 40 算法在数据集的聚类结果如图3所示，从图中可以发现本文所提出的ITSS-FPCM算法在4个指源数据 800 400 标均取得了不错的结果，在准确率与NMI指标上有 Reuters-21578 相对较大的优势，进一步验证了算法得有效性。目标数据 400 400 ▣LSSMT℃ 聚类的结果如表4所示，结果中可以看到： Co-Clustering ▣PCM 1)利用迁移学习的TSC、T-GIFP-FCM、TSS TSC 1.0 T-GIFP-FCM FCM、TSS-FCM算法在效果上均优于非迁移学习型 SS-FPCM ■TSS-FPCM 算法，表明迁移学习能够有效地提升聚类的性能； ITSS-FPCM 2)仅对源数据少量标签数据直接使用的SS 0.6 FPCM算法和TSS-FPCM算法对当前场景的作用有 0.4 限，不及能够利用更多信息的TSC迁移聚类和T GIFP-FCM算法，但还是能够有效地提高聚类性能； 0.2 3)本论文的TSS-FPCM算法在大部分指标都 0 优于其他算法，但是当源数据与目标数据相关性不 F-measure RI NMI 指标大时，基于标签与代表点的直接迁移对当前场景帮图38个算法在Image Segment数据集上的对比助有限，不及ST℃算法的聚类效果，存在着局限性 Fig.3 Comparison of 8 algorithms on image segment data set 和适用范围的问题。从表１可以看出：１）在Ｓｅｔ１数据集中样本量很少，少量的源标签数据样本和其他信息都能够对目标数据产生正向的推动作用，从而达到较好的结果，ＳＳ⁃ＦＰＣＭ与ＴＳＳ⁃ ＦＰＣＭ的结果验证了这一点；Ｔ⁃ＧＩＴＰ⁃ＦＣＭ算法也可以得到很好的结果；２）在有噪声的数据集Ｓｅｔ２上，少量的标签不足以取得令人满意的效果，仍需要源数据的其他帮助，ＳＳ⁃ＦＰＣＭ与ＴＳＳ⁃ＦＰＣＭ算法的结果不如Ｔ⁃ＧＩＦＰ⁃ ＦＣＭ算法；说明ＳＳ⁃ＦＰＣＭ与ＴＳＳ⁃ＦＰＣＭ算法在抗干扰方面存在不足；３）改进后的ＩＴＳＳ⁃ＦＰＣＭ算法则在Ｓｅｔ１和Ｓｅｔ２上均取得了良好的聚类效果。说明当在数据信息不足，数据样本有限，数据受污染的时候，在有大量历史数据的帮助下迁移算法可以取得不错的效果，改进的ＩＴＳＳ⁃ＦＰＣＭ算法在抗噪声和干扰方面优于其他算法。３．２ＵＣＩ真实数据集ＵＣＩ中的ＩｍａｇｅＳｅｇｍｅｎｔＤａｔａＳｅｔ是一个图片数据集，它由７个室外图像数据库中随机抽取，组成７个不同的类别，共２１００个样本数据，其中每个类别含有３００个样本点。实验从数据中抽取７０％的数据作为源数据，剩下的构成目标数据进行实验，数据构成如表２。表２ＩｍａｇｅＳｅｇｍｅｎｔ数据集构成情况Ｔａｂｌｅ２Ｃｏｍｐｏｓｉｔｉｏｎｏｆｉｍａｇｅｓｅｇｍｅｎｔｄａｔａｓｅｔｓ数据类型样本数维数类别源数据１４７０１９７目标数据６３０１９７算法在数据集的聚类结果如图３所示，从图中可以发现本文所提出的ＩＴＳＳ⁃ＦＰＣＭ算法在４个指标均取得了不错的结果，在准确率与ＮＭＩ指标上有相对较大的优势，进一步验证了算法得有效性。图３８个算法在ＩｍａｇｅＳｅｇｍｅｎｔ数据集上的对比Ｆｉｇ．３Ｃｏｍｐａｒｉｓｏｎｏｆ８ａｌｇｏｒｉｔｈｍｓｏｎｉｍａｇｅｓｅｇｍｅｎｔｄａｔａｓｅｔ３．３文本真实数据集２０ＮＧ（２０Ｎｅｗｓｇｒｏｕｐｓ）［１２］是一个真实的新闻文本数据集，数据集收集了大约２万条新闻组，均匀地分布到２０个不同的集合中，２０个小集合又可以分为４个大的类别，该数据集在大量迁移学习分类算法中被使用。ＴＤＴ２［２１］（ＮＩＳＴ话题检测与跟踪的语料库）共收集１９９８年上半年６个来源的数据，包含２个通讯社（ＡＰＷ，ＮＹＴ），２个电台节目（ＶＯＡ，ＰＲＩ）和２个电视节目（ＣＮＮ，ＡＢＣ），共１万多个样本数据。Ｒｅｕｔｅｒｓ⁃２１５７８［２１］语料库包含２１５７８个文件，放在１３５个文件夹下。实验时分别对３个文本数据集抽取其中一部分类别，利用工具进行降维处理后构成新的数据集样本，数据具体构成如表３所示。表３数据集构成情况Ｔａｂｌｅ３Ｃｏｍｐｏｓｉｔｉｏｎｏｆｄａｔａｓｅｔｓ数据来源数据类型样本数维数类别ｃｏｍｐｖｓｓｃｉ（２０ＮＧ）源数据１２００４００２目标数据４００４００２ｒｅｃｖｓｔａｌｋ（２０ＮＧ）源数据１２００４００２目标数据４００４００２ＴＤＴ２源数据１８００４００６目标数据６００４００６Ｒｅｕｔｅｒｓ⁃２１５７８源数据８００４００４目标数据４００４００４聚类的结果如表４所示，结果中可以看到：１）利用迁移学习的ＴＳＣ、Ｔ⁃ＧＩＦＰ⁃ＦＣＭ、ＴＳＳ⁃ ＦＣＭ、ＩＴＳＳ⁃ＦＣＭ算法在效果上均优于非迁移学习型算法，表明迁移学习能够有效地提升聚类的性能；２）仅对源数据少量标签数据直接使用的ＳＳ⁃ ＦＰＣＭ算法和ＴＳＳ⁃ＦＰＣＭ算法对当前场景的作用有限，不及能够利用更多信息的ＴＳＣ迁移聚类和Ｔ⁃ ＧＩＦＰ⁃ＦＣＭ算法，但还是能够有效地提高聚类性能；３）本论文的ＩＴＳＳ⁃ＦＰＣＭ算法在大部分指标都优于其他算法，但是当源数据与目标数据相关性不大时，基于标签与代表点的直接迁移对当前场景帮助有限，不及ＳＴＣ算法的聚类效果，存在着局限性和适用范围的问题。第３期王跃，等：一种基于少量标签的改进迁移模糊聚类 ·３１５·

<<向上翻页向下翻页>>

点击下载：【机器学习】一种基于少量标签的改进迁移模糊聚类编辑部