正在加载图片...
第11卷第3期 智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603046 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0957.034.html 一种基于少量标签的改进迁移模糊聚类 王跃,杨燕,王红军 (西南交通大学信息科学与技术学院,四川成都610031) 摘要:传统聚类算法难以利用已有的历史信息,尤其是数据被污染的情况下聚类结果不理想:半监督聚类常用于 数据中有部分标签的情况。在源数据有少量标签的情况下,提出半监督混合C均值聚类算法(SS-FPCM):基于迁移 学习框架,针对负迁移问题对算法进行修正,提出了防止负迁移的半监督迁移算法(TSS-FPCM):最后,为了充分借 鉴源数据的信息,利用“代表点”来代替源数据类信息,融入算法中再次迁移得到改善的半监督迁移算法(TSS FPCM)。实验表明,3个算法能够有效的利用源数据提高聚类性能。SS-FPCM与TSS-FPCM可以利用源数据的少量 标签数据,而TSS-FPCM算法结合了标签数据与“代表点”两个有效信息,在数据信息匮乏、数据被污染的情况下得 到较好的聚类结果。 关键词:聚类:迁移学习:半监督:可能性C均值:模糊C均值 中图分类号:TP301文献标志码:A文章编号:1673-4785(2016)03-0310-08 中文引用格式:王跃,杨燕,王红军.一种基于少量标签的改进迁移模糊聚类[J].智能系统学报,2016,11(3):310-317. 英文引用格式:VANG Yue,YANG Yan,WANG Hongjun.An improved transfer fuzzy clustering with few labels[J].CAAI trans- actions on intelligent systems,2016,11(3):310-317. An improved transfer fuzzy clustering with few labels WANG Yue,YANG Yan,WANG Hongjun (School of Information Science and Technology,Southwest Jiaotong University,Chengdu 610031,China) Abstract:In the traditional clustering algorithm,it is difficult to utilize existing historical information,which tends to be less effective in cases in which the data is contaminated.The semi-supervised clustering algorithm is often used in such circumstances,wherein the target data has some labeled examples.For situations in which the source data has partially labeled samples,in this paper,we propose a semi-supervised fuzzy possibilistic C-means algo- rithm (SS-FPCM).Based on the transfer learning framework,we use a transfer semi-supervised fuzzy possibilistic C-means algorithm (TSS-FPCM)to avoid the negative transfer learning problem.Finally,in order to make full use of source data information,we use representative points to replace the source data class.Thus,we have developed an improved transfer semi-supervised fuzzy possibilistic C-means algorithm (ITSS-FPCM).The experimental results demonstrate that these three algorithms may be used to improve the clustering performance by using source data ef- fectively,as compared with other clustering algorithms.Moreover,the SS-FPCM and TSS-FPCM algorithms exploit partially labeled data from the source,while the ITSS-FPCM algorithm combines the labeled data and "representa- tive points,"for cases having insufficient data information or contaminated data,and an excellent clustering result is attained. Keywords:clustering;transfer learning;semi-supervised;possibilistic C-means;fuzzy C-means 传统的聚类算法在拥有大量数据的情况下能够 污染的情况,传统的聚类算法存在着不足。 在不同的场景下发挥各自的作用,当数据匮乏、噪声 近年来,迁移学习的成果逐渐丰富,研究表明, 迁移学习能够有效地解决数据量不足、数据受污染 收稿日期:2016-03-19.网络出版日期:2016-05-13. 基金项目:国家自然科学基金项目(61170111,61572407,61134002): 和信息丢失等问题。文献[1]根据迁移学习中源领 四川省料技支撑计划项目(2014SZ0207). 通信作者:杨燕.E-mail:yang@swjtu.ed血.cn 域和目标领域中是否含有标签,可以将迁移学习划第 11 卷第 3 期 智 能 系 统 学 报 Vol.11 №.3 2016 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2016 DOI:10.11992 / tis.201603046 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20160513.0957.034.html 一种基于少量标签的改进迁移模糊聚类 王跃,杨燕,王红军 (西南交通大学 信息科学与技术学院,四川 成都 610031) 摘 要:传统聚类算法难以利用已有的历史信息,尤其是数据被污染的情况下聚类结果不理想;半监督聚类常用于 数据中有部分标签的情况。 在源数据有少量标签的情况下,提出半监督混合 C 均值聚类算法( SS⁃FPCM);基于迁移 学习框架,针对负迁移问题对算法进行修正,提出了防止负迁移的半监督迁移算法(TSS⁃FPCM);最后,为了充分借 鉴源数据的信息,利用“代表点” 来代替源数据类信息,融入算法中再次迁移得到改善的半监督迁移算法( ITSS⁃ FPCM)。 实验表明,3 个算法能够有效的利用源数据提高聚类性能。 SS⁃FPCM 与 TSS⁃FPCM 可以利用源数据的少量 标签数据,而 ITSS⁃FPCM 算法结合了标签数据与“代表点”两个有效信息,在数据信息匮乏、数据被污染的情况下得 到较好的聚类结果。 关键词:聚类;迁移学习;半监督;可能性 C 均值;模糊 C 均值 中图分类号:TP301 文献标志码:A 文章编号:1673⁃4785(2016)03⁃0310⁃08 中文引用格式:王跃,杨燕,王红军.一种基于少量标签的改进迁移模糊聚类[J]. 智能系统学报, 2016, 11(3): 310⁃317. 英文引用格式:WANG Yue, YANG Yan, WANG Hongjun.An improved transfer fuzzy clustering with few labels[J]. CAAI trans⁃ actions on intelligent systems, 2016,11(3): 310⁃317. An improved transfer fuzzy clustering with few labels WANG Yue, YANG Yan, WANG Hongjun (School of Information Science and Technology, Southwest Jiaotong University, Chengdu 610031, China) Abstract:In the traditional clustering algorithm, it is difficult to utilize existing historical information, which tends to be less effective in cases in which the data is contaminated. The semi⁃supervised clustering algorithm is often used in such circumstances, wherein the target data has some labeled examples. For situations in which the source data has partially labeled samples, in this paper, we propose a semi⁃supervised fuzzy possibilistic C⁃means algo⁃ rithm (SS⁃FPCM). Based on the transfer learning framework, we use a transfer semi⁃supervised fuzzy possibilistic C⁃means algorithm (TSS⁃FPCM) to avoid the negative transfer learning problem. Finally, in order to make full use of source data information, we use representative points to replace the source data class. Thus, we have developed an improved transfer semi⁃supervised fuzzy possibilistic C⁃means algorithm (ITSS⁃FPCM). The experimental results demonstrate that these three algorithms may be used to improve the clustering performance by using source data ef⁃ fectively, as compared with other clustering algorithms. Moreover, the SS⁃FPCM and TSS⁃FPCM algorithms exploit partially labeled data from the source, while the ITSS⁃FPCM algorithm combines the labeled data and " representa⁃ tive points," for cases having insufficient data information or contaminated data, and an excellent clustering result is attained. Keywords:clustering; transfer learning; semi⁃supervised; possibilistic C⁃means; fuzzy C⁃means 收稿日期:2016⁃03⁃19. 网络出版日期:2016⁃05⁃13. 基金项目:国家自然科学基金项目( 61170111, 61572407, 61134002); 四川省科技支撑计划项目(2014SZ0207). 通信作者:杨燕. E⁃mail: yyang@ swjtu.edu.cn. 传统的聚类算法在拥有大量数据的情况下能够 在不同的场景下发挥各自的作用,当数据匮乏、噪声 污染的情况,传统的聚类算法存在着不足。 近年来,迁移学习的成果逐渐丰富,研究表明, 迁移学习能够有效地解决数据量不足、数据受污染 和信息丢失等问题。 文献[1]根据迁移学习中源领 域和目标领域中是否含有标签,可以将迁移学习划
向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有