第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０

正在加载图片...

第11卷第3期智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603046 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0957.034.html 一种基于少量标签的改进迁移模糊聚类王跃，杨燕，王红军 (西南交通大学信息科学与技术学院，四川成都610031) 摘要：传统聚类算法难以利用已有的历史信息，尤其是数据被污染的情况下聚类结果不理想：半监督聚类常用于数据中有部分标签的情况。在源数据有少量标签的情况下，提出半监督混合C均值聚类算法(SS-FPCM):基于迁移学习框架，针对负迁移问题对算法进行修正，提出了防止负迁移的半监督迁移算法(TSS-FPCM):最后，为了充分借鉴源数据的信息，利用“代表点”来代替源数据类信息，融入算法中再次迁移得到改善的半监督迁移算法(TSS FPCM)。实验表明，3个算法能够有效的利用源数据提高聚类性能。SS-FPCM与TSS-FPCM可以利用源数据的少量标签数据，而TSS-FPCM算法结合了标签数据与“代表点”两个有效信息，在数据信息匮乏、数据被污染的情况下得到较好的聚类结果。关键词：聚类：迁移学习：半监督：可能性C均值：模糊C均值中图分类号：TP301文献标志码：A文章编号：1673-4785(2016)03-0310-08 中文引用格式：王跃，杨燕，王红军.一种基于少量标签的改进迁移模糊聚类[J].智能系统学报，2016,11(3)：310-317. 英文引用格式：VANG Yue,YANG Yan,WANG Hongjun.An improved transfer fuzzy clustering with few labels[J].CAAI trans- actions on intelligent systems,2016,11(3):310-317. An improved transfer fuzzy clustering with few labels WANG Yue,YANG Yan,WANG Hongjun (School of Information Science and Technology,Southwest Jiaotong University,Chengdu 610031,China) Abstract:In the traditional clustering algorithm,it is difficult to utilize existing historical information,which tends to be less effective in cases in which the data is contaminated.The semi-supervised clustering algorithm is often used in such circumstances,wherein the target data has some labeled examples.For situations in which the source data has partially labeled samples,in this paper,we propose a semi-supervised fuzzy possibilistic C-means algo- rithm (SS-FPCM).Based on the transfer learning framework,we use a transfer semi-supervised fuzzy possibilistic C-means algorithm (TSS-FPCM)to avoid the negative transfer learning problem.Finally,in order to make full use of source data information,we use representative points to replace the source data class.Thus,we have developed an improved transfer semi-supervised fuzzy possibilistic C-means algorithm (ITSS-FPCM).The experimental results demonstrate that these three algorithms may be used to improve the clustering performance by using source data ef- fectively,as compared with other clustering algorithms.Moreover,the SS-FPCM and TSS-FPCM algorithms exploit partially labeled data from the source,while the ITSS-FPCM algorithm combines the labeled data and "representa- tive points,"for cases having insufficient data information or contaminated data,and an excellent clustering result is attained. Keywords:clustering;transfer learning;semi-supervised;possibilistic C-means;fuzzy C-means 传统的聚类算法在拥有大量数据的情况下能够污染的情况，传统的聚类算法存在着不足。在不同的场景下发挥各自的作用，当数据匮乏、噪声近年来，迁移学习的成果逐渐丰富，研究表明，迁移学习能够有效地解决数据量不足、数据受污染收稿日期：2016-03-19.网络出版日期：2016-05-13. 基金项目：国家自然科学基金项目(61170111,61572407,61134002)：和信息丢失等问题。文献[1]根据迁移学习中源领四川省料技支撑计划项目(2014SZ0207). 通信作者：杨燕.E-mail:yang@swjtu.ed血.cn 域和目标领域中是否含有标签，可以将迁移学习划第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０１６年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０４６网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０５１３．０９５７．０３４．ｈｔｍｌ一种基于少量标签的改进迁移模糊聚类王跃，杨燕，王红军（西南交通大学信息科学与技术学院，四川成都６１００３１）摘要：传统聚类算法难以利用已有的历史信息，尤其是数据被污染的情况下聚类结果不理想；半监督聚类常用于数据中有部分标签的情况。在源数据有少量标签的情况下，提出半监督混合Ｃ均值聚类算法（ＳＳ⁃ＦＰＣＭ）；基于迁移学习框架，针对负迁移问题对算法进行修正，提出了防止负迁移的半监督迁移算法（ＴＳＳ⁃ＦＰＣＭ）；最后，为了充分借鉴源数据的信息，利用“代表点” 来代替源数据类信息，融入算法中再次迁移得到改善的半监督迁移算法（ＩＴＳＳ⁃ ＦＰＣＭ）。实验表明，３个算法能够有效的利用源数据提高聚类性能。ＳＳ⁃ＦＰＣＭ与ＴＳＳ⁃ＦＰＣＭ可以利用源数据的少量标签数据，而ＩＴＳＳ⁃ＦＰＣＭ算法结合了标签数据与“代表点”两个有效信息，在数据信息匮乏、数据被污染的情况下得到较好的聚类结果。关键词：聚类；迁移学习；半监督；可能性Ｃ均值；模糊Ｃ均值中图分类号：ＴＰ３０１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０３⁃０３１０⁃０８中文引用格式：王跃，杨燕，王红军．一种基于少量标签的改进迁移模糊聚类［Ｊ］．智能系统学报，２０１６，１１（３）：３１０⁃３１７．英文引用格式：ＷＡＮＧＹｕｅ，ＹＡＮＧＹａｎ，ＷＡＮＧＨｏｎｇｊｕｎ．Ａｎｉｍｐｒｏｖｅｄｔｒａｎｓｆｅｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈｆｅｗｌａｂｅｌｓ［Ｊ］．ＣＡＡＩｔｒａｎｓ⁃ ａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（３）：３１０⁃３１７．ＡｎｉｍｐｒｏｖｅｄｔｒａｎｓｆｅｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈｆｅｗｌａｂｅｌｓＷＡＮＧＹｕｅ，ＹＡＮＧＹａｎ，ＷＡＮＧＨｏｎｇｊｕｎ（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＳｏｕｔｈｗｅｓｔＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｃｈｅｎｇｄｕ６１００３１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ，ｉｔｉｓｄｉｆｆｉｃｕｌｔｔｏｕｔｉｌｉｚｅｅｘｉｓｔｉｎｇｈｉｓｔｏｒｉｃａｌｉｎｆｏｒｍａｔｉｏｎ，ｗｈｉｃｈｔｅｎｄｓｔｏｂｅｌｅｓｓｅｆｆｅｃｔｉｖｅｉｎｃａｓｅｓｉｎｗｈｉｃｈｔｈｅｄａｔａｉｓｃｏｎｔａｍｉｎａｔｅｄ．Ｔｈｅｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｓｏｆｔｅｎｕｓｅｄｉｎｓｕｃｈｃｉｒｃｕｍｓｔａｎｃｅｓ，ｗｈｅｒｅｉｎｔｈｅｔａｒｇｅｔｄａｔａｈａｓｓｏｍｅｌａｂｅｌｅｄｅｘａｍｐｌｅｓ．Ｆｏｒｓｉｔｕａｔｉｏｎｓｉｎｗｈｉｃｈｔｈｅｓｏｕｒｃｅｄａｔａｈａｓｐａｒｔｉａｌｌｙｌａｂｅｌｅｄｓａｍｐｌｅｓ，ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｆｕｚｚｙｐｏｓｓｉｂｉｌｉｓｔｉｃＣ⁃ｍｅａｎｓａｌｇｏ⁃ ｒｉｔｈｍ（ＳＳ⁃ＦＰＣＭ）．Ｂａｓｅｄｏｎｔｈｅｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｆｒａｍｅｗｏｒｋ，ｗｅｕｓｅａｔｒａｎｓｆｅｒｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｆｕｚｚｙｐｏｓｓｉｂｉｌｉｓｔｉｃＣ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ（ＴＳＳ⁃ＦＰＣＭ）ｔｏａｖｏｉｄｔｈｅｎｅｇａｔｉｖｅｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｐｒｏｂｌｅｍ．Ｆｉｎａｌｌｙ，ｉｎｏｒｄｅｒｔｏｍａｋｅｆｕｌｌｕｓｅｏｆｓｏｕｒｃｅｄａｔａｉｎｆｏｒｍａｔｉｏｎ，ｗｅｕｓｅｒｅｐｒｅｓｅｎｔａｔｉｖｅｐｏｉｎｔｓｔｏｒｅｐｌａｃｅｔｈｅｓｏｕｒｃｅｄａｔａｃｌａｓｓ．Ｔｈｕｓ，ｗｅｈａｖｅｄｅｖｅｌｏｐｅｄａｎｉｍｐｒｏｖｅｄｔｒａｎｓｆｅｒｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｆｕｚｚｙｐｏｓｓｉｂｉｌｉｓｔｉｃＣ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ（ＩＴＳＳ⁃ＦＰＣＭ）．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅｓｅｔｈｒｅｅａｌｇｏｒｉｔｈｍｓｍａｙｂｅｕｓｅｄｔｏｉｍｐｒｏｖｅｔｈｅｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｂｙｕｓｉｎｇｓｏｕｒｃｅｄａｔａｅｆ⁃ ｆｅｃｔｉｖｅｌｙ，ａｓｃｏｍｐａｒｅｄｗｉｔｈｏｔｈｅｒｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ．Ｍｏｒｅｏｖｅｒ，ｔｈｅＳＳ⁃ＦＰＣＭａｎｄＴＳＳ⁃ＦＰＣＭａｌｇｏｒｉｔｈｍｓｅｘｐｌｏｉｔｐａｒｔｉａｌｌｙｌａｂｅｌｅｄｄａｔａｆｒｏｍｔｈｅｓｏｕｒｃｅ，ｗｈｉｌｅｔｈｅＩＴＳＳ⁃ＦＰＣＭａｌｇｏｒｉｔｈｍｃｏｍｂｉｎｅｓｔｈｅｌａｂｅｌｅｄｄａｔａａｎｄ＂ｒｅｐｒｅｓｅｎｔａ⁃ ｔｉｖｅｐｏｉｎｔｓ，＂ｆｏｒｃａｓｅｓｈａｖｉｎｇｉｎｓｕｆｆｉｃｉｅｎｔｄａｔａｉｎｆｏｒｍａｔｉｏｎｏｒｃｏｎｔａｍｉｎａｔｅｄｄａｔａ，ａｎｄａｎｅｘｃｅｌｌｅｎｔｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｉｓａｔｔａｉｎｅｄ．Ｋｅｙｗｏｒｄｓ：ｃｌｕｓｔｅｒｉｎｇ；ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ；ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄ；ｐｏｓｓｉｂｉｌｉｓｔｉｃＣ⁃ｍｅａｎｓ；ｆｕｚｚｙＣ⁃ｍｅａｎｓ收稿日期：２０１６⁃０３⁃１９．网络出版日期：２０１６⁃０５⁃１３．基金项目：国家自然科学基金项目（６１１７０１１１，６１５７２４０７，６１１３４００２）；四川省科技支撑计划项目（２０１４ＳＺ０２０７）．通信作者：杨燕．Ｅ⁃ｍａｉｌ：ｙｙａｎｇ＠ｓｗｊｔｕ．ｅｄｕ．ｃｎ．传统的聚类算法在拥有大量数据的情况下能够在不同的场景下发挥各自的作用，当数据匮乏、噪声污染的情况，传统的聚类算法存在着不足。近年来，迁移学习的成果逐渐丰富，研究表明，迁移学习能够有效地解决数据量不足、数据受污染和信息丢失等问题。文献［１］根据迁移学习中源领域和目标领域中是否含有标签，可以将迁移学习划

向下翻页>>

点击下载：【机器学习】一种基于少量标签的改进迁移模糊聚类编辑部