【机器学习】一种基于少量标签的改进迁移模糊聚类编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：1.45MB

第11卷第3期智能系统学报 Vol.11 No.3 2016年6月 CAAI Transactions on Intelligent Systems Jun.2016 D0I:10.11992/is.201603046 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20160513.0957.034.html 一种基于少量标签的改进迁移模糊聚类王跃，杨燕，王红军 (西南交通大学信息科学与技术学院，四川成都610031) 摘要：传统聚类算法难以利用已有的历史信息，尤其是数据被污染的情况下聚类结果不理想：半监督聚类常用于数据中有部分标签的情况。在源数据有少量标签的情况下，提出半监督混合C均值聚类算法(SS-FPCM):基于迁移学习框架，针对负迁移问题对算法进行修正，提出了防止负迁移的半监督迁移算法(TSS-FPCM):最后，为了充分借鉴源数据的信息，利用“代表点”来代替源数据类信息，融入算法中再次迁移得到改善的半监督迁移算法(TSS FPCM)。实验表明，3个算法能够有效的利用源数据提高聚类性能。SS-FPCM与TSS-FPCM可以利用源数据的少量标签数据，而TSS-FPCM算法结合了标签数据与“代表点”两个有效信息，在数据信息匮乏、数据被污染的情况下得到较好的聚类结果。关键词：聚类：迁移学习：半监督：可能性C均值：模糊C均值中图分类号：TP301文献标志码：A文章编号：1673-4785(2016)03-0310-08 中文引用格式：王跃，杨燕，王红军.一种基于少量标签的改进迁移模糊聚类[J].智能系统学报，2016,11(3)：310-317. 英文引用格式：VANG Yue,YANG Yan,WANG Hongjun.An improved transfer fuzzy clustering with few labels[J].CAAI trans- actions on intelligent systems,2016,11(3):310-317. An improved transfer fuzzy clustering with few labels WANG Yue,YANG Yan,WANG Hongjun (School of Information Science and Technology,Southwest Jiaotong University,Chengdu 610031,China) Abstract:In the traditional clustering algorithm,it is difficult to utilize existing historical information,which tends to be less effective in cases in which the data is contaminated.The semi-supervised clustering algorithm is often used in such circumstances,wherein the target data has some labeled examples.For situations in which the source data has partially labeled samples,in this paper,we propose a semi-supervised fuzzy possibilistic C-means algo- rithm (SS-FPCM).Based on the transfer learning framework,we use a transfer semi-supervised fuzzy possibilistic C-means algorithm (TSS-FPCM)to avoid the negative transfer learning problem.Finally,in order to make full use of source data information,we use representative points to replace the source data class.Thus,we have developed an improved transfer semi-supervised fuzzy possibilistic C-means algorithm (ITSS-FPCM).The experimental results demonstrate that these three algorithms may be used to improve the clustering performance by using source data ef- fectively,as compared with other clustering algorithms.Moreover,the SS-FPCM and TSS-FPCM algorithms exploit partially labeled data from the source,while the ITSS-FPCM algorithm combines the labeled data and "representa- tive points,"for cases having insufficient data information or contaminated data,and an excellent clustering result is attained. Keywords:clustering;transfer learning;semi-supervised;possibilistic C-means;fuzzy C-means 传统的聚类算法在拥有大量数据的情况下能够污染的情况，传统的聚类算法存在着不足。在不同的场景下发挥各自的作用，当数据匮乏、噪声近年来，迁移学习的成果逐渐丰富，研究表明，迁移学习能够有效地解决数据量不足、数据受污染收稿日期：2016-03-19.网络出版日期：2016-05-13. 基金项目：国家自然科学基金项目(61170111,61572407,61134002)：和信息丢失等问题。文献[1]根据迁移学习中源领四川省料技支撑计划项目(2014SZ0207). 通信作者：杨燕.E-mail:yang@swjtu.ed血.cn 域和目标领域中是否含有标签，可以将迁移学习划

第１１卷第３期智能系统学报Ｖｏｌ．１１ №．３２０１６年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０３０４６网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０５１３．０９５７．０３４．ｈｔｍｌ一种基于少量标签的改进迁移模糊聚类王跃，杨燕，王红军（西南交通大学信息科学与技术学院，四川成都６１００３１）摘要：传统聚类算法难以利用已有的历史信息，尤其是数据被污染的情况下聚类结果不理想；半监督聚类常用于数据中有部分标签的情况。在源数据有少量标签的情况下，提出半监督混合Ｃ均值聚类算法（ＳＳ⁃ＦＰＣＭ）；基于迁移学习框架，针对负迁移问题对算法进行修正，提出了防止负迁移的半监督迁移算法（ＴＳＳ⁃ＦＰＣＭ）；最后，为了充分借鉴源数据的信息，利用“代表点” 来代替源数据类信息，融入算法中再次迁移得到改善的半监督迁移算法（ＩＴＳＳ⁃ ＦＰＣＭ）。实验表明，３个算法能够有效的利用源数据提高聚类性能。ＳＳ⁃ＦＰＣＭ与ＴＳＳ⁃ＦＰＣＭ可以利用源数据的少量标签数据，而ＩＴＳＳ⁃ＦＰＣＭ算法结合了标签数据与“代表点”两个有效信息，在数据信息匮乏、数据被污染的情况下得到较好的聚类结果。关键词：聚类；迁移学习；半监督；可能性Ｃ均值；模糊Ｃ均值中图分类号：ＴＰ３０１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０３⁃０３１０⁃０８中文引用格式：王跃，杨燕，王红军．一种基于少量标签的改进迁移模糊聚类［Ｊ］．智能系统学报，２０１６，１１（３）：３１０⁃３１７．英文引用格式：ＷＡＮＧＹｕｅ，ＹＡＮＧＹａｎ，ＷＡＮＧＨｏｎｇｊｕｎ．Ａｎｉｍｐｒｏｖｅｄｔｒａｎｓｆｅｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈｆｅｗｌａｂｅｌｓ［Ｊ］．ＣＡＡＩｔｒａｎｓ⁃ ａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１６，１１（３）：３１０⁃３１７．ＡｎｉｍｐｒｏｖｅｄｔｒａｎｓｆｅｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈｆｅｗｌａｂｅｌｓＷＡＮＧＹｕｅ，ＹＡＮＧＹａｎ，ＷＡＮＧＨｏｎｇｊｕｎ（ＳｃｈｏｏｌｏｆＩｎｆｏｒｍａｔｉｏｎＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＳｏｕｔｈｗｅｓｔＪｉａｏｔｏｎｇＵｎｉｖｅｒｓｉｔｙ，Ｃｈｅｎｇｄｕ６１００３１，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｉｎｔｈｅｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ，ｉｔｉｓｄｉｆｆｉｃｕｌｔｔｏｕｔｉｌｉｚｅｅｘｉｓｔｉｎｇｈｉｓｔｏｒｉｃａｌｉｎｆｏｒｍａｔｉｏｎ，ｗｈｉｃｈｔｅｎｄｓｔｏｂｅｌｅｓｓｅｆｆｅｃｔｉｖｅｉｎｃａｓｅｓｉｎｗｈｉｃｈｔｈｅｄａｔａｉｓｃｏｎｔａｍｉｎａｔｅｄ．Ｔｈｅｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｓｏｆｔｅｎｕｓｅｄｉｎｓｕｃｈｃｉｒｃｕｍｓｔａｎｃｅｓ，ｗｈｅｒｅｉｎｔｈｅｔａｒｇｅｔｄａｔａｈａｓｓｏｍｅｌａｂｅｌｅｄｅｘａｍｐｌｅｓ．Ｆｏｒｓｉｔｕａｔｉｏｎｓｉｎｗｈｉｃｈｔｈｅｓｏｕｒｃｅｄａｔａｈａｓｐａｒｔｉａｌｌｙｌａｂｅｌｅｄｓａｍｐｌｅｓ，ｉｎｔｈｉｓｐａｐｅｒ，ｗｅｐｒｏｐｏｓｅａｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｆｕｚｚｙｐｏｓｓｉｂｉｌｉｓｔｉｃＣ⁃ｍｅａｎｓａｌｇｏ⁃ ｒｉｔｈｍ（ＳＳ⁃ＦＰＣＭ）．Ｂａｓｅｄｏｎｔｈｅｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｆｒａｍｅｗｏｒｋ，ｗｅｕｓｅａｔｒａｎｓｆｅｒｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｆｕｚｚｙｐｏｓｓｉｂｉｌｉｓｔｉｃＣ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ（ＴＳＳ⁃ＦＰＣＭ）ｔｏａｖｏｉｄｔｈｅｎｅｇａｔｉｖｅｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｐｒｏｂｌｅｍ．Ｆｉｎａｌｌｙ，ｉｎｏｒｄｅｒｔｏｍａｋｅｆｕｌｌｕｓｅｏｆｓｏｕｒｃｅｄａｔａｉｎｆｏｒｍａｔｉｏｎ，ｗｅｕｓｅｒｅｐｒｅｓｅｎｔａｔｉｖｅｐｏｉｎｔｓｔｏｒｅｐｌａｃｅｔｈｅｓｏｕｒｃｅｄａｔａｃｌａｓｓ．Ｔｈｕｓ，ｗｅｈａｖｅｄｅｖｅｌｏｐｅｄａｎｉｍｐｒｏｖｅｄｔｒａｎｓｆｅｒｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｆｕｚｚｙｐｏｓｓｉｂｉｌｉｓｔｉｃＣ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍ（ＩＴＳＳ⁃ＦＰＣＭ）．Ｔｈｅｅｘｐｅｒｉｍｅｎｔａｌｒｅｓｕｌｔｓｄｅｍｏｎｓｔｒａｔｅｔｈａｔｔｈｅｓｅｔｈｒｅｅａｌｇｏｒｉｔｈｍｓｍａｙｂｅｕｓｅｄｔｏｉｍｐｒｏｖｅｔｈｅｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｂｙｕｓｉｎｇｓｏｕｒｃｅｄａｔａｅｆ⁃ ｆｅｃｔｉｖｅｌｙ，ａｓｃｏｍｐａｒｅｄｗｉｔｈｏｔｈｅｒｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ．Ｍｏｒｅｏｖｅｒ，ｔｈｅＳＳ⁃ＦＰＣＭａｎｄＴＳＳ⁃ＦＰＣＭａｌｇｏｒｉｔｈｍｓｅｘｐｌｏｉｔｐａｒｔｉａｌｌｙｌａｂｅｌｅｄｄａｔａｆｒｏｍｔｈｅｓｏｕｒｃｅ，ｗｈｉｌｅｔｈｅＩＴＳＳ⁃ＦＰＣＭａｌｇｏｒｉｔｈｍｃｏｍｂｉｎｅｓｔｈｅｌａｂｅｌｅｄｄａｔａａｎｄ＂ｒｅｐｒｅｓｅｎｔａ⁃ ｔｉｖｅｐｏｉｎｔｓ，＂ｆｏｒｃａｓｅｓｈａｖｉｎｇｉｎｓｕｆｆｉｃｉｅｎｔｄａｔａｉｎｆｏｒｍａｔｉｏｎｏｒｃｏｎｔａｍｉｎａｔｅｄｄａｔａ，ａｎｄａｎｅｘｃｅｌｌｅｎｔｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｉｓａｔｔａｉｎｅｄ．Ｋｅｙｗｏｒｄｓ：ｃｌｕｓｔｅｒｉｎｇ；ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ；ｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄ；ｐｏｓｓｉｂｉｌｉｓｔｉｃＣ⁃ｍｅａｎｓ；ｆｕｚｚｙＣ⁃ｍｅａｎｓ收稿日期：２０１６⁃０３⁃１９．网络出版日期：２０１６⁃０５⁃１３．基金项目：国家自然科学基金项目（６１１７０１１１，６１５７２４０７，６１１３４００２）；四川省科技支撑计划项目（２０１４ＳＺ０２０７）．通信作者：杨燕．Ｅ⁃ｍａｉｌ：ｙｙａｎｇ＠ｓｗｊｔｕ．ｅｄｕ．ｃｎ．传统的聚类算法在拥有大量数据的情况下能够在不同的场景下发挥各自的作用，当数据匮乏、噪声污染的情况，传统的聚类算法存在着不足。近年来，迁移学习的成果逐渐丰富，研究表明，迁移学习能够有效地解决数据量不足、数据受污染和信息丢失等问题。文献［１］根据迁移学习中源领域和目标领域中是否含有标签，可以将迁移学习划

第3期王跃，等：一种基于少量标签的改进迁移模糊聚类 ·311- 分为3类：归纳迁移学习、直推式迁移学习和无监督 N 迁移学习。现有的迁移学习在分类领域已有较多研 k=1 究成果20)，而在聚类领域迁移学习理论和方法相 —,i (5) 对则要少很多。文献[11-12]在聚类领域利用了迁移学习的理论。 1.2PFCM聚类算法半监督聚类是半监督学习与聚类分析相结合的 FPCM是建立在FCM和PCM基础上的算法，研究领域，文献[13]提出了不同情况下的半监督聚它将两者结合在一起，FPCM的目标函数定义为类算法，并取得了不错的效果。 J= 文献[14]将经典的模糊C均值算法1s(FCM) 正d形 (6) 与可能性C均值[6](PCM)算法进行改进，提出了式中：m>1,m>1,0≤，≤1，约束条件为模糊可能性聚类算法(FPCM)。本文探讨在源领域 2a=1,i (7) 有少量标签的情况下，如何指导目标域进行聚类，提出半监督模糊可能性C均值聚类算法(SS-FPCM), 2=1,k (8) 并针对负迁移问题对算法进行改进，提出了防止负通过最小化目标函数，可以得到以下迭代优化迁移的半监督迁移算法(TSS-FPCM),同时，用代表公式：点代替源领域的数据进行数据迁移，得到改善的半监督迁移算法(TSS-FPCM),并进行了实验验证。 [周 (9) 1相关算法介绍 Vi,k (10) 1.1PCM聚类算法 PCM聚类算法放松了传统FCM聚类算法中对于隶属度矩阵的约束，隶属度不再是对1的共享。 ∑(u候+) .Vi 对于给定数据集X={xIk=1,2,…,N},x4∈R,包 N (11) 含N个样本，分成C个类别，T= (+) {t4li=1,2,…,C;k=1,2,…,N}是可能划分矩阵，t 1.3半监督聚类算法表示第k个样本x:属于第i类的可能性，聚类中心对于一些有着一部分标签的数据集，在文献为V={yIi=1,2,…,C},其中y:表示第i个聚类中 [17]中，Pedrycz提出了基于部分标签的模糊聚类心。PCM目标函数定义为算法(SS-F℃M),算法的核心思想是利用现有的分类信息，并把它作为优化程序的一部分。为了区分标记数据与未标记数据，引入向量矩式中：t4∈[0,1]，00 (3) 含a (12) 最小化目标函数可以得到可能性矩阵和聚类中 2半监督迁移模糊聚类算法心的迭代式(4)和式(5)： 2.1半监督模糊可能性C均值聚类算法 1 .Vi,k 4 对半监督FCM算法进行研究可以发现，上文中的B和F的功能相似，保留下F并对FPCM的目标函数做如下改进：

分为３类：归纳迁移学习、直推式迁移学习和无监督迁移学习。现有的迁移学习在分类领域已有较多研究成果［２⁃１０］，而在聚类领域迁移学习理论和方法相对则要少很多。文献［１１⁃１２］在聚类领域利用了迁移学习的理论。半监督聚类是半监督学习与聚类分析相结合的研究领域，文献［１３］提出了不同情况下的半监督聚类算法，并取得了不错的效果。文献［１４］将经典的模糊Ｃ均值算法［１５］（ＦＣＭ）与可能性Ｃ均值［１６］（ＰＣＭ）算法进行改进，提出了模糊可能性聚类算法（ＦＰＣＭ）。本文探讨在源领域有少量标签的情况下，如何指导目标域进行聚类，提出半监督模糊可能性Ｃ均值聚类算法（ＳＳ⁃ＦＰＣＭ），并针对负迁移问题对算法进行改进，提出了防止负迁移的半监督迁移算法（ＴＳＳ⁃ＦＰＣＭ），同时，用代表点代替源领域的数据进行数据迁移，得到改善的半监督迁移算法（ＩＴＳＳ⁃ＦＰＣＭ），并进行了实验验证。１相关算法介绍１．１ＰＣＭ聚类算法ＰＣＭ聚类算法放松了传统ＦＣＭ聚类算法中对于隶属度矩阵的约束，隶属度不再是对１的共享。对于给定数据集Ｘ＝ｘｋ { ｜ｋ＝１，２，…，Ｎ} ，ｘｋ∈Ｒｄ，包含Ｎ个样本，分成Ｃ个类别，Ｔ＝ｔｉｋ { ｜ｉ＝１，２，…，Ｃ；ｋ＝１，２，…，Ｎ}是可能划分矩阵，ｔｉｋ表示第ｋ个样本ｘｋ属于第ｉ类的可能性，聚类中心为Ｖ＝ｖｉ { ｜ｉ＝１，２，…，Ｃ} ，其中ｖｉ表示第ｉ个聚类中心。ＰＣＭ目标函数定义为Ｊ＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１ｔｍｉｋｄ２ｉｋ＋ ∑ Ｃｉ＝１ ηｉ∑ Ｎｋ＝１１－ｔｉｋ ( ) ｍｄ２ｉｋ（１）式中：ｔｉｋ ∈ [０，１] ，０＜ ∑ Ｎｋ＝１ｔｍｉｋ ≤Ｎ，ｍ为模糊指数，ｄ２ｉｋ和 ηｉ的取值分别为式（２）和式（３），Ｋ的取值一般取Ｋ＝１。ｄ２ｉｋ＝ ‖ｘｋ－ｖｉ‖２＝ｘｋ－ｖｉ ( ) Ｔｘｋ－ｖｉ ( ) （２） ηｉ＝Ｋ ∑ Ｎｋ＝１ｔｍｉｋｄ２ｉｋ ∑ Ｎｋ＝１ｔｍｉｋ，Ｋ＞０（３）最小化目标函数可以得到可能性矩阵和聚类中心的迭代式（４）和式（５）：ｔｉｋ＝１１＋ｄ２ｉｋ ηｉ æ è ç ö ø ÷ １ｍ－１，∀ｉ，ｋ（４）ｖｉ＝ ∑ Ｎｋ＝１ｔｍｉｋｘｋ ∑ Ｎｋ＝１ｔｍｉｋ，∀ｉ（５）１．２ＰＦＣＭ聚类算法ＦＰＣＭ是建立在ＦＣＭ和ＰＣＭ基础上的算法，它将两者结合在一起，ＦＰＣＭ的目标函数定义为Ｊ＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１ｕｍｉｋ＋ｔ η ｉｋ ( ) ｄ２ｉｋ（６）式中：ｍ＞１，η＞１，０≤ｉｋ，ｔｉｋ≤１，约束条件为 ∑ Ｎｋ＝１ｔｉｋ＝１，∀ｉ（７） ∑ Ｃｉ＝１ｕｉｋ＝１，∀ｋ（８）通过最小化目标函数，可以得到以下迭代优化公式：ｕｉｋ＝ ∑ Ｃｊ＝１ｄ２ｉｋｄ２ｉｊ æ è ç ö ø ÷ １ｍ－１ é ë ê ê ù û ú ú －１，∀ｉ，ｋ（９）ｔｉｋ＝ ∑ Ｎｊ＝１ｄ２ｉｋｄ２ｉｊ æ è ç ö ø ÷ １ η－１ é ë ê ê ù û ú ú －１，∀ｉ，ｋ（１０）ｖｉ＝ ∑ Ｎｋ＝１ｕｍｉｋ＋ｔ η ｉｋ ( ) ｘｋ ∑ Ｎｋ＝１ｕｍｉｋ＋ｔ η ｉｋ ( ) ，∀ｉ（１１）１．３半监督聚类算法对于一些有着一部分标签的数据集，在文献［１７］中，Ｐｅｄｒｙｃｚ提出了基于部分标签的模糊聚类算法（ＳＳ⁃ＦＣＭ），算法的核心思想是利用现有的分类信息，并把它作为优化程序的一部分。为了区分标记数据与未标记数据，引入向量矩阵Ｂ＝ｂｋ { ｜ｋ＝１，２，…，Ｎ} ，如果ｘｋ是已知标签样本ｂｋ＝１，否则ｂｋ＝０。并且记类别属性Ｆ＝ｆｉｋ { ｜ｉ＝１，２，…，Ｃ；ｋ＝１，２，…，Ｎ} ，如果ｘｋ属于第ｉ类，那么ｆｉｋ＝１；否则ｆｉｋ＝０。在引入Ｂ和Ｆ后，Ｐｅ⁃ ｄｒｙｃｚ将模糊参数ｍ取值为２，其目标函数为Ｊ＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１ｕ２ｉｋｄ２ｉｋ＋ α∑ Ｃｉ＝１ ∑ Ｎｋ＝１ｕｉｋ－ｆｉｋｂｋ ( ) ２ｄ２ｉｋ（１２）２半监督迁移模糊聚类算法２．１半监督模糊可能性Ｃ均值聚类算法对半监督ＦＣＭ算法进行研究可以发现，上文中的Ｂ和Ｆ的功能相似，保留下Ｆ并对ＦＰＣＭ的目标函数做如下改进：第３期王跃，等：一种基于少量标签的改进迁移模糊聚类 ·３１１·

.312 智能系统学报第11卷 N J= ∑∑(a+B)d+u (ua -fa)'di J= a+)+ (13) u4-f)] s.t.a≥0，B≥0，w>0,0≤ut,tk≤1 最小化目标函数，可以得到迭代表达式： s.t. a≥0，B≥0，ω>0,0≤4法，tt≤1 N+M Vi,k (14) -IVk.IVi (17) 不直接使用式(13)的目标函数而改用式(17)》 a+(1-∑f) 的目标函数，当参数ω趋于0的时候，前者相当于证= +ωfk,i,k 将M个源数据当作未知标签加入到目标领域中进 a+w 行无监督混合C均值聚类，而后者则等于认为这些数据没有用处而舍弃。可以发现前者无法控制加入 (15) 源数据后所可能造成的负迁移现象影响聚类结果， ∑【a匠+B+wua-f)]x 而后者则可以有效避免该情况。，Hi 最小化目标函数可以得到： N a暖+假+ua-fa)门 d d -1 k≤N (16) 通过不断迭代优化隶属度矩阵最终获得我们需 ωd，告d + N<k≤N+M 要的划分。改进的半监督模糊可能性C均值算法 (SS-FPCM)能够通过a、B控制FPCM中FCM和 (18) -1 PCM的权重，通过参数ω的变化控制已知标签在算 k≤N 法中所占的比重。 2.2历史标签数据的迁移 1 迁移学习可以将历史场景（也叫源数据）中获 1+a 1 一+ f,N<k≤N+M 取需要的数据或者信息，用于指导当前场景（又成 1+a 为目标数据)，当历史场景的信息与当前场景的相关性足够大时，可以从中得到潜藏的信息。在当历 (19) 史场景没有任何指导信的数据（无任何标签信息） V+V 时，文献[11-12]针对这种情况分别做出了自己的 (时tB)tu】 (oaiBit (u-fa)) N+I -,i 研究。 N+M 当源数据有少量的标签时候，可以很直观地想三(@Hu2a哈时ur)y k=N+1 到，将这些数据提取出来，加入到当前场景，一起进 (20) 行聚类，以期待能够指导当前场景。前面提到了半 2.3改进的半监督迁移算法监督FPCM聚类算法能够有效利用标签进行聚类，在历史场景中，除了少量的标签信息，还有大量便可以直接引用式(13)的目标函数。但是，在迁移的未标记数据，这些数据量远远大于已标记数据，同学习中负迁移是难以避免的一个问题，如果历史场样可以从中获取需要的信息来帮助当前场景。直接景与当前场景相关性并不大。那么历史数据的标签将大量未标记数据加入当前场景中进行聚类大大增很可能对当前场景产生不良影响，造成负迁移现象。加了计算量。针对这个问题，对式(13)进行改造，提出避免负迁在历史场景中，为了减少计算量，可以使用一个移的半监督迁移聚类算法(TS-FPCM)。 “代表点”来表示一个类，而不仅仅是文献[11]中的假设历史场景中有M个已知标签样本，将数据聚类中心：这个点既可以是聚类中心，也可以是数据提取放在目标数据的后面，构成新的目标数据集中的真实样本点，将庞大的数据变为有限的几个点。 X'={xk=1,2,…,N,N+1,…,N+M},x∈R,其为了能够有效地利用“代表点”，给定代表点集中后M个数据为历史场景中的已知样本，根据数据合Xr={xIi=1,2,…,C},C表示聚类个数，重新定集提出新的目标函数为义新的距离函数为

Ｊ＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｄ２ｉｋ＋ ω∑ Ｃｉ＝１ ∑ Ｎｋ＝１ｕｉｋ－ｆｉｋ ( ) ２ｄ２ｉｋ（１３）ｓ．ｔ． α ≥ ０， β ≥ ０， ω ＞０，０ ≤ ｕｉｋ，ｔｉｋ ≤ １最小化目标函数，可以得到迭代表达式：ｔｉｋ＝ ∑ Ｎｊ＝１ｄ２ｉｋｄ２ｉｊ æ è ç ö ø ÷ é ë ê ê ù û ú ú －１，∀ｉ，ｋ（１４）ｕｉｋ＝１ α ＋ ω α ＋ ω １－ ∑ Ｃｊ＝１ｆ ( ｊｋ ) ∑ Ｃｊ＝１ｄ２ｉｋｄ２ｊｋ＋ ωｆｉｋ，∀ｉ，ｋ（１５）ｖｉ＝ ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ＋ ω ｕｉｋ－ｆｉｋ ( ) ２ [ ] ｘｋ ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ＋ ω ｕｉｋ－ｆｉｋ ( ) ２ [ ] ，∀ｉ（１６）通过不断迭代优化隶属度矩阵最终获得我们需要的划分。改进的半监督模糊可能性Ｃ均值算法（ＳＳ⁃ＦＰＣＭ）能够通过 α、 β 控制ＦＰＣＭ中ＦＣＭ和ＰＣＭ的权重，通过参数 ω 的变化控制已知标签在算法中所占的比重。２．２历史标签数据的迁移迁移学习可以将历史场景（也叫源数据）中获取需要的数据或者信息，用于指导当前场景（又成为目标数据），当历史场景的信息与当前场景的相关性足够大时，可以从中得到潜藏的信息。在当历史场景没有任何指导信的数据（无任何标签信息）时，文献［１１⁃１２］针对这种情况分别做出了自己的研究。当源数据有少量的标签时候，可以很直观地想到，将这些数据提取出来，加入到当前场景，一起进行聚类，以期待能够指导当前场景。前面提到了半监督ＦＰＣＭ聚类算法能够有效利用标签进行聚类，便可以直接引用式（１３）的目标函数。但是，在迁移学习中负迁移是难以避免的一个问题，如果历史场景与当前场景相关性并不大。那么历史数据的标签很可能对当前场景产生不良影响，造成负迁移现象。针对这个问题，对式（１３）进行改造，提出避免负迁移的半监督迁移聚类算法（ＴＳＳ⁃ＦＰＣＭ）。假设历史场景中有Ｍ个已知标签样本，将数据提取放在目标数据的后面，构成新的目标数据集Ｘ′＝ｘｋ { ｋ＝１，２，…，Ｎ，Ｎ＋１，…，Ｎ＋Ｍ} ，ｘｋ ∈ Ｒｄ，其中后Ｍ个数据为历史场景中的已知样本，根据数据集提出新的目标函数为Ｊ＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｄ２ｉｋ＋ ω ∑ Ｃｉ＝１ ∑ Ｎ＋Ｍｋ＝Ｎ＋１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｄ２ｉｋ＋ ∑ Ｃｉ＝１ ∑ Ｎ＋Ｍｋ＝Ｎ＋１ｕｉｋ－ｆｉｋ ( ) ２ｄ２ [ ｉｋ ] ｓ．ｔ． α ≥ ０， β ≥ ０， ω ＞０，０ ≤ ｕｉｋ，ｔｉｋ ≤ １ ∑ Ｃｉ＝１ｕｉｋ＝１∀ｋ， ∑ Ｎ＋Ｍｋ＝１ｔｉｋ＝１∀ｉ（１７）不直接使用式（１３）的目标函数而改用式（１７）的目标函数，当参数 ω 趋于０的时候，前者相当于将Ｍ个源数据当作未知标签加入到目标领域中进行无监督混合Ｃ均值聚类，而后者则等于认为这些数据没有用处而舍弃。可以发现前者无法控制加入源数据后所可能造成的负迁移现象影响聚类结果，而后者则可以有效避免该情况。最小化目标函数可以得到：ｔｉｋ＝ ∑ Ｎｊ＝１ｄ２ｉｋｄ２ｉｊ＋ ∑ Ｎ＋Ｍｊ＝Ｎ＋１ｄ２ｉｋ ωｄ２ｉｊ æ è ç ö ø ÷ －１，ｋ ≤ Ｎ ∑ Ｎｊ＝１ ωｄ２ｉｋｄ２ｉｊ＋ ∑ Ｎ＋Ｍｊ＝Ｎ＋１ｄ２ｉｋｄ２ｉｊ æ è ç ö ø ÷ －１，Ｎ＜ｋ ≤ Ｎ＋Ｍ ì î í ï ï ï ï ïï （１８）ｕｉｋ＝ ∑ Ｃｊ＝１ｄ２ｉｋｄ２ｊｋ æ è ç ö ø ÷ －１，ｋ ≤ Ｎ１－１１＋ α∑ Ｃｊ＝１ｆｊｋ ∑ Ｃｊ＝１ｄ２ｉｋｄ２ｊｋ＋１１＋ α ｆｉｋ，Ｎ＜ｋ ≤ Ｎ＋Ｍ ì î í ï ï ï ï ï ï ï ï （１９）ｖｉ＝ ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｘｋ＋ ω∑ Ｎ＋Ｍｋ＝Ｎ＋１ αｕ２ｉｋ＋ βｔ２ｉｋ＋ｕｉｋ－ｆｉｋ ( ) ２ { } ｘｋ ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ ( )＋ ω∑ Ｎ＋Ｍｋ＝Ｎ＋１ αｕ２ｉｋ＋ βｔ２ｉｋ＋ｕｉｋ－ｆｉｋ ( ) ２ { } ｘｋ，∀ｉ（２０）２．３改进的半监督迁移算法在历史场景中，除了少量的标签信息，还有大量的未标记数据，这些数据量远远大于已标记数据，同样可以从中获取需要的信息来帮助当前场景。直接将大量未标记数据加入当前场景中进行聚类大大增加了计算量。在历史场景中，为了减少计算量，可以使用一个 “代表点”来表示一个类，而不仅仅是文献［１１］中的聚类中心；这个点既可以是聚类中心，也可以是数据中的真实样本点，将庞大的数据变为有限的几个点。为了能够有效地利用“代表点”，给定代表点集合ＸＸ＾＝｛＾ｘｉ｜ｉ＝１，２，…，Ｃ｝，Ｃ表示聚类个数，重新定义新的距离函数为 ·３１２· 智能系统学报第１１卷

ｄ ?２ｉｋ＝ ‖ｘｋ－ｖｉ‖２＋ γ１ ‖ｘｋ－ｘ＾ｉ‖２＋ γ２ ‖ｖｉ－ｘ＾ｉ‖２（２１）式中 γ１和 γ２为权重因子，用于调节历史中心的重要程度，将代表点作为有效信息迁移到当前场景中来。新的目标函数如式（２２）：Ｊ＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｄ ? ２ｉｋ＋ ω ∑ Ｃｉ＝１ ∑ Ｎ＋Ｍｋ＝Ｎ＋１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｄ ? ２ { ｉｋ＋ ∑ Ｃｉ＝１ ∑ Ｎ＋Ｍｋ＝Ｎ＋１ｕｉｋ－ｆｉｋ ( ) ２ｄ ? ２ｉｋ ] （２２）式中： α ≥ ０， β ≥ ０， ω ＞０，０ ≤ ｕｉｋ，ｔｉｋ ≤ １， ∑ Ｃｉ＝１ｕｉｋ＝１，∀ｋ， ∑ Ｎ＋Ｍｋ＝１ｔｉｋ＝１，∀ｉ。为了获得其迭代表达式，利用拉格朗日极值优化表达式，首先构造Ｌａｇｒａｎｇｅ表达式：Ｑ＝ ∑ Ｃｉ＝１ ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｄ ? ２ｉｋ＋ ω ∑ Ｃｉ＝１ ∑ Ｎ＋Ｍｋ＝Ｎ＋１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｄ ? ２ [ ｉｋ＋∑ Ｃｉ＝１ ∑ Ｎ＋Ｍｋ＝Ｎ＋１ｕｉｋ－ｆｉｋ ( ) ２ｄ ? ２ｉｋ ] ＋ ∑ Ｎ＋Ｍｋ＝１ λｋ１－ ∑ Ｃｉ＝１ ( ｕｉｋ ) ＋ ∑ Ｃｉ＝１ θｉ１－ ∑ Ｎ＋Ｍｋ＝１ｔ ( ｉｋ ) （２３）式中 λｋ与 θｉ为Ｌａｇｒａｎｇｅ乘子。令∂Ｑ／ ∂Ｖｉ＝０，解得：ｖｉ＝ ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｘｋ＋ γ２∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ｘ＾ｉ＋ ω ∑ Ｎ＋Ｍｋ＝Ｎ＋１ αｕ２ｉｋ＋ βｔ２ｉｋ＋ｕｉｋ－ｆｉｋ ( ) ２ ( ) ｘｋ＋ γ２∑ Ｎ＋Ｍｋ＝Ｎ＋１ αｕ２ｉｋ＋ βｔ２ｉｋ＋ｕｉｋ－ｆｉｋ ( ) ２ ( ) ｘ＾ [ ｉ] １＋ γ２ ( ) ∑ Ｎｋ＝１ αｕ２ｉｋ＋ βｔ２ｉｋ ( ) ＋ ω∑ Ｎ＋Ｍｋ＝Ｎ＋１ αｕ２ｉｋ＋ βｔ２ｉｋ＋ｕｉｋ－ｆｉｋ ( ) ２ [ ( ) ] （２４）令∂Ｑ／ ∂λｋ＝０，可以得到： ∑ Ｃｉ＝１ｕｉｋ＝１（２５）令∂Ｑ／ ∂ｕｉｋ＝０，对于０＜ｋ≤Ｎ可以解得：ｕｉｋ＝ λ ２αｄ ? ２ｉｋ（２６）将式（２６）代入式（２５），解得： λ ２α ＝ ∑ Ｃｉ＝１１ｄ ? ２ｉｋ æ è çç ö ø ÷÷ －１（２７）再将 λ 代回式（２６），得到：ｕｉｋ＝ ∑ Ｃｊ＝１ｄ ? ２ｉｋｄ ? ２ｊｋ æ è ç ç ö ø ÷ ÷ －１（２８）同理，对于Ｎ＜ｋ≤Ｎ＋Ｍ，可以求出：ｕｉｋ＝１－１１＋ α∑ Ｃｊ＝１ｆｊｋ ∑ Ｃｊ＝１ｄ ? ２ｉｋｄ ? ２ｊｋ＋１１＋ α ｆｉｋ（２９）合并式（２８）和（２９）可以得到最终表达式：ｕｉｋ＝ ∑ Ｃｊ＝１ｄ ? ２ｉｋｄ ? ２ｊｋ æ è ç ç ö ø ÷ ÷ －１，ｋ ≤ Ｎ１－１１＋ α∑ Ｃｊ＝１ｆｊｋ ∑ Ｃｊ＝１ｄ ? ２ｉｋｄ ? ２ｊｋ＋１１＋ α ｆｉｋ，Ｎ＜ｋ ≤ Ｎ＋Ｍ ì î í ï ï ï ï ï ï ï ï ïï （３０）使用同样得方法，可以求得ｔｉｋ的迭代表达式：ｔｉｋ＝ ∑ Ｎｊ＝１ｄ ? ２ｉｋｄ ? ２ｉｊ＋ ∑ Ｎ＋Ｍｊ＝Ｎ＋１ｄ ? ２ｉｋ ωｄ ? ２ｉｊ æ è ç ç ö ø ÷ ÷ －１，ｋ ≤ Ｎ ∑ Ｎｊ＝１ ωｄ ? ２ｉｋｄ ? ２ｉｊ＋ ∑ Ｎ＋Ｍｊ＝Ｎ＋１ｄ ? ２ｉｋｄ ? ２ｉｊ æ è ç ç ö ø ÷ ÷ －１，Ｎ＜ｋ ≤ Ｎ＋Ｍ ì î í ï ï ï ï ï ï （３１）２．４改进的半监督迁移算法描述根据上一节的公式，ＩＴＳＳ⁃ＦＰＣＭ的表述如下：算法１ＩＴＳＳ⁃ＦＰＣＭ算法输入前Ｎ个数据样本为目标数据，后Ｍ个为已知标签的历史数据的数据样本Ｘ′ ＝ｘｋ { ｜ｋ＝１，２，…，Ｎ，Ｎ＋１，…，Ｎ＋Ｍ} ，聚类个数Ｃ，最大迭代次数Ｌ，当前迭代次数ｌ＝１，源数据类代表点Ｘ＾，相关参数 α、β、ω、γ１和 γ２，阈值 ε。输出聚类中心ｖｉ，隶属度矩阵ｕｉｋ和概率矩阵ｔｉｋ。１）初始化聚类中心ｖｉ，根据已知标签构造矩阵Ｆ，初始化目标函数Ｊ（ｌ）＝０。２）根据表达式（３０）更新ｖｉｋ。３）根据表达式（３１）更新ｖｉｋ。４）根据表达式（２４）更新ｖｉ。５）ｌ＝ｌ＋１，计算新的目标函数Ｊ（ｌ），如果Ｊ（ｌ）－Ｊ（ｌ－１）＜ε，或者ｌ＞Ｌ跳到第６），否则，跳到２）。６）聚类中心ｖｉ，隶属度矩阵ｖｉｋ和概率矩阵ｖｉｋ。３实验结果为了验证算法的有效性，实验使用了人工数据第３期王跃，等：一种基于少量标签的改进迁移模糊聚类 ·３１３·

·314· 智能系统学报第11卷集、UCI真实数据集以及文本数据集进行相关的实验验证。 35 在进行聚类结果评价时，选取了相关的4种聚吃类评价指标：正确率AC(Accuracy)u)、归一化互信 5 息NM(normalized mutual information),]、芮氏指标RI(Rand Index),9和F-measure。4个指标 10 的值域均在0到1，值越大表示聚类质量越好。实验中选取了LSSMTCU、Co-Clustering) 5 FPCM、TSC)]、T-GIP-FCM四算法进行对比实实验：评价结果将进行10次计算取平均值。 -10 510 152025 3.1人工数据集为了模拟源场景和当前目标场景，实验使用文 (a)数据集Setl 献[11]的方法：首先利用高斯函数生成相关的数据 40 集，随机生成类别数为3，每类250个样本点，每个样本点为两微的源场景数据，如图1所示。 30 50 20 40 ·器 10 30 0 -10 -10 -5051015202530 0 24 0 (b)数据集Set2 class-1 .class-2 图2目标数据集 -10 *class-3 Fig.2 Target dataset -10-505 1015202530 k 两个数据集分别模拟当前的数据样本信息匮乏 (数据不足)、充足（数据足够）但是受污染（有噪图1源数据声)的不同情况下进行聚类。 Fig.1 Source Dataset 实验时，SS-FPCM,TSS-FPCM,ITSS-FPCM算法如图2所示，同样利用高斯分布函数产生当前需要已知部分源标签，随机从源数据中抽取3%的数据集Set1和Set2两个数据集：其中Setl每类样样本作为已知标签数据进行实验，实验结果如表1 本数目为20，如图2(a)所示：Set2每类样本数目为所示，表格中“一”表示该数据集不满足算法运行的 100,再向其中加入高斯噪声构成，如图2(b)所示。基本条件。表18个算法在人工数据集的对比 Tablel Comparison of 8 algorithms on artificial data sets 算法数据集评价指标 LSSMTC Co-Clustering FPCM TSC T-GIFP-FCM SS-FPCM TSS-FPCM ITSS-FPCM F-measure 0.8981 0.8837 0.8658 0.8956 0.9017 0.9017 0.9159 RI 0.8729 0.8593 0.8435 0.8627 0.8842 0.8842 0.8955 Setl AC 0.9000 0.8833 0.8667 一 0.8933 0.9000 0.9000 0.9167 NMI 0.7067 0.7434 0.6561 一 0.7364 0.7322 0.7322 0.7698 F-measure 0.8771 0.9117 0.9010 一 0.9184 0.9107 0.9124 0.9538 RI 0.8615 0.8698 0.8847 0.8967 0.8920 0.8920 0.9410 Set2 AC 0.8467 0.9010 0.9000 0.9200 0.9100 0.9133 0.9542 NMI 0.7187 0.7705 0.7616 0.8016 0.7810 0.7880 0.8444

集、ＵＣＩ真实数据集以及文本数据集进行相关的实验验证。在进行聚类结果评价时，选取了相关的４种聚类评价指标：正确率ＡＣ（Ａｃｃｕｒａｃｙ）［１８］、归一化互信息ＮＭＩ（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）［１１，１８］、芮氏指标ＲＩ（ＲａｎｄＩｎｄｅｘ）［１１，１９］和Ｆ⁃ｍｅａｓｕｒｅ［１９］。４个指标的值域均在０到１，值越大表示聚类质量越好。实验中选取了ＬＳＳＭＴＣ［１８］、Ｃｏ⁃Ｃｌｕｓｔｅｒｉｎｇ［２０］、ＦＰＣＭ、ＴＳＣ［１２］、Ｔ⁃ＧＩＦＰ⁃ＦＣＭ［１１］算法进行对比实实验；评价结果将进行１０次计算取平均值。３．１人工数据集为了模拟源场景和当前目标场景，实验使用文献［１１］的方法：首先利用高斯函数生成相关的数据集，随机生成类别数为３，每类２５０个样本点，每个样本点为两微的源场景数据，如图１所示。图１源数据Ｆｉｇ．１ＳｏｕｒｃｅＤａｔａｓｅｔ如图２所示，同样利用高斯分布函数产生当前数据集Ｓｅｔ１和Ｓｅｔ２两个数据集；其中Ｓｅｔ１每类样本数目为２０，如图２（ａ）所示；Ｓｅｔ２每类样本数目为１００，再向其中加入高斯噪声构成，如图２（ｂ）所示。（ａ）数据集Ｓｅｔ１（ｂ）数据集Ｓｅｔ２图２目标数据集Ｆｉｇ．２Ｔａｒｇｅｔｄａｔａｓｅｔ两个数据集分别模拟当前的数据样本信息匮乏（数据不足）、充足（数据足够）但是受污染（有噪声）的不同情况下进行聚类。实验时，ＳＳ⁃ＦＰＣＭ，ＴＳＳ⁃ＦＰＣＭ，ＩＴＳＳ⁃ＦＰＣＭ算法需要已知部分源标签，随机从源数据中抽取３％的样本作为已知标签数据进行实验，实验结果如表１所示，表格中“—”表示该数据集不满足算法运行的基本条件。表１８个算法在人工数据集的对比Ｔａｂｌｅ１Ｃｏｍｐａｒｉｓｏｎｏｆ８ａｌｇｏｒｉｔｈｍｓｏｎａｒｔｉｆｉｃｉａｌｄａｔａｓｅｔｓ数据集评价指标算法ＬＳＳＭＴＣＣｏ⁃ＣｌｕｓｔｅｒｉｎｇＦＰＣＭＴＳＣＴ⁃ＧＩＦＰ⁃ＦＣＭＳＳ⁃ＦＰＣＭＴＳＳ⁃ＦＰＣＭＩＴＳＳ⁃ＦＰＣＭＳｅｔ１Ｆ⁃ｍｅａｓｕｒｅ０．８９８１０．８８３７０．８６５８ — ０．８９５６０．９０１７０．９０１７０．９１５９ＲＩ０．８７２９０．８５９３０．８４３５ — ０．８６２７０．８８４２０．８８４２０．８９５５ＡＣ０．９００００．８８３３０．８６６７ — ０．８９３３０．９００００．９００００．９１６７ＮＭＩ０．７０６７０．７４３４０．６５６１ — ０．７３６４０．７３２２０．７３２２０．７６９８Ｓｅｔ２Ｆ⁃ｍｅａｓｕｒｅ０．８７７１０．９１１７０．９０１０ — ０．９１８４０．９１０７０．９１２４０．９５３８ＲＩ０．８６１５０．８６９８０．８８４７ — ０．８９６７０．８９２００．８９２００．９４１０ＡＣ０．８４６７０．９０１００．９０００ — ０．９２０００．９１０００．９１３３０．９５４２ＮＭＩ０．７１８７０．７７０５０．７６１６ — ０．８０１６０．７８１００．７８８００．８４４４ ·３１４· 智能系统学报第１１卷

第3期王跃，等：一种基于少量标签的改进迁移模糊聚类 ·315. 从表1可以看出： 3.3文本真实数据集 1)在St1数据集中样本量很少，少量的源标签 20NG(20 Newsgroups)【21是一个真实的新闻文数据样本和其他信息都能够对目标数据产生正向的本数据集，数据集收集了大约2万条新闻组，均匀地推动作用，从而达到较好的结果，SS-FPCM与TSS- 分布到20个不同的集合中，20个小集合又可以分 FPCM的结果验证了这一点；T-GITP-FCM算法也可为4个大的类别，该数据集在大量迁移学习分类算以得到很好的结果；法中被使用。 2)在有噪声的数据集St2上，少量的标签不足 TDT2[2](NIST话题检测与跟踪的语料库)共收以取得令人满意的效果，仍需要源数据的其他帮助，集1998年上半年6个来源的数据，包含2个通讯社 SS-FPCM与TSS-FPCM算法的结果不如T-GIFP (APW,NYT),2个电台节目(VOA,PRI)和2个电 FCM算法：说明SS-FPCM与TSS-FPCM算法在抗干视节目(CNN,ABC),共1万多个样本数据。扰方面存在不足： Reuters-215782)语料库包含21578个文件，放 3)改进后的ITSS-FPCM算法则在Set1和Set2 在135个文件夹下。上均取得了良好的聚类效果。说明当在数据信息不实验时分别对3个文本数据集抽取其中一部分足，数据样本有限，数据受污染的时候，在有大量历类别，利用工具进行降维处理后构成新的数据集样史数据的帮助下迁移算法可以取得不错的效果，改本，数据具体构成如表3所示。进的TSS-FPCM算法在抗噪声和干扰方面优于其表3数据集构成情况他算法。 Table3 Composition of data sets 3.2UCI真实数据集数据来源数据类型样本数维数类别 UCI中的Image Segment Data Set是一个图片数据集，它由7个室外图像数据库中随机抽取，组成7 源数据 1200 400 个不同的类别，共2100个样本数据，其中每个类别 comp vs sci(20NG) 含有300个样本点。实验从数据中抽取70%的数据目标数据 400 400 作为源数据，剩下的构成目标数据进行实验，数据构成如表2。源数据 1200 40 表2 Image Segment数据集构成情况 rec vs talk(20NG) Table2 Composition of image segment data sets 目标数据 400 400 数据类型样本数维数类别源数据 1800 40 源数据 1470 19 7 TDT2 目标数据 630 19 目标数据 600 40 算法在数据集的聚类结果如图3所示，从图中可以发现本文所提出的ITSS-FPCM算法在4个指源数据 800 400 标均取得了不错的结果，在准确率与NMI指标上有 Reuters-21578 相对较大的优势，进一步验证了算法得有效性。目标数据 400 400 ▣LSSMT℃ 聚类的结果如表4所示，结果中可以看到： Co-Clustering ▣PCM 1)利用迁移学习的TSC、T-GIFP-FCM、TSS TSC 1.0 T-GIFP-FCM FCM、TSS-FCM算法在效果上均优于非迁移学习型 SS-FPCM ■TSS-FPCM 算法，表明迁移学习能够有效地提升聚类的性能； ITSS-FPCM 2)仅对源数据少量标签数据直接使用的SS 0.6 FPCM算法和TSS-FPCM算法对当前场景的作用有 0.4 限，不及能够利用更多信息的TSC迁移聚类和T GIFP-FCM算法，但还是能够有效地提高聚类性能； 0.2 3)本论文的TSS-FPCM算法在大部分指标都 0 优于其他算法，但是当源数据与目标数据相关性不 F-measure RI NMI 指标大时，基于标签与代表点的直接迁移对当前场景帮图38个算法在Image Segment数据集上的对比助有限，不及ST℃算法的聚类效果，存在着局限性 Fig.3 Comparison of 8 algorithms on image segment data set 和适用范围的问题

从表１可以看出：１）在Ｓｅｔ１数据集中样本量很少，少量的源标签数据样本和其他信息都能够对目标数据产生正向的推动作用，从而达到较好的结果，ＳＳ⁃ＦＰＣＭ与ＴＳＳ⁃ ＦＰＣＭ的结果验证了这一点；Ｔ⁃ＧＩＴＰ⁃ＦＣＭ算法也可以得到很好的结果；２）在有噪声的数据集Ｓｅｔ２上，少量的标签不足以取得令人满意的效果，仍需要源数据的其他帮助，ＳＳ⁃ＦＰＣＭ与ＴＳＳ⁃ＦＰＣＭ算法的结果不如Ｔ⁃ＧＩＦＰ⁃ ＦＣＭ算法；说明ＳＳ⁃ＦＰＣＭ与ＴＳＳ⁃ＦＰＣＭ算法在抗干扰方面存在不足；３）改进后的ＩＴＳＳ⁃ＦＰＣＭ算法则在Ｓｅｔ１和Ｓｅｔ２上均取得了良好的聚类效果。说明当在数据信息不足，数据样本有限，数据受污染的时候，在有大量历史数据的帮助下迁移算法可以取得不错的效果，改进的ＩＴＳＳ⁃ＦＰＣＭ算法在抗噪声和干扰方面优于其他算法。３．２ＵＣＩ真实数据集ＵＣＩ中的ＩｍａｇｅＳｅｇｍｅｎｔＤａｔａＳｅｔ是一个图片数据集，它由７个室外图像数据库中随机抽取，组成７个不同的类别，共２１００个样本数据，其中每个类别含有３００个样本点。实验从数据中抽取７０％的数据作为源数据，剩下的构成目标数据进行实验，数据构成如表２。表２ＩｍａｇｅＳｅｇｍｅｎｔ数据集构成情况Ｔａｂｌｅ２Ｃｏｍｐｏｓｉｔｉｏｎｏｆｉｍａｇｅｓｅｇｍｅｎｔｄａｔａｓｅｔｓ数据类型样本数维数类别源数据１４７０１９７目标数据６３０１９７算法在数据集的聚类结果如图３所示，从图中可以发现本文所提出的ＩＴＳＳ⁃ＦＰＣＭ算法在４个指标均取得了不错的结果，在准确率与ＮＭＩ指标上有相对较大的优势，进一步验证了算法得有效性。图３８个算法在ＩｍａｇｅＳｅｇｍｅｎｔ数据集上的对比Ｆｉｇ．３Ｃｏｍｐａｒｉｓｏｎｏｆ８ａｌｇｏｒｉｔｈｍｓｏｎｉｍａｇｅｓｅｇｍｅｎｔｄａｔａｓｅｔ３．３文本真实数据集２０ＮＧ（２０Ｎｅｗｓｇｒｏｕｐｓ）［１２］是一个真实的新闻文本数据集，数据集收集了大约２万条新闻组，均匀地分布到２０个不同的集合中，２０个小集合又可以分为４个大的类别，该数据集在大量迁移学习分类算法中被使用。ＴＤＴ２［２１］（ＮＩＳＴ话题检测与跟踪的语料库）共收集１９９８年上半年６个来源的数据，包含２个通讯社（ＡＰＷ，ＮＹＴ），２个电台节目（ＶＯＡ，ＰＲＩ）和２个电视节目（ＣＮＮ，ＡＢＣ），共１万多个样本数据。Ｒｅｕｔｅｒｓ⁃２１５７８［２１］语料库包含２１５７８个文件，放在１３５个文件夹下。实验时分别对３个文本数据集抽取其中一部分类别，利用工具进行降维处理后构成新的数据集样本，数据具体构成如表３所示。表３数据集构成情况Ｔａｂｌｅ３Ｃｏｍｐｏｓｉｔｉｏｎｏｆｄａｔａｓｅｔｓ数据来源数据类型样本数维数类别ｃｏｍｐｖｓｓｃｉ（２０ＮＧ）源数据１２００４００２目标数据４００４００２ｒｅｃｖｓｔａｌｋ（２０ＮＧ）源数据１２００４００２目标数据４００４００２ＴＤＴ２源数据１８００４００６目标数据６００４００６Ｒｅｕｔｅｒｓ⁃２１５７８源数据８００４００４目标数据４００４００４聚类的结果如表４所示，结果中可以看到：１）利用迁移学习的ＴＳＣ、Ｔ⁃ＧＩＦＰ⁃ＦＣＭ、ＴＳＳ⁃ ＦＣＭ、ＩＴＳＳ⁃ＦＣＭ算法在效果上均优于非迁移学习型算法，表明迁移学习能够有效地提升聚类的性能；２）仅对源数据少量标签数据直接使用的ＳＳ⁃ ＦＰＣＭ算法和ＴＳＳ⁃ＦＰＣＭ算法对当前场景的作用有限，不及能够利用更多信息的ＴＳＣ迁移聚类和Ｔ⁃ ＧＩＦＰ⁃ＦＣＭ算法，但还是能够有效地提高聚类性能；３）本论文的ＩＴＳＳ⁃ＦＰＣＭ算法在大部分指标都优于其他算法，但是当源数据与目标数据相关性不大时，基于标签与代表点的直接迁移对当前场景帮助有限，不及ＳＴＣ算法的聚类效果，存在着局限性和适用范围的问题。第３期王跃，等：一种基于少量标签的改进迁移模糊聚类 ·３１５·

.316. 智能系统学报第11卷表48个算法在人工数据集的对比 Table4 Comparison of 8 algorithms on artificial data sets 算法数据集评价指标 LSSMTC Co-Clustering FPCM TSC T-GIFP-FCM SS-FPCM TSS-FPCM ITSS-FPCM F-measure 0.6834 0.6648 0.63310.7688 0.6956 0.6984 0.7187 0.7336 RI 0.5585 0.5550 0.52410.6450 0.5770 0.5750 0.5958 0.6095 sciSet1 AC 0.8165 0.6675 0.75000.7700 0.6975 0.6950 0.7200 0.7350 NMI 0.1341 0.1021 0.11890.2923 0.1483 0.1098 0.1342 0.1564 F-measure 0.6867 0.6394 0.69800.8827 0.8907 0.8311 0.8469 0.9158 RI 0.5803 0.5395 0.57690.7921 0.8037 0.7204 0.7409 0.8440 rec vs talk AC 0.7053 0.6425 0.6975 0.8825 0.8900 0.8325 0.8475 0.9150 NMI 0.1769 0.0871 0.09930.4637 0.4873 0.3492 0.3750 0.5748 F-measure 0.6427 0.6139 0.47870.8554 0.8897 0.8214 0.8253 0.8858 RI 0.7828 0.7473 0.6825 0.9070 0.9299 0.8845 0.8884 0.9300 TDT2 AC 0.6983 0.7133 0.60830.8633 0.8967 0.8333 0.8350 0.8883 NMI 0.5426 0.5750 0.39800.7535 0.8093 0.7199 0.7217 0.8298 F-measure 0.7101 0.6840 0.6361 0.8247 0.8533 0.8121 0.8178 0.8608 RI 0.8125 0.7153 0.66200.8419 0.8658 0.8323 0.8376 0.8709 Reuters-21578 AC 0.8200 0.7275 0.71910.8300 0.8550 0.8150 0.8200 0.8650 NMI 0.5662 0.5052 0.44850.6590 0.6430 0.6162 0.62420.7076 4 结束语 mathematics and information sciences,2014,8(4):2033- 2040 本文将半监督学习思想应用到FPCM算法上， [3]DAI Wenyuan,XUE Guirong,YANG Qiang,et al.Co- 提出半监督SS-FPCM算法：迁移学习方面对算法进 clustering based classification for out-of-domain documents 行非负迁移改进，得到TSS-FPCM算法，再利用“代 [C]//Proceedings of the 13th ACM SIGKDD Tinternational Conference on Knowledge Discovery and Data Mining.San 表点”代替原始数据提出了改进的半监督的迁移聚 Jose,California,USA,2007:210-219. 类算法TSS-FPCM。在多种数据集上的实验验证表 [4]DAI Wenyuan,YANG Qiang,XUE Guirong,et al.Self- 明，TSS-FPCM算法在性能上要好于SS-FPCM算法 taught clustering[C]//Proceedings of the 25th International 与TSS-FPCM算法。在数据量不足、数据被污染的 Conference on Machine Learning.Helsinki,Finland,, 情况下，TSS-FPCM算法能够提升聚类的性能：算法 2008:200-207. 在源数据与目标数据相关不大时效果一般，下一步 [5]SAMANTA S,SELVAN A T,DAS S.Cross-domain cluste- 研究将会提取其他相关信息改善聚类性能，同时考 ring performed by transfer of knowledge across domains 虑参数的优化问题。 [C]//Proceedings of the 4th National Conference on Pat- tern Recognition,Image Processing and Graphics 参考文献： (NCVPRIPG).Jodhpur,India,2013:1-4. [6]DAI Wenyuan,XUE Guirong,YANG Qiang,et al.Trans- [1]庄福振，罗平，何清，等.迁移学习研究进展[J].软件 ferring naive Bayes classifiers for text classification[C]/ 学报，2015,26(1)：26-39. Proceedings of the 22nd National Conference on Artificial ZHUANG Fuzhen,LUO Ping,HE Qing,et al.Survey on Intelligence.Vancourver,British Columbia,Canada,2007, transfer learning research[]].Journal of software,2015,26 1:540-545. (1):26-39. [7]LIAO Xuejun,XUE Ya,CARIN L.Logistic regression with [2]WEI Fengmei,ZHANG Jianpei,CHU Yan,et al.FSFP: an auxiliary data source[C]//Proceedings of the 22nd In- transfer learning from long texts to the short[J].Applied ternational Conference on Machine Leaming.New York

表４８个算法在人工数据集的对比Ｔａｂｌｅ４Ｃｏｍｐａｒｉｓｏｎｏｆ８ａｌｇｏｒｉｔｈｍｓｏｎａｒｔｉｆｉｃｉａｌｄａｔａｓｅｔｓ数据集评价指标算法ＬＳＳＭＴＣＣｏ⁃ＣｌｕｓｔｅｒｉｎｇＦＰＣＭＴＳＣＴ⁃ＧＩＦＰ⁃ＦＣＭＳＳ⁃ＦＰＣＭＴＳＳ⁃ＦＰＣＭＩＴＳＳ⁃ＦＰＣＭｓｃｉＳｅｔ１Ｆ⁃ｍｅａｓｕｒｅ０．６８３４０．６６４８０．６３３１０．７６８８０．６９５６０．６９８４０．７１８７０．７３３６ＲＩ０．５５８５０．５５５００．５２４１０．６４５００．５７７００．５７５００．５９５８０．６０９５ＡＣ０．８１６５０．６６７５０．７５０００．７７０００．６９７５０．６９５００．７２０００．７３５０ＮＭＩ０．１３４１０．１０２１０．１１８９０．２９２３０．１４８３０．１０９８０．１３４２０．１５６４ｒｅｃｖｓｔａｌｋＦ⁃ｍｅａｓｕｒｅ０．６８６７０．６３９４０．６９８００．８８２７０．８９０７０．８３１１０．８４６９０．９１５８ＲＩ０．５８０３０．５３９５０．５７６９０．７９２１０．８０３７０．７２０４０．７４０９０．８４４０ＡＣ０．７０５３０．６４２５０．６９７５０．８８２５０．８９０００．８３２５０．８４７５０．９１５０ＮＭＩ０．１７６９０．０８７１０．０９９３０．４６３７０．４８７３０．３４９２０．３７５００．５７４８ＴＤＴ２Ｆ⁃ｍｅａｓｕｒｅ０．６４２７０．６１３９０．４７８７０．８５５４０．８８９７０．８２１４０．８２５３０．８８５８ＲＩ０．７８２８０．７４７３０．６８２５０．９０７００．９２９９０．８８４５０．８８８４０．９３００ＡＣ０．６９８３０．７１３３０．６０８３０．８６３３０．８９６７０．８３３３０．８３５００．８８８３ＮＭＩ０．５４２６０．５７５００．３９８００．７５３５０．８０９３０．７１９９０．７２１７０．８２９８Ｒｅｕｔｅｒｓ⁃２１５７８Ｆ⁃ｍｅａｓｕｒｅ０．７１０１０．６８４００．６３６１０．８２４７０．８５３３０．８１２１０．８１７８０．８６０８ＲＩ０．８１２５０．７１５３０．６６２００．８４１９０．８６５８０．８３２３０．８３７６０．８７０９ＡＣ０．８２０００．７２７５０．７１９１０．８３０００．８５５００．８１５００．８２０００．８６５０ＮＭＩ０．５６６２０．５０５２０．４４８５０．６５９００．６４３００．６１６２０．６２４２０．７０７６４结束语本文将半监督学习思想应用到ＦＰＣＭ算法上，提出半监督ＳＳ⁃ＦＰＣＭ算法；迁移学习方面对算法进行非负迁移改进，得到ＴＳＳ⁃ＦＰＣＭ算法，再利用“代表点”代替原始数据提出了改进的半监督的迁移聚类算法ＩＴＳＳ⁃ＦＰＣＭ。在多种数据集上的实验验证表明，ＩＴＳＳ⁃ＦＰＣＭ算法在性能上要好于ＳＳ⁃ＦＰＣＭ算法与ＴＳＳ⁃ＦＰＣＭ算法。在数据量不足、数据被污染的情况下，ＩＴＳＳ⁃ＦＰＣＭ算法能够提升聚类的性能；算法在源数据与目标数据相关不大时效果一般，下一步研究将会提取其他相关信息改善聚类性能，同时考虑参数的优化问题。参考文献：［１］庄福振，罗平，何清，等．迁移学习研究进展［Ｊ］．软件学报，２０１５，２６（１）：２６⁃３９．ＺＨＵＡＮＧＦｕｚｈｅｎ，ＬＵＯＰｉｎｇ，ＨＥＱｉｎｇ，ｅｔａｌ．Ｓｕｒｖｅｙｏｎｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ［Ｊ］．Ｊｏｕｒｎａｌｏｆｓｏｆｔｗａｒｅ，２０１５，２６（１）：２６⁃３９．［２］ＷＥＩＦｅｎｇｍｅｉ，ＺＨＡＮＧＪｉａｎｐｅｉ，ＣＨＵＹａｎ，ｅｔａｌ．ＦＳＦＰ：ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｆｒｏｍｌｏｎｇｔｅｘｔｓｔｏｔｈｅｓｈｏｒｔ［Ｊ］．Ａｐｐｌｉｅｄｍａｔｈｅｍａｔｉｃｓａｎｄｉｎｆｏｒｍａｔｉｏｎｓｃｉｅｎｃｅｓ，２０１４，８（４）：２０３３⁃ ２０４０．［３］ＤＡＩＷｅｎｙｕａｎ，ＸＵＥＧｕｉｒｏｎｇ，ＹＡＮＧＱｉａｎｇ，ｅｔａｌ．Ｃｏ⁃ ｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｆｏｒｏｕｔ⁃ｏｆ⁃ｄｏｍａｉｎｄｏｃｕｍｅｎｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＡＣＭＳＩＧＫＤＤＴｉｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＳａｎＪｏｓｅ，Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ，２００７：２１０⁃２１９．［４］ＤＡＩＷｅｎｙｕａｎ，ＹＡＮＧＱｉａｎｇ，ＸＵＥＧｕｉｒｏｎｇ，ｅｔａｌ．Ｓｅｌｆ⁃ ｔａｕｇｈｔｃｌｕｓｔｅｒｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｈｅｌｓｉｎｋｉ，Ｆｉｎｌａｎｄ，，２００８：２００⁃２０７．［５］ＳＡＭＡＮＴＡＳ，ＳＥＬＶＡＮＡＴ，ＤＡＳＳ．Ｃｒｏｓｓ⁃ｄｏｍａｉｎｃｌｕｓｔｅ⁃ ｒｉｎｇｐｅｒｆｏｒｍｅｄｂｙｔｒａｎｓｆｅｒｏｆｋｎｏｗｌｅｄｇｅａｃｒｏｓｓｄｏｍａｉｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＮａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＰａｔ⁃ ｔｅｒｎＲｅｃｏｇｎｉｔｉｏｎ，ＩｍａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄＧｒａｐｈｉｃｓ（ＮＣＶＰＲＩＰＧ）．Ｊｏｄｈｐｕｒ，Ｉｎｄｉａ，２０１３：１⁃４．［６］ＤＡＩＷｅｎｙｕａｎ，ＸＵＥＧｕｉｒｏｎｇ，ＹＡＮＧＱｉａｎｇ，ｅｔａｌ．Ｔｒａｎｓ⁃ ｆｅｒｒｉｎｇｎａｉｖｅＢａｙｅｓｃｌａｓｓｉｆｉｅｒｓｆｏｒｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２２ｎｄＮａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ．Ｖａｎｃｏｕｒｖｅｒ，ＢｒｉｔｉｓｈＣｏｌｕｍｂｉａ，Ｃａｎａｄａ，２００７，１：５４０⁃５４５．［７］ＬＩＡＯＸｕｅｊｕｎ，ＸＵＥＹａ，ＣＡＲＩＮＬ．Ｌｏｇｉｓｔｉｃｒｅｇｒｅｓｓｉｏｎｗｉｔｈａｎａｕｘｉｌｉａｒｙｄａｔａｓｏｕｒｃｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２２ｎｄＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ， ·３１６· 智能系统学报第１１卷

第3期王跃，等：一种基于少量标签的改进迁移模糊聚类 .317. NY,USA,2005:505-512 17]PEDRYCZ W.Algorithms of fuzzy clustering with partial [8]DAI Wenyuan,YANG Qiang,XUE Guirong,et al.Boos- supervision[J].Pattern recognition letters,1985,3(1): ting for transfer learning[C]//Proceedings of the 24th In- 13-20. ternational Conference on Machine Learning.Corvallis,Ore- [18]GU Quanquan,ZHOU Jie.Learning the shared subspace g0n,USA,2007:193-200. for multi-task clustering and transductive transfer classif- [9]LUO Ping,ZHUANG Fuzhen,XIONG Hui,et al.Transfer cation[C]//Proceedings of the 2009 9th IEEE internation- learning from multiple source domains via consensus regular- al conference on data mining.Miami,Florida,USA, ization[C]//Proceedings of the 17th ACM Conference on 2009:159-168. Information and Knowledge Management.Napa Valley,Cali- [19]杨燕，靳蕃，KAME M.聚类有效性评价综述[J].计算 fornia,USA,2008:103-112. 机应用研究，2008,25(6)：1630-1632,1638. [10]DUAN Lixin,TSANG I W,XU Dong,et al.Domain adap- YANG Yan,JIN Fan,KAME M.Survey of clustering va- tation from multiple sources via auxiliary classifiers[C]/ lidity evaluation[J].Application research of computers, Proceedings of the 26th Annual International Conference on 2008,25(6):1630-1632,1638. Machine Learning.Montreal,Canada,,2009:289-296. [20 GU Quanquan,ZHOU Jie.Co-clustering on manifolds [11]蒋亦樟，邓赵红，王骏，等.基于知识利用的迁移学习 [C]//Proceedings of the 15th ACM SIGKDD Internation- 一般化增强模糊划分聚类算法[].模式识别与人工智 al Conference on Knowledge Discovery and Data Mining. 能，2013,26(10)：975-984. Paris,France,2009:359-368. JIANG Yizhang,DENG Zhaohong,WANG Jun,et al. [21]CAI Deng,HE Xiaofei,HAN Jiawei.Locally consistent Transfer generalized fuzzy c-means clustering algorithm concept factorization for document clustering[J].IEEE with improved fuzzy partitions by leveraging knowledge[]. transactions on knowledge and data engineering,2011,23 Pattern recognition and artificial intelligence,2013,26 (6):902-913. (10):975-984. 作者简介： [12]JIANG Wenhao,CHUNG F L.Transfer spectral clustering 王跃，男，1990年生，硕士研究生， M]//FLACH P A,DE BIE T,CRISTIANINI N.Ma- 主要研究方向为数据挖掘、计算智能。 chine learning and knowledge discovery in databases:lec- ture notes in computer science.Berlin Heidelberg:Spring- er,2012,7524:789-803. [13]李昆仑，曹铮，曹丽苹，等.半监督聚类的若干新进展 [J].模式识别与人工智能，2009,22(5)：735-742.I Kunlun,CAO Zheng,CAO Liping,et al.Some develop- 杨燕，女，1964年生，教授，博士生 ments on semi-supervised clustering[J].Pattern recogni- 导师，主要研究方向为计算智能、数据 tion and artificial intelligence,2009,22(5):735-742. 挖掘、集成学习。主持国家自然科学基 [14]PAL N R,PAL K,BEZDEK J C.A mixed c-means clus- 金项目3项，国家科技支撑计划项目1 tering model [C]//Proceedings of the 6th IEEE Interna- 项，发表学术论文130余篇。 tional Conference on Fuzzy Systems.Barcelona,Spain, 1997,1:11-21. [15]BEZDEK J C,EHRLICH R,FULL W.FCM:The fuzzy c- 王红军，男，1977年生，副研究员，主 means clustering algorithm [J].Computers and geosci- 要研究方向为机器学习、深度学习、半监 ences,1984,10(2-3):191-203. 督学习。主持完成国家自然科学青年基 [16]KRISHNAPURAM R,KELLER J M.The possibilistic C- 金项目1项，主持国家自然科学基金项目 means algorithm:insights and recommendations[J].IEEE 2项，发表学术论文30余篇。 transactions on fuzzy systems,1996,4(3):385-393

ＮＹ，ＵＳＡ，２００５：５０５⁃５１２．［８］ＤＡＩＷｅｎｙｕａｎ，ＹＡＮＧＱｉａｎｇ，ＸＵＥＧｕｉｒｏｎｇ，ｅｔａｌ．Ｂｏｏｓ⁃ ｔｉｎｇｆｏｒｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２４ｔｈＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｃｏｒｖａｌｌｉｓ，Ｏｒｅ⁃ ｇｏｎ，ＵＳＡ，２００７：１９３⁃２００．［９］ＬＵＯＰｉｎｇ，ＺＨＵＡＮＧＦｕｚｈｅｎ，ＸＩＯＮＧＨｕｉ，ｅｔａｌ．Ｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇｆｒｏｍｍｕｌｔｉｐｌｅｓｏｕｒｃｅｄｏｍａｉｎｓｖｉａｃｏｎｓｅｎｓｕｓｒｅｇｕｌａｒ⁃ ｉｚａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１７ｔｈＡＣＭＣｏｎｆｅｒｅｎｃｅｏｎＩｎｆｏｒｍａｔｉｏｎａｎｄＫｎｏｗｌｅｄｇｅＭａｎａｇｅｍｅｎｔ．ＮａｐａＶａｌｌｅｙ，Ｃａｌｉ⁃ ｆｏｒｎｉａ，ＵＳＡ，２００８：１０３⁃１１２．［１０］ＤＵＡＮＬｉｘｉｎ，ＴＳＡＮＧＩＷ，ＸＵＤｏｎｇ，ｅｔａｌ．Ｄｏｍａｉｎａｄａｐ⁃ ｔａｔｉｏｎｆｒｏｍｍｕｌｔｉｐｌｅｓｏｕｒｃｅｓｖｉａａｕｘｉｌｉａｒｙｃｌａｓｓｉｆｉｅｒｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２６ｔｈＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．Ｍｏｎｔｒｅａｌ，Ｃａｎａｄａ，，２００９：２８９⁃２９６．［１１］蒋亦樟，邓赵红，王骏，等．基于知识利用的迁移学习一般化增强模糊划分聚类算法［Ｊ］．模式识别与人工智能，２０１３，２６（１０）：９７５⁃９８４．ＪＩＡＮＧＹｉｚｈａｎｇ，ＤＥＮＧＺｈａｏｈｏｎｇ，ＷＡＮＧＪｕｎ，ｅｔａｌ．Ｔｒａｎｓｆｅｒｇｅｎｅｒａｌｉｚｅｄｆｕｚｚｙｃ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｗｉｔｈｉｍｐｒｏｖｅｄｆｕｚｚｙｐａｒｔｉｔｉｏｎｓｂｙｌｅｖｅｒａｇｉｎｇｋｎｏｗｌｅｄｇｅ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎａｎｄａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，２０１３，２６（１０）：９７５⁃９８４．［１２］ＪＩＡＮＧＷｅｎｈａｏ，ＣＨＵＮＧＦＬ．Ｔｒａｎｓｆｅｒｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ［Ｍ］／／ＦＬＡＣＨＰＡ，ＤＥＢＩＥＴ，ＣＲＩＳＴＩＡＮＩＮＩＮ．Ｍａ⁃ ｃｈｉｎｅｌｅａｒｎｉｎｇａｎｄｋｎｏｗｌｅｄｇｅｄｉｓｃｏｖｅｒｙｉｎｄａｔａｂａｓｅｓ：ｌｅｃ⁃ ｔｕｒｅｎｏｔｅｓｉｎｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇ⁃ ｅｒ，２０１２，７５２４：７８９⁃８０３．［１３］李昆仑，曹铮，曹丽苹，等．半监督聚类的若干新进展［Ｊ］．模式识别与人工智能，２００９，２２（５）：７３５⁃７４２．ＬＩＫｕｎｌｕｎ，ＣＡＯＺｈｅｎｇ，ＣＡＯＬｉｐｉｎｇ，ｅｔａｌ．Ｓｏｍｅｄｅｖｅｌｏｐ⁃ ｍｅｎｔｓｏｎｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｃｌｕｓｔｅｒｉｎｇ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉ⁃ ｔｉｏｎａｎｄａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ，２００９，２２（５）：７３５⁃７４２．［１４］ＰＡＬＮＲ，ＰＡＬＫ，ＢＥＺＤＥＫＪＣ．Ａｍｉｘｅｄｃ⁃ｍｅａｎｓｃｌｕｓ⁃ ｔｅｒｉｎｇｍｏｄｅｌ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ６ｔｈＩＥＥＥＩｎｔｅｒｎａ⁃ ｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＦｕｚｚｙＳｙｓｔｅｍｓ．Ｂａｒｃｅｌｏｎａ，Ｓｐａｉｎ，１９９７，１：１１⁃２１．［１５］ＢＥＺＤＥＫＪＣ，ＥＨＲＬＩＣＨＲ，ＦＵＬＬＷ．ＦＣＭ：Ｔｈｅｆｕｚｚｙｃ⁃ ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ｃｏｍｐｕｔｅｒｓａｎｄｇｅｏｓｃｉ⁃ ｅｎｃｅｓ，１９８４，１０（２⁃３）：１９１⁃２０３．［１６］ＫＲＩＳＨＮＡＰＵＲＡＭＲ，ＫＥＬＬＥＲＪＭ．ＴｈｅｐｏｓｓｉｂｉｌｉｓｔｉｃＣ⁃ ｍｅａｎｓａｌｇｏｒｉｔｈｍ：ｉｎｓｉｇｈｔｓａｎｄｒｅｃｏｍｍｅｎｄａｔｉｏｎｓ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｆｕｚｚｙｓｙｓｔｅｍｓ，１９９６，４（３）：３８５⁃３９３．［１７］ＰＥＤＲＹＣＺＷ．Ａｌｇｏｒｉｔｈｍｓｏｆｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇｗｉｔｈｐａｒｔｉａｌｓｕｐｅｒｖｉｓｉｏｎ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｌｅｔｔｅｒｓ，１９８５，３（１）：１３⁃２０．［１８］ＧＵＱｕａｎｑｕａｎ，ＺＨＯＵＪｉｅ．Ｌｅａｒｎｉｎｇｔｈｅｓｈａｒｅｄｓｕｂｓｐａｃｅｆｏｒｍｕｌｔｉ⁃ｔａｓｋｃｌｕｓｔｅｒｉｎｇａｎｄｔｒａｎｓｄｕｃｔｉｖｅｔｒａｎｓｆｅｒｃｌａｓｓｉｆｉ⁃ ｃａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００９９ｔｈＩＥＥＥｉｎｔｅｒｎａｔｉｏｎ⁃ ａｌｃｏｎｆｅｒｅｎｃｅｏｎｄａｔａｍｉｎｉｎｇ．Ｍｉａｍｉ，Ｆｌｏｒｉｄａ，ＵＳＡ，２００９：１５９⁃１６８．［１９］杨燕，靳蕃，ＫＡＭＥＭ．聚类有效性评价综述［Ｊ］．计算机应用研究，２００８，２５（６）：１６３０⁃１６３２，１６３８．ＹＡＮＧＹａｎ，ＪＩＮＦａｎ，ＫＡＭＥＭ．Ｓｕｒｖｅｙｏｆｃｌｕｓｔｅｒｉｎｇｖａ⁃ ｌｉｄｉｔｙｅｖａｌｕａｔｉｏｎ［Ｊ］．Ａｐｐｌｉｃａｔｉｏｎｒｅｓｅａｒｃｈｏｆｃｏｍｐｕｔｅｒｓ，２００８，２５（６）：１６３０⁃１６３２，１６３８．［２０］ＧＵＱｕａｎｑｕａｎ，ＺＨＯＵＪｉｅ．Ｃｏ⁃ｃｌｕｓｔｅｒｉｎｇｏｎｍａｎｉｆｏｌｄｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１５ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎ⁃ ａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｐａｒｉｓ，Ｆｒａｎｃｅ，２００９：３５９⁃３６８．［２１］ＣＡＩＤｅｎｇ，ＨＥＸｉａｏｆｅｉ，ＨＡＮＪｉａｗｅｉ．Ｌｏｃａｌｌｙｃｏｎｓｉｓｔｅｎｔｃｏｎｃｅｐｔｆａｃｔｏｒｉｚａｔｉｏｎｆｏｒｄｏｃｕｍｅｎｔｃｌｕｓｔｅｒｉｎｇ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｋｎｏｗｌｅｄｇｅａｎｄｄａｔａｅｎｇｉｎｅｅｒｉｎｇ，２０１１，２３（６）：９０２⁃９１３．作者简介：王跃，男，１９９０年生，硕士研究生，主要研究方向为数据挖掘、计算智能。杨燕，女，１９６４年生，教授，博士生导师，主要研究方向为计算智能、数据挖掘、集成学习。主持国家自然科学基金项目３项，国家科技支撑计划项目１项，发表学术论文１３０余篇。王红军，男，１９７７年生，副研究员，主要研究方向为机器学习、深度学习、半监督学习。主持完成国家自然科学青年基金项目１项，主持国家自然科学基金项目２项，发表学术论文３０余篇。第３期王跃，等：一种基于少量标签的改进迁移模糊聚类 ·３１７·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录