第15卷第5期 智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.201810028 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20190520.1631.016.html 可能性匹配知识迁移原型聚类算法 聂飞',高艳丽2,邓赵红,王士同 (1.江南大学数字媒体学院,江苏无锡214122:2.江南计算机技术研究所,江苏无锡214083) 摘要:针对迁移原型聚类的优化问题,本文以模糊知识匹配迁移原型聚类为基础,介绍了聚类场景中从源域 到目标域的迁移学习机制,明确了源域聚类中心辅助目标域得到更好的聚类效果。但目前此类迁移机制依然 面临如下的挑战:1)如何克服已有迁移原型聚类方法中不同类别间的知识强制性匹配带来的负作用。2)当源 域与目标域相似度较低时,如何避免模糊强制性匹配的不合理性以及过于依赖源域知识的缺陷被放大。为此, 研究了一种新的迁移原型聚类机制,即可能性匹配知识迁移原型机制,并基于此实现了2个具体的迁移聚类算 法。借鉴可能性匹配的思想,该算法可以自动选择和偏重有用的源域知识,克服了源域和目标域之间的强制性 匹配限制,具有较好的可调节性。研究结果表明:在不同迁移场景下模拟数据集和真实NG20 groups数据集上 的实验研究表明,提出的算法较已有的相关算法展现了更好的性能。 关键词:迁移原型聚类:迁移学习机制:强制性匹配;可能性匹配:原型聚类;可调节性 中图分类号:TP181 文献标志码:A文章编号:1673-4785(2020)05-0978-12 中文引用格式:聂飞,高艳丽,邓赵红,等.可能性匹配知识迁移原型聚类算法.智能系统学报,2020,15(⑤):978-989. 英文引用格式:NIE Fei,,GAO Yanli,DENG Zhaohong,etal.Possibility-matching based knowledge transfer prototype clustering algorithm[Jl.CAAI transactions on intelligent systems,2020,15(5):978-989. Possibility-matching based knowledge transfer prototype clustering algorithm NIE Fei',GAO Yanli',DENG Zhaohong',WANG Shitong (1.School of Digital Media,Jiangnan University,Wuxi 214122,China;2.Jiangnan Institute of Computing Technology,Wuxi 214083,China) Abstract:Aiming at the optimization problem of migration prototype clustering,this paper introduces a migration learn- ing mechanism from the source domain to the target domain in the clustering scene,considering fuzzy knowledge matching migration prototype clustering,and clarifies that the source domain clustering center assists the target domain to obtain better clustering effect.However,this method still faces the following challenges:1)how to overcome the neg- ative effect brought by knowledge matching among different classes in existing transfer prototype clustering methods. 2)when the similarity between the source domain and target domain is low,how to avoid the irrationality of fuzzy man- datory matching and the magnification of the defect of overdependence on knowledge from the source domain.There- fore,a new transfer prototype clustering mechanism called possibility matching-based knowledge transfer prototype clustering algorithm is proposed,and two transfer prototype clustering algorithms are further presented.Referring to the idea of possibility matching,the proposed algorithm can automatically select and focus on useful source domain know- ledge,overcome the constraint of mandatory matching between the source domain and target domain,and has better ad- justability.Experimental results on synthetic datasets and real NG20 text datasets in different transfer scenarios show that the proposed algorithms outperform the existing related algorithms. Keywords:transfer prototype clustering;transfer learning mechanism;mandatory matching;possibility matching;pro- totype clustering;adjustability 近年来,迁移学习山已经引起了广泛的关 的有用信息来辅助获得目标域的有效模型。其主 注和研究。迁移学习在学习过程中利用来自源域 要假设或特点可以总结如下:1)目标域中的数据 不足以生成良好的模型。2)源域与目标域不同但 收稿日期:2018-10-24.网络出版日期:2019-05-22 基金项目:国家自然科学基金面上项目(61170122). 在一定程度上相似,这使得源域上的训练模型不 通信作者:邓赵红.E-mail:dengzhaohong@jiangnan.edu.cn 能直接适用于目标域,但源域知识对于目标域模
DOI: 10.11992/tis.201810028 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190520.1631.016.html 可能性匹配知识迁移原型聚类算法 聂飞1 ,高艳丽2 ,邓赵红1 ,王士同1 (1. 江南大学 数字媒体学院,江苏 无锡 214122; 2. 江南计算机技术研究所,江苏 无锡 214083) 摘 要:针对迁移原型聚类的优化问题,本文以模糊知识匹配迁移原型聚类为基础,介绍了聚类场景中从源域 到目标域的迁移学习机制,明确了源域聚类中心辅助目标域得到更好的聚类效果。但目前此类迁移机制依然 面临如下的挑战:1)如何克服已有迁移原型聚类方法中不同类别间的知识强制性匹配带来的负作用。2)当源 域与目标域相似度较低时,如何避免模糊强制性匹配的不合理性以及过于依赖源域知识的缺陷被放大。为此, 研究了一种新的迁移原型聚类机制,即可能性匹配知识迁移原型机制,并基于此实现了 2 个具体的迁移聚类算 法。借鉴可能性匹配的思想,该算法可以自动选择和偏重有用的源域知识,克服了源域和目标域之间的强制性 匹配限制,具有较好的可调节性。研究结果表明:在不同迁移场景下模拟数据集和真实 NG20groups 数据集上 的实验研究表明,提出的算法较已有的相关算法展现了更好的性能。 关键词:迁移原型聚类;迁移学习机制;强制性匹配;可能性匹配;原型聚类;可调节性 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2020)05−0978−12 中文引用格式:聂飞, 高艳丽, 邓赵红, 等. 可能性匹配知识迁移原型聚类算法 [J]. 智能系统学报, 2020, 15(5): 978–989. 英文引用格式:NIE Fei, GAO Yanli, DENG Zhaohong, et al. Possibility-matching based knowledge transfer prototype clustering algorithm[J]. CAAI transactions on intelligent systems, 2020, 15(5): 978–989. Possibility-matching based knowledge transfer prototype clustering algorithm NIE Fei1 ,GAO Yanli2 ,DENG Zhaohong1 ,WANG Shitong1 (1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Jiangnan Institute of Computing Technology, Wuxi 214083, China) Abstract: Aiming at the optimization problem of migration prototype clustering, this paper introduces a migration learning mechanism from the source domain to the target domain in the clustering scene, considering fuzzy knowledge matching migration prototype clustering, and clarifies that the source domain clustering center assists the target domain to obtain better clustering effect. However, this method still faces the following challenges: 1) how to overcome the negative effect brought by knowledge matching among different classes in existing transfer prototype clustering methods. 2) when the similarity between the source domain and target domain is low, how to avoid the irrationality of fuzzy mandatory matching and the magnification of the defect of overdependence on knowledge from the source domain. Therefore, a new transfer prototype clustering mechanism called possibility matching-based knowledge transfer prototype clustering algorithm is proposed, and two transfer prototype clustering algorithms are further presented. Referring to the idea of possibility matching, the proposed algorithm can automatically select and focus on useful source domain knowledge, overcome the constraint of mandatory matching between the source domain and target domain, and has better adjustability. Experimental results on synthetic datasets and real NG20 text datasets in different transfer scenarios show that the proposed algorithms outperform the existing related algorithms. Keywords: transfer prototype clustering; transfer learning mechanism; mandatory matching; possibility matching; prototype clustering; adjustability 近年来,迁移学习[ 1 ] 已经引起了广泛的关 注和研究。迁移学习在学习过程中利用来自源域 的有用信息来辅助获得目标域的有效模型。其主 要假设或特点可以总结如下:1) 目标域中的数据 不足以生成良好的模型。2) 源域与目标域不同但 在一定程度上相似,这使得源域上的训练模型不 能直接适用于目标域,但源域知识对于目标域模 收稿日期:2018−10−24. 网络出版日期:2019−05−22. 基金项目: 国家自然科学基金面上项目 (61170122). 通信作者:邓赵红. E-mail:dengzhaohong@jiangnan.edu.cn. 第 15 卷第 5 期 智 能 系 统 学 报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020
第5期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·979· 型的学习是有用的。3)迁移学习的关注点在于增 可调节性。在不同迁移场景下模拟数据集和真 强目标域的建模效果,源域仅用于辅助学习的 实NG20 groups数据集上的实验研究表明,提出的 功能。 算法较之已有的相关算法展现了更好的性能。 在过去的十年,迁移学习已被广泛地研究并 用于各种场景,如文本分类和室内WFi位置估 1基于模糊知识匹配迁移的原型聚 计。在已有研究中,从应用场景的角度迁移学 类算法 习一般可以分为如下4类:1)分类41,2)特征提 L.1模糊C均值聚类和迁移FCM聚类E-TFCM 取10,3)回归和4)聚类67。尽管现实世界 在众多原型聚类算法中,FCM是一个被广泛 中的聚类应用范围很广,较之于分类、回归和特 应用的算法。它的目标函数定义如下: 征抽取,聚类方面迁移学习技术的研究还非常 有限。 FCM:min JFCM ∑∑- 1j=1 作为一个重要的研究方向,聚类技术得到了 广泛的关注和研究。聚类算法大致可以划分以下 S.t. e0,1,∑断=1 几类:I)划分式聚类算法(partitioning method)1; 2)层次化聚类算法(hirearchical method)9.2;3)基 0<<N (1) 于网格和密度的聚类算法(gird-based and density-. based method)2i-2,4)其他聚类算法,如ACODF(ant 式中:C是聚类个数(i=1,2,…,C);W是数据样本 colony optimization with different favor,具有不同偏 个数;x;∈R是第j个样本点;表示第i个数据 好的蚁群算法)1。在这些传统聚类学习中,必须 x,属于第j类的模糊隶属度;”,表示第i类的聚 有足够可利用的训练样本才能够充分发挥算法应 类中心。 有的性能。对此,迁移学习技术可以有效地解决 为了让FCM具有迁移学习的能力,文献[25] 数据不充分给聚类带来的挑战。 提出了迁移FCM聚类算法E-TFCM(extended 为了使传统聚类算法适应样本不足的场景, transfer FCM)。该算法的优化目标函数如下: 已有一些迁移聚类算法被提出,并展现了一定的 有效性,如Dai等a%提出的Self--taught clustering E-TFCM =1=1 i=1l= (STC)自学习聚类,以及Hang等提出的trans-. S.t. 0,1∑=1,0<∑< fer affinity propagation clustering algorithm迁移近 邻传播聚类算法等聚类算法。特别地,文献[25] 提出了一个面向原型聚类的迁移聚类框架,并实 m=0,,a=1,0<ra<C (2) 现了几个具体的迁移原型聚类算法。提出的多个 式(2)中的各项作用如下: 迁移聚类算法较好地解决了在数据集不充分情景 1)第1项继承于经典的FCM,主要用于从目 下,如何利用相关场景知识辅助提高当前场景聚 标域的可用数据中学习; 类性能的问题。 2)第2项用于从源域知识中学习。在该项 虽然文献[25]中的几种迁移原型聚类展现出 中,表示目标域中的第i类和源域中的第1个类 了较好的迁移学习能力,但是其模糊知识匹配迁 之间的匹配度。这一项意味着,如果目标域中的 移学习机制,也还有一定的局限性,主要表现在: 第i类和源域中的第1类更相似,则目标域中的 1)源域和目标域间不同类别间的知识强制性匹配 第i类将从源域中的第1类学习更多的知识。 可能带来负作用。2)当源域与目标域相似度较低 E-TFCM算法的参数更新规则如下: 时,模糊强制性匹配的不合理性以及过于依赖源 C 域知识的缺陷被放大。 ∑+可 针对已有迁移原型聚类算法存在的上述不 (3) 足,本文提出一种新的迁移聚类知识匹配策略, +】 即可能性匹配知识,并基于此提出了2种具体的 = 算法。通过借鉴可能性度量的思想,提出的算法 可以自动选择和偏重有用的源域知识,克服了源 域和目标域之间的强制性匹配限制,具有较好的
型的学习是有用的。3) 迁移学习的关注点在于增 强目标域的建模效果,源域仅用于辅助学习的 功能。 在过去的十年,迁移学习已被广泛地研究并 用于各种场景,如文本分类[2] 和室内 WiFi 位置估 计 [3]。在已有研究中,从应用场景的角度迁移学 习一般可以分为如下 4 类:1) 分类[4-8] ; 2) 特征提 取 [9-10] ; 3) 回归[11-15] 和 4) 聚类[16-17]。尽管现实世界 中的聚类应用范围很广,较之于分类、回归和特 征抽取,聚类方面迁移学习技术的研究还非常 有限。 作为一个重要的研究方向,聚类技术得到了 广泛的关注和研究。聚类算法大致可以划分以下 几类:1) 划分式聚类算法 (partitioning method)[18] ; 2) 层次化聚类算法 (hirearchical method)[19-20] ;3) 基 于网格和密度的聚类算法 (gird-based and densitybased method)[21-22] ;4) 其他聚类算法,如 ACODF(ant colony optimization with different favor,具有不同偏 好的蚁群算法) [23]。在这些传统聚类学习中,必须 有足够可利用的训练样本才能够充分发挥算法应 有的性能。对此,迁移学习技术可以有效地解决 数据不充分给聚类带来的挑战。 为了使传统聚类算法适应样本不足的场景, 已有一些迁移聚类算法被提出,并展现了一定的 有效性,如 Dai 等 [16] 提出的 Self-taught clustering (STC) 自学习聚类,以及 Hang 等 [24] 提出的 transfer affinity propagation clustering algorithm 迁移近 邻传播聚类算法等聚类算法。特别地,文献 [25] 提出了一个面向原型聚类的迁移聚类框架,并实 现了几个具体的迁移原型聚类算法。提出的多个 迁移聚类算法较好地解决了在数据集不充分情景 下,如何利用相关场景知识辅助提高当前场景聚 类性能的问题。 虽然文献 [25] 中的几种迁移原型聚类展现出 了较好的迁移学习能力,但是其模糊知识匹配迁 移学习机制,也还有一定的局限性,主要表现在: 1) 源域和目标域间不同类别间的知识强制性匹配 可能带来负作用。2) 当源域与目标域相似度较低 时,模糊强制性匹配的不合理性以及过于依赖源 域知识的缺陷被放大。 针对已有迁移原型聚类算法存在的上述不 足,本文提出一种新的迁移聚类知识匹配策略, 即可能性匹配知识,并基于此提出了 2 种具体的 算法。通过借鉴可能性度量的思想,提出的算法 可以自动选择和偏重有用的源域知识,克服了源 域和目标域之间的强制性匹配限制,具有较好的 可调节性。在不同迁移场景下模拟数据集和真 实 NG20groups 数据集上的实验研究表明,提出的 算法较之已有的相关算法展现了更好的性能。 1 基于模糊知识匹配迁移的原型聚 类算法 1.1 模糊 C 均值聚类和迁移 FCM 聚类 E-TFCM 在众多原型聚类算法中,FCM 是一个被广泛 应用的算法。它的目标函数定义如下: FCM : min U,V JFCM = ∑C i=1 ∑N j=1 u m i j xj −vi 2 s.t. ui j ∈ [0,1], ∑C i=1 ui j = 1 0 < ∑N j=1 ui j < N (1) C (i = 1,2,··· ,C) N xj ∈ R d j ui j i xj j vi i 式中: 是聚类个数 ; 是数据样本 个数; 是第 个样本点; 表示第 个数据 属于第 类的模糊隶属度; 表示第 类的聚 类中心。 为了让 FCM 具有迁移学习的能力,文献 [25] 提出了迁移 FCM 聚类算法 E-TFCM(extended transfer FCM)。该算法的优化目标函数如下: min U,V,R JE−TFCM = ∑Ct i=1 ∑N j=1 u m1 i j xj −vi 2 +λ1 ∑Ct i=1 ∑N l=1 r m2 il ∥v˜l −vi∥ 2 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N ril = [0,1], ∑Cs l=1 ril = 1,0 < ∑Cs l=1 ril < Cs (2) 式 (2) 中的各项作用如下: 1) 第 1 项继承于经典的 FCM,主要用于从目 标域的可用数据中学习; ril i l i l i l 2) 第 2 项用于从源域知识中学习。在该项 中, 表示目标域中的第 类和源域中的第 个类 之间的匹配度。这一项意味着,如果目标域中的 第 类和源域中的第 类更相似,则目标域中的 第 类将从源域中的第 类学习更多的知识。 E-TFCM 算法的参数更新规则如下: vi = ∑N j=1 u m1 i j xi j + ∑Cs l=1 λ1r m2 il v˜l ∑N j=1 u m1 i j + ∑Cs l=1 λ1r m2 il (3) ui j = 1 xj −vi 2 1 m1 −1 /∑Ct k=1 1 xj −vk 2 1 m1 −1 (4) 第 5 期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·979·
·980· 智能系统学报 第15卷 (5) 法2)归一化源域和目标域相似度矩阵做法是有 一定缺陷的。这种强制性匹配的知识迁移,会让 ∑-r假-r) 不相关的源域知识对目标域产生较大的影响,甚 基于式(3(⑤),可以容易地实现E-TFCM算法。 至导致源域负相关知识在这情况下变得对目标域 1.2模糊子空间聚类FSC和迁移模糊子空间聚 的聚类影响会放大,进而由这些算法建立的模型 类E-TFSC 性能往往会达不到预期效果。2)该算法未充分考 近年来,基于原型的软子空间聚类得到越来 虑如何加强有用知识的迁移,削弱无用或有害知 越多的关注。与传统的基于中心的原型聚类相 识的迁移。从实际角度出发,应当是有选择的充 比,此类算法在高维数据上表现出更好的性能, 分利用源域知识,不应该强制性利用。从全局来 其聚类的原型不仅包含聚类中心还包含代表每类 看,迁移学习应当具有一定的自适应性,自动选 的软子空间权向量。一个代表性的软子空间聚类 择和偏重有用的源域知识,而不是简单的加强源 算法是FSC27,其目标函数定义为 域和目标域之间的联系。 牌-222-w22 2基于可能性知识匹配的迁移聚类 N 2.1模糊匹配和可能性匹配 s.t 4e0,1,∑4=1,0<∑4<N 针对已有迁移原型聚类方法存在的不足,本 文提出了基于可能性知识匹配的迁移聚类新方 法。我们借鉴经典的可能性聚类C均值聚类算 (possibilistic c-means clustering algorithm, 式中:W=w,w2,…,w「是加权向量矩阵:T是模 PCM)P]中的可能性度量机制,来搭建源域到目标 糊加权指数;=[lcxw是硬划分矩阵,其他参数 域之间的知识迁移桥梁,实现源域和目标域的可 可以参考式(1)。 能性知识匹配。 基于FSC,文献[26]提出了其迁移学习版本 提出的新方法针对上述挑战所采用的解决方 E-TFSC(extended transfer FSC),其目标函数如下: 案如下: 对于问题1),引入可能性理论。该理论建立 在模糊理论的基础之上2。此时,模糊性表现为 数据点对聚类中心的典型性隶属度,但该隶属度 之间并不一定满足概率约束关系,即放松相似度 的矩阵归一化约束。理论证明,典型性隶属度比 ,<N 归一化隶属度在噪声环境下性能要好,它能够自 =1 动降低噪声点和孤立点的影响。因此,不管源域 知识是“好的”、“一般的”、“较差的”,提出的新算 ra∈0,1],0< ra=1 法都更具有较好的适应性和稳定性。 对于问题2),在可能性理论基础之上,引入奖 w4e0,,∑w=1 (6) 惩因子,则是很好的辅助该问题的解决。显然, 对于有用的知识我们给予奖励,对于无用的知识 式中:师=(,…,)是源域的加权向量矩阵, 给予惩罚,继而更加精确的选择和偏重有用的源 =(①,2,…,)是源域的聚类心矩阵;C,是目标 域知识,最小化负相关的源域知识,从而更加合 域的聚类个数;C,是源域的聚类个数。基于式 理利用源域知识,辅助目标域获得更好的聚类效 (6),可以利用E-TFCM类似的优化技术得到其参 果。图1示出了强制性模糊知识匹配和可能性知 数学习规则和相应算法。 识匹配2种迁移策略的的思想及它们之间的区别。 13迁移原型聚类存在的不足 图1中显示了2类源域(左上)对3类目标域 虽然基于模糊知识匹配的迁移聚类算法提 (左下)的迁移学习。右边红色点代表源域聚类中 高了传统算法在面对不充分数据的聚类性能,但 心,蓝色点代表目标域聚类中心。右边白色的五 是,在处理源域和目标域之间的迁移关系上有两 角星为真实的目标域聚类中心点。从右上图可以 点亟需进一步改进。1)源域和目标域大都只是局 看出,基于强制性模糊知识匹配,导致2个源域知 部相似,意味着有些源域知识是无用的,显然,算 识对目标域五角星聚类中心分别以0.4、0.6比例
ril = 1 ∑Cs k=1 ( ∥v˜l −vi∥ 2 /∥v˜k −vi∥ 2 ) 1 m2 −1 (5) 基于式 (3)~(5),可以容易地实现 E-TFCM 算法。 1.2 模糊子空间聚类 FSC 和迁移模糊子空间聚 类 E-TFSC 近年来,基于原型的软子空间聚类得到越来 越多的关注[26]。与传统的基于中心的原型聚类相 比,此类算法在高维数据上表现出更好的性能, 其聚类的原型不仅包含聚类中心还包含代表每类 的软子空间权向量。一个代表性的软子空间聚类 算法是 FSC[27] ,其目标函数定义为 min U,V,W JFSC = ∑C i=1 ∑N j=1 ui j∑d k=1 w τ ik ( xjk −vik)2 +σ ∑C i=1 ∑d k=1 w τ ik s.t. ui j ∈ {0,1}, ∑C i=1 ui j = 1,0 < ∑N j=1 ui j < N wik ∈ [0,1], ∑d k=1 wik = 1.0 < ∑C i=1 wik < C W = [w1,w2,··· ,wc] T τ U = [ui j]C×N 式中: 是加权向量矩阵: 是模 糊加权指数; 是硬划分矩阵,其他参数 可以参考式 (1)。 基于 FSC,文献 [26] 提出了其迁移学习版本 E-TFSC(extended transfer FSC),其目标函数如下: min U,V,W JE−TFSC = ∑ct i=1 ∑N j=1 ui j∑d k=1 w α ik ( xjk −vik)2 + ε ∑ct i=1 ∑d k=1 w α ik +λ1 ∑ct i=1 ∑Cs l=1 r m1 il ∑d k=1 w˜ α ik (v˜lk −vik) 2 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N ril ∈ [0,1],0 < ∑Cs i=1 ril < Ct , ∑Cs l=1 ril = 1 wik ∈ [0,1], ∑d k=1 wik = 1 (6) w˜ = ( w˜ α i1 ,w˜ α i2 ,··· ,w˜ α ik ) v˜ = (v˜l1, v˜l2,··· , v˜lk) Ct Cs 式中: 是源域的加权向量矩阵, 是源域的聚类心矩阵; 是目标 域的聚类个数; 是源域的聚类个数。基于式 (6),可以利用 E-TFCM 类似的优化技术得到其参 数学习规则和相应算法。 1.3 迁移原型聚类存在的不足 虽然基于模糊知识匹配的迁移聚类算法[25] 提 高了传统算法在面对不充分数据的聚类性能,但 是,在处理源域和目标域之间的迁移关系上有两 点亟需进一步改进。1) 源域和目标域大都只是局 部相似,意味着有些源域知识是无用的,显然,算 法 [25] 归一化源域和目标域相似度矩阵做法是有 一定缺陷的。这种强制性匹配的知识迁移,会让 不相关的源域知识对目标域产生较大的影响,甚 至导致源域负相关知识在这情况下变得对目标域 的聚类影响会放大,进而由这些算法建立的模型 性能往往会达不到预期效果。2) 该算法未充分考 虑如何加强有用知识的迁移,削弱无用或有害知 识的迁移。从实际角度出发,应当是有选择的充 分利用源域知识,不应该强制性利用。从全局来 看,迁移学习应当具有一定的自适应性,自动选 择和偏重有用的源域知识,而不是简单的加强源 域和目标域之间的联系。 2 基于可能性知识匹配的迁移聚类 2.1 模糊匹配和可能性匹配 针对已有迁移原型聚类方法存在的不足,本 文提出了基于可能性知识匹配的迁移聚类新方 法。我们借鉴经典的可能性聚类 C 均值聚类算 法 (possibilistic c-means clustering algorithm, PCM)[28] 中的可能性度量机制,来搭建源域到目标 域之间的知识迁移桥梁,实现源域和目标域的可 能性知识匹配。 提出的新方法针对上述挑战所采用的解决方 案如下: 对于问题 1),引入可能性理论。该理论建立 在模糊理论的基础之上[29]。此时,模糊性表现为 数据点对聚类中心的典型性隶属度,但该隶属度 之间并不一定满足概率约束关系,即放松相似度 的矩阵归一化约束。理论证明,典型性隶属度比 归一化隶属度在噪声环境下性能要好,它能够自 动降低噪声点和孤立点的影响。因此,不管源域 知识是“好的”、“一般的”、“较差的”,提出的新算 法都更具有较好的适应性和稳定性。 对于问题 2),在可能性理论基础之上,引入奖 惩因子,则是很好的辅助该问题的解决。显然, 对于有用的知识我们给予奖励,对于无用的知识 给予惩罚,继而更加精确的选择和偏重有用的源 域知识,最小化负相关的源域知识,从而更加合 理利用源域知识,辅助目标域获得更好的聚类效 果。图 1 示出了强制性模糊知识匹配和可能性知 识匹配 2 种迁移策略的的思想及它们之间的区别。 图 1 中显示了 2 类源域 (左上) 对 3 类目标域 (左下) 的迁移学习。右边红色点代表源域聚类中 心,蓝色点代表目标域聚类中心。右边白色的五 角星为真实的目标域聚类中心点。从右上图可以 看出,基于强制性模糊知识匹配,导致 2 个源域知 识对目标域五角星聚类中心分别以 0.4、0.6 比例 ·980· 智 能 系 统 学 报 第 15 卷
第5期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·981· 产生负拉拽影响,使其偏离原来的位置更加严 能性分配给源域,显然对目标域的负影响进一步 重。右下图的可能性知识匹配则将以0.2、0.1可 降低。 FCM得到源域 4 。80 聚类中心 基于模糊知识匹配 的迁移聚类 0.6★ 0.4 00 基于可能性知识匹配 的迁移聚类 0.1 0 图1聚类任务需要迁移学习的情况 Fig.1 Clustering tasks need to transfer learning 2.2 基于可能性知识匹配的迁移FCM 基于式(9)(11),PM-TFCM算法描述如下: 本节通过引入可能性知识匹配,提出相应的 PM-TFCM算法: FCM(possibility matching based transfer FCM, 输入聚类个数C,最大迭代次数为tmx。随 PM-TFCM)聚类算法。其优化目标函数如下: 机初始化目标域聚类中心矩阵”,。以及利用 M-TFCM g,-f+ fcm获得源域聚类中心,由此计算n,并在当前 1j1 获得最好聚类效果时,才会更新。设定平衡参数 ,22-+22m1-r Cr C ,取值范围,迭代次数初始化为t=0、eror=1、 i11 Obj JPM-TFCM S.t. we0,,马=1,00 (11) 现源域和目标域的可能性匹配。这里表示匹配的 可能性,对其不存在归一化强制匹配。利用类似 于PM-TFCM中的优化方法,可得PM-TFSC的参
产生负拉拽影响,使其偏离原来的位置更加严 重。右下图的可能性知识匹配则将以 0.2、0.1 可 能性分配给源域,显然对目标域的负影响进一步 降低。 FCM 得到源域 聚类中心 基于可能性知识匹配 的迁移聚类 0.6 0.4 0.2 0.1 基于模糊知识匹配 的迁移聚类 图 1 聚类任务需要迁移学习的情况 Fig. 1 Clustering tasks need to transfer learning 2.2 基于可能性知识匹配的迁移 FCM 本节通过引入可能性知识匹配,提出相应的 迁移 FCM(possibility matching based transfer FCM, PM-TFCM) 聚类算法。其优化目标函数如下: min U,V,R JPM−TFCM = ∑Ct i=1 ∑N j=1 u m1 i j xj −vi 2 + λ1 ∑Ct i=1 ∑Cs l=1 r m2 il ∥v˜l −vi∥ 2 +λ1 ∑Ct i=1 ∑Cs l=1 ηi(1−ril) m2 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 0 (11) 基于式 (9)~(11),PM-TFCM 算法描述如下: PM-TFCM 算法: Ct tmax vt v˜l η λ1 t = 0 error = 1 Obj = JPM−TFCM 输入 聚类个数 ,最大迭代次数为 。随 机初始化目标域聚类中心矩阵 。以及利 用 fcm 获得源域聚类中心 ,由此计算 ,并在当前 获得最好聚类效果时,才会更新。设定平衡参数 取值范围,迭代次数初始化为 、 、 。 重复: t = t+1 ; 根据式 (10) 更新隶属度矩阵 U; 根据式 (11) 更新相似矩阵 R; 根据式 (9) 更新目标域聚类中心 V; error= NewObj−Obj 直 到 <10e t=tmax − 5 或 者 输出 U、R、V。 2.3 基于可能性知识匹配的迁移 FSC 本节通过引入可能性知识匹配,提出相应的 迁移 FSC(possibility matching based transfer FSC, PM-TFSC) 聚类算法。其优化目标函数如下: min U,V,W JPM−TFSC = ∑Ct i=1 ∑N j=1 ui j∑d k=1 w α ik ( xjk −vik)2 + ε ∑Ct i=1 ∑d k=1 w α ik +λ1 ∑Ct i=1 ∑Cs l=1 r m1 il ∑d k=1 w˜ α ik(v˜lk −vik) 2+ λ1 ∑Ct i=1 ∑Cs l=1 ηi(1−ril) m1 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N ril ∈ [0,1],0 < ∑Cs l=1 ril < Cs ,wik ∈ [0,1], ∑d k=1 wik = 1 (12) 类似于式 (6),式 (11) 借鉴了可能性度量来实 现源域和目标域的可能性匹配。这里表示匹配的 可能性,对其不存在归一化强制匹配。利用类似 于 PM-TFCM 中的优化方法,可得 PM-TFSC 的参 第 5 期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·981·
·982· 智能系统学报 第15卷 数更新规则如下: 根据式(16)更新权值W; 直到eror=NewObj--Obj<l0e5或者t=tma (13) 输出U、R、V、W。 3实验结果 wa(VR-Va 在本节中,将在合成数据集和真实世界数据 集上进行实验评估所提出的算法的聚类性能。首 a=1 1+ (14) 先描述了用于性能评价的指标和实验装置。然 后,对所提出的算法在合成和真实世界文本数据 集上的性能进行了报道和讨论,并与其他相关算 法进行了综合比较。所有算法都在MATLAB上 实现,实验在3.6 GHz CPU64-GB RAM的计算机 上运行。 3.1性能指标和实验设置 - (15) 本文采用2个评价指标,即兰德指数(R)和 归一化互信息NMⅫ),用于评估聚类算法的性能。 4-26-w RI通常被定义为 foo+fu RI=N(N-1)/2 式中:f0是具有不同类标签且属于不同簇的数据 点对的数目;N是整个数据集的大小。 立吸+a后 NM根据以下公式进行定义和计算: (16) ∑∑N,logNxN,/NxN i=l l NMI -+ N×logN/Wx ∑VxlogN,,N (17) 式中:N是簇i和类j之间的相同样本的数目;N: 会-+ 是簇i中数据点的数量:N是j类中数据点的数 量;N是整个数据集的大小。RI和NMI都在区 22qm 间[0,1]内取值。值越高,聚类性能越好。 7:= (18) 3.2合成数据集 在这项研究中,生成了几个合成数据集来评 估所提出的算法的性能。 基于式(14)(18),可以容易地获得PM-TF- 本部分分别生成了2组数据集来评估提出的 SC算法。 PM-TFCM和PM-TFSC算法。所有数据集都是由 PM-TFSC算法: 高斯分布函数生成。通过源域和目标域对应的类 输入聚类个数C,最大迭代次数为tx。随 别相似来构造源域和目标域,即均值相似以及方 机选择C,个点初始化目标域聚类中心矩阵1。 差相似。用于评估PM-TFCM的数据生成参数如 fcm获得源域聚类中心。随机初始化权值师,由 表1所示,生成的数据集如图2、3所示。用于评 此计算惩罚因子刀,同样也是在当前聚类效果最 估PM-TFSC的数据生成参数如表2所示,生成的 好时,才更新。设定平衡参数:取值范围,初始 数据集如图4、5所示。 化迭代次数1=0、eror=1、Obj=JM-Fco 在合成数据集的实验结果如表3、4所示。从 重复: 实验结果可以看出,在几种不同的情况下,所提 t=t+1; 新迁移聚类算法较之于传统原型聚类算法和已有 根据式(14)更新隶属度矩阵U: 的迁移原型聚类算法,性能都得到了一定程度的 根据式(13)更新相似矩阵R; 改进。这也说明本文引入的可能性匹配迁移学习 根据式(15)更新目标域聚类中心; 机制具有更好的适应性
数更新规则如下: vik = ∑N j=1 u m1 i j w τ ik xjk +λ1 ∑Cs l=1 r m2 il w τ ikv˜lk ∑N j=1 u m1 i j w τ ik +λ1 ∑Cs l=1 r m2 il w τ ik (13) ril = 1 / 1+ ∑d k=1 w˜lk(v˜lk −vik) 2 ηi 1/m2−1 (14) ui j = 1/ ∑d k=1 w τ ik 1/m1−1 ∑Ct s=1 1 ∑Ct s=1 w τ sk ( xjk −vsk)2 1/m1−1 −−−−−−−−−−−−−−−−−−−→ di j = ∑d k=1 w τ ik ( xjk −vik)2 = [ 1/di j]1/m1−1 / ∑Ct s=1 [ 1/ds j]1/m1−1 (15) vik = ∑N j=1 u m1 i j w τ ik xjk +λ1 ∑Cs l=1 r m2 il w˜ τ ikv˜lk ∑N j=1 u m1 i j w τ ik +λ1 ∑Cs l=1 r m2 il w˜ τ ik (16) wik = 1 / ∑N j=1 ui j( xjk −vik)2 +ε 1/α−1 ∑d s=1 1 /∑N j=1 ui j( xjs −vis)2 +ε 1/α−1 (17) ηi = ∑Cs l=1 r m1 il ∑d k=1 w˜ α lk (v˜lk −vik) 2 ∑Cs s=1 r m1 is (18) 基于式 (14)~(18),可以容易地获得 PM-TFSC 算法。 PM-TFSC 算法: Ct tmax Ct v˜l w˜ η λ1 t = 0 error = 1 Obj = JPM−TFSC 输入 聚类个数 ,最大迭代次数为 。随 机选择 个点初始化目标域聚类中心矩阵 Vt。 fcm 获得源域聚类中心 。随机初始化权值 ,由 此计算惩罚因子 ,同样也是在当前聚类效果最 好时,才更新。设定平衡参数 取值范围,初始 化迭代次数 、 、 。 重复: t = t+1 ; 根据式 (14) 更新隶属度矩阵 U; 根据式 (13) 更新相似矩阵 R; 根据式 (15) 更新目标域聚类中心 V; 根据式 (16) 更新权值 W; error= NewObj−Obj 直 到 <10e t=tmax − 5 或 者 输出 U、R、V、W。 3 实验结果 在本节中,将在合成数据集和真实世界数据 集上进行实验评估所提出的算法的聚类性能。首 先描述了用于性能评价的指标和实验装置。然 后,对所提出的算法在合成和真实世界文本数据 集上的性能进行了报道和讨论,并与其他相关算 法进行了综合比较。所有算法都在 MATLAB 上 实现,实验在 3.6 GHz CPU 64-GB RAM 的计算机 上运行。 3.1 性能指标和实验设置 本文采用 2 个评价指标,即兰德指数 (RI) 和 归一化互信息 (NMI),用于评估聚类算法的性能。 RI 通常被定义为 RI = f00 + f11 N(N −1)/2 式中: f00 是具有不同类标签且属于不同簇的数据 点对的数目;N 是整个数据集的大小。 NMI 根据以下公式进行定义和计算: NMI= ∑C i=1 ∑C j=1 Ni, j logN ×Ni, j/Ni ×Nj vt∑C i=1 Ni ×logNi/N × ∑C j=1 Nj ×logNj/N Ni j i j Ni i Nj j N 式中: 是簇 和类 之间的相同样本的数目; 是簇 中数据点的数量; 是 类中数据点的数 量; 是整个数据集的大小。RI 和 NMI 都在区 间 [0, 1] 内取值。值越高,聚类性能越好。 3.2 合成数据集 在这项研究中,生成了几个合成数据集来评 估所提出的算法的性能。 本部分分别生成了 2 组数据集来评估提出的 PM-TFCM 和 PM-TFSC 算法。所有数据集都是由 高斯分布函数生成。通过源域和目标域对应的类 别相似来构造源域和目标域,即均值相似以及方 差相似。用于评估 PM-TFCM 的数据生成参数如 表 1 所示,生成的数据集如图 2、3 所示。用于评 估 PM-TFSC 的数据生成参数如表 2所示,生成的 数据集如图 4、5 所示。 在合成数据集的实验结果如表 3、4 所示。从 实验结果可以看出,在几种不同的情况下,所提 新迁移聚类算法较之于传统原型聚类算法和已有 的迁移原型聚类算法,性能都得到了一定程度的 改进。这也说明本文引入的可能性匹配迁移学习 机制具有更好的适应性。 ·982· 智 能 系 统 学 报 第 15 卷
第5期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·983· 表I用于评估PM-TFCM的合成数据集 Table 1 Synthetic datasets for evaluating PM-TFCM Source domain with three clusters Source domain with two clusters Cluster Cluster-1 Cluster-2 Cluster-3 Cluster Cluster-1 Cluster-2 [912] [34 [208] [615] [77] ∑ 60 [150 90 ∑ 701 100 09 04 05 018 09 Size 600 Size 400 Target domain with two clusters Target domain with three clusters Cluster Cluster-1 Cluster-2 Cluster Cluster-1 Cluster-2 Cluster-3 [1314 [56 [718 [109] [76 ∑ [701 19 0 16 0 [90 40 011 08 ∑ 0 6 05 06 Size 60 Size 90 25 -Cluster-1 20 Cluster-I .Cluster-2 20 Cluster-2 Cluster-3 1 15 14 2 10 10 5 8 6 0 0 -10 -5 05 1015202530 0 5 10 15 20 25 (a)Source domain (3 classes) (b)Target domain(2-classes) 图22种基于原型的迁移模型简单对比示意 Fig.2 A brief comparison of two prototype based transfer models 30r 25- +Cluster-2 +Cluster-1 25 20 Cluster-3 20 ”5…8 15 15 10 10 0 ·学 - -202468101214 0 5 101520 (a)Source domain(2classes) (b)Target domain (3classes) 图3表1左列参数生成的合成数据集1 Fig.3 Synthetic dataset 1 corresponding to the parameters in the left column of Table 1 3.320NG20文本数据集 及目标域的各个类的数据集。表5详细给出了本 在本节,将提出的算法应用到真实的20新闻 文所采用的4组文本数据。然后基于这4组数据 组(20 Newsgroups(orNG20)文本数据集Bo。 构造了5对适宜于迁移学习场景的数据对。5组 NG20数据集是高维数据集。采用卡方检验结合 数据对详情见表6。该5组数据可分为3类,分别为: 词频进行了降维,最终NG20降到了800维用于 1)源域类别数少于目标域类别数,该类数据 聚类分析。 包括表6中的数据对1和2。 为了模拟本文所研究的场景,构造了源域以 2)源域类别数等于目标域类别数,该类数据
表 1 用于评估 PM-TFCM 的合成数据集 Table 1 Synthetic datasets for evaluating PM-TFCM Source domain with three clusters Source domain with two clusters Cluster Cluster-1 Cluster-2 Cluster-3 Cluster Cluster-1 Cluster-2 u [9 12] [3 4] [20 8] u [6 15] [7 7] ∑ [ 6 0 0 9 ] [ 15 0 0 4 ] [ 9 0 0 5 ] ∑ [ 7 0 0 18 ] [ 10 0 0 9 ] Size 600 Size 400 Target domain with two clusters Target domain with three clusters Cluster Cluster-1 Cluster-2 Cluster Cluster-1 Cluster-2 Cluster-3 u [13 14] [5 6] u [7 18] [10 9] [7 6] ∑ [ 7 0 0 11 ] [ 19 0 0 8 ] ∑ [ 16 0 0 6 ] [ 9 0 0 5 ] [ 4 0 0 6 ] Size 60 Size 90 −10 −5 0 5 10 15 20 25 30 −5 0 5 10 15 20 25 (a) Source domain (3 classes) −5 0 5 10 15 20 25 0 2 4 6 8 10 12 14 16 18 20 (b) Target domain (2-classes) Cluster-l Cluster-2 Cluster-l Cluster-2 Cluster-3 Y X Y X 图 2 2 种基于原型的迁移模型简单对比示意 Fig. 2 A brief comparison of two prototype based transfer models −2 0 2 4 6 8 10 12 14 −5 0 5 10 15 20 25 30 −5 0 5 10 15 20 0 5 10 15 20 25 (a) Source domain (2classes) (b) Target domain (3classes) Cluster-l Cluster-2 Cluster-l Cluster-2 Cluster-3 Y Y X X 图 3 表 1 左列参数生成的合成数据集 1 Fig. 3 Synthetic dataset 1 corresponding to the parameters in the left column of Table 1 3.3 20 NG20 文本数据集 在本节,将提出的算法应用到真实的 20 新闻 组 (20 Newsgroups (or NG20)) 文本数据集[30]。 NG20 数据集是高维数据集。采用卡方检验结合 词频进行了降维,最终 NG20 降到了 800 维用于 聚类分析。 为了模拟本文所研究的场景,构造了源域以 及目标域的各个类的数据集。表 5 详细给出了本 文所采用的 4 组文本数据。然后基于这 4 组数据 构造了 5 对适宜于迁移学习场景的数据对。5 组 数据对详情见表 6。该 5 组数据可分为 3 类,分别为: 1) 源域类别数少于目标域类别数,该类数据 包括表 6 中的数据对 1 和 2。 2) 源域类别数等于目标域类别数,该类数据 第 5 期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·983·
·984· 智能系统学报 第15卷 包括表6中的数据对3。 TFCM、E-TFSC)。在基于传统FCM聚类的迁移 3)源域类别数多于目标域类别数,该类数据 聚类方法上,PM-TFCM比E-TFCM的性能指标平 包括表6中的数据对4和5。 均提高了0.02以上。特别地,在FSC的2个迁移 为了保证各个算法的公平性,对每个参数赋 版本聚类方法上,基于可能性知识匹配子空间迁 予10个值进行网格搜索,详情见表7。 移聚类算法PM-TFSC的性能指标明显优于基于 通过表8的Part A部分,不难发现,我们的算 强制性模糊知识匹配子空间迁移聚类算法E-TF 法(PM-TFCM、PM-TFSC)均优于对比算法(E- SC的指标,其平均性能指标高出0.04左右。 表2用于评估PM-TFSC的合成数据集 Table 2 Synthetic datasets for evaluating PM-TFSC Source domain with three clusters Source domain with two clusters Cluster Cluster-1 Cluster-2 Cluster-3 Cluster Cluster-1 Cluster-2 [81418] [427刀 [151520] [101215] [1572] 15 0 0 0 0 > 0 0 3001 [3001 ∑ 0 7 0 0 8 0 0 15 0 ∑ 0 10 0 090 0 0 0 3 0 0 0 0 P 008 Size 600 Size 400 Target domain with two clusters Target domain with three clusters Cluster Cluster-1 Cluster-2 Cluster Cluster-1 Cluster-2 Cluster-3 [11189] [8411] [121418] [16105 [787) 16 0 0 3 0 0 6 0 0 10 0 0 1 1500 ∑ 0 12 0 0 9 0 2 0 12 0 0 60 0 80 0 0 17 0 0 8 0 0 9 0 010 0 06 Size 60 Size 90 Cluster-1 ·Cluster-2 ·Cluster-.3 :8e 30, 30 20 20 N15 N10 0 5 8 20 20 15 20 0 10 0 0 X 10 -10-10 05 (a)Source domain (3classes) (a)Source domain (2classes) Cluster-2 米Cluster-l +Cluster-2 OCluster-3 20 15 20 10 15 1 10 0 5 oo o 20 15 20 15 10 15 10 5 5 00 0-5 05x0 (b)Target domain(2classes) (b)Target domain (3classes) 图4表1右列参数生成的合成数据集2 图5表2左列参数生成的合成数据集3 Fig.4 Synthetic dataset 2 corresponding to the paramet- Fig.5 Synthetic dataset 3 corresponding to the paramet- ers in the right column of Table 1 ers in the left column of Table 2
包括表 6 中的数据对 3。 3) 源域类别数多于目标域类别数,该类数据 包括表 6 中的数据对 4 和 5。 为了保证各个算法的公平性,对每个参数赋 予 10 个值进行网格搜索,详情见表 7。 通过表 8 的 Part A 部分,不难发现,我们的算 法 (PM-TFCM、PM-TFSC) 均优于对比算法 (ETFCM、E-TFSC)。在基于传统 FCM 聚类的迁移 聚类方法上,PM-TFCM 比 E-TFCM 的性能指标平 均提高了 0.02 以上。特别地,在 FSC 的 2 个迁移 版本聚类方法上,基于可能性知识匹配子空间迁 移聚类算法 PM-TFSC 的性能指标明显优于基于 强制性模糊知识匹配子空间迁移聚类算法 E-TFSC 的指标,其平均性能指标高出 0.04 左右。 表 2 用于评估 PM-TFSC 的合成数据集 Table 2 Synthetic datasets for evaluating PM-TFSC Source domain with three clusters Source domain with two clusters Cluster Cluster-1 Cluster-2 Cluster-3 Cluster Cluster-1 Cluster-2 u [8 14 18] [4 2 7] [15 15 20] u [10 12 15] [15 7 2] ∑ 15 0 0 0 7 0 0 0 14 1 0 0 0 8 0 0 0 3 7 0 0 0 15 0 0 0 8 ∑ 3 0 0 0 10 0 0 0 8 3 0 0 0 9 0 0 0 8 Size 600 Size 400 Target domain with two clusters Target domain with three clusters Cluster Cluster-1 Cluster-2 Cluster Cluster-1 Cluster-2 Cluster-3 u [11 18 9] [8 4 11] u [12 14 18] [16 10 5] [7 8 7] ∑ 16 0 0 0 12 0 0 0 17 3 0 0 0 9 0 0 0 8 ∑ 6 0 0 0 12 0 0 0 9 10 0 0 0 6 0 0 0 10 15 0 0 0 8 0 0 0 6 Size 60 Size 90 0 30 5 10 20 15 20 20 Z Y X Z Y X 10 25 10 30 0 0 −10 −10 (a) Source domain (3classes) −5 30 0 5 20 20 10 15 15 10 20 10 5 0 0 (b) Target domain (2classes) Cluster-l Cluster-2 Cluster-3 Cluster-l Cluster-2 图 4 表 1 右列参数生成的合成数据集 2 Fig. 4 Synthetic dataset 2 corresponding to the parameters in the right column of Table 1 −10 20 0 15 20 10 10 20 15 30 5 10 0 5 (a) Source domain (2classes) 0 20 5 10 20 15 15 15 20 10 10 25 5 5 0 0 −5 (b) Target domain (3classes) Z Y X Z Y X Cluster-l Cluster-2 Cluster-l Cluster-2 Cluster-3 图 5 表 2 左列参数生成的合成数据集 3 Fig. 5 Synthetic dataset 3 corresponding to the parameters in the left column of Table 2 ·984· 智 能 系 统 学 报 第 15 卷
第5期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·985· 表33种FCM算法在合成数据集上的性能比较 Table 3 Performance comparison of three FCM algorithms on synthetic datasets Indices fcm E-TFCM PM-TFCM RI_mean 0.96667 0.97 0.98333 合成数据集1 NMI_mean 0.89414 0.90472 0.91531 0.82091 0.83301 合成数据集2 RI_mean 0.84572 NMI mean 0.69959 0.70659 0.71269 表43种FSC算法在合成数据集上的性能比较 Table 4 Performance comparison of three FSC algorithms on synthetic datasets Indices fsc E-TFSC PM-TFSC RI_mean 0.91938 0.9509 0.97333 合成数据集3 NMI_mean 0.7888 0.86993 0.91531 合成数据集4 RI_mean 0.87196 0.88632 0.90607 NMI_mean 0.72157 0.74212 0.77055 表520篇新闻组的文本数据在本研究中使用 Table 5 Clustters of 20 newsgroups text data used in this study Cluster Subcluster comp com.os.ms-windows.misc comp.sys.ibm.pc.hardware comp.sys.mac.hardware comp.windows.x rec rec.autos rec.motorcycles rec.sport.baseball rec.sport.hockey sci sci.crypt sci.electronics sci.med sci.space talk talk.politics.uns talk.politics.midest talk.politics.misc- 表6对20个新闻组文本数据集用于性能评估 Table 6 for 20 newsgroup text datasets for performance evaluation Data Source domain Target domain Pair Dataset Number of clusters Clusters and subcluser Dataset Number of clusters Clusters and subcluster comp(comp.os.ms- 1NG20-S1 comp(comp.sys.ibm.pc.hardware NG20-TI windows.misc) comp.sys.mac.hardware rec(rec.sport.hockey) comp.windows.x) sci(sci.crypt) rec(rec.autos rec.motorcycles rec.sport.baseball) size 2931+2978 size 979+995+993 comp(comp.os.ms- 2NG20-S1 2 comp(comp.sys.ibm.pc.hardware NG20-T2 windows.misc) comp.sys.mac.hardware rec(rec.sport.hockey) comp.windows.x) sci(sci.crypt) rec(rec.autos talk(talk.politics.guns) rec.motorcycles rec.sport.baseball) size 2931+2978 size 979+995+993+912
表 3 3 种 FCM 算法在合成数据集上的性能比较 Table 3 Performance comparison of three FCM algorithms on synthetic datasets Indices fcm E-TFCM PM-TFCM 合成数据集1 RI_mean 0.966 67 0.97 0.983 33 NMI_mean 0.894 14 0.904 72 0.915 31 合成数据集2 RI_mean 0.820 91 0.833 01 0.845 72 NMI_mean 0.699 59 0.706 59 0.712 69 表 4 3 种 FSC 算法在合成数据集上的性能比较 Table 4 Performance comparison of three FSC algorithms on synthetic datasets Indices fsc E-TFSC PM-TFSC 合成数据集3 RI_mean 0.919 38 0.950 9 0.973 33 NMI_mean 0.788 8 0.869 93 0.915 31 合成数据集4 RI_mean 0.871 96 0.886 32 0.906 07 NMI_mean 0.721 57 0.742 12 0.770 55 表 5 20 篇新闻组的文本数据在本研究中使用 Table 5 Clustters of 20 newsgroups text data used in this study Cluster Subcluster comp com.os.ms-windows.misc comp.sys.ibm.pc.hardware comp.sys.mac.hardware comp.windows.x rec rec.autos rec.motorcycles rec.sport.baseball rec.sport.hockey sci sci.crypt sci.electronics sci.med sci.space talk talk.politics.uns talk.politics.midest talk.politics.misc- − 表 6 对 20 个新闻组文本数据集用于性能评估 Table 6 for 20 newsgroup text datasets for performance evaluation Data Pair Source domain Target domain Dataset Number of clusters Clusters and subcluser Dataset Number of clusters Clusters and subcluster 1 NG20-S1 2 comp(comp.sys.ibm.pc.hardware NG20-T1 3 comp(comp.os.mswindows.misc) comp.sys.mac.hardware rec(rec.sport.hockey) comp.windows.x) sci(sci.crypt) rec(rec.autos rec.motorcycles rec.sport.baseball) size 2931+2978 size 979+995+993 2 NG20-S1 2 comp(comp.sys.ibm.pc.hardware NG20-T2 4 comp(comp.os.mswindows.misc) comp.sys.mac.hardware rec(rec.sport.hockey) comp.windows.x) sci(sci.crypt) rec(rec.autos talk(talk.politics.guns) rec.motorcycles rec.sport.baseball) size 2931+2978 size 979+995+993+912 第 5 期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·985·
·986· 智能系统学报 第15卷 续表6 Data Source domain Target domain Pair Dataset Number of clusters Clusters and subcluser Dataset Number of clusters Clusters and subcluster 3NG20-S2 3 rec(rec.motorcycles NG20-T3 rec(rec.autos) rec.sport.baseball sci(sci.crypt) rec.sport.hockey) talk(talk.politics.guns) sci(sci.electronics sci.med sci.space) talk(talk.politics.mideast talk.politics.misc talk.religion.misc) size 2978+2979+2804 size 992+993+912 comp(comp.os.ms- 4NG20-S3 NG20-T4 2 comp(comp.windows.x) windows.misc comp.sys.ibm.pc.hardware sci(sci.space) comp.sys.mac.hardware) rec(rec.autos rec.motorcycles rec.sport.baseball) sci(sci.crypt sci.electronics sci.med) 2935+2978+2979 size size 975+986 comp(comp.os.ms- 5NG20-S4 4 NG20-T4 comp(comp.windows.x) windows.misc comp.sys.ibm.pc.hardware sci(sci.space) comp.sys.mac.hardware) rec(rec.autos rec.motorcycles rec.sport.baseball) sci(sci.crypt sci.electronics sci.med) talk(talk.politics.guns talk.politics.mideast talk.politics.misc) size 2935+2978+2979+2718 size 975+986 从表8的Part B部分可以看出,较之于传统 大。这是因为,此实验模拟场景偏适合于强制性 迁移原型聚类,此时我们的算法提升度虽然不 模糊知识匹配算法,因而不能充分发挥可能性知
从表 8 的 Part B 部分可以看出,较之于传统 迁移原型聚类,此时我们的算法提升度虽然不 大。这是因为,此实验模拟场景偏适合于强制性 模糊知识匹配算法,因而不能充分发挥可能性知 续表 6 Data Pair Source domain Target domain Dataset Number of clusters Clusters and subcluser Dataset Number of clusters Clusters and subcluster 3 NG20-S2 3 rec(rec.motorcycles NG20-T3 3 rec(rec.autos) rec.sport.baseball sci(sci.crypt) rec.sport.hockey) talk(talk.politics.guns) sci(sci.electronics sci.med sci.space) talk(talk.politics.mideast talk.politics.misc talk.religion.misc) size 2978+2979+2804 size 992+993+912 4 NG20-S3 3 comp(comp.os.mswindows.misc NG20-T4 2 comp(comp.windows.x) comp.sys.ibm.pc.hardware sci(sci.space) comp.sys.mac.hardware) rec(rec.autos rec.motorcycles rec.sport.baseball) sci(sci.crypt sci.electronics sci.med) 2935+ 2978+ 2979 size size 975+ 986 5 NG20-S4 4 comp(comp.os.mswindows.misc NG20-T4 2 comp(comp.windows.x) comp.sys.ibm.pc.hardware sci(sci.space) comp.sys.mac.hardware) rec(rec.autos rec.motorcycles rec.sport.baseball) sci(sci.crypt sci.electronics sci.med) talk(talk.politics.guns talk.politics.mideast talk.politics.misc) size 2935+ 2978+ 2979+2718 size 975+ 986 ·986· 智 能 系 统 学 报 第 15 卷
第5期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·987· 识匹配算法的优势。但提出的算法依然得到了高 高度适应性。表8给出了各算法的运行结果。 度可竞争的结果,这也较好地佐证提出的算法的 表7各个算法参数取值情况 Table 7 Performance index of several algorithms 算法 算法说明 相关参数 相关参数寻优范围设置 FCM 模糊C均值聚类算法 模糊指数m mm2=[2^4,23,…,25] E-TFCM 模糊C均值聚类和迁移模糊FCM聚类 模糊指数mm2,平衡参数1 1=[0,24,23,…,25] m,m2=[2^4,23,…,25 PM-TFCM 基于可能性知识匹配的迁移FCM 模糊指数mm2,平衡参数d 1=[0,2^4,23,…,2^5] t=[21,22,…,210] FSC 子空间聚类算法 加权指数T,平衡参数σ σ=[5^-9,5^-8,…,50] m1=[2^-2,2^-1,…,2^8] E-TFSC 模糊子空间聚类FSC和迁移模糊子空间聚类模糊指数m1,加权指数α,平衡参数入1α=[21,22,…,210] 1=[0,24,23,…,2^5 m1=[2-2,2-1,…,2^8J PM-TFSC 基于可能性知识匹配的迁移FSC 模糊指数m,加权指数,平衡参数d1α=[21,22.…,210 1=[0,24,23,…,2^5 表8各算法的运行结果 Table 8 Results of several algorithms Part A:源域类别数少于目标域类别数 数据集 性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC RI_mean 0.482450.69879 0.71468 0.706870.74944 0.77094 NG20-T1 RI std 0.0003970.0410320.0345250.0787140.10324 0.062257 NG20-S1→NG20-T1) NM1mean0.0239690.438960.46488 0.383 0.478490.5275 NM1std0.0011950.0672520.0703640.153150.134880.13837 RI_mean0.478390.6795820.6854150.732870.75392 0.78101 NG20-T2 RIstd 0.0010390.0598770.0564510.0608790.047396 0.044765 NG20-S1→NG20-T2) NML_mean0.0329850.2816 0.3000370.3785690.40018 0.44914 NM1std0.001680.08491 0.0658790.0525140.0576170.033958 PatB:源域类别数等于目标域类别数 数据集 性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC RI_mean 0.502370.627220.630350.63433 0.6762 0.68417 NG20-T3 RI_std 7.19E-080.0531150.0489870.0584250.0500990.059193 (NG20-S2→NG20-T3) NM1mean0.0793060.281840.29519 0.222290.28081 0.31816 NMI_std3.58E-050.0831690.0599440.11336 0.0782260.09216 PatC:源域类别数多于目标域类别数 数据集 性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC RI mean0.500520.54222 0.57117 0.633870.67051 0.74363 NG20-T4 RIstd 1.16E-160.0769410.11171 0.100880.0838160.016126 NG20-S3→NG20-T4) NMI_mean0.002460.108590.13814 0.2302 0.294140.4017 NMI std 4.55E-190.0707410.1881 0.159050.180340.022894
识匹配算法的优势。但提出的算法依然得到了高 度可竞争的结果,这也较好地佐证提出的算法的 高度适应性。表 8 给出了各算法的运行结果。 表 7 各个算法参数取值情况 Table 7 Performance index of several algorithms 算法 算法说明 相关参数 相关参数寻优范围设置 FCM 模糊C均值聚类算法 模糊指数m E-TFCM 模糊C均值聚类和迁移模糊FCM聚类 模糊指数 m1m2,平衡参数 λ1 m1m2 = [2∧4,2 ∧3,··· ,2 ∧5] λ1 = [0,2 ∧4,2 ∧3,··· ,2 ∧5] PM-TFCM 基于可能性知识匹配的迁移FCM 模糊指数 m1m2,平衡参数 λ1 m1m2 = [2∧4,2 ∧3,··· ,2 ∧5] λ1 = [0,2 ∧4,2 ∧3,··· ,2 ∧5] FSC 子空间聚类算法 加权指数 τ,平衡参数 σ τ = [2∧1,2 ∧2,··· ,2 ∧10] σ = [5∧−9,5 ∧−8,··· ,5 ∧0] E-TFSC 模糊子空间聚类FSC和迁移模糊子空间聚类 模糊指数 m1 α λ1 ,加权指数 ,平衡参数 m1 = [2∧−2,2 ∧−1,··· ,2 ∧8] α= [2∧1,2 ∧2,···,2 ∧10] λ1 = [0,2 ∧4,2 ∧3,··· ,2 ∧5] PM-TFSC 基于可能性知识匹配的迁移FSC 模糊指数 m1 α λ1 ,加权指数 ,平衡参数 m1 = [2∧−2,2 ∧−1,··· ,2 ∧8] α= [2∧1,2 ∧2,···,2 ∧10] λ1 = [0,2 ∧4,2 ∧3,··· ,2 ∧5] 表 8 各算法的运行结果 Table 8 Results of several algorithms 数据集 Part A: 源域类别数少于目标域类别数 性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC NG20-T1 (NG20-S1 ⇒ NG20-T1) RI_mean 0.482 45 0.698 79 0.714 68 0.706 87 0.749 44 0.770 94 RI_std 0.000 397 0.041 032 0.034 525 0.078 714 0.103 24 0.062 257 NMI_mean 0.023 969 0.438 96 0.464 88 0.383 0.478 49 0.527 5 NMI_std 0.001 195 0.067 252 0.070 364 0.153 15 0.134 88 0.138 37 NG20-T2 (NG20-S1 ⇒ NG20-T2) RI_mean 0.478 39 0.679 582 0.685 415 0.732 87 0.753 92 0.781 01 RI_std 0.001 039 0.059 877 0.056 451 0.060 879 0.047 396 0.044 765 NMI_mean 0.032 985 0.281 6 0.300 037 0.378 569 0.400 18 0.449 14 NMI_std 0.001 68 0.084 91 0.065 879 0.052 514 0.057 617 0.033 958 数据集 Part B: 源域类别数等于目标域类别数 性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC NG20-T3 (NG20-S2 ⇒ NG20-T3) RI_mean 0.502 37 0.627 22 0.630 35 0.634 33 0.676 2 0.684 17 RI_std 7.19E-08 0.053 115 0.048 987 0.058 425 0.050 099 0.059 193 NMI_mean 0.079 306 0.281 84 0.295 19 0.222 29 0.280 81 0.318 16 NMI_std 3.58E-05 0.083 169 0.059 944 0.113 36 0.078 226 0.092 16 数据集 Part C: 源域类别数多于目标域类别数 性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC NG20-T4 (NG20-S3 ⇒ NG20-T4) RI_mean 0.500 52 0.542 22 0.571 17 0.633 87 0.670 51 0.743 63 RI_std 1.16E-16 0.076 941 0.111 71 0.100 88 0.083 816 0.016 126 NMI_mean 0.002 46 0.108 59 0.138 14 0.230 2 0.294 14 0.401 7 NMI_std 4.55E-19 0.070 741 0.188 1 0.159 05 0.180 34 0.022 894 第 5 期 聂飞,等:可能性匹配知识迁移原型聚类算法 ·987·