【知识工程】可能性匹配知识迁移原型聚类算法.pdf_大学文库

第15卷第5期智能系统学报 Vol.15 No.5 2020年9月 CAAI Transactions on Intelligent Systems Sep.2020 D0:10.11992/tis.201810028 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.tp.20190520.1631.016.html 可能性匹配知识迁移原型聚类算法聂飞'，高艳丽2，邓赵红，王士同 (1.江南大学数字媒体学院，江苏无锡214122：2.江南计算机技术研究所，江苏无锡214083) 摘要：针对迁移原型聚类的优化问题，本文以模糊知识匹配迁移原型聚类为基础，介绍了聚类场景中从源域到目标域的迁移学习机制，明确了源域聚类中心辅助目标域得到更好的聚类效果。但目前此类迁移机制依然面临如下的挑战：1)如何克服已有迁移原型聚类方法中不同类别间的知识强制性匹配带来的负作用。2)当源域与目标域相似度较低时，如何避免模糊强制性匹配的不合理性以及过于依赖源域知识的缺陷被放大。为此，研究了一种新的迁移原型聚类机制，即可能性匹配知识迁移原型机制，并基于此实现了2个具体的迁移聚类算法。借鉴可能性匹配的思想，该算法可以自动选择和偏重有用的源域知识，克服了源域和目标域之间的强制性匹配限制，具有较好的可调节性。研究结果表明：在不同迁移场景下模拟数据集和真实NG20 groups数据集上的实验研究表明，提出的算法较已有的相关算法展现了更好的性能。关键词：迁移原型聚类：迁移学习机制：强制性匹配；可能性匹配：原型聚类；可调节性中图分类号：TP181 文献标志码：A文章编号：1673-4785(2020)05-0978-12 中文引用格式：聂飞，高艳丽，邓赵红，等.可能性匹配知识迁移原型聚类算法.智能系统学报，2020,15（⑤）：978-989. 英文引用格式：NIE Fei,,GAO Yanli,DENG Zhaohong,etal.Possibility-matching based knowledge transfer prototype clustering algorithm[Jl.CAAI transactions on intelligent systems,2020,15(5):978-989. Possibility-matching based knowledge transfer prototype clustering algorithm NIE Fei',GAO Yanli',DENG Zhaohong',WANG Shitong (1.School of Digital Media,Jiangnan University,Wuxi 214122,China;2.Jiangnan Institute of Computing Technology,Wuxi 214083,China) Abstract:Aiming at the optimization problem of migration prototype clustering,this paper introduces a migration learn- ing mechanism from the source domain to the target domain in the clustering scene,considering fuzzy knowledge matching migration prototype clustering,and clarifies that the source domain clustering center assists the target domain to obtain better clustering effect.However,this method still faces the following challenges:1)how to overcome the neg- ative effect brought by knowledge matching among different classes in existing transfer prototype clustering methods. 2)when the similarity between the source domain and target domain is low,how to avoid the irrationality of fuzzy man- datory matching and the magnification of the defect of overdependence on knowledge from the source domain.There- fore,a new transfer prototype clustering mechanism called possibility matching-based knowledge transfer prototype clustering algorithm is proposed,and two transfer prototype clustering algorithms are further presented.Referring to the idea of possibility matching,the proposed algorithm can automatically select and focus on useful source domain know- ledge,overcome the constraint of mandatory matching between the source domain and target domain,and has better ad- justability.Experimental results on synthetic datasets and real NG20 text datasets in different transfer scenarios show that the proposed algorithms outperform the existing related algorithms. Keywords:transfer prototype clustering;transfer learning mechanism;mandatory matching;possibility matching;pro- totype clustering;adjustability 近年来，迁移学习山已经引起了广泛的关的有用信息来辅助获得目标域的有效模型。其主注和研究。迁移学习在学习过程中利用来自源域要假设或特点可以总结如下：1)目标域中的数据不足以生成良好的模型。2)源域与目标域不同但收稿日期：2018-10-24.网络出版日期：2019-05-22 基金项目：国家自然科学基金面上项目(61170122). 在一定程度上相似，这使得源域上的训练模型不通信作者：邓赵红.E-mail:dengzhaohong@jiangnan.edu.cn 能直接适用于目标域，但源域知识对于目标域模

DOI: 10.11992/tis.201810028 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190520.1631.016.html 可能性匹配知识迁移原型聚类算法聂飞1 ，高艳丽2 ，邓赵红1 ，王士同1 （1. 江南大学数字媒体学院，江苏无锡 214122; 2. 江南计算机技术研究所，江苏无锡 214083）摘要：针对迁移原型聚类的优化问题，本文以模糊知识匹配迁移原型聚类为基础，介绍了聚类场景中从源域到目标域的迁移学习机制，明确了源域聚类中心辅助目标域得到更好的聚类效果。但目前此类迁移机制依然面临如下的挑战：1）如何克服已有迁移原型聚类方法中不同类别间的知识强制性匹配带来的负作用。2）当源域与目标域相似度较低时，如何避免模糊强制性匹配的不合理性以及过于依赖源域知识的缺陷被放大。为此，研究了一种新的迁移原型聚类机制，即可能性匹配知识迁移原型机制，并基于此实现了 2 个具体的迁移聚类算法。借鉴可能性匹配的思想，该算法可以自动选择和偏重有用的源域知识，克服了源域和目标域之间的强制性匹配限制，具有较好的可调节性。研究结果表明：在不同迁移场景下模拟数据集和真实 NG20groups 数据集上的实验研究表明，提出的算法较已有的相关算法展现了更好的性能。关键词：迁移原型聚类；迁移学习机制；强制性匹配；可能性匹配；原型聚类；可调节性中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2020)05−0978−12 中文引用格式：聂飞, 高艳丽, 邓赵红, 等. 可能性匹配知识迁移原型聚类算法 [J]. 智能系统学报, 2020, 15(5): 978–989. 英文引用格式：NIE Fei, GAO Yanli, DENG Zhaohong, et al. Possibility-matching based knowledge transfer prototype clustering algorithm[J]. CAAI transactions on intelligent systems, 2020, 15(5): 978–989. Possibility-matching based knowledge transfer prototype clustering algorithm NIE Fei1 ，GAO Yanli2 ，DENG Zhaohong1 ，WANG Shitong1 (1. School of Digital Media, Jiangnan University, Wuxi 214122, China; 2. Jiangnan Institute of Computing Technology, Wuxi 214083, China) Abstract: Aiming at the optimization problem of migration prototype clustering, this paper introduces a migration learning mechanism from the source domain to the target domain in the clustering scene, considering fuzzy knowledge matching migration prototype clustering, and clarifies that the source domain clustering center assists the target domain to obtain better clustering effect. However, this method still faces the following challenges: 1) how to overcome the negative effect brought by knowledge matching among different classes in existing transfer prototype clustering methods. 2) when the similarity between the source domain and target domain is low, how to avoid the irrationality of fuzzy mandatory matching and the magnification of the defect of overdependence on knowledge from the source domain. Therefore, a new transfer prototype clustering mechanism called possibility matching-based knowledge transfer prototype clustering algorithm is proposed, and two transfer prototype clustering algorithms are further presented. Referring to the idea of possibility matching, the proposed algorithm can automatically select and focus on useful source domain knowledge, overcome the constraint of mandatory matching between the source domain and target domain, and has better adjustability. Experimental results on synthetic datasets and real NG20 text datasets in different transfer scenarios show that the proposed algorithms outperform the existing related algorithms. Keywords: transfer prototype clustering; transfer learning mechanism; mandatory matching; possibility matching; prototype clustering; adjustability 近年来，迁移学习[ 1 ] 已经引起了广泛的关注和研究。迁移学习在学习过程中利用来自源域的有用信息来辅助获得目标域的有效模型。其主要假设或特点可以总结如下：1) 目标域中的数据不足以生成良好的模型。2) 源域与目标域不同但在一定程度上相似，这使得源域上的训练模型不能直接适用于目标域，但源域知识对于目标域模收稿日期：2018−10−24. 网络出版日期：2019−05−22. 基金项目：国家自然科学基金面上项目 (61170122). 通信作者：邓赵红. E-mail：dengzhaohong@jiangnan.edu.cn. 第 15 卷第 5 期智能系统学报 Vol.15 No.5 2020 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2020

第5期聂飞，等：可能性匹配知识迁移原型聚类算法 ·979· 型的学习是有用的。3)迁移学习的关注点在于增可调节性。在不同迁移场景下模拟数据集和真强目标域的建模效果，源域仅用于辅助学习的实NG20 groups数据集上的实验研究表明，提出的功能。算法较之已有的相关算法展现了更好的性能。在过去的十年，迁移学习已被广泛地研究并用于各种场景，如文本分类和室内WFi位置估 1基于模糊知识匹配迁移的原型聚计。在已有研究中，从应用场景的角度迁移学类算法习一般可以分为如下4类：1)分类41,2)特征提 L.1模糊C均值聚类和迁移FCM聚类E-TFCM 取10,3)回归和4)聚类67。尽管现实世界在众多原型聚类算法中，FCM是一个被广泛中的聚类应用范围很广，较之于分类、回归和特应用的算法。它的目标函数定义如下：征抽取，聚类方面迁移学习技术的研究还非常有限。 FCM:min JFCM ∑∑- 1j=1 作为一个重要的研究方向，聚类技术得到了广泛的关注和研究。聚类算法大致可以划分以下 S.t. e0,1,∑断=1 几类：I)划分式聚类算法(partitioning method)1; 2)层次化聚类算法(hirearchical method)9.2;3)基 0<<N (1) 于网格和密度的聚类算法(gird-based and density-. based method)2i-2,4)其他聚类算法，如ACODF(ant 式中：C是聚类个数(i=1,2,…,C);W是数据样本 colony optimization with different favor,具有不同偏个数；x;∈R是第j个样本点；表示第i个数据好的蚁群算法)1。在这些传统聚类学习中，必须 x,属于第j类的模糊隶属度；”，表示第i类的聚有足够可利用的训练样本才能够充分发挥算法应类中心。有的性能。对此，迁移学习技术可以有效地解决为了让FCM具有迁移学习的能力，文献[25] 数据不充分给聚类带来的挑战。提出了迁移FCM聚类算法E-TFCM(extended 为了使传统聚类算法适应样本不足的场景， transfer FCM)。该算法的优化目标函数如下：已有一些迁移聚类算法被提出，并展现了一定的有效性，如Dai等a%提出的Self--taught clustering E-TFCM =1=1 i=1l= (STC)自学习聚类，以及Hang等提出的trans-. S.t. 0,1∑=1,0<∑< fer affinity propagation clustering algorithm迁移近邻传播聚类算法等聚类算法。特别地，文献[25] 提出了一个面向原型聚类的迁移聚类框架，并实 m=0,,a=1,0<ra<C (2) 现了几个具体的迁移原型聚类算法。提出的多个式(2)中的各项作用如下：迁移聚类算法较好地解决了在数据集不充分情景 1)第1项继承于经典的FCM,主要用于从目下，如何利用相关场景知识辅助提高当前场景聚标域的可用数据中学习；类性能的问题。 2)第2项用于从源域知识中学习。在该项虽然文献[25]中的几种迁移原型聚类展现出中，表示目标域中的第i类和源域中的第1个类了较好的迁移学习能力，但是其模糊知识匹配迁之间的匹配度。这一项意味着，如果目标域中的移学习机制，也还有一定的局限性，主要表现在：第i类和源域中的第1类更相似，则目标域中的 1)源域和目标域间不同类别间的知识强制性匹配第i类将从源域中的第1类学习更多的知识。可能带来负作用。2)当源域与目标域相似度较低 E-TFCM算法的参数更新规则如下：时，模糊强制性匹配的不合理性以及过于依赖源 C 域知识的缺陷被放大。 ∑+可针对已有迁移原型聚类算法存在的上述不 (3) 足，本文提出一种新的迁移聚类知识匹配策略， +】即可能性匹配知识，并基于此提出了2种具体的 = 算法。通过借鉴可能性度量的思想，提出的算法可以自动选择和偏重有用的源域知识，克服了源域和目标域之间的强制性匹配限制，具有较好的

型的学习是有用的。3) 迁移学习的关注点在于增强目标域的建模效果，源域仅用于辅助学习的功能。在过去的十年，迁移学习已被广泛地研究并用于各种场景，如文本分类[2] 和室内 WiFi 位置估计 [3]。在已有研究中，从应用场景的角度迁移学习一般可以分为如下 4 类：1) 分类[4-8] ; 2) 特征提取 [9-10] ; 3) 回归[11-15] 和 4) 聚类[16-17]。尽管现实世界中的聚类应用范围很广，较之于分类、回归和特征抽取，聚类方面迁移学习技术的研究还非常有限。作为一个重要的研究方向，聚类技术得到了广泛的关注和研究。聚类算法大致可以划分以下几类：1) 划分式聚类算法 (partitioning method)[18] ； 2) 层次化聚类算法 (hirearchical method)[19-20] ；3) 基于网格和密度的聚类算法 (gird-based and densitybased method)[21-22] ；4) 其他聚类算法,如 ACODF(ant colony optimization with different favor，具有不同偏好的蚁群算法) [23]。在这些传统聚类学习中，必须有足够可利用的训练样本才能够充分发挥算法应有的性能。对此，迁移学习技术可以有效地解决数据不充分给聚类带来的挑战。为了使传统聚类算法适应样本不足的场景，已有一些迁移聚类算法被提出，并展现了一定的有效性，如 Dai 等 [16] 提出的 Self-taught clustering (STC) 自学习聚类，以及 Hang 等 [24] 提出的 transfer affinity propagation clustering algorithm 迁移近邻传播聚类算法等聚类算法。特别地，文献 [25] 提出了一个面向原型聚类的迁移聚类框架，并实现了几个具体的迁移原型聚类算法。提出的多个迁移聚类算法较好地解决了在数据集不充分情景下，如何利用相关场景知识辅助提高当前场景聚类性能的问题。虽然文献 [25] 中的几种迁移原型聚类展现出了较好的迁移学习能力，但是其模糊知识匹配迁移学习机制，也还有一定的局限性，主要表现在： 1) 源域和目标域间不同类别间的知识强制性匹配可能带来负作用。2) 当源域与目标域相似度较低时，模糊强制性匹配的不合理性以及过于依赖源域知识的缺陷被放大。针对已有迁移原型聚类算法存在的上述不足，本文提出一种新的迁移聚类知识匹配策略，即可能性匹配知识，并基于此提出了 2 种具体的算法。通过借鉴可能性度量的思想，提出的算法可以自动选择和偏重有用的源域知识，克服了源域和目标域之间的强制性匹配限制，具有较好的可调节性。在不同迁移场景下模拟数据集和真实 NG20groups 数据集上的实验研究表明，提出的算法较之已有的相关算法展现了更好的性能。 1 基于模糊知识匹配迁移的原型聚类算法 1.1 模糊 C 均值聚类和迁移 FCM 聚类 E-TFCM 在众多原型聚类算法中，FCM 是一个被广泛应用的算法。它的目标函数定义如下： FCM : min U,V JFCM = ∑C i=1 ∑N j=1 u m i j xj −vi 2 s.t. ui j ∈ [0,1], ∑C i=1 ui j = 1 0 < ∑N j=1 ui j < N (1) C (i = 1,2,··· ,C) N xj ∈ R d j ui j i xj j vi i 式中：是聚类个数；是数据样本个数；是第个样本点；表示第个数据属于第类的模糊隶属度；表示第类的聚类中心。为了让 FCM 具有迁移学习的能力，文献 [25] 提出了迁移 FCM 聚类算法 E-TFCM(extended transfer FCM)。该算法的优化目标函数如下： min U,V,R JE−TFCM = ∑Ct i=1 ∑N j=1 u m1 i j xj −vi 2 +λ1 ∑Ct i=1 ∑N l=1 r m2 il ∥v˜l −vi∥ 2 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N ril = [0,1], ∑Cs l=1 ril = 1,0 < ∑Cs l=1 ril < Cs (2) 式 (2) 中的各项作用如下： 1) 第 1 项继承于经典的 FCM，主要用于从目标域的可用数据中学习； ril i l i l i l 2) 第 2 项用于从源域知识中学习。在该项中，表示目标域中的第类和源域中的第个类之间的匹配度。这一项意味着，如果目标域中的第类和源域中的第类更相似，则目标域中的第类将从源域中的第类学习更多的知识。 E-TFCM 算法的参数更新规则如下： vi = ∑N j=1 u m1 i j xi j + ∑Cs l=1 λ1r m2 il v˜l ∑N j=1 u m1 i j + ∑Cs l=1 λ1r m2 il (3) ui j =   1 xj −vi 2   1 m1 −1 /∑Ct k=1   1 xj −vk 2   1 m1 −1 (4) 第 5 期聂飞，等：可能性匹配知识迁移原型聚类算法 ·979·

·980· 智能系统学报第15卷 (5) 法2)归一化源域和目标域相似度矩阵做法是有一定缺陷的。这种强制性匹配的知识迁移，会让 ∑-r假-r) 不相关的源域知识对目标域产生较大的影响，甚基于式(3（⑤），可以容易地实现E-TFCM算法。至导致源域负相关知识在这情况下变得对目标域 1.2模糊子空间聚类FSC和迁移模糊子空间聚的聚类影响会放大，进而由这些算法建立的模型类E-TFSC 性能往往会达不到预期效果。2)该算法未充分考近年来，基于原型的软子空间聚类得到越来虑如何加强有用知识的迁移，削弱无用或有害知越多的关注。与传统的基于中心的原型聚类相识的迁移。从实际角度出发，应当是有选择的充比，此类算法在高维数据上表现出更好的性能，分利用源域知识，不应该强制性利用。从全局来其聚类的原型不仅包含聚类中心还包含代表每类看，迁移学习应当具有一定的自适应性，自动选的软子空间权向量。一个代表性的软子空间聚类择和偏重有用的源域知识，而不是简单的加强源算法是FSC27,其目标函数定义为域和目标域之间的联系。牌-222-w22 2基于可能性知识匹配的迁移聚类 N 2.1模糊匹配和可能性匹配 s.t 4e0,1,∑4=1,0<∑4<N 针对已有迁移原型聚类方法存在的不足，本文提出了基于可能性知识匹配的迁移聚类新方法。我们借鉴经典的可能性聚类C均值聚类算 (possibilistic c-means clustering algorithm, 式中：W=w,w2,…,w「是加权向量矩阵：T是模 PCM)P]中的可能性度量机制，来搭建源域到目标糊加权指数；=[lcxw是硬划分矩阵，其他参数域之间的知识迁移桥梁，实现源域和目标域的可可以参考式(1)。能性知识匹配。基于FSC,文献[26]提出了其迁移学习版本提出的新方法针对上述挑战所采用的解决方 E-TFSC(extended transfer FSC),其目标函数如下：案如下：对于问题1)，引入可能性理论。该理论建立在模糊理论的基础之上2。此时，模糊性表现为数据点对聚类中心的典型性隶属度，但该隶属度之间并不一定满足概率约束关系，即放松相似度的矩阵归一化约束。理论证明，典型性隶属度比 ,<N 归一化隶属度在噪声环境下性能要好，它能够自 =1 动降低噪声点和孤立点的影响。因此，不管源域知识是“好的”、“一般的”、“较差的”，提出的新算 ra∈0,1]，0< ra=1 法都更具有较好的适应性和稳定性。对于问题2)，在可能性理论基础之上，引入奖 w4e0,,∑w=1 (6) 惩因子，则是很好的辅助该问题的解决。显然，对于有用的知识我们给予奖励，对于无用的知识式中：师=(，…，)是源域的加权向量矩阵，给予惩罚，继而更加精确的选择和偏重有用的源 =(①，2，…，)是源域的聚类心矩阵；C,是目标域知识，最小化负相关的源域知识，从而更加合域的聚类个数；C,是源域的聚类个数。基于式理利用源域知识，辅助目标域获得更好的聚类效 (6),可以利用E-TFCM类似的优化技术得到其参果。图1示出了强制性模糊知识匹配和可能性知数学习规则和相应算法。识匹配2种迁移策略的的思想及它们之间的区别。 13迁移原型聚类存在的不足图1中显示了2类源域（左上）对3类目标域虽然基于模糊知识匹配的迁移聚类算法提 (左下)的迁移学习。右边红色点代表源域聚类中高了传统算法在面对不充分数据的聚类性能，但心，蓝色点代表目标域聚类中心。右边白色的五是，在处理源域和目标域之间的迁移关系上有两角星为真实的目标域聚类中心点。从右上图可以点亟需进一步改进。1)源域和目标域大都只是局看出，基于强制性模糊知识匹配，导致2个源域知部相似，意味着有些源域知识是无用的，显然，算识对目标域五角星聚类中心分别以0.4、0.6比例

ril = 1 ∑Cs k=1 ( ∥v˜l −vi∥ 2 /∥v˜k −vi∥ 2 ) 1 m2 −1 (5) 基于式 (3)~(5)，可以容易地实现 E-TFCM 算法。 1.2 模糊子空间聚类 FSC 和迁移模糊子空间聚类 E-TFSC 近年来，基于原型的软子空间聚类得到越来越多的关注[26]。与传统的基于中心的原型聚类相比，此类算法在高维数据上表现出更好的性能，其聚类的原型不仅包含聚类中心还包含代表每类的软子空间权向量。一个代表性的软子空间聚类算法是 FSC[27] ，其目标函数定义为 min U,V,W JFSC = ∑C i=1 ∑N j=1 ui j∑d k=1 w τ ik ( xjk −vik)2 +σ ∑C i=1 ∑d k=1 w τ ik s.t. ui j ∈ {0,1}, ∑C i=1 ui j = 1,0 < ∑N j=1 ui j < N wik ∈ [0,1], ∑d k=1 wik = 1.0 < ∑C i=1 wik < C W = [w1,w2,··· ,wc] T τ U = [ui j]C×N 式中：是加权向量矩阵：是模糊加权指数；是硬划分矩阵，其他参数可以参考式 (1)。基于 FSC，文献 [26] 提出了其迁移学习版本 E-TFSC(extended transfer FSC)，其目标函数如下： min U,V,W JE−TFSC = ∑ct i=1 ∑N j=1 ui j∑d k=1 w α ik ( xjk −vik)2 + ε ∑ct i=1 ∑d k=1 w α ik +λ1 ∑ct i=1 ∑Cs l=1 r m1 il ∑d k=1 w˜ α ik (v˜lk −vik) 2 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N ril ∈ [0,1],0 < ∑Cs i=1 ril < Ct , ∑Cs l=1 ril = 1 wik ∈ [0,1], ∑d k=1 wik = 1 (6) w˜ = ( w˜ α i1 ,w˜ α i2 ,··· ,w˜ α ik ) v˜ = (v˜l1, v˜l2,··· , v˜lk) Ct Cs 式中：是源域的加权向量矩阵，是源域的聚类心矩阵; 是目标域的聚类个数; 是源域的聚类个数。基于式 (6)，可以利用 E-TFCM 类似的优化技术得到其参数学习规则和相应算法。 1.3 迁移原型聚类存在的不足虽然基于模糊知识匹配的迁移聚类算法[25] 提高了传统算法在面对不充分数据的聚类性能，但是，在处理源域和目标域之间的迁移关系上有两点亟需进一步改进。1) 源域和目标域大都只是局部相似，意味着有些源域知识是无用的，显然，算法 [25] 归一化源域和目标域相似度矩阵做法是有一定缺陷的。这种强制性匹配的知识迁移，会让不相关的源域知识对目标域产生较大的影响，甚至导致源域负相关知识在这情况下变得对目标域的聚类影响会放大，进而由这些算法建立的模型性能往往会达不到预期效果。2) 该算法未充分考虑如何加强有用知识的迁移，削弱无用或有害知识的迁移。从实际角度出发，应当是有选择的充分利用源域知识，不应该强制性利用。从全局来看，迁移学习应当具有一定的自适应性，自动选择和偏重有用的源域知识，而不是简单的加强源域和目标域之间的联系。 2 基于可能性知识匹配的迁移聚类 2.1 模糊匹配和可能性匹配针对已有迁移原型聚类方法存在的不足，本文提出了基于可能性知识匹配的迁移聚类新方法。我们借鉴经典的可能性聚类 C 均值聚类算法 (possibilistic c-means clustering algorithm， PCM)[28] 中的可能性度量机制，来搭建源域到目标域之间的知识迁移桥梁，实现源域和目标域的可能性知识匹配。提出的新方法针对上述挑战所采用的解决方案如下：对于问题 1)，引入可能性理论。该理论建立在模糊理论的基础之上[29]。此时，模糊性表现为数据点对聚类中心的典型性隶属度，但该隶属度之间并不一定满足概率约束关系，即放松相似度的矩阵归一化约束。理论证明，典型性隶属度比归一化隶属度在噪声环境下性能要好，它能够自动降低噪声点和孤立点的影响。因此，不管源域知识是“好的”、“一般的”、“较差的”，提出的新算法都更具有较好的适应性和稳定性。对于问题 2)，在可能性理论基础之上，引入奖惩因子，则是很好的辅助该问题的解决。显然，对于有用的知识我们给予奖励，对于无用的知识给予惩罚，继而更加精确的选择和偏重有用的源域知识，最小化负相关的源域知识，从而更加合理利用源域知识，辅助目标域获得更好的聚类效果。图 1 示出了强制性模糊知识匹配和可能性知识匹配 2 种迁移策略的的思想及它们之间的区别。图 1 中显示了 2 类源域 (左上) 对 3 类目标域 (左下) 的迁移学习。右边红色点代表源域聚类中心，蓝色点代表目标域聚类中心。右边白色的五角星为真实的目标域聚类中心点。从右上图可以看出，基于强制性模糊知识匹配，导致 2 个源域知识对目标域五角星聚类中心分别以 0.4、0.6 比例 ·980· 智能系统学报第 15 卷

产生负拉拽影响，使其偏离原来的位置更加严重。右下图的可能性知识匹配则将以 0.2、0.1 可能性分配给源域，显然对目标域的负影响进一步降低。 FCM 得到源域聚类中心基于可能性知识匹配的迁移聚类 0.6 0.4 0.2 0.1 基于模糊知识匹配的迁移聚类图 1 聚类任务需要迁移学习的情况 Fig. 1 Clustering tasks need to transfer learning 2.2 基于可能性知识匹配的迁移 FCM 本节通过引入可能性知识匹配，提出相应的迁移 FCM(possibility matching based transfer FCM, PM-TFCM) 聚类算法。其优化目标函数如下： min U,V,R JPM−TFCM = ∑Ct i=1 ∑N j=1 u m1 i j xj −vi 2 + λ1 ∑Ct i=1 ∑Cs l=1 r m2 il ∥v˜l −vi∥ 2 +λ1 ∑Ct i=1 ∑Cs l=1 ηi(1−ril) m2 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 0 (11) 基于式 (9)~(11)，PM-TFCM 算法描述如下： PM-TFCM 算法： Ct tmax vt v˜l η λ1 t = 0 error = 1 Obj = JPM−TFCM 输入聚类个数，最大迭代次数为。随机初始化目标域聚类中心矩阵。以及利用 fcm 获得源域聚类中心，由此计算 ,并在当前获得最好聚类效果时，才会更新。设定平衡参数取值范围，迭代次数初始化为、、。重复： t = t+1 ；根据式 (10) 更新隶属度矩阵 U；根据式 (11) 更新相似矩阵 R；根据式 (9) 更新目标域聚类中心 V； error= NewObj−Obj 直到 <10e t=tmax − 5 或者输出 U、R、V。 2.3 基于可能性知识匹配的迁移 FSC 本节通过引入可能性知识匹配，提出相应的迁移 FSC(possibility matching based transfer FSC， PM-TFSC) 聚类算法。其优化目标函数如下： min U,V,W JPM−TFSC = ∑Ct i=1 ∑N j=1 ui j∑d k=1 w α ik ( xjk −vik)2 + ε ∑Ct i=1 ∑d k=1 w α ik +λ1 ∑Ct i=1 ∑Cs l=1 r m1 il ∑d k=1 w˜ α ik(v˜lk −vik) 2+ λ1 ∑Ct i=1 ∑Cs l=1 ηi(1−ril) m1 s.t. ui j ∈ [0,1], ∑Ct i=1 ui j = 1,0 < ∑N j=1 ui j < N ril ∈ [0,1],0 < ∑Cs l=1 ril < Cs ,wik ∈ [0,1], ∑d k=1 wik = 1 (12) 类似于式 (6)，式 (11) 借鉴了可能性度量来实现源域和目标域的可能性匹配。这里表示匹配的可能性，对其不存在归一化强制匹配。利用类似于 PM-TFCM 中的优化方法，可得 PM-TFSC 的参第 5 期聂飞，等：可能性匹配知识迁移原型聚类算法 ·981·

·982· 智能系统学报第15卷数更新规则如下：根据式(16)更新权值W; 直到eror=NewObj--Obj<l0e5或者t=tma (13) 输出U、R、V、W。 3实验结果 wa(VR-Va 在本节中，将在合成数据集和真实世界数据集上进行实验评估所提出的算法的聚类性能。首 a=1 1+ (14) 先描述了用于性能评价的指标和实验装置。然后，对所提出的算法在合成和真实世界文本数据集上的性能进行了报道和讨论，并与其他相关算法进行了综合比较。所有算法都在MATLAB上实现，实验在3.6 GHz CPU64-GB RAM的计算机上运行。 3.1性能指标和实验设置 - (15) 本文采用2个评价指标，即兰德指数(R)和归一化互信息NMⅫ)，用于评估聚类算法的性能。 4-26-w RI通常被定义为 foo+fu RI=N(N-1)/2 式中：f0是具有不同类标签且属于不同簇的数据点对的数目；N是整个数据集的大小。立吸+a后 NM根据以下公式进行定义和计算： (16) ∑∑N,logNxN,/NxN i=l l NMI -+ N×logN/Wx ∑VxlogN,,N (17) 式中：N是簇i和类j之间的相同样本的数目；N: 会-+ 是簇i中数据点的数量：N是j类中数据点的数量；N是整个数据集的大小。RI和NMI都在区 22qm 间[0,1]内取值。值越高，聚类性能越好。 7:= (18) 3.2合成数据集在这项研究中，生成了几个合成数据集来评估所提出的算法的性能。基于式(14)(18)，可以容易地获得PM-TF- 本部分分别生成了2组数据集来评估提出的 SC算法。 PM-TFCM和PM-TFSC算法。所有数据集都是由 PM-TFSC算法：高斯分布函数生成。通过源域和目标域对应的类输入聚类个数C,最大迭代次数为tx。随别相似来构造源域和目标域，即均值相似以及方机选择C,个点初始化目标域聚类中心矩阵1。差相似。用于评估PM-TFCM的数据生成参数如 fcm获得源域聚类中心。随机初始化权值师，由表1所示，生成的数据集如图2、3所示。用于评此计算惩罚因子刀，同样也是在当前聚类效果最估PM-TFSC的数据生成参数如表2所示，生成的好时，才更新。设定平衡参数：取值范围，初始数据集如图4、5所示。化迭代次数1=0、eror=1、Obj=JM-Fco 在合成数据集的实验结果如表3、4所示。从重复：实验结果可以看出，在几种不同的情况下，所提 t=t+1; 新迁移聚类算法较之于传统原型聚类算法和已有根据式(14)更新隶属度矩阵U: 的迁移原型聚类算法，性能都得到了一定程度的根据式(13)更新相似矩阵R; 改进。这也说明本文引入的可能性匹配迁移学习根据式(15)更新目标域聚类中心；机制具有更好的适应性

数更新规则如下： vik = ∑N j=1 u m1 i j w τ ik xjk +λ1 ∑Cs l=1 r m2 il w τ ikv˜lk ∑N j=1 u m1 i j w τ ik +λ1 ∑Cs l=1 r m2 il w τ ik (13) ril = 1 /   1+   ∑d k=1 w˜lk(v˜lk −vik) 2 ηi   1/m2−1  (14) ui j = 1/   ∑d k=1 w τ ik   1/m1−1 ∑Ct s=1   1 ∑Ct s=1 w τ sk ( xjk −vsk)2   1/m1−1 −−−−−−−−−−−−−−−−−−−→ di j = ∑d k=1 w τ ik ( xjk −vik)2 = [ 1/di j]1/m1−1 / ∑Ct s=1 [ 1/ds j]1/m1−1 (15) vik = ∑N j=1 u m1 i j w τ ik xjk +λ1 ∑Cs l=1 r m2 il w˜ τ ikv˜lk ∑N j=1 u m1 i j w τ ik +λ1 ∑Cs l=1 r m2 il w˜ τ ik (16) wik = 1 /   ∑N j=1 ui j( xjk −vik)2 +ε   1/α−1 ∑d s=1   1 /∑N j=1 ui j( xjs −vis)2 +ε   1/α−1 (17) ηi = ∑Cs l=1 r m1 il ∑d k=1 w˜ α lk (v˜lk −vik) 2 ∑Cs s=1 r m1 is (18) 基于式 (14)~(18)，可以容易地获得 PM-TFSC 算法。 PM-TFSC 算法： Ct tmax Ct v˜l w˜ η λ1 t = 0 error = 1 Obj = JPM−TFSC 输入聚类个数，最大迭代次数为。随机选择个点初始化目标域聚类中心矩阵 Vt。 fcm 获得源域聚类中心。随机初始化权值，由此计算惩罚因子，同样也是在当前聚类效果最好时，才更新。设定平衡参数取值范围，初始化迭代次数、、。重复： t = t+1 ；根据式 (14) 更新隶属度矩阵 U；根据式 (13) 更新相似矩阵 R；根据式 (15) 更新目标域聚类中心 V；根据式 (16) 更新权值 W； error= NewObj−Obj 直到 <10e t=tmax − 5 或者输出 U、R、V、W。 3 实验结果在本节中，将在合成数据集和真实世界数据集上进行实验评估所提出的算法的聚类性能。首先描述了用于性能评价的指标和实验装置。然后，对所提出的算法在合成和真实世界文本数据集上的性能进行了报道和讨论，并与其他相关算法进行了综合比较。所有算法都在 MATLAB 上实现，实验在 3.6 GHz CPU 64-GB RAM 的计算机上运行。 3.1 性能指标和实验设置本文采用 2 个评价指标，即兰德指数 (RI) 和归一化互信息 (NMI)，用于评估聚类算法的性能。 RI 通常被定义为 RI = f00 + f11 N(N −1)/2 式中： f00 是具有不同类标签且属于不同簇的数据点对的数目；N 是整个数据集的大小。 NMI 根据以下公式进行定义和计算： NMI= ∑C i=1 ∑C j=1 Ni, j logN ×Ni, j/Ni ×Nj vt∑C i=1 Ni ×logNi/N × ∑C j=1 Nj ×logNj/N Ni j i j Ni i Nj j N 式中：是簇和类之间的相同样本的数目；是簇中数据点的数量；是类中数据点的数量；是整个数据集的大小。RI 和 NMI 都在区间 [0, 1] 内取值。值越高，聚类性能越好。 3.2 合成数据集在这项研究中，生成了几个合成数据集来评估所提出的算法的性能。本部分分别生成了 2 组数据集来评估提出的 PM-TFCM 和 PM-TFSC 算法。所有数据集都是由高斯分布函数生成。通过源域和目标域对应的类别相似来构造源域和目标域，即均值相似以及方差相似。用于评估 PM-TFCM 的数据生成参数如表 1 所示，生成的数据集如图 2、3 所示。用于评估 PM-TFSC 的数据生成参数如表 2所示，生成的数据集如图 4、5 所示。在合成数据集的实验结果如表 3、4 所示。从实验结果可以看出，在几种不同的情况下，所提新迁移聚类算法较之于传统原型聚类算法和已有的迁移原型聚类算法，性能都得到了一定程度的改进。这也说明本文引入的可能性匹配迁移学习机制具有更好的适应性。 ·982· 智能系统学报第 15 卷

表 1 用于评估 PM-TFCM 的合成数据集 Table 1 Synthetic datasets for evaluating PM-TFCM Source domain with three clusters Source domain with two clusters Cluster Cluster-1 Cluster-2 Cluster-3 Cluster Cluster-1 Cluster-2 u [9 12] [3 4] [20 8] u [6 15] [7 7] ∑ [ 6 0 0 9 ] [ 15 0 0 4 ] [ 9 0 0 5 ] ∑ [ 7 0 0 18 ] [ 10 0 0 9 ] Size 600 Size 400 Target domain with two clusters Target domain with three clusters Cluster Cluster-1 Cluster-2 Cluster Cluster-1 Cluster-2 Cluster-3 u [13 14] [5 6] u [7 18] [10 9] [7 6] ∑ [ 7 0 0 11 ] [ 19 0 0 8 ] ∑ [ 16 0 0 6 ] [ 9 0 0 5 ] [ 4 0 0 6 ] Size 60 Size 90 −10 −5 0 5 10 15 20 25 30 −5 0 5 10 15 20 25 (a) Source domain (3 classes) −5 0 5 10 15 20 25 0 2 4 6 8 10 12 14 16 18 20 (b) Target domain (2-classes) Cluster-l Cluster-2 Cluster-l Cluster-2 Cluster-3 Y X Y X 图 2 2 种基于原型的迁移模型简单对比示意 Fig. 2 A brief comparison of two prototype based transfer models −2 0 2 4 6 8 10 12 14 −5 0 5 10 15 20 25 30 −5 0 5 10 15 20 0 5 10 15 20 25 (a) Source domain (2classes) (b) Target domain (3classes) Cluster-l Cluster-2 Cluster-l Cluster-2 Cluster-3 Y Y X X 图 3 表 1 左列参数生成的合成数据集 1 Fig. 3 Synthetic dataset 1 corresponding to the parameters in the left column of Table 1 3.3 20 NG20 文本数据集在本节，将提出的算法应用到真实的 20 新闻组 (20 Newsgroups (or NG20)) 文本数据集[30]。 NG20 数据集是高维数据集。采用卡方检验结合词频进行了降维，最终 NG20 降到了 800 维用于聚类分析。为了模拟本文所研究的场景，构造了源域以及目标域的各个类的数据集。表 5 详细给出了本文所采用的 4 组文本数据。然后基于这 4 组数据构造了 5 对适宜于迁移学习场景的数据对。5 组数据对详情见表 6。该 5 组数据可分为 3 类，分别为： 1) 源域类别数少于目标域类别数，该类数据包括表 6 中的数据对 1 和 2。 2) 源域类别数等于目标域类别数，该类数据第 5 期聂飞，等：可能性匹配知识迁移原型聚类算法 ·983·

·984· 智能系统学报第15卷包括表6中的数据对3。 TFCM、E-TFSC)。在基于传统FCM聚类的迁移 3)源域类别数多于目标域类别数，该类数据聚类方法上，PM-TFCM比E-TFCM的性能指标平包括表6中的数据对4和5。均提高了0.02以上。特别地，在FSC的2个迁移为了保证各个算法的公平性，对每个参数赋版本聚类方法上，基于可能性知识匹配子空间迁予10个值进行网格搜索，详情见表7。移聚类算法PM-TFSC的性能指标明显优于基于通过表8的Part A部分，不难发现，我们的算强制性模糊知识匹配子空间迁移聚类算法E-TF 法(PM-TFCM、PM-TFSC)均优于对比算法(E- SC的指标，其平均性能指标高出0.04左右。表2用于评估PM-TFSC的合成数据集 Table 2 Synthetic datasets for evaluating PM-TFSC Source domain with three clusters Source domain with two clusters Cluster Cluster-1 Cluster-2 Cluster-3 Cluster Cluster-1 Cluster-2 [81418] [427刀 [151520] [101215] [1572] 15 0 0 0 0 > 0 0 3001 [3001 ∑ 0 7 0 0 8 0 0 15 0 ∑ 0 10 0 090 0 0 0 3 0 0 0 0 P 008 Size 600 Size 400 Target domain with two clusters Target domain with three clusters Cluster Cluster-1 Cluster-2 Cluster Cluster-1 Cluster-2 Cluster-3 [11189] [8411] [121418] [16105 [787) 16 0 0 3 0 0 6 0 0 10 0 0 1 1500 ∑ 0 12 0 0 9 0 2 0 12 0 0 60 0 80 0 0 17 0 0 8 0 0 9 0 010 0 06 Size 60 Size 90 Cluster-1 ·Cluster-2 ·Cluster-.3 :8e 30, 30 20 20 N15 N10 0 5 8 20 20 15 20 0 10 0 0 X 10 -10-10 05 (a)Source domain (3classes) (a)Source domain (2classes) Cluster-2 米Cluster-l +Cluster-2 OCluster-3 20 15 20 10 15 1 10 0 5 oo o 20 15 20 15 10 15 10 5 5 00 0-5 05x0 (b)Target domain(2classes) (b)Target domain (3classes) 图4表1右列参数生成的合成数据集2 图5表2左列参数生成的合成数据集3 Fig.4 Synthetic dataset 2 corresponding to the paramet- Fig.5 Synthetic dataset 3 corresponding to the paramet- ers in the right column of Table 1 ers in the left column of Table 2

包括表 6 中的数据对 3。 3) 源域类别数多于目标域类别数，该类数据包括表 6 中的数据对 4 和 5。为了保证各个算法的公平性，对每个参数赋予 10 个值进行网格搜索，详情见表 7。通过表 8 的 Part A 部分，不难发现，我们的算法 (PM-TFCM、PM-TFSC) 均优于对比算法 (ETFCM、E-TFSC)。在基于传统 FCM 聚类的迁移聚类方法上，PM-TFCM 比 E-TFCM 的性能指标平均提高了 0.02 以上。特别地，在 FSC 的 2 个迁移版本聚类方法上，基于可能性知识匹配子空间迁移聚类算法 PM-TFSC 的性能指标明显优于基于强制性模糊知识匹配子空间迁移聚类算法 E-TFSC 的指标，其平均性能指标高出 0.04 左右。表 2 用于评估 PM-TFSC 的合成数据集 Table 2 Synthetic datasets for evaluating PM-TFSC Source domain with three clusters Source domain with two clusters Cluster Cluster-1 Cluster-2 Cluster-3 Cluster Cluster-1 Cluster-2 u [8 14 18] [4 2 7] [15 15 20] u [10 12 15] [15 7 2] ∑   15 0 0 0 7 0 0 0 14     1 0 0 0 8 0 0 0 3     7 0 0 0 15 0 0 0 8   ∑   3 0 0 0 10 0 0 0 8     3 0 0 0 9 0 0 0 8   Size 600 Size 400 Target domain with two clusters Target domain with three clusters Cluster Cluster-1 Cluster-2 Cluster Cluster-1 Cluster-2 Cluster-3 u [11 18 9] [8 4 11] u [12 14 18] [16 10 5] [7 8 7] ∑   16 0 0 0 12 0 0 0 17     3 0 0 0 9 0 0 0 8   ∑   6 0 0 0 12 0 0 0 9     10 0 0 0 6 0 0 0 10     15 0 0 0 8 0 0 0 6   Size 60 Size 90 0 30 5 10 20 15 20 20 Z Y X Z Y X 10 25 10 30 0 0 −10 −10 (a) Source domain (3classes) −5 30 0 5 20 20 10 15 15 10 20 10 5 0 0 (b) Target domain (2classes) Cluster-l Cluster-2 Cluster-3 Cluster-l Cluster-2 图 4 表 1 右列参数生成的合成数据集 2 Fig. 4 Synthetic dataset 2 corresponding to the parameters in the right column of Table 1 −10 20 0 15 20 10 10 20 15 30 5 10 0 5 (a) Source domain (2classes) 0 20 5 10 20 15 15 15 20 10 10 25 5 5 0 0 −5 (b) Target domain (3classes) Z Y X Z Y X Cluster-l Cluster-2 Cluster-l Cluster-2 Cluster-3 图 5 表 2 左列参数生成的合成数据集 3 Fig. 5 Synthetic dataset 3 corresponding to the parameters in the left column of Table 2 ·984· 智能系统学报第 15 卷

第5期聂飞，等：可能性匹配知识迁移原型聚类算法 ·987· 识匹配算法的优势。但提出的算法依然得到了高高度适应性。表8给出了各算法的运行结果。度可竞争的结果，这也较好地佐证提出的算法的表7各个算法参数取值情况 Table 7 Performance index of several algorithms 算法算法说明相关参数相关参数寻优范围设置 FCM 模糊C均值聚类算法模糊指数m mm2=[2^4,23,…,25] E-TFCM 模糊C均值聚类和迁移模糊FCM聚类模糊指数mm2,平衡参数1 1=[0,24,23,…,25] m,m2=[2^4,23,…,25 PM-TFCM 基于可能性知识匹配的迁移FCM 模糊指数mm2,平衡参数d 1=[0,2^4,23,…,2^5] t=[21,22,…,210] FSC 子空间聚类算法加权指数T,平衡参数σ σ=[5^-9,5^-8，…，50] m1=[2^-2,2^-1,…,2^8] E-TFSC 模糊子空间聚类FSC和迁移模糊子空间聚类模糊指数m1,加权指数α，平衡参数入1α=[21,22，…，210] 1=[0,24,23,…,2^5 m1=[2-2,2-1,…,2^8J PM-TFSC 基于可能性知识匹配的迁移FSC 模糊指数m,加权指数，平衡参数d1α=[21,22.…，210 1=[0,24,23,…,2^5 表8各算法的运行结果 Table 8 Results of several algorithms Part A:源域类别数少于目标域类别数数据集性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC RI_mean 0.482450.69879 0.71468 0.706870.74944 0.77094 NG20-T1 RI std 0.0003970.0410320.0345250.0787140.10324 0.062257 NG20-S1→NG20-T1) NM1mean0.0239690.438960.46488 0.383 0.478490.5275 NM1std0.0011950.0672520.0703640.153150.134880.13837 RI_mean0.478390.6795820.6854150.732870.75392 0.78101 NG20-T2 RIstd 0.0010390.0598770.0564510.0608790.047396 0.044765 NG20-S1→NG20-T2) NML_mean0.0329850.2816 0.3000370.3785690.40018 0.44914 NM1std0.001680.08491 0.0658790.0525140.0576170.033958 PatB:源域类别数等于目标域类别数数据集性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC RI_mean 0.502370.627220.630350.63433 0.6762 0.68417 NG20-T3 RI_std 7.19E-080.0531150.0489870.0584250.0500990.059193 (NG20-S2→NG20-T3) NM1mean0.0793060.281840.29519 0.222290.28081 0.31816 NMI_std3.58E-050.0831690.0599440.11336 0.0782260.09216 PatC:源域类别数多于目标域类别数数据集性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC RI mean0.500520.54222 0.57117 0.633870.67051 0.74363 NG20-T4 RIstd 1.16E-160.0769410.11171 0.100880.0838160.016126 NG20-S3→NG20-T4) NMI_mean0.002460.108590.13814 0.2302 0.294140.4017 NMI std 4.55E-190.0707410.1881 0.159050.180340.022894

识匹配算法的优势。但提出的算法依然得到了高度可竞争的结果，这也较好地佐证提出的算法的高度适应性。表 8 给出了各算法的运行结果。表 7 各个算法参数取值情况 Table 7 Performance index of several algorithms 算法算法说明相关参数相关参数寻优范围设置 FCM 模糊C均值聚类算法模糊指数m E-TFCM 模糊C均值聚类和迁移模糊FCM聚类模糊指数 m1m2，平衡参数 λ1 m1m2 = [2∧4,2 ∧3,··· ,2 ∧5] λ1 = [0,2 ∧4,2 ∧3,··· ,2 ∧5] PM-TFCM 基于可能性知识匹配的迁移FCM 模糊指数 m1m2，平衡参数 λ1 m1m2 = [2∧4,2 ∧3,··· ,2 ∧5] λ1 = [0,2 ∧4,2 ∧3,··· ,2 ∧5] FSC 子空间聚类算法加权指数 τ，平衡参数 σ τ = [2∧1,2 ∧2,··· ,2 ∧10] σ = [5∧−9,5 ∧−8,··· ,5 ∧0] E-TFSC 模糊子空间聚类FSC和迁移模糊子空间聚类模糊指数 m1 α λ1 ,加权指数，平衡参数 m1 = [2∧−2,2 ∧−1,··· ,2 ∧8] α= [2∧1,2 ∧2,···,2 ∧10] λ1 = [0,2 ∧4,2 ∧3,··· ,2 ∧5] PM-TFSC 基于可能性知识匹配的迁移FSC 模糊指数 m1 α λ1 ,加权指数，平衡参数 m1 = [2∧−2,2 ∧−1,··· ,2 ∧8] α= [2∧1,2 ∧2,···,2 ∧10] λ1 = [0,2 ∧4,2 ∧3,··· ,2 ∧5] 表 8 各算法的运行结果 Table 8 Results of several algorithms 数据集 Part A: 源域类别数少于目标域类别数性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC NG20-T1 (NG20-S1 ⇒ NG20-T1) RI_mean 0.482 45 0.698 79 0.714 68 0.706 87 0.749 44 0.770 94 RI_std 0.000 397 0.041 032 0.034 525 0.078 714 0.103 24 0.062 257 NMI_mean 0.023 969 0.438 96 0.464 88 0.383 0.478 49 0.527 5 NMI_std 0.001 195 0.067 252 0.070 364 0.153 15 0.134 88 0.138 37 NG20-T2 (NG20-S1 ⇒ NG20-T2) RI_mean 0.478 39 0.679 582 0.685 415 0.732 87 0.753 92 0.781 01 RI_std 0.001 039 0.059 877 0.056 451 0.060 879 0.047 396 0.044 765 NMI_mean 0.032 985 0.281 6 0.300 037 0.378 569 0.400 18 0.449 14 NMI_std 0.001 68 0.084 91 0.065 879 0.052 514 0.057 617 0.033 958 数据集 Part B: 源域类别数等于目标域类别数性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC NG20-T3 (NG20-S2 ⇒ NG20-T3) RI_mean 0.502 37 0.627 22 0.630 35 0.634 33 0.676 2 0.684 17 RI_std 7.19E-08 0.053 115 0.048 987 0.058 425 0.050 099 0.059 193 NMI_mean 0.079 306 0.281 84 0.295 19 0.222 29 0.280 81 0.318 16 NMI_std 3.58E-05 0.083 169 0.059 944 0.113 36 0.078 226 0.092 16 数据集 Part C: 源域类别数多于目标域类别数性能指标 FCM E-TFCM PM-TFCM FSC E-TFSC PM-TFSC NG20-T4 (NG20-S3 ⇒ NG20-T4) RI_mean 0.500 52 0.542 22 0.571 17 0.633 87 0.670 51 0.743 63 RI_std 1.16E-16 0.076 941 0.111 71 0.100 88 0.083 816 0.016 126 NMI_mean 0.002 46 0.108 59 0.138 14 0.230 2 0.294 14 0.401 7 NMI_std 4.55E-19 0.070 741 0.188 1 0.159 05 0.180 34 0.022 894 第 5 期聂飞，等：可能性匹配知识迁移原型聚类算法 ·987·