正在加载图片...
第3期 王跃,等:一种基于少量标签的改进迁移模糊聚类 ·311- 分为3类:归纳迁移学习、直推式迁移学习和无监督 N 迁移学习。现有的迁移学习在分类领域已有较多研 k=1 究成果20),而在聚类领域迁移学习理论和方法相 —,i (5) 对则要少很多。文献[11-12]在聚类领域利用了迁 移学习的理论。 1.2PFCM聚类算法 半监督聚类是半监督学习与聚类分析相结合的 FPCM是建立在FCM和PCM基础上的算法, 研究领域,文献[13]提出了不同情况下的半监督聚 它将两者结合在一起,FPCM的目标函数定义为 类算法,并取得了不错的效果。 J= 文献[14]将经典的模糊C均值算法1s(FCM) 正d形 (6) 与可能性C均值[6](PCM)算法进行改进,提出了 式中:m>1,m>1,0≤,≤1,约束条件为 模糊可能性聚类算法(FPCM)。本文探讨在源领域 2a=1,i (7) 有少量标签的情况下,如何指导目标域进行聚类,提 出半监督模糊可能性C均值聚类算法(SS-FPCM), 2=1,k (8) 并针对负迁移问题对算法进行改进,提出了防止负 通过最小化目标函数,可以得到以下迭代优化 迁移的半监督迁移算法(TSS-FPCM),同时,用代表 公式: 点代替源领域的数据进行数据迁移,得到改善的半 监督迁移算法(TSS-FPCM),并进行了实验验证。 [周 (9) 1相关算法介绍 Vi,k (10) 1.1PCM聚类算法 PCM聚类算法放松了传统FCM聚类算法中对 于隶属度矩阵的约束,隶属度不再是对1的共享。 ∑(u候+) .Vi 对于给定数据集X={xIk=1,2,…,N},x4∈R,包 N (11) 含N个样本,分成C个类别,T= (+) {t4li=1,2,…,C;k=1,2,…,N}是可能划分矩阵,t 1.3半监督聚类算法 表示第k个样本x:属于第i类的可能性,聚类中心 对于一些有着一部分标签的数据集,在文献 为V={yIi=1,2,…,C},其中y:表示第i个聚类中 [17]中,Pedrycz提出了基于部分标签的模糊聚类 心。PCM目标函数定义为 算法(SS-F℃M),算法的核心思想是利用现有的分类 信息,并把它作为优化程序的一部分。 为了区分标记数据与未标记数据,引入向量矩 式中:t4∈[0,1],0<∑a≤N,m为模糊指数, 阵B={bIk=1,2,…,N},如果x是已知标签样本 b=1,否则bs=0。并且记类别属性F= 和7:的取值分别为式(2)和式(3),K的取值一般取 {fli=1,2,…,C;k=1,2,…,N},如果x4属于第i K=1。 类,那么f4=1:否则f=0。在引人B和F后,Pe d=‖x4-v:2=(x4-v:)T(x4-v)(2) dycz将模糊参数m取值为2,其目标函数为 ∑md n:sK (ua -fab)'da N—,K>0 (3) 含a (12) 最小化目标函数可以得到可能性矩阵和聚类中 2半监督迁移模糊聚类算法 心的迭代式(4)和式(5): 2.1半监督模糊可能性C均值聚类算法 1 .Vi,k 4 对半监督FCM算法进行研究可以发现,上文中 的B和F的功能相似,保留下F并对FPCM的目标 函数做如下改进:分为 3 类:归纳迁移学习、直推式迁移学习和无监督 迁移学习。 现有的迁移学习在分类领域已有较多研 究成果[2⁃10] ,而在聚类领域迁移学习理论和方法相 对则要少很多。 文献[11⁃12]在聚类领域利用了迁 移学习的理论。 半监督聚类是半监督学习与聚类分析相结合的 研究领域,文献[13]提出了不同情况下的半监督聚 类算法,并取得了不错的效果。 文献[14]将经典的模糊 C 均值算法[15] (FCM) 与可能性 C 均值[16] ( PCM) 算法进行改进,提出了 模糊可能性聚类算法(FPCM)。 本文探讨在源领域 有少量标签的情况下,如何指导目标域进行聚类,提 出半监督模糊可能性 C 均值聚类算法( SS⁃FPCM), 并针对负迁移问题对算法进行改进,提出了防止负 迁移的半监督迁移算法(TSS⁃FPCM),同时,用代表 点代替源领域的数据进行数据迁移,得到改善的半 监督迁移算法(ITSS⁃FPCM),并进行了实验验证。 1 相关算法介绍 1.1 PCM 聚类算法 PCM 聚类算法放松了传统 FCM 聚类算法中对 于隶属度矩阵的约束,隶属度不再是对 1 的共享。 对于给定数据集 X = xk { | k = 1,2,…,N} ,xk∈R d ,包 含 N 个 样 本, 分 成 C 个 类 别, T = t ik { | i = 1,2,…,C;k = 1,2,…,N}是可能划分矩阵,t ik 表示第 k 个样本 xk 属于第 i 类的可能性,聚类中心 为 V = vi { | i = 1,2,…,C} ,其中 vi 表示第 i 个聚类中 心。 PCM 目标函数定义为 J = ∑ C i = 1 ∑ N k = 1 t m ikd 2 ik + ∑ C i = 1 ηi∑ N k = 1 1 - t ik ( ) m d 2 ik (1) 式中: t ik ∈ [0,1] ,0 < ∑ N k = 1 t m ik ≤N,m为模糊指数,d 2 ik 和 ηi 的取值分别为式(2) 和式(3),K 的取值一般取 K = 1。 d 2 ik = ‖xk - vi‖2 = xk - vi ( ) T xk - vi ( ) (2) ηi = K ∑ N k = 1 t m ikd 2 ik ∑ N k = 1 t m ik ,K > 0 (3) 最小化目标函数可以得到可能性矩阵和聚类中 心的迭代式(4)和式(5): t ik = 1 1 + d 2 ik ηi æ è ç ö ø ÷ 1 m-1 ,∀i,k (4) vi = ∑ N k = 1 t m ik xk ∑ N k = 1 t m ik ,∀i (5) 1.2 PFCM 聚类算法 FPCM 是建立在 FCM 和 PCM 基础上的算法, 它将两者结合在一起 ,FPCM 的目标函数定义为 J = ∑ C i = 1 ∑ N k = 1 u m ik + t η ik ( ) d 2 ik (6) 式中:m>1,η>1,0≤ik,t ik≤1,约束条件为 ∑ N k = 1 t ik = 1,∀i (7) ∑ C i = 1 uik = 1,∀k (8) 通过最小化目标函数,可以得到以下迭代优化 公式: uik = ∑ C j = 1 d 2 ik d 2 ij æ è ç ö ø ÷ 1 m-1 é ë ê ê ù û ú ú -1 ,∀i,k (9) t ik = ∑ N j = 1 d 2 ik d 2 ij æ è ç ö ø ÷ 1 η-1 é ë ê ê ù û ú ú -1 ,∀i,k (10) vi = ∑ N k = 1 u m ik + t η ik ( ) xk ∑ N k = 1 u m ik + t η ik ( ) ,∀i (11) 1.3 半监督聚类算法 对于一些有着一部分标签的数据集,在文献 [17]中,Pedrycz 提出了基于部分标签的模糊聚类 算法(SS⁃FCM),算法的核心思想是利用现有的分类 信息,并把它作为优化程序的一部分。 为了区分标记数据与未标记数据,引入向量矩 阵 B = bk { | k = 1,2,…,N} ,如果 xk 是已知标签样本 bk = 1, 否 则 bk = 0。 并 且 记 类 别 属 性 F = f ik { | i = 1,2,…,C;k = 1,2,…,N} ,如果 xk 属于第 i 类,那么 f ik = 1;否则 f ik = 0。 在引入 B 和 F 后,Pe⁃ drycz 将模糊参数 m 取值为 2,其目标函数为 J = ∑ C i = 1 ∑ N k = 1 u 2 ikd 2 ik + α∑ C i = 1 ∑ N k = 1 uik - f ik bk ( ) 2 d 2 ik (12) 2 半监督迁移模糊聚类算法 2.1 半监督模糊可能性 C 均值聚类算法 对半监督 FCM 算法进行研究可以发现,上文中 的 B 和 F 的功能相似,保留下 F 并对 FPCM 的目标 函数做如下改进: 第 3 期 王跃,等:一种基于少量标签的改进迁移模糊聚类 ·311·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有