【机器学习】基于极大熵的知识迁移模糊聚类算法

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：1.28MB

第12卷第1期智能系统学报 Vol.12 No.1 2017年2月 CAAI Transactions on Intelligent Systems Feb.2017 D0I:10.11992/tis.201602003 网络出版地址：http:/kns.cmki.net/kcms/detail/23.1538.TP.20170227.1758.006.html 基于极大熵的知识迁移模糊聚类算法陈爱国2，王士同 (1.江南大学数字媒体学院，江苏无锡214122：2.香港理工大学计算机系，香港九龙999077) 摘要：针对传统的聚类算法在样本数据量不足或样本受到污染情况下的聚类性能下降问题，在经典的极大嫡聚类算法(MEKT℉CA)的基础上，提出了一种新的融合历史聚类中心点和历史隶属度这两种知识的基于极大嫡的知识迁移模糊聚类算法。该算法通过学习由源域总结出来的有益历史聚类中心和历史隶属度知识来指导数据量不足或受污染的目标域数据的聚类任务，从而提高了聚类性能。通过一组模拟数据集和两组真实数据集构造的迁移场景上的实验，证明了该算法的有效性。关键词：知识迁移：极大嫡：聚类算法：极大嫡聚类：模糊聚类中图分类号：TP274文献标志码：A文章编号：1673-4785(2017)12-0095-09 中文引用格式：陈爱国，王士同.基于极大熵的知识迁移模糊聚类算法[J].智能系统学报，2017,12(1)：95-103. 英文引用格式：CHEN Aiguo,WANG Shitong..A maximum entropy-based knowledge transfer fuzzy clustering algorithm[J].CAAI transactions on intelligent systems,2017,12(1):95-103. A maximum entropy-based knowledge transfer fuzzy clustering algorithm CHEN Aiguo'2,WANG Shitong' (1.School of Digital Media,Jiangnan University,Wuxi 214122,China;2.Department of Computing,Hong Kong Polytechnic University,Kowloon 999077,China) Abstract:To address the issue of clustering performance degradation when traditional clustering algorithms are applied to insufficient and/or noisy data,a maximum entropy-based knowledge transfer fuzzy clustering algorithm is proposed.This improves the classical maximum entropy clustering algorithm for target domains by leveraging two kinds of knowledge from the source domain,i.e.,historical clustering centers and historical degree of membership, into the objective function proposed for clustering insufficient and/or noisy target data.The effectiveness of the proposed algorithm is demonstrated by experiments on several synthetic and two real datasets. Keywords:knowledge transfer;maximum entropy;clustering algorithms;maximum entropy clustering; fuzzy clustering 聚类是一种常用的数据分析方法，在人工智法[4刃、基于层次的聚类算法[8-]、基于密度的聚类能、模式识别和机器学习等领域1-)一直受到广泛算法[0-)、基于图论的聚类算法]等。这些聚类关注。聚类作为一种无监督的数据分析技术，通过算法在针对特定的数据集进行聚类时，通常能获得数据之间的疏密程度，将数据划分到不同的数据簇理想的聚类效果。但这些聚类性能的有效获得都中，使得簇内的数据之间关系比较紧密，而簇之间离不开一个必要前提，那就是进行聚类时的数据必的数据关系比较疏远。根据聚类使用方法的不同，须是充分的，换句话说，这些聚类算法不适合处理将聚类分成常见的一些类别：基于划分的聚类算数据不充分的情况。但在实际生产、生活中，数据不充分的情况或收稿日期：2016-02-04.网络出版日期：2017-02-27. 数据受到污染的情况往往普遍存在。例如，在一个基金项目：国家自然科学基金项目(61272210)：江苏省自然科学基金项目(BK20130155). 新领域收集数据之初，数据往往是不充足的。又或通信作者：陈爱国.E-mail:agchen@jiangnan.cdu.cn 者由于受到硬件设备的不稳定性或环境等一些因

第１２卷第１期智能系统学报Ｖｏｌ．１２ №．１２０１７年２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＦｅｂ．２０１７ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１６０２００３网络出版地址：ｈｔｔｐ：／／ｋｎｓ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１７０２２７．１７５８．００６．ｈｔｍｌ基于极大熵的知识迁移模糊聚类算法陈爱国１，２，王士同１（１．江南大学数字媒体学院，江苏无锡２１４１２２；２．香港理工大学计算机系，香港九龙９９９０７７）摘要：针对传统的聚类算法在样本数据量不足或样本受到污染情况下的聚类性能下降问题，在经典的极大熵聚类算法（ＭＥＫＴＦＣＡ）的基础上，提出了一种新的融合历史聚类中心点和历史隶属度这两种知识的基于极大熵的知识迁移模糊聚类算法。该算法通过学习由源域总结出来的有益历史聚类中心和历史隶属度知识来指导数据量不足或受污染的目标域数据的聚类任务，从而提高了聚类性能。通过一组模拟数据集和两组真实数据集构造的迁移场景上的实验，证明了该算法的有效性。关键词：知识迁移；极大熵；聚类算法；极大熵聚类；模糊聚类中图分类号：ＴＰ２７４文献标志码：Ａ文章编号：１６７３－４７８５（２０１７）１２－００９５－０９中文引用格式：陈爱国，王士同．基于极大熵的知识迁移模糊聚类算法［Ｊ］．智能系统学报，２０１７，１２（１）：９５－１０３．英文引用格式：ＣＨＥＮＡｉｇｕｏ，ＷＡＮＧＳｈｉｔｏｎｇ．Ａｍａｘｉｍｕｍｅｎｔｒｏｐｙ⁃ｂａｓｅｄｋｎｏｗｌｅｄｇｅｔｒａｎｓｆｅｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．ＣＡＡＩｔｒａｎｓａｃｔｉｏｎｓｏｎｉｎｔｅｌｌｉｇｅｎｔｓｙｓｔｅｍｓ，２０１７，１２（１）：９５－１０３．Ａｍａｘｉｍｕｍｅｎｔｒｏｐｙ⁃ｂａｓｅｄｋｎｏｗｌｅｄｇｅｔｒａｎｓｆｅｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍＣＨＥＮＡｉｇｕｏ１，２，ＷＡＮＧＳｈｉｔｏｎｇ１（１．ＳｃｈｏｏｌｏｆＤｉｇｉｔａｌＭｅｄｉａ，ＪｉａｎｇｎａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｘｉ２１４１２２，Ｃｈｉｎａ；２．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｉｎｇ，ＨｏｎｇＫｏｎｇＰｏｌｙｔｅｃｈｎｉｃＵｎｉｖｅｒｓｉｔｙ，Ｋｏｗｌｏｏｎ９９９０７７，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｔｏａｄｄｒｅｓｓｔｈｅｉｓｓｕｅｏｆｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｄｅｇｒａｄａｔｉｏｎｗｈｅｎｔｒａｄｉｔｉｏｎａｌｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓａｒｅａｐｐｌｉｅｄｔｏｉｎｓｕｆｆｉｃｉｅｎｔａｎｄ／ｏｒｎｏｉｓｙｄａｔａ，ａｍａｘｉｍｕｍｅｎｔｒｏｐｙ⁃ｂａｓｅｄｋｎｏｗｌｅｄｇｅｔｒａｎｓｆｅｒｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｉｓｐｒｏｐｏｓｅｄ．Ｔｈｉｓｉｍｐｒｏｖｅｓｔｈｅｃｌａｓｓｉｃａｌｍａｘｉｍｕｍｅｎｔｒｏｐｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｔａｒｇｅｔｄｏｍａｉｎｓｂｙｌｅｖｅｒａｇｉｎｇｔｗｏｋｉｎｄｓｏｆｋｎｏｗｌｅｄｇｅｆｒｏｍｔｈｅｓｏｕｒｃｅｄｏｍａｉｎ，ｉ．ｅ．，ｈｉｓｔｏｒｉｃａｌｃｌｕｓｔｅｒｉｎｇｃｅｎｔｅｒｓａｎｄｈｉｓｔｏｒｉｃａｌｄｅｇｒｅｅｏｆｍｅｍｂｅｒｓｈｉｐ，ｉｎｔｏｔｈｅｏｂｊｅｃｔｉｖｅｆｕｎｃｔｉｏｎｐｒｏｐｏｓｅｄｆｏｒｃｌｕｓｔｅｒｉｎｇｉｎｓｕｆｆｉｃｉｅｎｔａｎｄ／ｏｒｎｏｉｓｙｔａｒｇｅｔｄａｔａ．Ｔｈｅｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｔｈｅｐｒｏｐｏｓｅｄａｌｇｏｒｉｔｈｍｉｓｄｅｍｏｎｓｔｒａｔｅｄｂｙｅｘｐｅｒｉｍｅｎｔｓｏｎｓｅｖｅｒａｌｓｙｎｔｈｅｔｉｃａｎｄｔｗｏｒｅａｌｄａｔａｓｅｔｓ．Ｋｅｙｗｏｒｄｓ：ｋｎｏｗｌｅｄｇｅｔｒａｎｓｆｅｒ；ｍａｘｉｍｕｍｅｎｔｒｏｐｙ；ｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｓ；ｍａｘｉｍｕｍｅｎｔｒｏｐｙｃｌｕｓｔｅｒｉｎｇ；ｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ收稿日期：２０１６－０２－．网络出版日期基金项目：国家自然科０４学基金项目（６１２７２２聚类是一种常用的数据分通信作者：陈爱国．Ｅ⁃ｍａｉｌ：ａｇｃｈｅｎ＠ｊｉａｎｇｎａｎ．ｅｄｕ．ｃｎ：２１００１）７；－０２－２７．．析方法，在人工智能、模式识别和机器学习等领域［１－３］一直受到广泛关注。聚类作为一种无监督的数据分析技术，通过数据之间的疏密程度，将数据划分到不同的数据簇中，使得簇内的数据之间关系比较紧密，而簇之间的数据关系比较疏远。根据聚类使用方法的不同，将聚类分成常见的一些类别：基于划分的聚类算法［４－７］、基于层次的聚类算法［８－９］、基于密度的聚类算法［１０－１１］、基于图论的聚类算法［１２］等。这些聚类算法在针对特定的数据集进行聚类时，通常能获得理想的聚类效果。但这些聚类性能的有效获得都离不开一个必要前提，那就是进行聚类时的数据必须是充分的，换句话说，这些聚类算法不适合处理数据不充分的情况。但在实际生产、生活中，数据不充分的情况或数据受到污染的情况往往普遍存在。例如，在一个新领域收集数据之初，数据往往是不充足的。又或者由于受到硬件设备的不稳定性或环境等一些因江苏省自然科学基金项目(BK20130155)

.96 智能系统学报第12卷素的影响，可能会采集到受噪声干扰的失真数据。表示第i个样本点隶属于第j类的程度；‖x:-y,‖ 对于不充足的数据和受到污染的数据进行聚类分表示第i个样本点与第j类中心点的距离：α是正则析时，如果直接采用传统聚类方法，往往会造成聚化系数，由u构成隶属度矩阵U∈Rxc,由y,构成中类结果的不理想，甚至有时会出现聚类失效的结果。心点矩阵V∈Rc。如何有效解决数据量不足和数据受污染情况采用拉格朗日条件极值优化方法解得式(1)的下的数据聚类性能问题，是近年来研究工作者的方最优聚类中心V和隶属度U的迭代公式为向之一。其中，知识迁移]机制的引入是一种有效手段。知识迁移机制是指将历史数据（也称为源 i=1 域)中提炼的有益知识应用到对当前数据（也称为 Vi= j=1,2,…,C (2) 目标域)聚类任务的指导，用于提高当前数据的聚类结果。历史数据与当前数据之间既存在着联系，也存在着明显的差别。目前，应用知识迁移机制来 i=1,2,…,N 提高聚类性能的代表性算法有：在多任务中使用共享子空间进行聚类的LSSMTC算法[，、使用K均值 exp 组合方法的CombKM算法[4]、使用自学习迁移机制 j=1,2,…,C (3) 的STC聚类算法[1s]、使用特征和样本协同机制的根据上述推导，总结出MECA算法的具体步骤 Co-clustering聚类算法[u6]及迁移谱聚类TSC算如下：法[)。这些基于知识迁移的聚类算法虽然提高了输入数据集X,分类数C,正则化系数，最大一定的聚类性能，但离实际应用还有一定差距，且迭代次数T,终止阈值ε。这些聚类算法在进行聚类任务时需要完整的历史输出最优隶属度U和聚类中心V。数据集，这在一些特殊场合，如保密需要，完整的历 1)初始化迭代计数器t=0,随机初始化隶属度史数据是不可能获得的。所以，研究一种有隐私保矩阵U(0)。护的高效迁移聚类算法具有必要性和实用性。 2)根据式(2)和1)的隶属度矩阵U(t)获得新本文在经典的MECA聚类算法的基础上，通过的类中心V(t)。对MECA算法的目标函数进行改造，使其具有学习 3)根据式(3)和2)获得的类中心V(t)计算得历史知识的能力，进而提高算法在样本量不充分或新的隶属度U(t+1)。受到污染情况下聚类的性能。 4)当IU(t+1)-U(t)‖T时算法终止，否则跳转到2)。 1经典极大熵聚类算法通过观察MECA算法的具体步骤可以看出，原在传统C均值聚类算法的基础上，通过引入具始的MECA算法不具有知识迁移的能力。有明确物理含义的嫡，产生出了具有简洁的数学表 MECA算法在数据量充足时，可以使用上述迭达式和明确物理含义特点的极大嫡模糊聚类算法。代过程获得有效的类中心和隶属度。但当样本量极大嫡模糊聚类算法有很多种不同的表达形式，其不充足或样本被污染的情况下，直接使用MECA算中文献[6-7]给出的是经典的极大嫡模糊聚类算法获得的聚类中心往往严重偏离实际聚类中心，甚法，其具体表述如下。至有时会出现聚类失效的情况。因此，在数据量不假设样本空间X={x:lx:eR,i=1,2,…,N}, 足或数据受到污染情况下，研究有效的聚类算法，其中，N表示样本点的个数，R是实数集，d表示样具有必要性和实际价值。本点的维数。该样本包含C(1<C<V)个不同的类 2 基于极大熵的知识迁移模糊聚类别，则经典的极大熵聚类算法(MECA)的目标函数可表示为在知识迁移理论[]中，当源域数据和目标域数 ,n=立24,1-g+ 据既存在一定的相关性，同时又存在着明显的差异时，可通过对源域有益知识的充分利用来指导目标 i=1i=1 i=1i=1 4ge[0,,∑4，=1,1≤i≤N 域任务更好地完成。本文尝试通过将数据量充分 (1) s11 的源域知识迁移至数据量不足或被污染的目标域式中：x:表示第i个样本点；y表示第j类中心点；严的聚类任务中，来提高目标域的聚类性能

素的影响，可能会采集到受噪声干扰的失真数据。对于不充足的数据和受到污染的数据进行聚类分析时，如果直接采用传统聚类方法，往往会造成聚类结果的不理想，甚至有时会出现聚类失效的结果。如何有效解决数据量不足和数据受污染情况下的数据聚类性能问题，是近年来研究工作者的方向之一。其中，知识迁移［１３］机制的引入是一种有效手段。知识迁移机制是指将历史数据（也称为源域）中提炼的有益知识应用到对当前数据（也称为目标域）聚类任务的指导，用于提高当前数据的聚类结果。历史数据与当前数据之间既存在着联系，也存在着明显的差别。目前，应用知识迁移机制来提高聚类性能的代表性算法有：在多任务中使用共享子空间进行聚类的ＬＳＳＭＴＣ算法［１４］、使用Ｋ均值组合方法的ＣｏｍｂＫＭ算法［１４］、使用自学习迁移机制的ＳＴＣ聚类算法［１５］、使用特征和样本协同机制的Ｃｏ⁃ｃｌｕｓｔｅｒｉｎｇ聚类算法［１６］及迁移谱聚类ＴＳＣ算法［１７］。这些基于知识迁移的聚类算法虽然提高了一定的聚类性能，但离实际应用还有一定差距，且这些聚类算法在进行聚类任务时需要完整的历史数据集，这在一些特殊场合，如保密需要，完整的历史数据是不可能获得的。所以，研究一种有隐私保护的高效迁移聚类算法具有必要性和实用性。本文在经典的ＭＥＣＡ聚类算法的基础上，通过对ＭＥＣＡ算法的目标函数进行改造，使其具有学习历史知识的能力，进而提高算法在样本量不充分或受到污染情况下聚类的性能。１经典极大熵聚类算法在传统Ｃ均值聚类算法的基础上，通过引入具有明确物理含义的熵，产生出了具有简洁的数学表达式和明确物理含义特点的极大熵模糊聚类算法。极大熵模糊聚类算法有很多种不同的表达形式，其中文献［６－７］给出的是经典的极大熵模糊聚类算法，其具体表述如下。假设样本空间Ｘ＝ｘｉ｜ｘｉ∈Ｒｄ { ，ｉ＝１，２，…，Ｎ} ，其中，Ｎ表示样本点的个数，Ｒ是实数集，ｄ表示样本点的维数。该样本包含Ｃ（１＜Ｃ＜Ｎ）个不同的类别，则经典的极大熵聚类算法（ＭＥＣＡ）的目标函数可表示为Ｊ(Ｕ，Ｖ) ＝ ∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μｉｊ ‖ ｘｉ－ｖｊ‖２＋ α∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μｉｊｌｎ μｉｊ， μｉｊ ∈ ［０，１］，∑ Ｃｊ＝１ μｉｊ＝１，１ ≤ ｉ ≤ Ｎ（１）式中：ｘｉ表示第ｉ个样本点；ｖｊ表示第ｊ类中心点；μｉｊ表示第ｉ个样本点隶属于第ｊ类的程度；‖ｘｉ－ｖｊ‖２表示第ｉ个样本点与第ｊ类中心点的距离；α 是正则化系数，由 μｉｊ构成隶属度矩阵Ｕ∈ＲＮ×Ｃ，由ｖｊ构成中心点矩阵Ｖ∈Ｒｄ×Ｃ。采用拉格朗日条件极值优化方法解得式（１）的最优聚类中心Ｖ和隶属度Ｕ的迭代公式为ｖｊ＝ ∑ Ｎｉ＝１ μｉｊｘｉ ∑ Ｎｉ＝１ μｉｊ，ｊ＝１，２，…，Ｃ（２） μｉｊ＝ｅｘｐ－ ‖ ｘｉ－ｖｊ‖２ α æ è ç ö ø ÷ ∑ Ｃｋ＝１ｅｘｐ－ ‖ ｘｉ－ｖｋ‖２ α æ è ç ö ø ÷ ，ｉ＝１，２，…，Ｎｊ＝１，２，…，Ｃ（３）根据上述推导，总结出ＭＥＣＡ算法的具体步骤如下：输入数据集Ｘ，分类数Ｃ，正则化系数 α，最大迭代次数Ｔ，终止阈值 ε 。输出最优隶属度Ｕ和聚类中心Ｖ。１）初始化迭代计数器ｔ＝０，随机初始化隶属度矩阵Ｕ（０）。２）根据式（２）和１）的隶属度矩阵Ｕ（ｔ）获得新的类中心Ｖ（ｔ）。３）根据式（３）和２）获得的类中心Ｖ（ｔ）计算得新的隶属度Ｕ（ｔ＋１）。４）当‖Ｕ（ｔ＋１）－Ｕ（ｔ）‖＜ε 或者ｔ＞Ｔ时算法终止，否则跳转到２）。通过观察ＭＥＣＡ算法的具体步骤可以看出，原始的ＭＥＣＡ算法不具有知识迁移的能力。ＭＥＣＡ算法在数据量充足时，可以使用上述迭代过程获得有效的类中心和隶属度。但当样本量不充足或样本被污染的情况下，直接使用ＭＥＣＡ算法获得的聚类中心往往严重偏离实际聚类中心，甚至有时会出现聚类失效的情况。因此，在数据量不足或数据受到污染情况下，研究有效的聚类算法，具有必要性和实际价值。２基于极大熵的知识迁移模糊聚类在知识迁移理论［１３］中，当源域数据和目标域数据既存在一定的相关性，同时又存在着明显的差异时，可通过对源域有益知识的充分利用来指导目标域任务更好地完成。本文尝试通过将数据量充分的源域知识迁移至数据量不足或被污染的目标域的聚类任务中，来提高目标域的聚类性能。 ·９６· 智能系统学报第１２卷

第1期陈爱国，等：基于极大嫡的知识迁移模糊聚类算法 .97. 为了实现源域知识到目标域迁移的目的，需要可靠。当B→∞时，目标域的聚类中心点与源域的聚解决3个核心问题：类中心点需保持一致性程度大，此时说明源域的聚 1)迁移什么知识：类中心点知识可靠性高。 2)如何迁移：根据上述分析，针对经典MECA算法不具有知 3)什么时候迁移。识迁移能力的不足，本文在MECA算法的基础上结首先，解决源域到目标域迁移什么知识的问合上述两个规则，提出基于极大嫡知识迁移模糊聚题。在基于划分的聚类算法中，隶属度和聚类中心类算法，即MEKTFCA算法。该算法的原理如图1。点是对聚类结果具有决定性作用的两个因素。故历史聚类中心历史隶属度本文选择隶属度和聚类中心点作为被迁移的知识。 f… 其次，需要解决如何才能实现将源域的隶属度经典MECA算法 MEKTFCA算法聚类结果和聚类中心点知识迁移到目标域的聚类任务中的问题。我们通过以下两个规则来实现。 1)隶属度重要程度受约束规则该规则对应的公式为源数据集目标数据集 mi(x,U,V,i)=aΣ∑4与Ix-y2+ i=1j=1 图1 MEKTFCA算法原理图 (1-)∑∑‖x-y,2, Fig.1 Overall framework of MEKTFCA algorithm MEKTFCA算法首先对源数据集，通过经典的入∈[0,1] (4) MECA算法获得历史聚类中心，然后根据目标数据式中：x:表示目标域中第i个样本点；，表示目标域集和所获得的历史聚类中心，通过再次使用经典的中第j类中心点：拟，表示目标域中第i个样本点隶属 MECA算法获得历史隶属度，最后通过MEKTFCA 于第j类的程度：拉，为目标域中第i个样本点相对于算法和历史聚类中心及历史隶属度获得最终的聚源域中第j类中心点的历史隶属度：入为隶属度重类结果。要程度受约束规则的平衡因子。通过隶属度重要融入了隶属度重要程度受约束规则和聚类中程度受约束规则来调整性地学习源域迁移过来的心点变化最小规则得到的MEKTFCA算法的具体目历史隶属度知识。平衡因子入控制着源域的历史标函数为隶属度和目标域的隶属度对最终聚类结果的影响 Jexc(K,V,立，U,)=J,(X,U,V,)+ 程度。当入→1时，说明迁移的历史隶属度的可靠程度差，目标域的聚类结果更多地受到目标域的隶 Jor:(V.v)+a C∑gng =1j=1 属度的影响。当入→0时，说明迁移的历史隶属度具有很高的可借鉴性，目标域的聚类结果更多地受 4e[0,1:24,=1,i=1,2…,N(6) =1 到迁移历史隶属度的影响。其中 2)聚类中心点变化最小规则该规则的公式为 x.,v.0=宫2，-产： i=1j=1 min/,(V,)=BΣIy-,2, B≥0 (7) (5) (8) 式中：y代表目标域的第j类中心点，代表源域的 J,(V,)=B∑Iy-9I2 第j类的历史类中心点：B表示类中心点变化最小规观察式(6)可以看出，MEKTFCA算法从本质上则的平衡因子：C是聚类数目。该规则实现的是源来说是由3部分组成。第1部分是融入了对历史隶域聚类中心点知识的迁移。通过该规则的使用确属度知识的学习的J,(X,U,V,0)项。通过该项保：当目标函数产生最优化解时，目标域的聚类中的引入可以使用历史隶属度知识对目标域的聚类心点在一定程度上与源域的中心点保持一致，并通任务进行指导。第2部分是融人了对历史类中心点过平衡因子B来控制保持一致的程度。当B0时，目标域的聚类中心点与源域的聚类中心点需保持知识学习的Jk,(V,)项。通过该项的引入可以更致性程度小，此时说明源域的聚类中心点知识不有效地帮助目标域聚类任务的执行。第3部分是原

为了实现源域知识到目标域迁移的目的，需要解决３个核心问题：１）迁移什么知识；２）如何迁移；３）什么时候迁移。首先，解决源域到目标域迁移什么知识的问题。在基于划分的聚类算法中，隶属度和聚类中心点是对聚类结果具有决定性作用的两个因素。故本文选择隶属度和聚类中心点作为被迁移的知识。其次，需要解决如何才能实现将源域的隶属度和聚类中心点知识迁移到目标域的聚类任务中的问题。我们通过以下两个规则来实现。１）隶属度重要程度受约束规则该规则对应的公式为ｍｉｎＪＫＴ１（Ｘ，Ｕ，Ｖ，Ｕ＾）＝ λ∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μｉｊ ‖ ｘｉ－ｖｊ‖２＋（１－ λ）∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μ ＾ｉｊ ‖ ｘｉ－ｖｊ‖２， λ ∈ ［０，１］（４）式中：ｘｉ表示目标域中第ｉ个样本点；ｖｊ表示目标域中第ｊ类中心点；μｉｊ表示目标域中第ｉ个样本点隶属于第ｊ类的程度；μ ＾ｉｊ为目标域中第ｉ个样本点相对于源域中第ｊ类中心点的历史隶属度；λ 为隶属度重要程度受约束规则的平衡因子。通过隶属度重要程度受约束规则来调整性地学习源域迁移过来的历史隶属度知识。平衡因子 λ 控制着源域的历史隶属度和目标域的隶属度对最终聚类结果的影响程度。当 λ→１时，说明迁移的历史隶属度的可靠程度差，目标域的聚类结果更多地受到目标域的隶属度的影响。当 λ→０时，说明迁移的历史隶属度具有很高的可借鉴性，目标域的聚类结果更多地受到迁移历史隶属度的影响。２）聚类中心点变化最小规则该规则的公式为ｍｉｎＪＫＴ２（Ｖ，Ｖ＾）＝ β∑ Ｃｊ＝１ ‖ ｖｊ－ｖ＾ｊ‖２， β ≥ ０（５）式中：ｖｊ代表目标域的第ｊ类中心点，ｖ＾ｊ代表源域的第ｊ类的历史类中心点；β 表示类中心点变化最小规则的平衡因子；Ｃ是聚类数目。该规则实现的是源域聚类中心点知识的迁移。通过该规则的使用确保：当目标函数产生最优化解时，目标域的聚类中心点在一定程度上与源域的中心点保持一致，并通过平衡因子 β 来控制保持一致的程度。当 β→０时，目标域的聚类中心点与源域的聚类中心点需保持一致性程度小，此时说明源域的聚类中心点知识不可靠。当 β→¥时，目标域的聚类中心点与源域的聚类中心点需保持一致性程度大，此时说明源域的聚类中心点知识可靠性高。根据上述分析，针对经典ＭＥＣＡ算法不具有知识迁移能力的不足，本文在ＭＥＣＡ算法的基础上结合上述两个规则，提出基于极大熵知识迁移模糊聚类算法，即ＭＥＫＴＦＣＡ算法。该算法的原理如图１。图１ＭＥＫＴＦＣＡ算法原理图Ｆｉｇ．１ＯｖｅｒａｌｌｆｒａｍｅｗｏｒｋｏｆＭＥＫＴＦＣＡａｌｇｏｒｉｔｈｍＭＥＫＴＦＣＡ算法首先对源数据集，通过经典的ＭＥＣＡ算法获得历史聚类中心，然后根据目标数据集和所获得的历史聚类中心，通过再次使用经典的ＭＥＣＡ算法获得历史隶属度，最后通过ＭＥＫＴＦＣＡ算法和历史聚类中心及历史隶属度获得最终的聚类结果。融入了隶属度重要程度受约束规则和聚类中心点变化最小规则得到的ＭＥＫＴＦＣＡ算法的具体目标函数为ＪＭＥＫＴＦＣＡＸ，Ｖ，Ｖ＾，Ｕ，Ｕ＾ ( ) ＝ＪＫＴ１（Ｘ，Ｕ，Ｖ，Ｕ＾）＋ＪＫＴ２（Ｖ，Ｖ＾）＋ α∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μｉｊｌｎ μｉｊ， μｉｊ ∈ ［０，１］；∑ Ｃｊ＝１ μｉｊ＝１，∀ｉ＝１，２，…，Ｎ（６）其中ＪＫＴ１（Ｘ，Ｕ，Ｖ，Ｕ＾）＝ λ∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μｉｊ ‖ ｘｉ－ｖｊ‖２＋（１－ λ）∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μ ＾ｉｊ ‖ ｘｉ－ｖｊ‖２（７）ＪＫＴ２（Ｖ，Ｖ＾）＝ β∑ Ｃｊ＝１ ‖ ｖｊ－ｖ＾ｊ‖２（８）观察式（６）可以看出，ＭＥＫＴＦＣＡ算法从本质上来说是由３部分组成。第１部分是融入了对历史隶属度知识的学习的ＪＫＴ１（Ｘ，Ｕ，Ｖ，Ｕ＾）项。通过该项的引入可以使用历史隶属度知识对目标域的聚类任务进行指导。第２部分是融入了对历史类中心点知识学习的ＪＫＴ２（Ｖ，Ｖ＾）项。通过该项的引入可以更有效地帮助目标域聚类任务的执行。第３部分是原第１期陈爱国，等：基于极大熵的知识迁移模糊聚类算法 ·９７·

·98 智能系统学报第12卷 MECA算法的正则化嫡项。同时，根据式(6)~(8) 中心点的迭代公式，给出MEKTFCA算法的具体步可以发现，当隶属度重要程度受约束规则的平衡因骤如下。子入=1而且聚类中心点变化最小规则的平衡因子输入历史类中心点：，目标数据集X,分类数 B=0这种特殊情况时，MEKTFCA算法就退化为经典 C,平衡因子入、B,正则化系数α，最大迭代次数T, 的MECA算法。MEKTFCA算法的本质是，通过调终止阈值e。节平衡因子入和B的大小，来调整历史隶属度和历输出最优隶属度U和聚类中心V。史类中心点对当前聚类任务的影响，从而改善由于 1)根据式(3)计算历史隶属度g。数据量不足和数据被污染情况下直接采用MECA 2)初始化迭代计数器t=0。算法造成聚类结果不理想的情况。 3)根据式(14)计算得到新的聚类中心V(t)。 2.1参数求解 4)根据式(13)计算得到新的隶属度矩阵U(t+1)。式(6)的参数求解问题，即为在有约束条件下 5)当IU(t+1)-U(t)‖T时算法终求解最优的参数使得目标函数值最小。与MECA 止，否则跳转到3)。求最优解方法相同，我们采用拉格朗日乘子法进行以上算法步骤同时回答了实现知识迁移中的求解，首先构造拉格朗日函数表达式，即第3个核心问题：什么时候迁移。通过算法步骤可 L=24,1-I2+ 以看到，在算法不断迭代过程中，隶属度和中心点 i=1=1 的迭代公式中使用到了历史隶属度知识和历史类 N ∑4gx-y2+a 中心点知识。从而在算法的迭代过程中实现了知 gln+ 识的迁移。 2I-+立(4，- (9) 3 -1 实验结果及分析式中7：为Lagrange乘子。 3.1实验设置根据业=0得为验证本文所提MEKTFCA算法的有效性，将构造一组模拟数据集和两组真实数据集作为实验 (10) 所使用的迁移场景。同时，选择6种相关算法作为对比算法，对它们的聚类性能进行比较。这6种算因为有约束条件法为：在多任务中使用共享子空间进行聚类的 (11) LSSMTC算法[4)，使用K均值组合方法的CombKM =1 算法[4]，使用自学习迁移机制的STC聚类算法[s], 将式(10)代入式(11)可得使用特征和样本协同机制的Co-clustering聚类算 a) exp(1) 12 法[I6,迁移谱聚类TSC算法[以及经典的MECA c 算法[6刀。为了对聚类算法的结果进行客观比较，本文采将式(12)代入式(10)可得隶属度的迭代公用统一的NMI18](normalized mutual information)和式为 RI(rand index)两种指标对实验结果进行评价。 NMI的计算公式为 (13) A‖x:- NMI= 根据 =0解得聚类中心点迭代公式为 a vi 三】式中：N代表数据集的样本数目；V,代表聚类到p类 [如，+(1-A,]+B号的样本数目；N,代表类标签为q的样本数目；N,,代 (14) [A4,+(1-AN2,1+B 表同时聚类到P类和类标签为q的样本数目。RI i=1 评价指标的计算公式为 2.2算法步骤 Noo +Ni RI 根据上述的推导过程所获得的隶属度和聚类 N(N-1)/2

ＭＥＣＡ算法的正则化熵项。同时，根据式（６）～（８）可以发现，当隶属度重要程度受约束规则的平衡因子 λ ＝１而且聚类中心点变化最小规则的平衡因子 β ＝０这种特殊情况时，ＭＥＫＴＦＣＡ算法就退化为经典的ＭＥＣＡ算法。ＭＥＫＴＦＣＡ算法的本质是，通过调节平衡因子 λ 和 β 的大小，来调整历史隶属度和历史类中心点对当前聚类任务的影响，从而改善由于数据量不足和数据被污染情况下直接采用ＭＥＣＡ算法造成聚类结果不理想的情况。２．１参数求解式（６）的参数求解问题，即为在有约束条件下求解最优的参数使得目标函数值最小。与ＭＥＣＡ求最优解方法相同，我们采用拉格朗日乘子法进行求解，首先构造拉格朗日函数表达式，即Ｌ＝ λ∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μｉｊ ‖ ｘｉ－ｖｊ‖２＋ (１－ λ) ∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μ ＾ｉｊ ‖ ｘｉ－ｖｊ‖２＋ α∑ Ｎｉ＝１ ∑ Ｃｊ＝１ μｉｊｌｎ μｉｊ＋ β∑ Ｃｊ＝１ ‖ ｖｊ－ｖ＾ｊ‖２＋ ∑ Ｎｉ＝１ ηｉ ∑ Ｃｊ＝１ μｉｊ ( －１) （９）式中 ηｉ为Ｌａｇｒａｎｇｅ乘子。根据 ∂Ｌ ∂μｉｊ＝０得 μｉｊ＝ｅｘｐ－１－ ηｉ＋ λ ‖ ｘｉ－ｖｊ‖２ α æ è ç ö ø ÷ （１０）因为有约束条件 ∑ Ｃｊ＝１ μｉｊ＝１（１１）将式（１０）代入式（１１）可得ｅｘｐ－ ηｉ α æ è ç ö ø ÷ ＝ｅｘｐ(１) ∑ Ｃｋ＝１ｅｘｐ－ λ ‖ ｘｉ－ｖｋ‖２ α æ è ç ö ø ÷ （１２）将式（１２）代入式（１０）可得隶属度的迭代公式为 μｉｊ＝ｅｘｐ－ λ ‖ ｘｉ－ｖｊ‖２ α æ è ç ö ø ÷ ∑ Ｃｋ＝１ｅｘｐ－ λ ‖ ｘｉ－ｖｋ‖２ α æ è ç ö ø ÷ （１３）根据 ∂Ｌ ∂ ｖｊ＝０解得聚类中心点迭代公式为ｖｊ＝ ∑ Ｎｉ＝１［λμｉｊ＋（１－ λ）μ ＾ｉｊ］ｘｉ＋ β ｖ＾ｊ ∑ Ｎｉ＝１ λμｉｊ＋（１－ λ）μ ＾ｉｊ [ ] ＋ β （１４）２．２算法步骤根据上述的推导过程所获得的隶属度和聚类中心点的迭代公式，给出ＭＥＫＴＦＣＡ算法的具体步骤如下。输入历史类中心点ｖ＾ｊ，目标数据集Ｘ，分类数Ｃ，平衡因子 λ、β，正则化系数 α，最大迭代次数Ｔ，终止阈值 ε。输出最优隶属度Ｕ和聚类中心Ｖ。１）根据式（３）计算历史隶属度 μ ＾ｉｊ。２）初始化迭代计数器ｔ＝０。３）根据式（１４）计算得到新的聚类中心Ｖ（ｔ）。４）根据式（１３）计算得到新的隶属度矩阵Ｕ（ｔ＋１）。５）当‖Ｕ（ｔ＋１）－Ｕ（ｔ）‖＜ε 或者ｔ＞Ｔ时算法终止，否则跳转到３）。以上算法步骤同时回答了实现知识迁移中的第３个核心问题：什么时候迁移。通过算法步骤可以看到，在算法不断迭代过程中，隶属度和中心点的迭代公式中使用到了历史隶属度知识和历史类中心点知识。从而在算法的迭代过程中实现了知识的迁移。３实验结果及分析３．１实验设置为验证本文所提ＭＥＫＴＦＣＡ算法的有效性，将构造一组模拟数据集和两组真实数据集作为实验所使用的迁移场景。同时，选择６种相关算法作为对比算法，对它们的聚类性能进行比较。这６种算法为：在多任务中使用共享子空间进行聚类的ＬＳＳＭＴＣ算法［１４］，使用Ｋ均值组合方法的ＣｏｍｂＫＭ算法［１４］，使用自学习迁移机制的ＳＴＣ聚类算法［１５］，使用特征和样本协同机制的Ｃｏ⁃ｃｌｕｓｔｅｒｉｎｇ聚类算法［１６］，迁移谱聚类ＴＳＣ算法［１７］以及经典的ＭＥＣＡ算法［６－７］。为了对聚类算法的结果进行客观比较，本文采用统一的ＮＭＩ［１８］（ｎｏｒｍａｌｉｚｅｄｍｕｔｕａｌｉｎｆｏｒｍａｔｉｏｎ）和ＲＩ［１９］（ｒａｎｄｉｎｄｅｘ）两种指标对实验结果进行评价。ＮＭＩ的计算公式为ＮＭＩ＝ ∑ ｃｐ＝１∑ ｃｑ＝１Ｎｐ，ｑｌｏｇＮ·Ｎｐ，ｑＮｐ·Ｎｑ æ è ç ö ø ÷ ∑ ｃｐ＝１ＮｐｌｏｇＮｐＮ æ è ç ö ø ÷ é ë ê ê ù û ú ú· ∑ ｃｑ＝１ＮｑｌｏｇＮｑＮ æ è ç ö ø ÷ é ë ê ê ù û ú ú 式中：Ｎ代表数据集的样本数目；Ｎｐ代表聚类到ｐ类的样本数目；Ｎｑ代表类标签为ｑ的样本数目；Ｎｐ，ｑ代表同时聚类到ｐ类和类标签为ｑ的样本数目。ＲＩ评价指标的计算公式为ＲＩ＝Ｎ００＋Ｎ１１Ｎ（Ｎ－１）／２ ·９８· 智能系统学报第１２卷

第1期陈爱国，等：基于极大嫡的知识迁移模糊聚类算法 99. 式中：N代表拥有不同类标签的两个样本聚类到不源数据集S总数据量的6%，用于代表数据量不充同类别中的个数：N,代表拥有相同类标签的两个样足的场景，虽然数据集T,与数据集S的均值存在差本聚类到相同类别中的个数。上述两种评价指标异，但它们的方差相同，这用于体现迁移学习中的值的变化范围都为[0,1]，且值越大，代表其算法的源数据集与目标数据集之间既存在着相似性，同时聚类性能越好。也存在着一定的差别的情况。在MEKTFCA算法中，涉及两个平衡因子A和表2模拟数据集生成的参数设置 B如何取值的问题。本文采用网格搜索进行遍历寻 Table 2 Parameter sets to generate synthetic datasets 优，其寻优的范围及其他对比算法的参数设置值如数据集类别均值方差样本数表1所示。第1类「2 「80 表1算法参数设置值 500 5 08 Table 1 Parameter sets for algorithms T8 [160 算法参数设置值源数据集S 第2类 16 09 500 共享子空间的维度l=1,任务数m=2. LSSMTC 正则化参数=0.5 第3类 [] [250 015 500 CombKM K等于聚类数第1类「2.57 「80] STC 平衡参数入=3 5.0 L08」 Co-clustering 特征聚类数m=2 目标 8 第2类「160 30 TSC 平衡因子A=1,步长stp=1 数据集T 15 09 「25 第3类 0 熵正则化参数y∈{0.10.2：1}U{2:1:10}U 30 MECA 27 L015 {20:10:100} 嫡正则化参数a∈{0.1：0.2：1}U{2:1:10U 2.5 第1类 [80 150 {20:10:100} L5.0 08 MEKTFCA 平衡因子入∈{0：0.1：1} 目标数据 T8 「160 平衡因子B∈{0：0.2：11U{2:1:10 第2类 150 集T2、T3 15 09 U{20:10:100 本实验所采用的环境是：Intel i7-5600U 6 第3类「2507 2.60 GHz 8 GB RAM;Windows 8 64 bit;MATLAB 27 L015 150 R2012b。实验所列结果数据均是在运行10次后求构造的目标数据集T,共含有450个样本，占源得的平均值。数据集S总数据量的30%。用目标数据集T2来代 3.2模拟数据集实验结果和分析表目标数据量充分的场景。该实验是通过构造的模拟数据集来验证本文构造的目标数据集T3与目标数据集T,的均所提的MEKT℉CA算法在样本量不足和受污染情况值、方差和数据量完全相同。不同的是，数据集T 下聚类算法的有效性。本实验构造了一组源数据在数据集T2的基础上增加了方差为2、均值为0的集S和3组目标数据集T1、T2、T,其中源数据集和高斯噪声，用于代表数据量充分但受到了噪声污染所有的目标数据集均包含3类2维的数据，这些数的场景。据的生成均采用高斯概率分布模型函数，生成时所上述构造的4组模拟数据集的数据分布如图2 使用的均值、方差及每个类别包含的样本数如表2 所示。所示。在上述构造出来的各种迁移场景下，运行构造的源数据集S共含有1500个样本，这个数 MEKTFCA算法和6种对比算法，得到的实验结果据集数据量充足，并且能够从该数据集中提取出对如表3所示。因为TSC算法要求样本的维数要大目标数据集的聚类具有指导作用的有用知识。于聚类数目，而在模拟数据集上不满足此条件，所构造的目标数据集T1共含有90个样本，只占以在表3中我们使用“一”来表示此算法无法运行

式中：Ｎ００代表拥有不同类标签的两个样本聚类到不同类别中的个数；Ｎ１１代表拥有相同类标签的两个样本聚类到相同类别中的个数。上述两种评价指标值的变化范围都为［０，１］，且值越大，代表其算法的聚类性能越好。在ＭＥＫＴＦＣＡ算法中，涉及两个平衡因子 λ 和 β 如何取值的问题。本文采用网格搜索进行遍历寻优，其寻优的范围及其他对比算法的参数设置值如表１所示。表１算法参数设置值Ｔａｂｌｅ１Ｐａｒａｍｅｔｅｒｓｅｔｓｆｏｒａｌｇｏｒｉｔｈｍｓ算法参数设置值ＬＳＳＭＴＣ共享子空间的维度ｌ＝１，任务数ｍ＝２，正则化参数 λ＝０．５ＣｏｍｂＫＭＫ等于聚类数ＳＴＣ平衡参数 λ＝３Ｃｏ⁃ｃｌｕｓｔｅｒｉｎｇ特征聚类数ｍ＝２ＴＳＣ平衡因子 λ＝１，步长ｓｔｅｐ＝１ＭＥＣＡ熵正则化参数 γ∈｛０．１ ∶０．２ ∶１｝∪｛２ ∶１ ∶１０｝∪ ｛２０ ∶１０ ∶１００｝ＭＥＫＴＦＣＡ熵正则化参数 α∈｛０．１ ∶０．２ ∶１｝∪｛２ ∶１ ∶１０｝∪ ｛２０ ∶１０ ∶１００｝平衡因子 λ∈｛０ ∶０．１ ∶１｝平衡因子 β∈｛０ ∶０．２ ∶１｝∪｛２ ∶１ ∶１０｝ ∪｛２０ ∶１０ ∶１００｝本实验所采用的环境是：Ｉｎｔｅｌｉ７⁃５６００Ｕ２．６０ＧＨｚ８ＧＢＲＡＭ；Ｗｉｎｄｏｗｓ８６４ｂｉｔ；ＭＡＴＬＡＢＲ２０１２ｂ。实验所列结果数据均是在运行１０次后求得的平均值。３．２模拟数据集实验结果和分析该实验是通过构造的模拟数据集来验证本文所提的ＭＥＫＴＦＣＡ算法在样本量不足和受污染情况下聚类算法的有效性。本实验构造了一组源数据集Ｓ和３组目标数据集Ｔ１、Ｔ２、Ｔ３，其中源数据集和所有的目标数据集均包含３类２维的数据，这些数据的生成均采用高斯概率分布模型函数，生成时所使用的均值、方差及每个类别包含的样本数如表２所示。构造的源数据集Ｓ共含有１５００个样本，这个数据集数据量充足，并且能够从该数据集中提取出对目标数据集的聚类具有指导作用的有用知识。构造的目标数据集Ｔ１共含有９０个样本，只占源数据集Ｓ总数据量的６％，用于代表数据量不充足的场景，虽然数据集Ｔ１与数据集Ｓ的均值存在差异，但它们的方差相同，这用于体现迁移学习中的源数据集与目标数据集之间既存在着相似性，同时也存在着一定的差别的情况。表２模拟数据集生成的参数设置Ｔａｂｌｅ２Ｐａｒａｍｅｔｅｒｓｅｔｓｔｏｇｅｎｅｒａｔｅｓｙｎｔｈｅｔｉｃｄａｔａｓｅｔｓ数据集类别均值方差样本数源数据集Ｓ第１类２５ é ë êê ù û úú ８００８ é ë êê ù û úú ５００第２类８１６ é ë êê ù û úú １６００９ é ë êê ù û úú ５００第３类６２８ é ë êê ù û úú ２５００１５ é ë êê ù û úú ５００目标数据集Ｔ１第１类２．５５．０ é ë êê ù û úú ８００８ é ë êê ù û úú ３０第２类８１５ é ë êê ù û úú １６００９ é ë êê ù û úú ３０第３类６２７ é ë êê ù û úú ２５００１５ é ë êê ù û úú ３０目标数据集Ｔ２、Ｔ３第１类２．５５．０ é ë êê ù û úú ８００８ é ë êê ù û úú １５０第２类８１５ é ë êê ù û úú １６００９ é ë êê ù û úú １５０第３类６２７ é ë êê ù û úú ２５００１５ é ë êê ù û úú １５０构造的目标数据集Ｔ２共含有４５０个样本，占源数据集Ｓ总数据量的３０％。用目标数据集Ｔ２来代表目标数据量充分的场景。构造的目标数据集Ｔ３与目标数据集Ｔ２的均值、方差和数据量完全相同。不同的是，数据集Ｔ３在数据集Ｔ２的基础上增加了方差为２、均值为０的高斯噪声，用于代表数据量充分但受到了噪声污染的场景。上述构造的４组模拟数据集的数据分布如图２所示。在上述构造出来的各种迁移场景下，运行ＭＥＫＴＦＣＡ算法和６种对比算法，得到的实验结果如表３所示。因为ＴＳＣ算法要求样本的维数要大于聚类数目，而在模拟数据集上不满足此条件，所以在表３中我们使用“—”来表示此算法无法运行。第１期陈爱国，等：基于极大熵的知识迁移模糊聚类算法 ·９９·

（ａ）数据集Ｓ（ｂ）数据集Ｔ１（ｃ）数据集Ｔ２（ｄ）数据集Ｔ３图２模拟数据集分布图Ｆｉｇ．２Ｄａｔａｄｉｓｔｒｉｂｕｔｉｏｎｏｆｓｙｎｔｈｅｔｉｃｄａｔａｓｅｔｓ表３模拟数据集上７种聚类算法的性能对比Ｔａｂｌｅ３Ｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｏｆｓｅｖｅｎａｌｇｏｒｉｔｈｍｓｏｎｓｙｎｔｈｅｔｉｃｄａｔａｓｅｔｓ场景评价指标ＬＳＳＭＴＣＣｏｍｂＫＭＳＴＣＣｏ⁃ｌｕｓｔｅｒｉｎｇＴＳＣＭＥＣＡＭＥＫＴＦＣＡＳ⁃Ｔ１ＮＭＩ⁃ｍｅａｎ０．６７４１０．７５９４０．１５５６０．７３７２ — ０．７３７２０．８０２４ＮＭＩ⁃ｓｔｄ０．０３６３１．１７０３×１０－１６０１．１７０３×１０－１６ — １．１７０３×１０－１６０．００２２ＲＩ⁃ｍｅａｎ０．８６７４０．９０２４０．６０５２０．９０１４ — ０．９０１４０．９１７５ＲＩ⁃ｓｔｄ０．０１９４１．１７０３×１０－１６１．１７０３×１０－１６２．３４０６×１０－１６ — ２．３４０６×１０－１６０．００７１Ｓ⁃Ｔ２ＮＭＩ⁃ｍｅａｎ０．７３４３０．７８７６０．１６９４０．７７１９ — ０．７６４９０．８３４８ＮＭＩ⁃ｓｔｄ０．０３２４０２．９２５７×１０－１７０．００９９ — ７．４０１５×１０－１７０．００１９ＲＩ⁃ｍｅａｎ０．９０５９０．９２１５０．６８７９０．９１９５ — ０．９１６８０．９４０１ＲＩ⁃ｓｔｄ０．０１２８０１．１７０３×１０－１６０．００５３ — ００．００１１Ｓ⁃Ｔ３ＮＭＩ⁃ｍｅａｎ０．７３４６０．７７３７０．１２６１０．７６１５ — ０．７７４６０．８１６２ＮＭＩ⁃ｓｔｄ０．０２８５１．１７０３×１０－１６００．００９４ — １．１７０３×１０－１６１．１７０３×１０－１６ＲＩ⁃ｍｅａｎ０．８９９５０．９１４７０．５８７８０．９１１１ — ０．９１４８０．９３７２ＲＩ⁃ｓｔｄ０．０１０８１．１７０３×１０－１６００．００２６ — ０１．１７０３×１０－１６观察表３的实验结果可以得出如下结论：１）源数据集是Ｓ，目标数据集是Ｔ１，它们所代表的是数据量不足的场景。从该场景中的实验结果可以看出，没有使用任何迁移机制的ＭＥＣＡ算法，在数据量不充分的情况下，其聚类性能要明显比使用了知识迁移的ＭＥＫＴＦＣＡ算法差。因为ＭＥＣＡ算法对数据量不充足的数据集进行聚类时，产生的聚类中心将会严重偏离实际的聚类中心，进而导致最终的聚类结果不理想。而ＭＥＫＴＦＣＡ算法由于引入了知识迁移机制，在聚类过程中，通过学 ·１００· 智能系统学报第１２卷

第1期陈爱国，等：基于极大嫡的知识迁移模糊聚类算法 ·101· 习由源数据集提取的历史类中心和历史隶属度中步验证。20NG数据集包含大约20000条新闻组的有用知识，有效地改善了由于数据量不足而导致信息，均匀地分布在20个不同的集合中。我们选择的聚类中心偏移的问题，最终提高了聚类性能。对这20个集合中的4个来生成两组实验用的迁移场于另外的4种对比算法，从它们的实验结果可以看景：“comp VS sci'”和“rec VS talk”。这两组迁移场出，虽然这些算法都使用了不同的机制来提高聚类景的数据集构成如表4所示。结果，但由于算法本身的限制，在样本量不充足的表4文本迁移场景数据集构成场景下，其聚类结果不理想。 Table 4 Text transfer scenes structures 2)源数据集是S,目标数据集是T2,它们所构迁移场景数据集数据个数维数成的是数据量较充足且无污染的场景。从该场景历史 1500 350 中的实验结果可以看出，由于目标数据集T,的数据 comp VS sci 目标 150 350 量较充分，因此所有6种算法均取得比较理想的聚历史 1500 350 类结果。这也进一步说明了传统的聚类算法进行 rec VS talk 有效聚类的前提条件是数据量要充分。在这6种聚目标 150 350 类算法中，由于MEKTFCA算法对源数据集所形成这两组迁移场景所使用的数据集的来源见表5 的历史中心点和历史隶属度双重有益知识进行了所示。在构造这两组迁移场景时，源数据集和目标学习，它的聚类结果要优于其他5种算法。数据集之间有一定的相似性，同时又有明显的不 3)源数据集是S,目标数据集是T3,它们构成的同。如构造的“comp VS sci”迁移场景第1类的源是数据量较充分但受到污染的场景。从该场景中数据集和目标数据集都来自同样的“comp”大类，但的实验结果可以看出，当数据受到污染时，其余5种它们的子类是完全不同的。第2类的源数据集和目对比算法的聚类性能要明显差于本文提出的标数据集与此类似。因为20NG数据集的原始数 MEKTFCA算法。因为数据集T3受到了污染，从而据的维数较大，因此实验之前我们使用工具导致数据产生失真，数据集的聚类中心产生了显著 BOW[2】对其进行了降维处理。本文所提的的偏移，数据类别之间的界限变得模糊，最终使得 MEKTFCA算法及其6种对比算法在此数据集上的这五种聚类算法的聚类性能不够理想。MEKTFCA 实验结果如表6。算法在进行聚类时，通过调整两个平衡因子的权重表5文本迁移场景的数据集来源来学习源数据集中有益的历史中心点知识和历史 Table 5 Text transfer scenes data sources 隶属度知识，这种迁移知识的学习机制提高了迁移场景类别源数据集目标数据集 MEKTFCA算法在数据被污染情况下的聚类效果。 1 comp.os.ms-windows.misc comp.windows.x 这也使得MEKTFCA算法具有一定的抗噪性能。 comp VS sci 2 sci.crypt sci.space 3.3文本数据集实验结果和分析 rec.autos rec.sport.baseball 第2个实验基于真实的文本数据集20 rec VS talk Newsgroups(20NG)[2o构造的目标数据样本量不足 talk.politics.guns talk.politics.mideast 的迁移场景来对MEKTFCA算法的有效性进行进一表6文本迁移场景中7种聚类算法性能对比 Table 6 Clustering performance of seven algorithms on text transfer scenes 迁移场景评价指标 LSSMTC CombKM STC Co-lustering TSC MECA MEKTFCA NMI-mean 0.3902 0.1081 0.2752 0.2810 0.8602 0.6891 1 NMI-std 0.2463 0.2732 0.1617 0.2958 1.1703×10-16 0 0 comp VS sci RI-mean 0.6487 0.5478 0.6457 0.6100 0.9646 0.8632 RI-std 0.1489 0.1458 0.1002 0.1610 2.3406×1061.1703×10-16 0 NMI-mean 0.0279 0.1651 0.1888 0.0251 0.8226 0.0666 0.9053 NMI-std 7.3142×10~8 0.1084 0.0075 0.0088 1.1703×1016 0.0774 0.0260 VS talk RI-mean 0.4967 0.5339 0.6007 0.4967 0.9477 0.5056 0.9710 RI-std 0 0.0421 0.0020 2.8298×10- 0.0271 0.0102

习由源数据集提取的历史类中心和历史隶属度中的有用知识，有效地改善了由于数据量不足而导致的聚类中心偏移的问题，最终提高了聚类性能。对于另外的４种对比算法，从它们的实验结果可以看出，虽然这些算法都使用了不同的机制来提高聚类结果，但由于算法本身的限制，在样本量不充足的场景下，其聚类结果不理想。２）源数据集是Ｓ，目标数据集是Ｔ２，它们所构成的是数据量较充足且无污染的场景。从该场景中的实验结果可以看出，由于目标数据集Ｔ２的数据量较充分，因此所有６种算法均取得比较理想的聚类结果。这也进一步说明了传统的聚类算法进行有效聚类的前提条件是数据量要充分。在这６种聚类算法中，由于ＭＥＫＴＦＣＡ算法对源数据集所形成的历史中心点和历史隶属度双重有益知识进行了学习，它的聚类结果要优于其他５种算法。３）源数据集是Ｓ，目标数据集是Ｔ３，它们构成的是数据量较充分但受到污染的场景。从该场景中的实验结果可以看出，当数据受到污染时，其余５种对比算法的聚类性能要明显差于本文提出的ＭＥＫＴＦＣＡ算法。因为数据集Ｔ３受到了污染，从而导致数据产生失真，数据集的聚类中心产生了显著的偏移，数据类别之间的界限变得模糊，最终使得这五种聚类算法的聚类性能不够理想。ＭＥＫＴＦＣＡ算法在进行聚类时，通过调整两个平衡因子的权重来学习源数据集中有益的历史中心点知识和历史隶属度知识，这种迁移知识的学习机制提高了ＭＥＫＴＦＣＡ算法在数据被污染情况下的聚类效果。这也使得ＭＥＫＴＦＣＡ算法具有一定的抗噪性能。３．３文本数据集实验结果和分析第２个实验基于真实的文本数据集２０Ｎｅｗｓｇｒｏｕｐｓ（２０ＮＧ）［２０］构造的目标数据样本量不足的迁移场景来对ＭＥＫＴＦＣＡ算法的有效性进行进一步验证。２０ＮＧ数据集包含大约２００００条新闻组信息，均匀地分布在２０个不同的集合中。我们选择这２０个集合中的４个来生成两组实验用的迁移场景：“ｃｏｍｐＶＳｓｃｉ”和“ ｒｅｃＶＳｔａｌｋ”。这两组迁移场景的数据集构成如表４所示。表４文本迁移场景数据集构成Ｔａｂｌｅ４Ｔｅｘｔｔｒａｎｓｆｅｒｓｃｅｎｅｓｓｔｒｕｃｔｕｒｅｓ迁移场景数据集数据个数维数ｃｏｍｐＶＳｓｃｉ历史１５００３５０目标１５０３５０ｒｅｃＶＳｔａｌｋ历史１５００３５０目标１５０３５０这两组迁移场景所使用的数据集的来源见表５所示。在构造这两组迁移场景时，源数据集和目标数据集之间有一定的相似性，同时又有明显的不同。如构造的“ ｃｏｍｐＶＳｓｃｉ” 迁移场景第１类的源数据集和目标数据集都来自同样的“ｃｏｍｐ”大类，但它们的子类是完全不同的。第２类的源数据集和目标数据集与此类似。因为２０ＮＧ数据集的原始数据的维数较大，因此实验之前我们使用工具ＢＯＷ［２１］对其进行了降维处理。本文所提的ＭＥＫＴＦＣＡ算法及其６种对比算法在此数据集上的实验结果如表６。表５文本迁移场景的数据集来源Ｔａｂｌｅ５Ｔｅｘｔｔｒａｎｓｆｅｒｓｃｅｎｅｓｄａｔａｓｏｕｒｃｅｓ迁移场景类别源数据集目标数据集ｃｏｍｐＶＳｓｃｉ１ｃｏｍｐ．ｏｓ．ｍｓ⁃ｗｉｎｄｏｗｓ．ｍｉｓｃｃｏｍｐ．ｗｉｎｄｏｗｓ．ｘ２ｓｃｉ．ｃｒｙｐｔｓｃｉ．ｓｐａｃｅｒｅｃＶＳｔａｌｋ１ｒｅｃ．ａｕｔｏｓｒｅｃ．ｓｐｏｒｔ．ｂａｓｅｂａｌｌ２ｔａｌｋ．ｐｏｌｉｔｉｃｓ．ｇｕｎｓｔａｌｋ．ｐｏｌｉｔｉｃｓ．ｍｉｄｅａｓｔ表６文本迁移场景中７种聚类算法性能对比Ｔａｂｌｅ６Ｃｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｏｆｓｅｖｅｎａｌｇｏｒｉｔｈｍｓｏｎｔｅｘｔｔｒａｎｓｆｅｒｓｃｅｎｅｓ迁移场景评价指标ＬＳＳＭＴＣＣｏｍｂＫＭＳＴＣＣｏ⁃ｌｕｓｔｅｒｉｎｇＴＳＣＭＥＣＡＭＥＫＴＦＣＡｃｏｍｐＶＳｓｃｉＮＭＩ⁃ｍｅａｎ０．３９０２０．１０８１０．２７５２０．２８１００．８６０２０．６８９１１ＮＭＩ⁃ｓｔｄ０．２４６３０．２７３２０．１６１７０．２９５８１．１７０３×１０－１６００ＲＩ⁃ｍｅａｎ０．６４８７０．５４７８０．６４５７０．６１０００．９６４６０．８６３２１ＲＩ⁃ｓｔｄ０．１４８９０．１４５８０．１００２０．１６１０２．３４０６×１０－１６１．１７０３×１０－１６０ＶＳｔａｌｋＮＭＩ⁃ｍｅａｎ０．０２７９０．１６５１０．１８８８０．０２５１０．８２２６０．０６６６０．９０５３ＮＭＩ⁃ｓｔｄ７．３１４２×１０－１８０．１０８４０．００７５０．００８８１．１７０３×１０－１６０．０７７４０．０２６０ＲＩ⁃ｍｅａｎ０．４９６７０．５３３９０．６００７０．４９６７０．９４７７０．５０５６０．９７１０ＲＩ⁃ｓｔｄ００．０４２１０．００２０２．８２９８×１０－５００．０２７１０．０１０２第１期陈爱国，等：基于极大熵的知识迁移模糊聚类算法 ·１０１·

·102 智能系统学报第12卷观察表6的实验结果可以得出如下结论：集样本量不足的场景，通过将MEKTFCA算法应用 1)MEKTFCA算法和TSC算法在迁移场景到该场景，再次验证该算法的有效性。KDDCup99 “comp VS sci'”上的聚类结果较其他5种算法的聚数据集来源于美国林肯实验室建立的一个模拟网类结果优势明显。其他5种算法中，MECA算法的络环境中收集的网络连接和审计数据。数据集中聚类结果最好，LSSMTC算法次之，Co-clustering算的数据包含不同类型的用户、各种不同类型的网络法、STC算法和CombKM算法的聚类结果明显差于流量以及各种类型的网络攻击。该数据集共收集其他算法。究其原因，主要是由于在此构造的真实了9周时间的数据，其中7周时间的数据作为训练场景上MEKTFCA算法和TSC算法的迁移学习机制数据，约含有5000000个网络连接数据，另外2周比其他算法更有效。时间的数据作为测试数据，约含有2000000个网络 2)MEKTFCA算法和TSC算法在构造的迁移连接数据。整个数据集中的训练数据集和测试数场景“rec VS talk”上的聚类结果具有同样明显的优据集之间有着不同的概率分布，即整个数据集具有势，而其他5种算法的聚类结果却差很多。MECA 定的相似性，同时也存在着一定的差异性，满足算法因为在此迁移场景下，目标数据集的样本量不知识迁移应用的条件。本文基于KDDCup99数据集足，且没有引入任何迁移学习机制，导致最终的聚构造的知识迁移场景只选择了数据集中常见的5种类结果较差。STC算法、CombKM算法、LSSMTC算类型(Normal,smurf、Neptune、satan、ipsweep)作为源法和Co-clustering算法尽管都使用了不同的迁移学数据集和目标数据集的类别，选择每条网络连接记习机制，但在此迁移场景下的效果不明显，所以它录中的32个连续型的特征属性作为样本数据的维们的聚类结果也明显较差。而MEKTFCA算法和度，源数据集的样本来自原始的训练数据集，目标 TSC算法在此迁移场景上的知识迁移效果明显，故数据集的样本来自原始的测试数据集。目标数据取得较好的聚类结果。集的样本数量只占源数据集的样本数量的10%，且 3)进一步观察表6的实验结果可以发现。样本数量不大，表征的是目标数据集样本量不足的 MEKTFCA算法在所构造的两组迁移场景上的聚类情况。具体的入侵检测迁移场景的数据集的样本性能都明显高于经典的MECA算法，这主要是因为个数、数据的维数和类别如表7所示。 MEKTFCA算法是在MECA算法的基础上通过改变表7入侵检测迁移场景的数据集构成两个平衡因子的大小来调整对历史中心点和历史 Table 7 KDDCup99 transfer scenes structures 隶属度知识的学习权重。因为对迁移知识的有效数据集样本个数维数类别学习，所以保证了MEKTFCA算法的聚类效果始终源数据集 2000 32 要比MECA算法的聚类效果好。 3.4入侵检测数据集实验结果和分析目标数据集 200 32 最后一个实验使用的是真实的入侵检测数据 MEKTFCA算法和其他6种对比算法在该入侵检集KDDCup992],使用该数据集形成一个目标数据测数据集知识迁移场景上的执行结果如表8所示。表8 入侵检测迁移场景上7种聚类算法性能对比 Table 8 Clustering performance of seven algorithms on KDDCup99 transfer scene 评价指标 LSSMTC CombKM STC Co-clustering TSC MECA MEKTFCA NMI-mean 0.4021 0.3834 0.3970 0.3025 0.2845 0.4090 0.7569 NMI-std 0.0453 0.0083 0.0612 0.1269 0.0231 6.4099×1017 0.0236 RI-mean 0.5084 0.4976 0.4983 0.4928 0.4475 0.5143 0.9022 RI-std 0.0275 0.0263 0.0876 0.0650 0.0131 0 0.0172 观察表8实验结果可以看出，MEKTFCA算法在两大性能指标NMI和RI的均值要明显高于其他结束语 6种对比算法。与上述两个实验结果分析的原因相由于传统聚类算法在数据样本量不足或数据同，MEKTFCA算法由于从源数据集中学习了有益受污染的情况下，其聚类效果往往不理想甚至失的历史中心点和历史隶属度知识，并对目标数据集效，本文在经典的MECA算法的基础上通过引入知的聚类过程形成有效指导，进而使得MEKT℉CA算识迁移机制，提出了基于极大嫡的知识迁移模糊聚法在目标数据集样本量不足的情况下仍能取得比类算法，即MEKTFCA算法。MEKTFCA算法通过引其他6种算法更好的聚类性能。这同时也进一步验入的知识迁移机制使得在对数据量不足或受污染证了对历史知识的有效学习对当前聚类任务的有的目标域数据进行聚类时能够有效学习源域中有效完成具有促进作用。益的历史中心点和历史隶属度知识，进而提高了最终的聚类结果。通过一组模拟数据集和两组真实

观察表６的实验结果可以得出如下结论：１）ＭＥＫＴＦＣＡ算法和ＴＳＣ算法在迁移场景 “ｃｏｍｐＶＳｓｃｉ”上的聚类结果较其他５种算法的聚类结果优势明显。其他５种算法中，ＭＥＣＡ算法的聚类结果最好，ＬＳＳＭＴＣ算法次之，Ｃｏ⁃ｃｌｕｓｔｅｒｉｎｇ算法、ＳＴＣ算法和ＣｏｍｂＫＭ算法的聚类结果明显差于其他算法。究其原因，主要是由于在此构造的真实场景上ＭＥＫＴＦＣＡ算法和ＴＳＣ算法的迁移学习机制比其他算法更有效。２）ＭＥＫＴＦＣＡ算法和ＴＳＣ算法在构造的迁移场景“ｒｅｃＶＳｔａｌｋ”上的聚类结果具有同样明显的优势，而其他５种算法的聚类结果却差很多。ＭＥＣＡ算法因为在此迁移场景下，目标数据集的样本量不足，且没有引入任何迁移学习机制，导致最终的聚类结果较差。ＳＴＣ算法、ＣｏｍｂＫＭ算法、ＬＳＳＭＴＣ算法和Ｃｏ⁃ｃｌｕｓｔｅｒｉｎｇ算法尽管都使用了不同的迁移学习机制，但在此迁移场景下的效果不明显，所以它们的聚类结果也明显较差。而ＭＥＫＴＦＣＡ算法和ＴＳＣ算法在此迁移场景上的知识迁移效果明显，故取得较好的聚类结果。３）进一步观察表６的实验结果可以发现，ＭＥＫＴＦＣＡ算法在所构造的两组迁移场景上的聚类性能都明显高于经典的ＭＥＣＡ算法，这主要是因为ＭＥＫＴＦＣＡ算法是在ＭＥＣＡ算法的基础上通过改变两个平衡因子的大小来调整对历史中心点和历史隶属度知识的学习权重。因为对迁移知识的有效学习，所以保证了ＭＥＫＴＦＣＡ算法的聚类效果始终要比ＭＥＣＡ算法的聚类效果好。３．４入侵检测数据集实验结果和分析最后一个实验使用的是真实的入侵检测数据集ＫＤＤＣｕｐ９９［２２］，使用该数据集形成一个目标数据集样本量不足的场景，通过将ＭＥＫＴＦＣＡ算法应用到该场景，再次验证该算法的有效性。ＫＤＤＣｕｐ９９数据集来源于美国林肯实验室建立的一个模拟网络环境中收集的网络连接和审计数据。数据集中的数据包含不同类型的用户、各种不同类型的网络流量以及各种类型的网络攻击。该数据集共收集了９周时间的数据，其中７周时间的数据作为训练数据，约含有５００００００个网络连接数据，另外２周时间的数据作为测试数据，约含有２００００００个网络连接数据。整个数据集中的训练数据集和测试数据集之间有着不同的概率分布，即整个数据集具有一定的相似性，同时也存在着一定的差异性，满足知识迁移应用的条件。本文基于ＫＤＤＣｕｐ９９数据集构造的知识迁移场景只选择了数据集中常见的５种类型（Ｎｏｒｍａｌ、ｓｍｕｒｆ、Ｎｅｐｔｕｎｅ、ｓａｔａｎ、ｉｐｓｗｅｅｐ）作为源数据集和目标数据集的类别，选择每条网络连接记录中的３２个连续型的特征属性作为样本数据的维度，源数据集的样本来自原始的训练数据集，目标数据集的样本来自原始的测试数据集。目标数据集的样本数量只占源数据集的样本数量的１０％，且样本数量不大，表征的是目标数据集样本量不足的情况。具体的入侵检测迁移场景的数据集的样本个数、数据的维数和类别如表７所示。表７入侵检测迁移场景的数据集构成Ｔａｂｌｅ７ＫＤＤＣｕｐ９９ｔｒａｎｓｆｅｒｓｃｅｎｅｓｓｔｒｕｃｔｕｒｅｓ数据集样本个数维数类别源数据集２０００３２目标数据集２００３２５ＭＥＫＴＦＣＡ算法和其他６种对比算法在该入侵检测数据集知识迁移场景上的执行结果如表８所示。表８入侵检测迁移场景上７种聚类算法性能对比Ｔａｂｌｅ８ＣｌｕｓｔｅｒｉｎｇｐｅｒｆｏｒｍａｎｃｅｏｆｓｅｖｅｎａｌｇｏｒｉｔｈｍｓｏｎＫＤＤＣｕｐ９９ｔｒａｎｓｆｅｒｓｃｅｎｅ评价指标ＬＳＳＭＴＣＣｏｍｂＫＭＳＴＣＣｏ⁃ｃｌｕｓｔｅｒｉｎｇＴＳＣＭＥＣＡＭＥＫＴＦＣＡＮＭＩ⁃ｍｅａｎ０．４０２１０．３８３４０．３９７００．３０２５０．２８４５０．４０９００．７５６９ＮＭＩ⁃ｓｔｄ０．０４５３０．００８３０．０６１２０．１２６９０．０２３１６．４０９９×１０－１７０．０２３６ＲＩ⁃ｍｅａｎ０．５０８４０．４９７６０．４９８３０．４９２８０．４４７５０．５１４３０．９０２２ＲＩ⁃ｓｔｄ０．０２７５０．０２６３０．０８７６０．０６５００．０１３１００．０１７２观察表８实验结果可以看出，ＭＥＫＴＦＣＡ算法在两大性能指标ＮＭＩ和ＲＩ的均值要明显高于其他６种对比算法。与上述两个实验结果分析的原因相同，ＭＥＫＴＦＣＡ算法由于从源数据集中学习了有益的历史中心点和历史隶属度知识，并对目标数据集的聚类过程形成有效指导，进而使得ＭＥＫＴＦＣＡ算法在目标数据集样本量不足的情况下仍能取得比其他６种算法更好的聚类性能。这同时也进一步验证了对历史知识的有效学习对当前聚类任务的有效完成具有促进作用。４结束语由于传统聚类算法在数据样本量不足或数据受污染的情况下，其聚类效果往往不理想甚至失效，本文在经典的ＭＥＣＡ算法的基础上通过引入知识迁移机制，提出了基于极大熵的知识迁移模糊聚类算法，即ＭＥＫＴＦＣＡ算法。ＭＥＫＴＦＣＡ算法通过引入的知识迁移机制使得在对数据量不足或受污染的目标域数据进行聚类时能够有效学习源域中有益的历史中心点和历史隶属度知识，进而提高了最终的聚类结果。通过一组模拟数据集和两组真实 ·１０２· 智能系统学报第１２卷

第1期陈爱国，等：基于极大嫡的知识迁移模糊聚类算法 ·103. 的数据集上的实验结果，可以得出本文所提 International Conference on Management of Data MEKTFCA算法较6种相关算法在聚类性能上有明 Philadelphia,Pennsylvania,USA,1999:49-60. 显的优越性。本文的创新点主要是，在MECA算法 [12]ARIAS-CASTRO E,CHEN Guangliang,LERMAN G. Spectral Clustering based on local linear approximations 的基础了提出了一个新的知识迁移方法，该方法能 [J].Electronic journal of statistics,2011,5:1537 有效解决实际生活中数据短缺和有噪声数据场景 -1587. 下的聚类性能问题。此外，本文所提的MEKTFCA [13]PAN S J,YANG Qiang.A survey on transfer learning[J]. IEEE transactions on knowledge and data engineering, 算法也存在着局限性，如在不同应用场景下两个平衡 2010,22(10):1345-1359. 参数如何进行有效确定的问题。这也是我们对该算法 [14]GU Quanquan,ZHOU Jie.Learning the shared subspace 进行进一步研究的方向。 for multi-task clustering and transductive transfer classification [C ]//Proceedings of Ninth IEEE 参考文献： International Conference on Data Mining.Miami,FL, USA,2009:159-168. [1]CARIOU C,CHEHDI K.Unsupervised nearest neighbors [15 DAI Wenyuan,YANG Qiang,XUE Guirong,et al. clustering with application to hyperspectral images[J]. Self-taught clustering C ]//Proceedings of the 25th IEEE journal of selected topics in signal processing,2015, International Conference on Machine Leaming.New 9(6):1105-1116. York,NY.USA,2008:200-207. [ALI A,BOYACI A,BAYNAL K.Data mining application [16]GU Quanquan,ZHOU Jie.Co-clustering on manifolds in banking sector with clustering and classification methods [C ]//Proceedings of the 15th ACM SIGKDD [C]//Proceedings of 2015 International Conference on International Conference on Knowledge Discovery and Industrial Engineering and Operations Management.Dubai, Data Mining.New York,USA,2009:359-368. 0AE,2015:1-8. [17]JIANG Wenhao,CHUNG F L.Transfer spectral clustering [3]LI Shuai,ZHOU Xiaofeng,SHI Haibo,et al.An efficient [M]//FLACH P A,BIE T D,CRISTIANINI N.Machine clustering method for medical data applications [C] Learning and Knowledge Discovery in Databases.Berlin Proceedings of 2015 IEEE International Conference on Cyber Heidelberg:Springer,2012:789-803. Technology in Automation,Control,and Intelligent System. [18]JING Liping,NG K M,HUANG JZ.An entropy weighting Shenyang,China,2015:133-138. k-means algorithm for subspace clustering of high- [4]LIKAS A,VLASSIS N,VERBEEK JJ.The global k-means dimensional sparse data [J].IEEE transactions on clustering algorithm[J].Pattern recognition,2003,36(2): knowledge and data engineering,2007,19 (8): 451-461 1026-1041. [5]BEZDEK J C.Pattern recognition with fuzzy objective [19]LIU Jun,MOHAMMED J,CARTER J,et al.Distance- function algorithms M ]New York:Springer,1981: based clustering of CGH data[J].Bioinformatics,2006, 43-93. 22(16):1971-1978. [6]KARAYIANNIS N B.MECA:maximum entropy clustering [20]DAI Wenyuan,XUE Guirong,YANG Qiang,et al.Co- algorithm[C]//Proceedings of the 3rd IEEE International clustering based classification for out-of-domain documents Conference on Fuzzy Systems.Orlando,USA,1994,1: [C]//Proceedings of the 13th ACM SIGKDD International 630-635 Conference on Knowledge Discovery and Data Mining.New [7 LI Ruiping,MUKAIDONO M.A maximum-entropy York,NY,USA,2007:210-219. approach to fuzzy clustering[C]//Proceedings of 1995 the [21]MCCALLUM A K.Bow:a toolkit for statistical language 4th IEEE International Conference on Fuzzy System. modeling,text retrieval,classification and clustering[EB/ Yokohama,Japan,1995,4:2227-2232. OL].1996.http://www.cs.cmu.edu/mccallum/bow [8]ZHANG Tian,RAMAKRISHNAN R,LIVNY M.BIRCH: [22]BAY S D,KIBLER D,PAZZANI M J,et al.The UCI an efficient data clustering method for very large databases [C]//Proceedings of the 1996 ACM SIGMOD International KDD archive of large data sets for data mining research and experimentation [J].ACM SIGKDD explorations Conference on Management of Data.New York,NY,USA, newsletter,2000.2(2):81-85. 1996:103-114. 作者简介： [9]GUHA S,RASTOGI R,SHIM K.CURE:an efficient 陈爱国，男，1975年生，博士研究 clustering algorithm for large databases[C]//Proceedings 生，主要研究方向为模式识别与机器 of the 1998 ACM SIGMOD International Conference on 学习。 Management of Data.New York,NY,USA,1998:73-84. [10]ESTER M,KRIEGEL H P,SANDER J,et al.A density-based algorithm for discovering clusters in large spatial databases with noise [C]//Proceeding of the Second International Conference on Knowledge Discovery 王士同，男.1964年生.教授.博士 and Data Mining.Portland,Oregon,USA,1996:226 生导师，中国离散数学学会常务理事 -231. 中国机器学习学会常务理事，主要研究 [11]ANKERST M,BREUNIG MM,KRIEGEL H P,et al. 方向为人工智能、模式识别和生物信 OPTICS:ordering Points to Identify the Clustering 息。发表学术论文近百篇，其中被SC Structure [C]//Proceedings of the 1999 ACM SIGMOD EI检索50余篇

的数据集上的实验结果，可以得出本文所提ＭＥＫＴＦＣＡ算法较６种相关算法在聚类性能上有明显的优越性。本文的创新点主要是，在ＭＥＣＡ算法的基础了提出了一个新的知识迁移方法，该方法能有效解决实际生活中数据短缺和有噪声数据场景下的聚类性能问题。此外，本文所提的ＭＥＫＴＦＣＡ算法也存在着局限性，如在不同应用场景下两个平衡参数如何进行有效确定的问题。这也是我们对该算法进行进一步研究的方向。参考文献：［１］ＣＡＲＩＯＵＣ，ＣＨＥＨＤＩＫ．Ｕｎｓｕｐｅｒｖｉｓｅｄｎｅａｒｅｓｔｎｅｉｇｈｂｏｒｓｃｌｕｓｔｅｒｉｎｇｗｉｔｈａｐｐｌｉｃａｔｉｏｎｔｏｈｙｐｅｒｓｐｅｃｔｒａｌｉｍａｇｅｓ［Ｊ］．ＩＥＥＥｊｏｕｒｎａｌｏｆｓｅｌｅｃｔｅｄｔｏｐｉｃｓｉｎｓｉｇｎａｌｐｒｏｃｅｓｓｉｎｇ，２０１５，９（６）：１１０５－１１１６．［２］ＡＬＩＡ，ＢＯＹＡＣＩＡ，ＢＡＹＮＡＬＫ．Ｄａｔａｍｉｎｉｎｇａｐｐｌｉｃａｔｉｏｎｉｎｂａｎｋｉｎｇｓｅｃｔｏｒｗｉｔｈｃｌｕｓｔｅｒｉｎｇａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎｍｅｔｈｏｄｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１５ＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＩｎｄｕｓｔｒｉａｌＥｎｇｉｎｅｅｒｉｎｇａｎｄＯｐｅｒａｔｉｏｎｓＭａｎａｇｅｍｅｎｔ．Ｄｕｂａｉ，ＵＡＥ，２０１５：１－８．［３］ＬＩＳｈｕａｉ，ＺＨＯＵＸｉａｏｆｅｎｇ，ＳＨＩＨａｉｂｏ，ｅｔａｌ．Ａｎｅｆｆｉｃｉｅｎｔｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｆｏｒｍｅｄｉｃａｌｄａｔａａｐｐｌｉｃａｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ２０１５ＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｙｂｅｒＴｅｃｈｎｏｌｏｇｙｉｎＡｕｔｏｍａｔｉｏｎ，Ｃｏｎｔｒｏｌ，ａｎｄＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍ．Ｓｈｅｎｙａｎｇ，Ｃｈｉｎａ，２０１５：１３３－１３８．［４］ＬＩＫＡＳＡ，ＶＬＡＳＳＩＳＮ，ＶＥＲＢＥＥＫＪＪ．Ｔｈｅｇｌｏｂａｌｋ⁃ｍｅａｎｓｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｊ］．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎ，２００３，３６（２）：４５１－４６１．［５］ＢＥＺＤＥＫＪＣ．Ｐａｔｔｅｒｎｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｆｕｚｚｙｏｂｊｅｃｔｉｖｅｆｕｎｃｔｉｏｎａｌｇｏｒｉｔｈｍｓ［Ｍ］．ＮｅｗＹｏｒｋ：Ｓｐｒｉｎｇｅｒ，１９８１：４３－９３．［６］ＫＡＲＡＹＩＡＮＮＩＳＮＢ．ＭＥＣＡ：ｍａｘｉｍｕｍｅｎｔｒｏｐｙｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ３ｒｄＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＦｕｚｚｙＳｙｓｔｅｍｓ．Ｏｒｌａｎｄｏ，ＵＳＡ，１９９４，１：６３０－６３５．［７］ＬＩＲｕｉｐｉｎｇ，ＭＵＫＡＩＤＯＮＯＭ．Ａｍａｘｉｍｕｍ⁃ｅｎｔｒｏｐｙａｐｐｒｏａｃｈｔｏｆｕｚｚｙｃｌｕｓｔｅｒｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ１９９５ｔｈｅ４ｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＦｕｚｚｙＳｙｓｔｅｍ．Ｙｏｋｏｈａｍａ，Ｊａｐａｎ，１９９５，４：２２２７－２２３２．［８］ＺＨＡＮＧＴｉａｎ，ＲＡＭＡＫＲＩＳＨＮＡＮＲ，ＬＩＶＮＹＭ．ＢＩＲＣＨ：ａｎｅｆｆｉｃｉｅｎｔｄａｔａｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｆｏｒｖｅｒｙｌａｒｇｅｄａｔａｂａｓｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９６ＡＣＭＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，１９９６：１０３－１１４．［９］ＧＵＨＡＳ，ＲＡＳＴＯＧＩＲ，ＳＨＩＭＫ．ＣＵＲＥ：ａｎｅｆｆｉｃｉｅｎｔｃｌｕｓｔｅｒｉｎｇａｌｇｏｒｉｔｈｍｆｏｒｌａｒｇｅｄａｔａｂａｓｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９８ＡＣＭＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，１９９８：７３－８４．［１０］ＥＳＴＥＲＭ，ＫＲＩＥＧＥＬＨＰ，ＳＡＮＤＥＲＪ，ｅｔａｌ．Ａｄｅｎｓｉｔｙ⁃ｂａｓｅｄａｌｇｏｒｉｔｈｍｆｏｒｄｉｓｃｏｖｅｒｉｎｇｃｌｕｓｔｅｒｓｉｎｌａｒｇｅｓｐａｔｉａｌｄａｔａｂａｓｅｓｗｉｔｈｎｏｉｓｅ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｏｆｔｈｅＳｅｃｏｎｄＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．Ｐｏｒｔｌａｎｄ，Ｏｒｅｇｏｎ，ＵＳＡ，１９９６：２２６－２３１．［１１］ＡＮＫＥＲＳＴＭ，ＢＲＥＵＮＩＧＭＭ，ＫＲＩＥＧＥＬＨＰ，ｅｔａｌ．ＯＰＴＩＣＳ：ｏｒｄｅｒｉｎｇＰｏｉｎｔｓｔｏＩｄｅｎｔｉｆｙｔｈｅＣｌｕｓｔｅｒｉｎｇＳｔｒｕｃｔｕｒｅ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９９９ＡＣＭＳＩＧＭＯＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｎａｇｅｍｅｎｔｏｆＤａｔａ．Ｐｈｉｌａｄｅｌｐｈｉａ，Ｐｅｎｎｓｙｌｖａｎｉａ，ＵＳＡ，１９９９：４９－６０．［１２］ＡＲＩＡＳ⁃ＣＡＳＴＲＯＥ，ＣＨＥＮＧｕａｎｇｌｉａｎｇ，ＬＥＲＭＡＮＧ．ＳｐｅｃｔｒａｌＣｌｕｓｔｅｒｉｎｇｂａｓｅｄｏｎｌｏｃａｌｌｉｎｅａｒａｐｐｒｏｘｉｍａｔｉｏｎｓ［Ｊ］．Ｅｌｅｃｔｒｏｎｉｃｊｏｕｒｎａｌｏｆｓｔａｔｉｓｔｉｃｓ，２０１１，５：１５３７－１５８７．［１３］ＰＡＮＳＪ，ＹＡＮＧＱｉａｎｇ．Ａｓｕｒｖｅｙｏｎｔｒａｎｓｆｅｒｌｅａｒｎｉｎｇ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｋｎｏｗｌｅｄｇｅａｎｄｄａｔａｅｎｇｉｎｅｅｒｉｎｇ，２０１０，２２（１０）：１３４５－１３５９．［１４］ＧＵＱｕａｎｑｕａｎ，ＺＨＯＵＪｉｅ．Ｌｅａｒｎｉｎｇｔｈｅｓｈａｒｅｄｓｕｂｓｐａｃｅｆｏｒｍｕｌｔｉ⁃ｔａｓｋｃｌｕｓｔｅｒｉｎｇａｎｄｔｒａｎｓｄｕｃｔｉｖｅｔｒａｎｓｆｅｒｃｌａｓｓｉｆｉｃａｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＮｉｎｔｈＩＥＥＥＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＤａｔａＭｉｎｉｎｇ．Ｍｉａｍｉ，ＦＬ，ＵＳＡ，２００９：１５９－１６８．［１５］ＤＡＩＷｅｎｙｕａｎ，ＹＡＮＧＱｉａｎｇ，ＸＵＥＧｕｉｒｏｎｇ，ｅｔａｌ．Ｓｅｌｆ⁃ｔａｕｇｈｔｃｌｕｓｔｅｒｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２５ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００８：２００－２０７．［１６］ＧＵＱｕａｎｑｕａｎ，ＺＨＯＵＪｉｅ．Ｃｏ⁃ｃｌｕｓｔｅｒｉｎｇｏｎｍａｎｉｆｏｌｄｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１５ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＵＳＡ，２００９：３５９－３６８．［１７］ＪＩＡＮＧＷｅｎｈａｏ，ＣＨＵＮＧＦＬ．Ｔｒａｎｓｆｅｒｓｐｅｃｔｒａｌｃｌｕｓｔｅｒｉｎｇ［Ｍ］／／ＦＬＡＣＨＰＡ，ＢＩＥＴＤ，ＣＲＩＳＴＩＡＮＩＮＩＮ．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇａｎｄＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙｉｎＤａｔａｂａｓｅｓ．ＢｅｒｌｉｎＨｅｉｄｅｌｂｅｒｇ：Ｓｐｒｉｎｇｅｒ，２０１２：７８９－８０３．［１８］ＪＩＮＧＬｉｐｉｎｇ，ＮＧＫＭ，ＨＵＡＮＧＪＺ．Ａｎｅｎｔｒｏｐｙｗｅｉｇｈｔｉｎｇｋ⁃ｍｅａｎｓａｌｇｏｒｉｔｈｍｆｏｒｓｕｂｓｐａｃｅｃｌｕｓｔｅｒｉｎｇｏｆｈｉｇｈ⁃ ｄｉｍｅｎｓｉｏｎａｌｓｐａｒｓｅｄａｔａ［Ｊ］．ＩＥＥＥｔｒａｎｓａｃｔｉｏｎｓｏｎｋｎｏｗｌｅｄｇｅａｎｄｄａｔａｅｎｇｉｎｅｅｒｉｎｇ，２００７，１９（８）：１０２６－１０４１．［１９］ＬＩＵＪｕｎ，ＭＯＨＡＭＭＥＤＪ，ＣＡＲＴＥＲＪ，ｅｔａｌ．Ｄｉｓｔａｎｃｅ⁃ ｂａｓｅｄｃｌｕｓｔｅｒｉｎｇｏｆＣＧＨｄａｔａ［Ｊ］．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２００６，２２（１６）：１９７１－１９７８．［２０］ＤＡＩＷｅｎｙｕａｎ，ＸＵＥＧｕｉｒｏｎｇ，ＹＡＮＧＱｉａｎｇ，ｅｔａｌ．Ｃｏ－ｃｌｕｓｔｅｒｉｎｇｂａｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｆｏｒｏｕｔ⁃ｏｆ⁃ｄｏｍａｉｎｄｏｃｕｍｅｎｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１３ｔｈＡＣＭＳＩＧＫＤＤＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙａｎｄＤａｔａＭｉｎｉｎｇ．ＮｅｗＹｏｒｋ，ＮＹ，ＵＳＡ，２００７：２１０－２１９．［２１］ＭＣＣＡＬＬＵＭＡＫ．Ｂｏｗ：ａｔｏｏｌｋｉｔｆｏｒｓｔａｔｉｓｔｉｃａｌｌａｎｇｕａｇｅｍｏｄｅｌｉｎｇ，ｔｅｘｔｒｅｔｒｉｅｖａｌ，ｃｌａｓｓｉｆｉｃａｔｉｏｎａｎｄｃｌｕｓｔｅｒｉｎｇ［ＥＢ／ＯＬ］．１９９６．ｈｔｔｐ：／／ｗｗｗ．ｃｓ．ｃｍｕ．ｅｄｕ／ｍｃｃａｌｌｕｍ／ｂｏｗ．［２２］ＢＡＹＳＤ，ＫＩＢＬＥＲＤ，ＰＡＺＺＡＮＩＭＪ，ｅｔａｌ．ＴｈｅＵＣＩＫＤＤａｒｃｈｉｖｅｏｆｌａｒｇｅｄａｔａｓｅｔｓｆｏｒｄａｔａｍｉｎｉｎｇｒｅｓｅａｒｃｈａｎｄｅｘｐｅｒｉｍｅｎｔａｔｉｏｎ［Ｊ］．ＡＣＭＳＩＧＫＤＤｅｘｐｌｏｒａｔｉｏｎｓｎｅｗｓｌｅｔｔｅｒ，２０００，２（２）：８１－８５．作者简介：陈爱国，男，１９７５年生，博士研究生，主要研究方向为模式识别与机器学习。王士同，男，１９６４年生，教授，博士生导师，中国离散数学学会常务理事，中国机器学习学会常务理事，主要研究方向为人工智能、模式识别和生物信息。发表学术论文近百篇，其中被ＳＣＩ、ＥＩ检索５０余篇。第１期陈爱国，等：基于极大熵的知识迁移模糊聚类算法 ·１０３·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录