正在加载图片...
.96 智能系统学报 第12卷 素的影响,可能会采集到受噪声干扰的失真数据。 表示第i个样本点隶属于第j类的程度;‖x:-y,‖ 对于不充足的数据和受到污染的数据进行聚类分 表示第i个样本点与第j类中心点的距离:α是正则 析时,如果直接采用传统聚类方法,往往会造成聚 化系数,由u构成隶属度矩阵U∈Rxc,由y,构成中 类结果的不理想,甚至有时会出现聚类失效的结果。 心点矩阵V∈Rc。 如何有效解决数据量不足和数据受污染情况 采用拉格朗日条件极值优化方法解得式(1)的 下的数据聚类性能问题,是近年来研究工作者的方 最优聚类中心V和隶属度U的迭代公式为 向之一。其中,知识迁移]机制的引入是一种有效 手段。知识迁移机制是指将历史数据(也称为源 i=1 域)中提炼的有益知识应用到对当前数据(也称为 Vi= j=1,2,…,C (2) 目标域)聚类任务的指导,用于提高当前数据的聚 类结果。历史数据与当前数据之间既存在着联系, 也存在着明显的差别。目前,应用知识迁移机制来 i=1,2,…,N 提高聚类性能的代表性算法有:在多任务中使用共 享子空间进行聚类的LSSMTC算法[,、使用K均值 exp 组合方法的CombKM算法[4]、使用自学习迁移机制 j=1,2,…,C (3) 的STC聚类算法[1s]、使用特征和样本协同机制的 根据上述推导,总结出MECA算法的具体步骤 Co-clustering聚类算法[u6]及迁移谱聚类TSC算 如下: 法[)。这些基于知识迁移的聚类算法虽然提高了 输入数据集X,分类数C,正则化系数,最大 一定的聚类性能,但离实际应用还有一定差距,且 迭代次数T,终止阈值ε。 这些聚类算法在进行聚类任务时需要完整的历史 输出最优隶属度U和聚类中心V。 数据集,这在一些特殊场合,如保密需要,完整的历 1)初始化迭代计数器t=0,随机初始化隶属度 史数据是不可能获得的。所以,研究一种有隐私保 矩阵U(0)。 护的高效迁移聚类算法具有必要性和实用性。 2)根据式(2)和1)的隶属度矩阵U(t)获得新 本文在经典的MECA聚类算法的基础上,通过 的类中心V(t)。 对MECA算法的目标函数进行改造,使其具有学习 3)根据式(3)和2)获得的类中心V(t)计算得 历史知识的能力,进而提高算法在样本量不充分或 新的隶属度U(t+1)。 受到污染情况下聚类的性能。 4)当IU(t+1)-U(t)‖<e或者t>T时算法终 止,否则跳转到2)。 1经典极大熵聚类算法 通过观察MECA算法的具体步骤可以看出,原 在传统C均值聚类算法的基础上,通过引入具 始的MECA算法不具有知识迁移的能力。 有明确物理含义的嫡,产生出了具有简洁的数学表 MECA算法在数据量充足时,可以使用上述迭 达式和明确物理含义特点的极大嫡模糊聚类算法。 代过程获得有效的类中心和隶属度。但当样本量 极大嫡模糊聚类算法有很多种不同的表达形式,其 不充足或样本被污染的情况下,直接使用MECA算 中文献[6-7]给出的是经典的极大嫡模糊聚类算 法获得的聚类中心往往严重偏离实际聚类中心,甚 法,其具体表述如下。 至有时会出现聚类失效的情况。因此,在数据量不 假设样本空间X={x:lx:eR,i=1,2,…,N}, 足或数据受到污染情况下,研究有效的聚类算法, 其中,N表示样本点的个数,R是实数集,d表示样 具有必要性和实际价值。 本点的维数。该样本包含C(1<C<V)个不同的类 2 基于极大熵的知识迁移模糊聚类 别,则经典的极大熵聚类算法(MECA)的目标函数 可表示为 在知识迁移理论[]中,当源域数据和目标域数 ,n=立24,1-g+ 据既存在一定的相关性,同时又存在着明显的差异 时,可通过对源域有益知识的充分利用来指导目标 i=1i=1 i=1i=1 4ge[0,,∑4,=1,1≤i≤N 域任务更好地完成。本文尝试通过将数据量充分 (1) s11 的源域知识迁移至数据量不足或被污染的目标域 式中:x:表示第i个样本点;y表示第j类中心点;严 的聚类任务中,来提高目标域的聚类性能。素的影响,可能会采集到受噪声干扰的失真数据。 对于不充足的数据和受到污染的数据进行聚类分 析时,如果直接采用传统聚类方法,往往会造成聚 类结果的不理想,甚至有时会出现聚类失效的结果。 如何有效解决数据量不足和数据受污染情况 下的数据聚类性能问题,是近年来研究工作者的方 向之一。 其中,知识迁移[13]机制的引入是一种有效 手段。 知识迁移机制是指将历史数据(也称为源 域)中提炼的有益知识应用到对当前数据(也称为 目标域)聚类任务的指导,用于提高当前数据的聚 类结果。 历史数据与当前数据之间既存在着联系, 也存在着明显的差别。 目前,应用知识迁移机制来 提高聚类性能的代表性算法有:在多任务中使用共 享子空间进行聚类的 LSSMTC 算法[14] 、使用 K 均值 组合方法的 CombKM 算法[14] 、使用自学习迁移机制 的 STC 聚类算法[15] 、使用特征和样本协同机制的 Co⁃clustering聚 类 算 法[16] 及 迁 移 谱 聚 类 TSC 算 法[17] 。 这些基于知识迁移的聚类算法虽然提高了 一定的聚类性能,但离实际应用还有一定差距,且 这些聚类算法在进行聚类任务时需要完整的历史 数据集,这在一些特殊场合,如保密需要,完整的历 史数据是不可能获得的。 所以,研究一种有隐私保 护的高效迁移聚类算法具有必要性和实用性。 本文在经典的 MECA 聚类算法的基础上,通过 对 MECA 算法的目标函数进行改造,使其具有学习 历史知识的能力,进而提高算法在样本量不充分或 受到污染情况下聚类的性能。 1 经典极大熵聚类算法 在传统 C 均值聚类算法的基础上,通过引入具 有明确物理含义的熵,产生出了具有简洁的数学表 达式和明确物理含义特点的极大熵模糊聚类算法。 极大熵模糊聚类算法有很多种不同的表达形式,其 中文献[6- 7] 给出的是经典的极大熵模糊聚类算 法,其具体表述如下。 假设样本空间 X = xi | xi∈R d { ,i = 1,2,…,N} , 其中,N 表示样本点的个数,R 是实数集,d 表示样 本点的维数。 该样本包含 C(1<C<N) 个不同的类 别,则经典的极大熵聚类算法(MECA)的目标函数 可表示为 J(U,V) = ∑ N i = 1 ∑ C j = 1 μij ‖ xi - vj‖2 + α∑ N i = 1 ∑ C j = 1 μij ln μij, μij ∈ [0,1],∑ C j = 1 μij = 1,1 ≤ i ≤ N (1) 式中:xi 表示第 i 个样本点;vj 表示第 j 类中心点;μij 表示第 i 个样本点隶属于第 j 类的程度;‖xi -vj‖2 表示第 i 个样本点与第 j 类中心点的距离;α 是正则 化系数,由 μij构成隶属度矩阵 U∈R N×C ,由vj 构成中 心点矩阵 V∈R d×C 。 采用拉格朗日条件极值优化方法解得式(1)的 最优聚类中心 V 和隶属度 U 的迭代公式为 vj = ∑ N i = 1 μij xi ∑ N i = 1 μij , j = 1,2,…,C (2) μij = exp - ‖ xi - vj‖2 α æ è ç ö ø ÷ ∑ C k = 1 exp - ‖ xi - vk‖2 α æ è ç ö ø ÷ , i = 1,2,…,N j = 1,2,…,C (3) 根据上述推导,总结出 MECA 算法的具体步骤 如下: 输入 数据集 X,分类数 C,正则化系数 α,最大 迭代次数 T,终止阈值 ε 。 输出 最优隶属度 U 和聚类中心 V。 1)初始化迭代计数器 t = 0,随机初始化隶属度 矩阵 U(0)。 2)根据式(2)和 1)的隶属度矩阵U(t)获得新 的类中心 V(t)。 3)根据式(3)和 2)获得的类中心V(t)计算得 新的隶属度 U(t+1)。 4)当‖U(t+1)-U(t)‖<ε 或者 t>T 时算法终 止,否则跳转到 2)。 通过观察 MECA 算法的具体步骤可以看出,原 始的 MECA 算法不具有知识迁移的能力。 MECA 算法在数据量充足时,可以使用上述迭 代过程获得有效的类中心和隶属度。 但当样本量 不充足或样本被污染的情况下,直接使用 MECA 算 法获得的聚类中心往往严重偏离实际聚类中心,甚 至有时会出现聚类失效的情况。 因此,在数据量不 足或数据受到污染情况下,研究有效的聚类算法, 具有必要性和实际价值。 2 基于极大熵的知识迁移模糊聚类 在知识迁移理论[13]中,当源域数据和目标域数 据既存在一定的相关性,同时又存在着明显的差异 时,可通过对源域有益知识的充分利用来指导目标 域任务更好地完成。 本文尝试通过将数据量充分 的源域知识迁移至数据量不足或被污染的目标域 的聚类任务中,来提高目标域的聚类性能。 ·96· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有