正在加载图片...
第5期 程肠,等:基于局部保留投影的多可选聚类发掘算法 ·603· 表示元素值全为1的列向量。r(·)表示矩阵的 此,P(X)LP(X)T+p(X)HL,Hp(X)'是实对称矩 迹。 阵。作为一个特征分解问题,A的最优解由前k个 为了表示简单,使用HSICox,)代替HSIC(2.F,, 最小非零特征值对应的特征向量构成,即A= 表示随机变量X和(x)=A'x,也就是X和Y之间 [a,a2…&]。下一步,可以使用k-means算法 的依赖性。 对子空间A进行聚类,得到可供选择的聚类结 假设有8个数据{x1,x2,…,xg,{,其中x,和x2, 果C2)。 x3和x4,x3和x6,x,和xg分别为一类。则向量y1= 可以看到,(X)HL,He(X)I直接影响了LPP y2=(1000),y3=y4=(0100),y5=y6= 算法中(X)Lp(X)T项,也就是说,可以把两个聚 (0010)T,y,=yg=(0001)'。矩阵Y的每一行对 类结果之间的独立性看作添加的约束项。同时,通 应一个y。L,是一个8×8的矩阵,由:和y的点 过添加更多的HSIC项,将算法推广可以找到更多 积构成。K是一个8×8的矩阵,表示(x:)和(x) 可供选择的聚类结果。 之间的相似度。同时注意,根据定义,H是一个n×n 举例来说,在寻找第3个可供选择的聚类结果 (在本例中是8×8)的常数矩阵,每行每列的和都等 C3)时,只要提供之前找到的两个聚类结果C)和 于0。因此,在上述示例中,每一行(列)都包含7个 C2),并把式(6)中的HSIC(ax.c)一项替换为 (安)和1个 HSIC(ATx.c)+HSIC(ax.c2,即可。因此只要在式 (8)中使用A'XHL,HXA+A'XHL2HXA,即直接 5基于局部保留投影的多可选聚类发 使用AXH(L,:+L,2)HXA代替AXHL,HXA。 掘算法 也就是说,使用(L,+L,2)代替了L,其他矩阵保持 不变即可。 由于通过HSIC,)可以自然地评估结构很复 RLPP算法描述如下: 杂的样本X和Y之间的相关性,因此结合HSICo.” 1)输入数据集X;一个X上的参考聚类结果 对LPP的目标函数进行修改。要求是转换矩阵A C。 必须能够发掘嵌入在高维数据中的低维流形结构, 2)输出一个数据集X上可供选择的参考聚类 并且与已知的聚类结果C)完全独立。换句话说, 结果C2。 在所有与已经存在的聚类结果C)不同的子空间 3)算法流程: 中,要选出能够最好地保持高维数据流形结构的子 ①计算L,L,=(y:y〉,其中y:是一个二元向 空间。因此,改进LPP的目标函数如下: 量,表示C)中x,的类标签的编码。 A=argmin A'XLX'A HSIC(ATX.c(D)= ②计算H=1-e.c。 argmin A XLX'A tr(HKHL,) (6) 式中:A表示A的最佳解,且由迹的性质可知 ③计算权值矩阵W,如果x是x:的k近邻点, r(HKHL,)=r(KHL,H)。不同的核函数在计算变 那么W,=exp- x-12 (t∈R),否则W,=0。 量之间的独立性时结果不同,这里采用线性核函数, t 映射函数定义为:(x)=ATx,因此,K= ④计算矩阵D,Da=∑W,计算拉普拉斯矩阵 (p(X),P(X)〉=YAAX。即 L,L=D-W。 ATXLXA tr(HKHL,)= ⑤使用高斯核计算核矩阵K,K=9(x)'· AXLXA+AXHL HX'A= p()。 AT (XLX+XHL HX)A (7) ⑥分解核矩阵K,K=PP,根据P(X)=AP 将数据集合X映射到高维特征空间中后,就可 得到(X)。 以最终得到(X)=[p(x)(x2)…(xn)]。其 ⑦计算(X)LP(X)'+(X)HL,H(X)的特 中,核矩阵K的元素为K=p(x:)I·(x)。即: 征值和特征向量。 A.m=A((X)L(X)+(X)HL H (X))A ⑧按特征值从小到大的顺序对特征向量排序。 (8) ⑨选择前k个最小的特征值对应的特征向量, 因为H和L,都是对称矩阵,所以 即A=[a0a1…ak-1Jo (X)HL,H(X)'也是对称矩阵,同样,因为L是 ①c2)-k-means(A'e(X))。 对称矩阵,所以P(X)L(X)T也是对称矩阵。因 RLPP算法的时间复杂度完全由计算最近邻矩表示元素值全为 1 的列向量。 tr(·) 表示矩阵的 迹。 为了表示简单,使用 HSIC(X,Y) 代替 HSIC(Z,F,G) , 表示随机变量 X 和 φ(x)= A T x,也就是 X 和 Y 之间 的依赖性。 假设有 8 个数据{x1 ,x2 ,…,x8 ,},其中 x1 和 x2 , x3 和 x4 ,x5 和 x6 ,x7 和 x8 分别为一类。 则向量 y1 = y2 = (1 0 0 0) T , y3 = y4 = (0 1 0 0) T , y5 = y6 = (0 0 1 0) T ,y7 = y8 = (0 0 0 1) T 。 矩阵 Y 的每一行对 应一个 yi。 Ly 是一个 8×8 的矩阵,由 yi 和 yj 的点 积构成。 K 是一个 8×8 的矩阵,表示 φ(xi)和φ(xj) 之间的相似度。 同时注意,根据定义,H 是一个 n×n (在本例中是 8×8)的常数矩阵,每行每列的和都等 于 0。 因此,在上述示例中,每一行(列)都包含 7 个 (- 1 8 )和 1 个 7 8 。 5 基于局部保留投影的多可选聚类发 掘算法 由于通过 HSIC(X,Y) 可以自然地评估结构很复 杂的样本 X 和 Y 之间的相关性,因此结合 HSIC(X,Y) 对 LPP 的目标函数进行修改。 要求是转换矩阵 A 必须能够发掘嵌入在高维数据中的低维流形结构, 并且与已知的聚类结果 C (1) 完全独立。 换句话说, 在所有与已经存在的聚类结果 C (1) 不同的子空间 中,要选出能够最好地保持高维数据流形结构的子 空间。 因此,改进 LPP 的目标函数如下: Aopt = argmin A TXLX TA + HSIC(ATX,C(1)) = argmin A TXLX TA + tr HKHLy ( ) (6) 式中:Aopt 表示 A 的最佳解, 且由迹的性质可知 tr HKHLy ( ) = tr(KHLyH) 。 不同的核函数在计算变 量之间的独立性时结果不同,这里采用线性核函数, 映射 函 数 定 义 为: φ(x) = A T x , 因 此, K = 〈φ(X),φ(X)〉 = X TAA TX 。 即 A TXLX TA + tr HKHLy ( ) = A TXLX TA + A TXHLyHX TA = A T XLX T + XHLyHX T ( ) A (7) 将数据集合 X 映射到高维特征空间中后,就可 以最终得到 φ(X)= [φ(x1 ) φ(x2 ) … φ(xn )]。 其 中,核矩阵 K 的元素为 Kij =φ (xi) T·φ(xj)。 即: Aopt = A T (φ(X)Lφ (X) T + φ(X)HLyHφ (X) T )A (8) 因 为 H 和 Ly 都 是 对 称 矩 阵, 所 以 φ(X)HLyHφ (X) T也是对称矩阵,同样,因为 L 是 对称矩阵,所以 φ(X) Lφ (X) T 也是对称矩阵。 因 此,φ(X)Lφ (X) T +φ(X)HLyHφ (X) T 是实对称矩 阵。 作为一个特征分解问题,Aopt的最优解由前 k 个 最小 非 零 特 征 值 对 应 的 特 征 向 量 构 成, 即 A = [α1 α2… αk ]。 下一步,可以使用 k⁃means [19] 算法 对子空间 A 进行聚类, 得到可供选择的聚类结 果 C (2) 。 可以看到,φ(X)HLyHφ (X) T 直接影响了 LPP 算法中 φ(X)Lφ (X) T 项,也就是说,可以把两个聚 类结果之间的独立性看作添加的约束项。 同时,通 过添加更多的 HSIC 项,将算法推广可以找到更多 可供选择的聚类结果。 举例来说,在寻找第 3 个可供选择的聚类结果 C (3)时,只要提供之前找到的两个聚类结果 C (1) 和 C (2) ,并 把 式 ( 6 ) 中 的 HSIC(ATX,C(1)) 一 项 替 换 为 HSIC(ATX,C(1) ) + HSIC(ATX,C(2)) 即可。 因此只要在 式 (8)中使用 A TXHLy1HX TA+A TXHLy2HX TA,即直接 使用 A TXH ( Ly1 + Ly2 ) HX TA 代替 A TXHLyHX TA。 也就是说,使用(Ly1 +Ly2 )代替了 Ly,其他矩阵保持 不变即可。 RLPP 算法描述如下: 1)输入 数据集 X;一个 X 上的参考聚类结果 C (1) 。 2)输出 一个数据集 X 上可供选择的参考聚类 结果 C (2) 。 3)算法流程: ①计算 Ly,Ly = 〈 yi,yj〉,其中 yi 是一个二元向 量,表示 C (1)中 xi 的类标签的编码。 ②计算 H= I- 1 n en e T n 。 ③计算权值矩阵 W,如果 xj 是 xi 的 k 近邻点, 那么 Wij = exp- ‖xi -xj‖2 t (t∈R),否则 Wij = 0。 ④计算矩阵 D, Dii = ∑ j Wij,计算拉普拉斯矩阵 L,L = D - W 。 ⑤使用高斯核计算核矩阵 K,Kij = φ (xi) T · φ(xj)。 ⑥分解核矩阵 K,K = P TΛP,根据 φ(X) = Λ 1 2 P 得到 φ(X)。 ⑦计算 φ(X)Lφ (X) T +φ(X)HLyHφ(X) T 的特 征值和特征向量。 ⑧按特征值从小到大的顺序对特征向量排序。 ⑨选择前 k 个最小的特征值对应的特征向量, 即 A= [a0 a1… ak-1 ]。 ⑩C (2)= k⁃means(A Tφ(X))。 RLPP 算法的时间复杂度完全由计算最近邻矩 第 5 期 程旸,等:基于局部保留投影的多可选聚类发掘算法 ·603·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有