简介 1.1 典型相关分析.. 1 1.1.1 CCA-LDA.. 14 1.1.2 PCA-CCA-PLS 17 1.2多维标度法 20 1.2.1度量MDS... 24 1.2.2非度量MDS 31 Previous Next First Last Back Forward
简介 1.1 典型相关分析 . . . . . . . . . . . . . . . . . . 1 1.1.1 CCA-LDA . . . . . . . . . . . . . . . . 14 1.1.2 PCA-CCA-PLS . . . . . . . . . . . . . 17 1.2 多维标度法 . . . . . . . . . . . . . . . . . . . 20 1.2.1 度量 MDS . . . . . . . . . . . . . . . . 24 1.2.2 非度量 MDS . . . . . . . . . . . . . . 31 Previous Next First Last Back Forward 1
1.1 典型相关分析 ·典型相关分析(Canonical correlation analysis,CCA)研究多 个变量与多个变量之间的相关性 ·工厂对原料的主要质量指标X=(X1,·,X)'和产品质量的 主要指标Y=(Y,,Yg)/之间的关系很感兴趣 ·婚烟研究中,小伙子对他所追求姑娘的主要指标X和姑娘向往 的主要指标Y之间的关系 ·直接使用Coπ(X,Y)(或者相关系数矩阵)在多元场合无法从整 体上合适解释两者之间相关性 ·Hotelling(1935,1936)最早提出使用它们的线性组合变量(典 型变量)a'X和bY之间的相关性来度量X和Y之间的相关 性.什么样的a,b合适呢? Previous Next First Last Back Forward
1.1 典型相关分析 • 典型相关分析 (Canonical correlation analysis, CCA) 研究多 个变量与多个变量之间的相关性 • 工厂对原料的主要质量指标 X = (X1, . . . , Xp) ′ 和产品质量的 主要指标 Y = (Y1, . . . , Yq) ′ 之间的关系很感兴趣 • 婚姻研究中, 小伙子对他所追求姑娘的主要指标 X 和姑娘向往 的主要指标 Y 之间的关系 • 直接使用 Cov(X, Y)(或者相关系数矩阵) 在多元场合无法从整 体上合适解释两者之间相关性 • Hotelling (1935,1936) 最早提出使用它们的线性组合变量 (典 型变量)a ′X 和 b ′Y 之间的相关性来度量 X 和 Y 之间的相关 性. 什么样的 a, b 合适呢? Previous Next First Last Back Forward 1
·选择a,b,使得相关性最大: (a,6)=arg max corr(a'X,B'Y) a,b≠0 Cov(a'X,b'Y) arg max a.b#0 va'Cou(X)ab'Cou(Y)b 注意到corr(caX,cbY)=corr(a'X,bY),c≠0,因此上述 (à,)不唯一.为此,可施加适当的限制条件使解唯一.自然的 限制条件为 a'Cou(X)a Var(a'x)=1,b'Cov(Y)b=Var(b'Y)=1 ·记∑xx=Cou(X),∑yy=Cou(Y),∑xy=Cou(X,Y),则 问题转换为 最大化a'∑xYb s.t.a∑xxa=1,b'yyb=1 Previous Next First Last Back Forward 2
• 选择 a, b, 使得相关性最大: (ˆa, ˆb) = arg max a,b̸=0 corr(a ′X, b′Y) = arg max a,b̸=0 Cov(a ′X, b′Y) √ a ′Cov(X)ab′Cov(Y)b 注意到 corr(ca′X, cb′Y) = corr(a ′X, b′Y), ∀c ̸= 0, 因此上述 (ˆa, ˆb) 不唯一. 为此, 可施加适当的限制条件使解唯一. 自然的 限制条件为 a ′Cov(X)a = V ar(a ′X) = 1, b′Cov(Y)b = V ar(b ′Y) = 1 • 记 ΣXX = Cov(X), ΣY Y = Cov(Y), ΣXY = Cov(X, Y), 则 问题转换为 最大化 a ′ΣXY b s.t. a′ΣXXa = 1, b′ΣY Y b = 1 Previous Next First Last Back Forward 2
·假设∑xx>0,yy>0,则使用Lagrange乘子法 G(a,b)=a'∑xyb- 2(axxa-1)-a65yb-1) 分别对a,b求偏导并令为零,得到 2xyb-入1∑xxa=0 广义特征根问题 Eyxa-A2Eyyb=0 由此得到 X1=X1a'∑xxa=a∑xyb=2 因此记入=X1=2,将b=yxa带入得到 xyY∑yxa-A2xxa=0 EyxExxExrb-X2Errb=0 Previous Next First Last Back Forward 3
• 假设 ΣXX > 0, ΣY Y > 0, 则使用 Lagrange 乘子法 G(a, b) = a ′ΣXY b − 1 2 λ1(a ′ΣXXa − 1) − 1 2 λ2(b ′ΣY Y b − 1) 分别对 a, b 求偏导并令为零, 得到 { ΣXY b − λ1ΣXXa = 0 ΣY Xa − λ2ΣY Y b = 0 广义特征根问题 由此得到 λ1 = λ1a ′ΣXXa = a ′ΣXY b = λ2 因此记 λ = λ1 = λ2, 将 λb = Σ−1 Y Y ΣY Xa 带入得到 { ΣXY Σ −1 Y Y ΣY Xa − λ 2ΣXXa = 0 ΣY XΣ −1 XXΣXY b − λ 2ΣY Y b = 0 Previous Next First Last Back Forward 3
即a,b分别为矩阵 MI=EXxExYEYYEYx M2 =EYYEYxExxExy 的特征根为入2所对应的特征向量: ·若记K=ΣxyV,a=a,B=b,则 KK'a=X2a K'KB=X2B 即α,B分别为矩阵KK'和K'K的特征根2所对应的特征 向量 。因此第一典则方向为 (a1,b)=arg maxa'∑xyb s.t.axxa=l,b'∑yyb=1 Previous Next First Last Back Forward 4
即 a, b 分别为矩阵 M1 = Σ−1 XXΣXY Σ −1 Y Y ΣY X M2 = Σ−1 Y Y ΣY XΣ −1 XXΣXY 的特征根为 λ 2 所对应的特征向量. • 若记 K = Σ−1/2 XX ΣXY Σ −1/2 Y Y , α = Σ1/2 XXa, β = Σ1/2 Y Y b, 则 KK′α = λ 2α K ′Kβ = λ 2 β 即 α, β 分别为矩阵 KK′ 和 K′K 的特征根 λ 2 所对应的特征 向量. • 因此第一典则方向为 (a1, b1) = arg max a,b a ′ΣXY b s.t. a′ΣXXa = 1, b′ΣY Y b = 1 Previous Next First Last Back Forward 4
此时最大的相关系数为p1=corr(aiX,Y). 。而给定前k-1(k>1)个典则方向(a1,b1),.,(ak-1,bk-1) 后,第k个典则方向为 (ak,bk)= argmax a'∑xyb a'Exxa=1 bEyyb=1 cor(a'X,a{X)=0,i=1,,k-1 corr(b'Y,bY)=0.i=1.....k-1 。所有典则方向可以通过广义特征根方程得到.令足≥·≥ λ?>0为KK'和K'K的全部非零特征根,其中s≤min{P,q} 对应的KK'的特征向量为a,KK的特征向量为B,则可以 得到 ai =x2as,bi=yy28,i=1,....s Previous Next First Last Back Forward
此时最大的相关系数为 ρ1 = corr(a ′ 1X, b′ 1Y). • 而给定前 k − 1 (k > 1) 个典则方向 (a1, b1), . . . ,(ak−1, bk−1) 后, 第k 个典则方向 为 (ak, bk) = argmax a ′ΣXXa=1 b ′ΣY Y b=1 corr(a ′X,a′ iX)=0,i=1,...,k−1 corr(b ′Y,b′ iY )=0,i=1,...,k−1 a ′ΣXY b • 所有典则方向可以通过广义特征根方程得到. 令 λ 2 1 ≥ · · · ≥ λ 2 s > 0 为 KK′ 和 K′K 的全部非零特征根, 其中 s ≤ min{p, q}. 对应的 KK′ 的特征向量为 αi, K′K 的特征向量为 βi, 则可以 得到 ai = Σ−1/2 XX αi, bi = Σ−1/2 Y Y βi, i = 1, . . . , s Previous Next First Last Back Forward 5
称(a1,bi),.,(as,bs)为典则方向(canonical directions)),而 称 U;=aX,Vi=BY 为第i对典型相关变量(canonical variates),其满足 corr(Ui,Vi)=Ai,i=1,...,s corr(Ui,Uj)=0,corr(Vi,Vj)=0,corr(Ui,Vj)=0,i#j 。从上面可以看出,第二对典型相关变量应不包含第一对典型相 关变量的信息(相关系数为零).以此类推.第k对典型相关变 量应和之前的k一1对典型相关变量不相关. Previous Next First Last Back Forward 8
⋄ 称 (a1, b1), . . . ,(as, bs) 为典则方向(canonical directions), 而 称 Ui = a ′ iX, Vi = b ′ iY 为第 i 对典型相关变量(canonical variates), 其满足 corr(Ui, Vi) = λi, i = 1, . . . , s corr(Ui, Uj ) = 0, corr(Vi, Vj ) = 0, corr(Ui, Vj ) = 0, i ̸= j ⋄ 从上面可以看出, 第二对典型相关变量应不包含第一对典型相 关变量的信息 (相关系数为零). 以此类推. 第 k 对典型相关变 量应和之前的 k − 1 对典型相关变量不相关. Previous Next First Last Back Forward 6
定理1.设X*=A'X+u,Y*=BY+v,其中A:p×p,B:q×q 为可逆方阵,u:p×1,v:q×1为实常数向量,则 1)X*和Y*的典型相关变量为a:X*和bY,其中a':= A-1ai,b:=B-1bi,ai,b:为X,Y的第i对典型相关变量的系数. (2)coTr(a*X,b*Y)=corr(a:X,bY),即线性变换不改变相 关性。 注:若在定理中取A=(diag8xx)1/2,B=(diagEyy)-1/2,则 前面关于协方差矩阵的结果都可以应用到相关系数矩阵下 Previous Next First Last Back Forward
定理 1. 设 X ∗ = A ′X + u, Y ∗ = B ′Y + v, 其中 A : p × p, B : q × q 为可逆方阵, u : p × 1, v : q × 1 为实常数向量, 则 (1) X ∗ 和 Y ∗ 的典型相关变量为 a ∗′ iX ∗ 和 b ∗′ iY , 其中 a ∗ i = A −1 ai, b∗ i = B −1 bi, ai, bi 为 X, Y 的第 i 对典型相关变量的系数. (2) corr(a ∗′ iX ∗ , b∗′ iY ) = corr(a ′ iX, b′ iY ), 即线性变换不改变相 关性. 注: 若在定理中取 A = (diagΣXX) 1/2 , B = (diagΣY Y ) −1/2 , 则 前面关于协方差矩阵的结果都可以应用到相关系数矩阵下. Previous Next First Last Back Forward 7
样本典型相关(classical CCA) ·当总体协方差xx,∑yY,∑xy未知时候,设{x,y,},i= 1,,n为总体Z={Xpx1,Ygx1}的一组样本,n≥p,n≥q ·则由样本协方差矩阵得到∑xx,∑yy,∑xy的估计 x=5x=2--到 y=sy=,-0,-=4y Sxy-5xy ·使用估计xx,yy,xy代替得到样本典型相关变量(心,) 和典则方向(a:,b) Previous Next First Last Back Forward 8
样本典型相关 (classical CCA) • 当总体协方差 ΣXX, ΣY Y , ΣXY 未知时候, 设 {xi, yi , }, i = 1, . . . , n 为总体 Z = {Xp×1, Yq×1} 的一组样本, n ≥ p, n ≥ q. • 则由样本协方差矩阵得到 ΣXX, ΣY Y , ΣXY 的估计 Σˆ XX = SXX = 1 n − 1 ∑n i=1 (xi − x¯)(xi − x¯) ′ = 1 n − 1 AXX Σˆ Y Y = SY Y = 1 n − 1 ∑n i=1 (yi − y¯)(yi − y¯) ′ = 1 n − 1 AY Y Σˆ XY = SXY = 1 n − 1 ∑n i=1 (xi − x¯)(yi − y¯) ′ = 1 n − 1 AXY • 使用估计 Σˆ XX, Σˆ Y Y , Σˆ XY 代替得到样本典型相关变量(Uˆi, Vˆi) 和典则方向 (ˆai, ˆbi) Previous Next First Last Back Forward 8
,这等价于使样本相关最大化:记x,y为中心化的n×p,n×q 样本矩阵,则 (a1,b)= argmax a'x'yb Xall=1.llybll=1 例:橄榄油数据 ·R包classifly中的数据集olives记录了n=572种橄榄油的 p=9特征变量值,其中变量1取值{1,2,3},表示意大利的三 个地区.其他变量为8种脂肪酸含量测量值 ·我们感兴趣的是三个地区与脂肪酸测量之间的相关性.因此取 x∈R2x8,by∈572x3为三个地区的示性变量矩阵,每行表 Previous Next First Last Back Forward 9
• 这等价于使样本相关最大化: 记 x, y 为中心化的 n × p, n × q 样本矩阵, 则 (ˆa1, ˆb1) = argmax ∥xa∥=1,∥yb∥=1 a ′ x ′ yb 例: 橄榄油数据 • R 包 classifly 中的数据集 olives 记录了 n = 572 种橄榄油的 p = 9 特征变量值, 其中变量 1 取值 {1, 2, 3}, 表示意大利的三 个地区. 其他变量为 8 种脂肪酸含量测量值. • 我们感兴趣的是三个地区与脂肪酸测量之间的相关性. 因此取 x ∈ R 572×8 , by ∈ R 572×3 为三个地区的示性变量矩阵, 每行表 Previous Next First Last Back Forward 9