
第十一讲 主成分分析方差=长度2=信息
第十一讲 主成分分析 方差=长度2=信息

Recap假设样本ViERq,XiERP满足多元线性回归模型:Ynxq=XBpxg+E—yi=BTxi+Ei,Ei,i=1,..,n id~(O,2)(xT)(e)(yT)(BTx1+e))横向排YB +:::= XB +ε-(X)eT)yn(BTXn+E)Y = XB + E Y = (y(1) .,y(g) = X(β(1),..,β(g)) + (E(1),..,E(q) Y(k) = Xβ(k) + E(k), E(k)~(0, Okkln)竖向看LS: min IlEl2 min Zk=-1le(k)ll = minlly(k) - Xβ()ll2,k = 1, .,q,=β(k) = (XTX) -1XTy(k), B = (β(1), .,β(g)) = (XTX)-1xTY,每个响应分别回归:y(k)~X,利用得到的q个残差向量(1),(g)估计Z: ij =)G) / (n - p), = T/ (n - p),8 = ((1),.,E(g).B=argminl2=argmin-1/2(命题3),矩阵或Y的每一行可看作是一个“标量”,其方差矩阵看作是“常数
2 假设样本𝐲𝑖 ∈ 𝑅 𝑞 , 𝐱𝑖 ∈ 𝑅 𝑝满足多元线性回归模型: 𝑌𝑛×𝑞 = 𝑋𝐵𝑝×𝑞 + ℰ ⇔ 𝐲𝑖 = 𝐵 ⊤𝐱𝑖 + 𝛆𝑖 , 𝛆𝑖 , 𝑖 = 1, . , 𝑛 𝑖𝑖𝑑~ 𝟎, Σ 𝑌 = 𝐲1 ⊤ ⋮ 𝐲𝑛 ⊤ = (𝐵 ⊤𝐱1+𝛆1) ⊤ ⋮ (𝐵 ⊤𝐱𝑛+𝛆𝑛) ⊤ = 𝐱1 ⊤ ⋮ 𝐱𝑛 ⊤ 𝐵 + 𝛆1 ⊤ ⋮ 𝛆𝑛 ⊤ = 𝑋𝐵 + ℰ 𝑌 = 𝑋𝐵 + ℰ ⇔ 𝑌 = 𝐲 1 , . , 𝐲 𝑞 = 𝑋 𝛃 1 , . , 𝛃 𝑞 + (𝛆 1 , . , 𝛆(𝑞)), ⇔ 𝐲(𝑘) = 𝑋𝛃(𝑘) + 𝛆(𝑘) , 𝛆(𝑘)~ 𝟎, 𝜎𝑘𝑘𝐼𝑛 LS: min ℰ 2 ⇔ min σ 𝑘=1 𝑞 𝛆(𝑘) 2 ⇔ min 𝐲(𝑘) − 𝑋𝛃(𝑘) 2 , 𝑘 = 1, . , 𝑞, ⇒ 𝛃 (𝑘) = (𝑋 ⊤𝑋) −1𝑋 ⊤𝐲(𝑘) , 𝐵 = 𝛃 1 , . , 𝛃 𝑞 = (𝑋 ⊤𝑋) −1𝑋 ⊤𝑌, Recap 横向排 竖 向 看 𝐵 = argmin ℰ 2 = argmin ℰΣ −1/2 2 (命题3), 矩阵ℰ或𝑌的每一 行可看作是一个“标量”,其方差矩阵Σ看作是“常数” 。 每个响应分别回归:𝐲(𝑘)~𝑋,利用得到的𝑞个残差向量𝛆ො 1 , . , 𝛆ො 𝑞 估 计Σ:𝜎ො𝑖𝑗 = 𝛆ො(𝑖) ⊤ 𝛆ො(𝑗)/ 𝑛 − 𝑝 , Σ = ℰመ⊤ℰመ/ 𝑛 − 𝑝 , ℰመ = 𝛆ො 1 , . , 𝛆ො 𝑞 . 𝑌

主成分分析(PCA)主成分分析(PCA,principalcomponentanalysis)是由KPearson、Hotelling独立发展出来的降维方法。以后会看到,PcA实际上是奇异值分解(SVD)的一个特殊应用。PCA把多个相关变量线性组合成新的“变量”,如果少数几个组合能包含原来所有变量的大部分方差信息,那么我们可以用它们替代原来较多的变量。这些变量的组合称为主成分(PC,principalcomponent)。物体的长度方差:随机变量长度2物体的长度以远端边界点之间的距离,或边界点与中心的距离度量。随机变量的长度2:方差随机变量作为の的函数,是有“形状”的数学对象,表现为其分布形状。我们以方差E(x一μ)而不是E(x)2度量随机变量的“长度”(后者不代表几何形状的长度,参见下图)。3
3 主成分分析(PCA, principal component analysis) 是由K. Pearson、Hotelling独立发展出来的降维方法。以后会看到,PCA实际 上是奇异值分解(SVD)的一个特殊应用。 PCA把多个相关变量线性组合成新的“变量”, 如果少数几个组合能包 含原来所有变量的大部分方差信息,那么我们可以用它们替代原来较 多的变量。这些变量的组合称为主成分(PC, principal component )。 主成分分析(PCA) 方差: 随机 变量长度2 物体的长度 物体的长度以远端边界点之间的距离,或边界点与中心的距离度量。 2 v x μ x 0 随机变量的长度2:方差 随机变量作为𝜔的函数,是有“形状”的数学对象,表现为其分布形 状。我们以方差𝐸(𝑥 − 𝜇) 2而不是𝐸(𝑥) 2度量随机变量的“长度” (后者不代表几何形状的长度,参见下图)

随机向量的各向“长度随机向量x的空间轮廓在各个方向上都有长度。对任何方向v,Ilvll=1,x在v上的投影坐标为vTx,中心u的投影坐标为vTu随机向量在该方向上的方差或“长度2”:E(x) = μ,E(vTx -vTμ)2 = vT ZV, Ilvll = 1,var(x) = Z+PCA求解随机向量投影坐标方差最大的方向,此时投影坐标称为主成分。Ax与中心u的平均距离Elxx在v方向的长度叫I2不能体现出长度的方E(vx-vμ)2向性及分量之间的相依性
4 2 v v1 v x μ x x v T v μ v T 随机向量的各向“长度” 随机向量𝐱的空间轮廓在各个方向上都有长度。对任何方向𝐯, 𝐯 = 1, 𝐱在𝐯上的投影坐标为𝐯 ⊤𝐱,中心𝛍的投影坐标为𝐯 ⊤𝛍, 随机向量在该方向上的方差或“长度2”: E(𝐯 ⊤𝐱 − 𝐯 ⊤𝛍) 2 = 𝐯 ⊤ Σ 𝐯, 𝐯 = 1, PCA求解随机向量投影坐 标方差最大的方向,此 时投影坐标称为主成分。 𝐱与中心𝛍的平均距离𝐸||𝐱 − 𝛍|| 𝟐 不能体现出长度的方 向性及分量之间的相依性。 𝐸 𝐱 = 𝛍, var 𝐱 = Σ

总体PCA我们首先考虑总体(单个随机向量)的主成分分析。PCA寻找一个低维空间(特别地,一组正交基),使得随机向量在其上的投影最大可能地保留原始数据的信息,信息以投影坐标的方差(长度2)代表。这些正交基称为主成分方向(或载荷),而随机向量在这些方向上的投影坐标称为主成分。XERP在vERP上的投影为Px=V(vTv)-1vTx,投影坐标投影坐标为(vTv)-1vTx。特别地,若vESP-1,即Ilvll=1,P,x=v(vTx),投影坐标为vTx。假设随机向量xERP的方差矩阵为=var(x),x在投影坐标在常数向量vESP-1上的投影坐标vTx是一个随机变量,的方差其方差为var(vTx) = vTZv.哪个方向上投影方差/长度最大?5
5 我们首先考虑总体(单个随机向量)的主成分分析。 PCA寻找一个低维空间(特别地,一组正交基),使得随机向 量在其上的投影最大可能地保留原始数据的信息,信息以投 影坐标的方差(长度2)代表。 这些正交基称为主成分方向(或载荷),而随机向量在这些 方向上的投影坐标称为主成分。 投影坐标 的方差 投影坐标 总体PCA 𝐱 ∈ 𝑅 𝑝在𝐯 ∈ 𝑅 𝑝 上的投影为𝑃𝐯𝐱 = 𝐯(𝐯 ⊤𝐯) −1𝐯 ⊤𝐱, 投影坐标 为(𝐯 ⊤𝐯) −1𝐯 ⊤𝐱。特别地,若𝐯 ∈ 𝑆 𝑝−1 , 即 𝐯 = 1, 𝑃𝐯𝐱 = 𝐯 𝐯 ⊤𝐱 , 投影坐标为𝐯 ⊤𝐱。 假设随机向量 𝐱 ∈ 𝑅 𝑝 的方差矩阵为Σ = var(𝐱), 𝐱在 在常数向量𝐯 ∈ 𝑆 𝑝−1上的投影坐标𝐯 ⊤𝐱是一个随机变量, 其方差为 var 𝐯 ⊤𝐱 = 𝐯 ⊤Σ𝐯. 哪个方向上投影方差/长度最大?

二次型定理1.若×正定矩阵的特征根为≥2≥…≥>0的极值对应的正交、单位长特征向量为v1,V2.,Vp),则MX T2= 最大值在特征向量v,达到,且对v2≤k≤pvTZV=ΛkmaxIvll=1,vV1..,Vk-1最大值在特征向量vk达到证明:记=diag(..,),V=(vi..,),TV=TV=I,即有谱分解=VAVT。对任何向量veSp-l,令y=VTv,则yy=l,vTzv=yAy,故v=Ay=aa=当y2=.=y。=0时等号成立,因为y=vv,故最大值在v1v2时即v=v,时达到。类似地,在vlv约束下,y=vx=0,所以zv=yAy=Zayi<n最大值在y,=.=y,=0,即v,v=...=v,v=O时达到,故v=v,时达到最大。以此类推。6
6 二次型 的极值 定理1. 若𝑝 × 𝑝 正定矩阵Σ 的特征根为𝜆1 ≥ 𝜆2 ≥ ⋯ ≥ 𝜆𝑝> 0, 对应的正交、单位长特征向量为𝐯1, 𝐯2, . , 𝐯𝑝), 则 max 𝐯 =1 𝐯 ⊤Σ𝐯 = 𝜆1 最大值在特征向量𝐯1达到,且对∀ 2 ≤ 𝑘 ≤ 𝑝 max 𝐯 =1,𝐯⊥𝐯1,.,𝐯𝑘−1 𝐯 ⊤Σ𝐯 = 𝜆𝑘 最大值在特征向量𝐯𝑘达到. 以此类推。 最大值在 ,即 时达到,故 时达到最大。 即 时达到。类似地,在 约束下, ,所以 当 时等号成立,因为 ,故最大值在 时, 。对任何向量 令 ,则 , ,故 证明:记 即 有谱分解 3 3 2 2 2 2 1 1 1 1 2 2 1 1 2 1 1 2 1 1 1 1 . 0 . 0 . 0 . 0 ,., , 1 diag( ,., ), ( ,., ), , v v v v v v v v y y v v v v v x v v v v v v v y y v y v y y v v y y v v T T T T T T T T T T T T T T T p p p i i i p k k p p i i p i i p p p p y y y y y y y y y V V S V V V V V V I

约定:口随机向量xERp方差矩阵Z=Var(x)>0的谱分解Z = VAVT, VTV = VVT = Ip, A = diag(A1.., ap),其中V=(Vi,,Vp),≥…≥>0为Z的特征根,V1.,Vp为对应的正交、单位长特征向量。口因为PCA只考虑方差,我们不妨假定uE(x)=0。主成分最大特征根的特征向量v1=argmaxvTZv称为第一主成分定义方向,x在vi上的投影坐标y1≤vTx称为第一主成分。在V的正交补空间,继续寻找投影长度最大的方向,vTzv称为第k主成分方向,x在Vk上maxVk = argvll=1,vIV1,.,Vk-的投影坐标yk≤vTx称为第k个主成分,k=2,.,p。(vTx)(vT):所有主成分(主成分变换):y=:X= VTxVTXVpV称为载荷矩阵。V = (v1, ,Vp) = (vi),行下标i:变量。列下标i:主成分
7 主成分 定义 约定: 随机向量𝐱 ∈ 𝑅 𝑝 , 方差矩阵Σ = var 𝐱 > 0的谱分解 Σ = 𝑉Λ𝑉 ⊤ ,𝑉 ⊤𝑉 = 𝑉𝑉 ⊤ = 𝐼𝑝, Λ = diag(𝜆1,., 𝜆𝑝), 其中𝑉 = (𝐯1, . , 𝐯𝑝), 𝜆1 ≥ ⋯ ≥ 𝜆𝑝> 0为Σ的特征根, 𝐯1, . , 𝐯𝑝为对应的正交、单位长特征向量。 因为PCA只考虑方差,我们不妨假定𝝁 = 𝐸 𝐱 = 0。 最大特征根的特征向量𝐯1 = arg max 𝐯 =1 𝐯 ⊤Σ𝐯 称为第一主成分 方向,𝐱 在𝐯1上的投影坐标𝑦1 ≜ 𝐯1 ⊤𝐱称为第一主成分。 在𝐯1的正交补空间,继续寻找投影长度最大的方向. 𝐯𝑘 = arg max 𝐯 =1,𝐯⊥𝐯1,.,𝐯𝑘−1 𝐯 ⊤Σ𝐯称为第𝑘主成分方向, 𝐱 在𝐯𝑘上 的投影坐标𝑦𝑘 ≜ 𝐯𝑘 ⊤𝐱称为第𝑘个主成分, 𝑘 = 2, . , 𝑝。 所有主成分 (主成分变换): 𝐲 = 𝐯1 ⊤𝐱 ⋮ 𝐯𝑝 ⊤𝐱 = 𝐯1 ⊤ ⋮ 𝐯𝒑 ⊤ 𝐱 = 𝑉 ⊤𝐱. 𝑉称为载荷矩阵。 𝑉 = 𝐯1, . , 𝐯𝑝 = 𝑣𝑖𝑗 , 行下标 𝑖 :变量。列下标 𝑗:主成分

主成分的主成分y=VTx的方差var(y)=VTzV=A,对角,各个主成方差分不相关,var(yi)=i,i=1,,p,第一主成分的方差最大,第二主成分次之,….显然所有主成分的方差之和等于所有x1.,x的方差之和tr(var(y) = tr(A) = tr(2) = tr(var(x)) = ^1 + .. + ^p载荷V作为PC的组合系数,其大小、符号代表了PC的含义。载荷矩阵注意:若v是特征向量/载荷,那么-V也是,所以解释PC含义时,正负号只有相对的含义。命题1.假设var()=>0,其谱分解Z=VAVT,V=(v1,,Vp)主成分y=VTx,则cov(x,yi)=Vj^j。证明:因为yj=vjx,所以cov(x, yj) = cov(x, vJx) = cov(x, x)vj = Zvj = Vj^j8
8 主成分的 方差 主成分 𝐲 = 𝑉 ⊤𝐱 的方差 var(𝐲)=𝑉 ⊤Σ𝑉 = Λ, 对角,各个主成 分不相关, var 𝑦𝑖 = 𝜆𝑖 , 𝑖 = 1, . , 𝑝, 第一主成分的方差最大, 第二主成分次之, . 显然所有主成分的方差之和等于所有𝑥1, . , 𝑥𝑝的方差之和: tr var 𝐲 = tr Λ = tr Σ = tr var 𝐱 = 𝜆1 + ⋯ + 𝜆𝑝 载荷矩阵 载荷𝑉作为PC的组合系数,其大小、符号代表了PC的含义。 注意:若 𝐯 是特征向量/载荷,那么 −𝐯 也是,所以解释 PC含义时,正负号只有相对的含义。 命题1. 假设var 𝐱 = Σ > 0,其谱分解Σ = 𝑉Λ𝑉 ⊤, 𝑉 = 𝐯1, . , 𝐯𝑝 , 主成分𝐲 = 𝑉 ⊤𝐱, 则 cov 𝐱, 𝑦𝑗 = 𝐯𝑗𝜆𝑗。 证明:因为 𝑦𝑗 = 𝐯𝒋 ⊤ 𝐱,所以 cov 𝐱, 𝑦𝑗 = cov 𝐱, 𝐯𝒋 ⊤ 𝐱 = cov 𝐱, 𝐱 𝐯𝑗 = Σ𝐯𝑗 = 𝐯𝑗𝜆𝑗

注:载荷(主成分方向)v;=cov(x,yj)/;αcov(x,yj),代表第j主成分与x的相关程度。cov(x, yj) = vj, = cov(xi,yj) = VijljVij代表x;与y;的相关程度。例1.若Z=α2I,所有特征根都是。,特征向量可取为任意一组正交基,各个主成分重要性相同。若=diag(oi.,pp)所有特征根o≥...≥のpp,特征向量vk=(O.....0)T,主成分y=xkk=l...p例2.若x=(x,x)的方差矩阵则其特征根为(1/ ~/21/ /21+p和1-p,对应的特征向量分别是v,1/ /2](-1/ V2两个主成分别为=x=(+x)//2,2==(x-x2)/V2,若p>0,则第一主成分y=(x+x2)//2;若p<0,则第一主成分y2=(x-x)/V29
9 注:载荷(主成分方向)𝐯𝑗 = cov 𝐱, 𝑦𝑗 /𝜆𝑗 ∝ cov 𝐱, 𝑦𝑗 ,代表第𝑗 主成分与𝐱的相关程度。 cov 𝐱, 𝑦𝑗 = 𝐯𝑗𝜆𝑗 ⇒ cov 𝑥𝑖 , 𝑦𝑗 = 𝒗𝑖𝑗𝜆𝑗 𝑣𝑖𝑗代表𝑥𝑖与𝑦𝑗的相关程度。 , 1,., . . (0,.,1,.,0) , diag( ,., ), 1. , 11 11 2 2 y x k p I k k pp k pp p 主成分 所有特征根 ,特征向量 一组正交基,各个主成分重要性相同。若 例 若 所有特征根都是 ,特征向量可取为任意 T v 0, ( )/ 2 0, ( )/ 2 ( )/ 2 ( )/ 2 1/ 2 1/ 2 1/ 2 1/ 2 1 1 1 1 2. ( , ) 1 1 2 2 1 2 1 1 1 2 2 2 1 2 1 2 1 2 y x x y x x y x x y x x x x 若 则第一主成分 ;若 则第一主成分 两个主成分别为 , , 和 ,对应的特征向量分别是 , 例 若 的方差矩阵 ,则其特征根为 x v x v v v x T T T

例3.假设p×向量x已经标准化,其协方差矩阵(相关系数矩阵)(1pp...11pp正定性要求cov(x)=Z ==plIT+(1-p)Ip, p>1p-1:0p-11.pp因为E1= p111+(1-p)1=(1+(p-1)p)1,所以1+(p-1)p>0是一个特征根,对应的特征向量为1/V/p另外,对任何v11,Zv=p11T+(1-p)v=(1-p)v,所以其它p-1个特征根都是1-p,任何v11都是特征向量。()p>0的情形:最大特征根为α=1+(p-1)p,第一主成分:J=1Tx/ /p=(x ++×,)/Jp,方差占比:1+(p-1)pp10
10 所以其它 个特征根都是 ,任何 都是特征向量。 , 另外,对任何 , 所以 是一个特征根,对应的特征向量为 因为 例 假设 向量 已经标准化,其协方差矩阵(相关系数矩阵) 1v v 11 vvv 1v 1 1 11 11 1 x 11 x 1 1 )1()1( 0)1(1 ./ ,))1(1()1( 1 1 ,)1( 1 1 1 )cov( .3 1 p p p p p I p p T T T 正定性要求 𝜌 > − 1 𝑝 − 1 . )1(1 ,/).(/ : : )1( :0 )1(1 1 1 1 p p y pxxp p p 第一主成分 方差占比 的情形 最大特征根为 , x1 T