§8.3主成分分析 多元分析讨论多变量(多指标)问题,由于变量 较多,增加了问题的复杂性。但在许多实际问题 中我们经常发现变量之间有一定的相关性,人们 自然希望用较少的变量来代替原来较多的变量, 且使这些较少的变量尽可能地反映原来变量的信 息。将这种思想引入统计学,就产生了主成分分 析,典型相关分析等。下面只介绍主成分分析 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 1 §8.3 主成分分析 多元分析讨论多变量(多指标)问题,由于变量 较多,增加了问题的复杂性。但在许多实际问题 中我们经常发现变量之间有一定的相关性,人们 自然希望用较少的变量来代替原来较多的变量, 且使这些较少的变量尽可能地反映原来变量的信 息。将这种思想引入统计学,就产生了主成分分 析,典型相关分析等。下面只介绍主成分分析
协方差阵Σ已知时的情形 设X=(X,X2,…,X)是一个维随机向量,其二 阶矩存在,记p=E(X,∑=D(X),∑已知。 考虑它的线性变换 H1=LX=lnX1+…+lnX, (8.23) Y=LX=L.X.+…+lX Pp P 其中 kok ),k=1,2,…,p 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 2 一、协方差阵Σ已知时的情形 设 ( , , , ) X = X1 X2 X p 是一个p 维随机向量,其二 阶矩存在,记 = E(X), = D(X), 已知。 考虑它的线性变换 = = + + = = + + , , 1 1 1 1 11 1 1 p pp p T p p p p T Y L X l X l X Y L X l X l X (8.23) Lk = (l 1k ,l 2k , ,kpk ),k = 1,2, , p 其中
易见 D(1)=L∑L,c0v(,)=L∑L,j=1,2,…,P 假如希望用Y来代替原来的个变量X1,…,X,这就 要求Y尽可能多地反映原来的个变量的信息,这里 的“信息”用什么来表达? 最经典的方法是用Y的方差来表达。 D(H)越大,表示F包的信息越多 由(824)看出,对L必须有某种限制,否则 可使D(Y1)→∞。 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 3 易见 i T D(Yi ) = Li L j T cov(Yi ,Yj ) = Li L i, j = 1,2, , p 假如希望用Y1来代替原来的p 个变量X X p , , 1 ,这就 要求Y1尽可能多地反映原来的p 个变量的信息,这里 的“信息”用什么来表达? 最经典的方法是用Y1的方差来表达。 ( ) D Y1 越大,表示Y1包的信息越多。 由(8.24)看出,对L1必须有某种限制,否则 可使D(Y1 ) →
常用的限制是 LL i=1,2,…,P (8.25) 故我们希望在约束式(8.25)下找L1,使得D(H)达到 最大,这样的Y称为第一主成分。 如果第一个主成分不足以代表原来的个变量,就考虑 采用Y,为了最有效地代表原变量的信息,Y,中不应含 有已有的信息,用数学公式来表达就应有 C0v(Y1,y2)=0 于是,求V就转化为在约束式(825)和式(826)下 求L2,使D(Y2)达到最大,所求的2称为第二主成分。 湘潭大学数学与计算科学学院国国4层m
湘潭大学数学与计算科学学院 上一页 下一页 4 常用的限制是 = 1, i T Li L i = 1,2, , p (8.25) 故我们希望在约束式(8.25)下找L1 ,使得 ( ) D Y1 达到 最大,这样的Y1称为第一主成分。 如果第一个主成分不足以代表原来的p 个变量,就考虑 采用Y2,为了最有效地代表原变量的信息,Y2 中不应含 有Y1已有的信息, 用数学公式来表达就应有 cov(Y1 ,Y2 ) = 0 于是,求Y2 就转化为在约束式(8.25)和式(8.26)下 求L2,使 ( ) D Y2 达到最大,所求的Y2 称为第二主成分
类似地,我们可能定义第三主成分、第四主成分,…。 般地讲X的第个主成分Y=LX是指:在约束式(8.25) 及c0v(LX1,DX)=0(k<i)下求L,使得D(Y)达到最大。 令λ1,2,…,为∑的特征根(λ1≥2≥…n≥0), t1,t2,…,tn为相应的单位特征向量 若特征根有重根,对应于这个重根的特征向量组成一个 R的子空间,子空间的维数等于重根的次数。 在子空间中任取一组正交的坐标系,这个坐标系的单位向 量就可用来作为它的特征向量。 显然这时特征向量的取法不惟一,有无穷多种取法,在 下面的讨论中我们总假定已选定某一种取法。 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 5 类似地,我们可能定义第三主成分、第四主成分,…。 一般地讲X 的第i个主成分Y L X T i = i 是指:在约束式(8.25) 及cov(L X , L X ) 0(k i) T i k T i = 下求Li,使得 ( ) D Yi 达到最大。 令 p , , , 1 2 为 的特征根 ( 0) 1 2 p , p t ,t , ,t 1 2 为相应的单位特征向量。 若特征根有重根,对应于这个重根的特征向量组成一个 p R 的子空间,子空间的维数等于重根的次数。 在子空间中任取一组正交的坐标系,这个坐标系的单位向 量就可用来作为它的特征向量。 显然这时特征向量的取法不惟一,有无穷多种取法,在 下面的讨论中我们总假定已选定某一种取法
定理8.6设X为维随机向量,且∑=D(X)存 在,则X的第个主成分与方差D()分别为 H=t1X,D(H)=,i=1,2,…,p, 其中λ为∑的特征值,t为对应的单位特征向量。 定理的证明要用到较深的线性代数知识,故此省略。 若记 0 A 0 (8.27) T=(t1,t2…, P Y=(Y Y…Y 1129 P 湘潭大学数学与计算科学院一页一页6
湘潭大学数学与计算科学学院 上一页 下一页 6 定理 8.6 设X 为p 维随机向量,且 = D(X)存 在,则X 的第i 个主成分Yi 与方差 ( ) D Yi 分别为 Y t X T i = i , D Yi = i ( ) ,i = 1,2,, p , 其中i 为的特征值, i t 为对应i 的单位特征向量。 定理的证明要用到较深的线性代数知识,故此省略。 若记 = p A 0 0 2 1 ( , , , ) 1 2 p T T = t t t (8.27) ( , , ) 1 2 p T Y = Y Y Y
则由定理可得如下等价说法。 系设为维随机向量的分量V,…,Y依次是 X的第一主成分…,第主成分的充要条件是 (1)Y=TX,T为正交阵; (2)D(Y)为对角阵dag(巩,2,…,n); (3)1≥几2≥…≥λ 若设正交阵T=(tn),i,=1,2,…,P,则可得以下结论: (1)D(Y)=A其中A由(8.27)式给出 (2)∑=∑σ其中为矩障∑主对角线上的第 个元素; 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 7 则由定理可得如下等价说法。 系 设Y 为p 维随机向量,Y 的分量Y Yp , , 1 依次是 X 的第一主成分…,第p 主成分的充要条件是: (1)Y T X T = ,T 为正交阵; (2)D(Y )为对角阵diag( , , , ) 1 2 p ; (3)1 2 p。 若设正交阵 ( )i j T = t ,i, j = 1,2,, p,则可得以下结论: (1)D(Y ) = A其中A由(8.27)式给出: (2) = = = p i i i p i i 1 1 其中 i i 为矩阵 主对角线上的第i 个元素;
(3)主成分与原来变量X的相关系数p(x,X1 称做因子负荷量 p(K,X,)=√气t1/√Gn,k,i=1,2,…,P;(8.29) (4)∑p(,X)=; (8.30) (5)∑p(Y,X)=∑a=1。(831 k=1 定义82在主成分分析中,称λ∑为主成分的贡 献率,称∑/∑为主成分H,,的累计贡献率 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 8 (3)主成分Yk 与原来变量 Xi 的相关系数 ( , ) Yk Xi 称做因子负荷量 (Yk , Xi ) = k t i k / i i , k,i = 1,2,, p; (8.29) (4) k i k p i i i Y X = = ( , ) 1 2 ; (8.30) (5) = = = = p k k i k i k i i p k Y X t 1 2 1 2 ( , ) 1。 (8.31) 定义 8.2 在主成分分析中,称 = p i k i 1 / 为主成分Yk 的贡 献率,称 = = p i i m i i 1 1 / 为主成分Y Ym , , 1 的累计贡献率
通常取m,使得累计贡献率超过85%(有时只需超过 80%)。累计贡献率是表达m个主成分提取 X1,X2,,X,的多少信息的一个量,但它并没有表达某 个变量被提取了多少信息,为此还需要另一个概念。 定义83m个主成分Y1,…,Y对于原变量X的 贡献率v是X分别与Y1,…,Y相关系数的平方和,即 ∑ 见.t2/c (832) 下面给出一个例子,说明的用途 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 9 通常取m ,使得累计贡献率超过 85%(有时只需超过 80% )。 累 计 贡 献 率 是 表 达 m 个主成分提取 X X X p , , , 1 2 的多少信息的一个量,但它并没有表达某 个变量被提取了多少信息,为此还需要另一个概念。 定义 8.3 m个主成分Y Ym , , 1 对于原变量 Xi的 贡献率 i v 是Xi分别与Y Ym , , 1 相关系数的平方和,即 = = m k i k i k i i v t 1 2 / 。 (8.32) 下面给出一个例子,说明的用途。 i v
例8.7设X=(X1,X2,X3的协差阵为 20 ∑=-250 002 已求得 11=5.83, 0.383 0.924 2=20,t;=-0.924 t,=0.383 x3=0.17, 0.000 001 0.000 如果只取第一个主成分,贡献率可达 583/(583+200+0.17)=0.72875=72875% 似乎很理想, 湘潭大学数学与计算科学学院一页一页
湘潭大学数学与计算科学学院 上一页 下一页 10 例 8.7 设 ( , , ) X = X1 X2 X3 的协差阵为 − − = 0 0 2 2 5 0 1 2 0 , 已求得 = = = 0.17, 2.00, 5.83, 3 2 1 , 0.000 0.924 0.383 1 t = − , 1 0 0 2 t = = 0.000 0.383 0.924 3 t 如果只取第一个主成分,贡献率可达 5.83 /(5.83 + 2.00 + 0.17) = 0.728 75 = 72.875% 似乎很理想