当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

湘潭大学:《数理统计》课程教学资源(PPT课件讲稿)第八章(8.3)主成分分析

资源类别:文库,文档格式:PPT,文档页数:24,文件大小:438.5KB,团购合买
多元分析讨论多变量(多指标)问题,由于变量较多,增加了问题的复杂性。但在许多实际问题中我们经常发现变量之间有一定的相关性,人们自然希望用较少的变量来代替原来较多的变量, 且使这些较少的变量尽可能地反映原来变量的信息。将这种思想引入统计学,就产生了主成分分析,典型相关分析等。下面只介绍主成分分析。
点击下载完整版文档(PPT)

§8.3主成分分析 多元分析讨论多变量(多指标)问题,由于变量 较多,增加了问题的复杂性。但在许多实际问题 中我们经常发现变量之间有一定的相关性,人们 自然希望用较少的变量来代替原来较多的变量, 且使这些较少的变量尽可能地反映原来变量的信 息。将这种思想引入统计学,就产生了主成分分 析,典型相关分析等。下面只介绍主成分分析 湘潭大学数学与计算科学学院一页一页

湘潭大学数学与计算科学学院 上一页 下一页 1 §8.3 主成分分析 多元分析讨论多变量(多指标)问题,由于变量 较多,增加了问题的复杂性。但在许多实际问题 中我们经常发现变量之间有一定的相关性,人们 自然希望用较少的变量来代替原来较多的变量, 且使这些较少的变量尽可能地反映原来变量的信 息。将这种思想引入统计学,就产生了主成分分 析,典型相关分析等。下面只介绍主成分分析

协方差阵Σ已知时的情形 设X=(X,X2,…,X)是一个维随机向量,其二 阶矩存在,记p=E(X,∑=D(X),∑已知。 考虑它的线性变换 H1=LX=lnX1+…+lnX, (8.23) Y=LX=L.X.+…+lX Pp P 其中 kok ),k=1,2,…,p 湘潭大学数学与计算科学学院一页一页

湘潭大学数学与计算科学学院 上一页 下一页 2 一、协方差阵Σ已知时的情形 设 ( , , , ) X = X1 X2  X p 是一个p 维随机向量,其二 阶矩存在,记 = E(X), = D(X), 已知。 考虑它的线性变换      = = + + = = + + , , 1 1 1 1 11 1 1 p pp p T p p p p T Y L X l X l X Y L X l X l X    (8.23) Lk = (l 1k ,l 2k ,  ,kpk ),k = 1,2,  , p 其中

易见 D(1)=L∑L,c0v(,)=L∑L,j=1,2,…,P 假如希望用Y来代替原来的个变量X1,…,X,这就 要求Y尽可能多地反映原来的个变量的信息,这里 的“信息”用什么来表达? 最经典的方法是用Y的方差来表达。 D(H)越大,表示F包的信息越多 由(824)看出,对L必须有某种限制,否则 可使D(Y1)→∞。 湘潭大学数学与计算科学学院一页一页

湘潭大学数学与计算科学学院 上一页 下一页 3 易见 i T D(Yi ) = Li  L j T cov(Yi ,Yj ) = Li  L i, j = 1,2,  , p 假如希望用Y1来代替原来的p 个变量X X p , , 1  ,这就 要求Y1尽可能多地反映原来的p 个变量的信息,这里 的“信息”用什么来表达? 最经典的方法是用Y1的方差来表达。 ( ) D Y1 越大,表示Y1包的信息越多。 由(8.24)看出,对L1必须有某种限制,否则 可使D(Y1 ) → 

常用的限制是 LL i=1,2,…,P (8.25) 故我们希望在约束式(8.25)下找L1,使得D(H)达到 最大,这样的Y称为第一主成分。 如果第一个主成分不足以代表原来的个变量,就考虑 采用Y,为了最有效地代表原变量的信息,Y,中不应含 有已有的信息,用数学公式来表达就应有 C0v(Y1,y2)=0 于是,求V就转化为在约束式(825)和式(826)下 求L2,使D(Y2)达到最大,所求的2称为第二主成分。 湘潭大学数学与计算科学学院国国4层m

湘潭大学数学与计算科学学院 上一页 下一页 4 常用的限制是 = 1, i T Li L i = 1,2,  , p (8.25) 故我们希望在约束式(8.25)下找L1 ,使得 ( ) D Y1 达到 最大,这样的Y1称为第一主成分。 如果第一个主成分不足以代表原来的p 个变量,就考虑 采用Y2,为了最有效地代表原变量的信息,Y2 中不应含 有Y1已有的信息, 用数学公式来表达就应有 cov(Y1 ,Y2 ) = 0 于是,求Y2 就转化为在约束式(8.25)和式(8.26)下 求L2,使 ( ) D Y2 达到最大,所求的Y2 称为第二主成分

类似地,我们可能定义第三主成分、第四主成分,…。 般地讲X的第个主成分Y=LX是指:在约束式(8.25) 及c0v(LX1,DX)=0(k<i)下求L,使得D(Y)达到最大。 令λ1,2,…,为∑的特征根(λ1≥2≥…n≥0), t1,t2,…,tn为相应的单位特征向量 若特征根有重根,对应于这个重根的特征向量组成一个 R的子空间,子空间的维数等于重根的次数。 在子空间中任取一组正交的坐标系,这个坐标系的单位向 量就可用来作为它的特征向量。 显然这时特征向量的取法不惟一,有无穷多种取法,在 下面的讨论中我们总假定已选定某一种取法。 湘潭大学数学与计算科学学院一页一页

湘潭大学数学与计算科学学院 上一页 下一页 5 类似地,我们可能定义第三主成分、第四主成分,…。 一般地讲X 的第i个主成分Y L X T i = i 是指:在约束式(8.25) 及cov(L X , L X ) 0(k i) T i k T i =  下求Li,使得 ( ) D Yi 达到最大。 令    p , , , 1 2  为  的特征根 ( 0) 1   2   p  , p t ,t , ,t 1 2  为相应的单位特征向量。 若特征根有重根,对应于这个重根的特征向量组成一个 p R 的子空间,子空间的维数等于重根的次数。 在子空间中任取一组正交的坐标系,这个坐标系的单位向 量就可用来作为它的特征向量。 显然这时特征向量的取法不惟一,有无穷多种取法,在 下面的讨论中我们总假定已选定某一种取法

定理8.6设X为维随机向量,且∑=D(X)存 在,则X的第个主成分与方差D()分别为 H=t1X,D(H)=,i=1,2,…,p, 其中λ为∑的特征值,t为对应的单位特征向量。 定理的证明要用到较深的线性代数知识,故此省略。 若记 0 A 0 (8.27) T=(t1,t2…, P Y=(Y Y…Y 1129 P 湘潭大学数学与计算科学院一页一页6

湘潭大学数学与计算科学学院 上一页 下一页 6 定理 8.6 设X 为p 维随机向量,且 = D(X)存 在,则X 的第i 个主成分Yi 与方差 ( ) D Yi 分别为 Y t X T i = i , D Yi =  i ( ) ,i = 1,2,, p , 其中i 为的特征值, i t 为对应i 的单位特征向量。 定理的证明要用到较深的线性代数知识,故此省略。 若记           = p A    0 0 2 1 ( , , , ) 1 2 p T T = t t  t (8.27) ( , , ) 1 2 p T Y = Y Y Y

则由定理可得如下等价说法。 系设为维随机向量的分量V,…,Y依次是 X的第一主成分…,第主成分的充要条件是 (1)Y=TX,T为正交阵; (2)D(Y)为对角阵dag(巩,2,…,n); (3)1≥几2≥…≥λ 若设正交阵T=(tn),i,=1,2,…,P,则可得以下结论: (1)D(Y)=A其中A由(8.27)式给出 (2)∑=∑σ其中为矩障∑主对角线上的第 个元素; 湘潭大学数学与计算科学学院一页一页

湘潭大学数学与计算科学学院 上一页 下一页 7 则由定理可得如下等价说法。 系 设Y 为p 维随机向量,Y 的分量Y Yp , , 1  依次是 X 的第一主成分…,第p 主成分的充要条件是: (1)Y T X T = ,T 为正交阵; (2)D(Y )为对角阵diag( , , , ) 1  2   p ; (3)1   2    p。 若设正交阵 ( )i j T = t ,i, j = 1,2,, p,则可得以下结论: (1)D(Y ) = A其中A由(8.27)式给出: (2)  = = = p i i i p i i 1 1   其中 i i 为矩阵 主对角线上的第i 个元素;

(3)主成分与原来变量X的相关系数p(x,X1 称做因子负荷量 p(K,X,)=√气t1/√Gn,k,i=1,2,…,P;(8.29) (4)∑p(,X)=; (8.30) (5)∑p(Y,X)=∑a=1。(831 k=1 定义82在主成分分析中,称λ∑为主成分的贡 献率,称∑/∑为主成分H,,的累计贡献率 湘潭大学数学与计算科学学院一页一页

湘潭大学数学与计算科学学院 上一页 下一页 8 (3)主成分Yk 与原来变量 Xi 的相关系数 ( , )  Yk Xi 称做因子负荷量 (Yk , Xi ) =  k t i k /  i i , k,i = 1,2,, p; (8.29) (4) k i k p i  i i Y X =  = ( , ) 1 2 ; (8.30) (5)  = = = = p k k i k i k i i p k Y X t 1 2 1 2  ( , )   1。 (8.31) 定义 8.2 在主成分分析中,称 = p i k i 1  /  为主成分Yk 的贡 献率,称  = = p i i m i i 1 1  /  为主成分Y Ym , , 1  的累计贡献率

通常取m,使得累计贡献率超过85%(有时只需超过 80%)。累计贡献率是表达m个主成分提取 X1,X2,,X,的多少信息的一个量,但它并没有表达某 个变量被提取了多少信息,为此还需要另一个概念。 定义83m个主成分Y1,…,Y对于原变量X的 贡献率v是X分别与Y1,…,Y相关系数的平方和,即 ∑ 见.t2/c (832) 下面给出一个例子,说明的用途 湘潭大学数学与计算科学学院一页一页

湘潭大学数学与计算科学学院 上一页 下一页 9 通常取m ,使得累计贡献率超过 85%(有时只需超过 80% )。 累 计 贡 献 率 是 表 达 m 个主成分提取 X X X p , , , 1 2  的多少信息的一个量,但它并没有表达某 个变量被提取了多少信息,为此还需要另一个概念。 定义 8.3 m个主成分Y Ym , , 1  对于原变量 Xi的 贡献率 i v 是Xi分别与Y Ym , , 1  相关系数的平方和,即 = = m k i k i k i i v t 1 2  / 。 (8.32) 下面给出一个例子,说明的用途。 i v

例8.7设X=(X1,X2,X3的协差阵为 20 ∑=-250 002 已求得 11=5.83, 0.383 0.924 2=20,t;=-0.924 t,=0.383 x3=0.17, 0.000 001 0.000 如果只取第一个主成分,贡献率可达 583/(583+200+0.17)=0.72875=72875% 似乎很理想, 湘潭大学数学与计算科学学院一页一页

湘潭大学数学与计算科学学院 上一页 下一页 10 例 8.7 设 ( , , ) X = X1 X2 X3 的协差阵为           − −  = 0 0 2 2 5 0 1 2 0 , 已求得      = = = 0.17, 2.00, 5.83, 3 2 1    , 0.000 0.924 0.383 1           t = − , 1 0 0 2           t =           = 0.000 0.383 0.924 3 t 如果只取第一个主成分,贡献率可达 5.83 /(5.83 + 2.00 + 0.17) = 0.728 75 = 72.875% 似乎很理想

点击下载完整版文档(PPT)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共24页,试读已结束,阅读完整版请下载
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有