第五章主成分分析
zf 第五章 主成分分析
主成分分析的重点 令1、掌握什么是主成分分析? 令2、理解主成分分析的基本思想和几何意义? ◇3、理解主成分求解方法:协方差矩阵与相 关系数矩阵的差异? 4、掌握运用SPSS或SAS软件求解主成分 令5、对软件输岀结果进行正确分析 2021/2/22 2 cxt
2021/2/22 2 cxt 主成分分析的重点 ❖ 1、掌握什么是主成分分析? ❖ 2、理解主成分分析的基本思想和几何意义? ❖ 3、理解主成分求解方法:协方差矩阵与相 关系数矩阵的差异? ❖ 4、掌握运用SPSS或SAS软件求解主成分 ❖ 5、对软件输出结果进行正确分析
5.1主成分分析的基本思想 一项十分著名的工作是美国的统计学家斯通 ( stone)在1947年关于国民经济的研究。他 曾利用美国1929-1938年各年的数据,得 到了17个反映国民收入与支出的变量要素 例如雇主补贴、消费资料和生产资料、纯公 共支出、净增库存、股息、利息外贸平衡等 等。 2021/2/22 cxt
2021/2/22 3 cxt 5.1 主成分分析的基本思想 一项十分著名的工作是美国的统计学家斯通 (stone)在1947年关于国民经济的研究。他 曾利用美国1929一1938年各年的数据,得 到了17个反映国民收入与支出的变量要素, 例如雇主补贴、消费资料和生产资料、纯公 共支出、净增库存、股息、利息外贸平衡等 等
◆在进行主成分分析后,竟以97.4%的精度, 用三新变量就取代了原17个变量。根据经济 学知识,斯通给这三个新变量分别命名为总 收入F1、总收入变化率F2和经济发展或衰退 的趋势F3。更有意思的是,这三个变量其实 都是可以直接测量的。斯通将他得到的主成 分与实际测量的总收入I、总收入变化率∧以 及时间t因素做相关分析,得到下表 2021/2/22 4 cxt
2021/2/22 4 cxt ❖ 在进行主成分分析后,竟以97.4%的精度, 用三新变量就取代了原17个变量。根据经济 学知识,斯通给这三个新变量分别命名为总 收入F1、总收入变化率F2和经济发展或衰退 的趋势F3。更有意思的是,这三个变量其实 都是可以直接测量的。斯通将他得到的主成 分与实际测量的总收入I、总收入变化率I以 及时间t因素做相关分析,得到下表:
F1 F2 F3 F1 F2 F3 0 0 0.995-0.0410.057 △i 0.0560.948-0.124-0.102 t 0.369-0.282-0.836-0.414-0.1121 2021/2722 5 cxt
2021/2/22 5 cxt F1 F2 F3 i i t F1 1 F2 0 1 F3 0 0 1 i 0.995 -0.041 0.057 l Δi -0.056 0.948 -0.124 -0.102 l t -0.369 -0.282 -0.836 -0.414 -0.112 1
◆主成分分析:将原来较多的指标简化为少数 几个新的综合指标的多元统计方法。 ◆主成分:由原始指标综合形成的几个新指标 依据主成分所含信息量的大小成为第一主成 分,第二主成分等等。 2021/2/22 6 cxt
2021/2/22 6 cxt ❖ 主成分分析:将原来较多的指标简化为少数 几个新的综合指标的多元统计方法。 ❖ 主成分:由原始指标综合形成的几个新指标。 依据主成分所含信息量的大小成为第一主成 分,第二主成分等等
令主成分分析得到的主成分与原始变量之间的关 系 1、主成分保留了原始变量绝大多数信息 2、主成分的个数大大少于原始变量的数目 3、各个主成分之间互不相关 4、每个主成分都是原始变量的线性组合。 2021/2/22 cxt
2021/2/22 7 cxt ❖ 主成分分析得到的主成分与原始变量之间的关 系: 1、主成分保留了原始变量绝大多数信息。 2、主成分的个数大大少于原始变量的数目。 3、各个主成分之间互不相关。 4、每个主成分都是原始变量的线性组合
令主成分分析的运用: 1、对一组内部相关的变量作简化的描述 2、用来削减回归分析或群集分析( Cluster)中变量的数 目 3、用来检查异常点 4、用来作多重共线性鉴定 5、用来做原来数据的常态检定 2021/2/22 8 cxt
2021/2/22 8 cxt ❖ 主成分分析的运用: 1、对一组内部相关的变量作简化的描述 2、用来削减回归分析或群集分析(Cluster)中变量的数 目 3、用来检查异常点 4、用来作多重共线性鉴定 5、用来做原来数据的常态检定
二、数学模型与几何解释-数学模型 令假设我们所讨论的实际问题中,有p个指标,我 们把这p个指标看作p个随机变量,记为X1 X 21 Ⅹ,主成分分析就是要把这p个指标 的问题,转变为讨论p个指标的线性组合的问题 而这些新的指标F1,F2,…,Fk(ksp),按照 保留主要信息量的原则充分反映原指标的信息, 并且相互独立。 2021/2/22 cxt
2021/2/22 9 cxt 二、数学模型与几何解释-数学模型 ❖ 假设我们所讨论的实际问题中,有p个指标,我 们把这p个指标看作p个随机变量,记为X1, X2,…,Xp,主成分分析就是要把这p个指标 的问题,转变为讨论p个指标的线性组合的问题, 而这些新的指标F1,F2,…,Fk (k≤p),按照 保留主要信息量的原则充分反映原指标的信息, 并且相互独立
◆这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分 析通常的做法是,寻求原指标的线性组合 F X1+1,X,+…+LL,X F2=2X1+2X2+…+un2Xn F=1.X,+L1X+…+llX 2021/2/22 10 cxt
2021/2/22 10 cxt ❖ 这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分 析通常的做法是,寻求原指标的线性组合 Fi。 p p p pp p p p p p F u X u X u X F u X u X u X F u X u X u X = + + + = + + + = + + + 1 1 2 2 2 12 1 22 2 2 1 11 1 21 2 1