第五章主成分分析
zf 第五章 主成分分析
主成分分析的重点 令1、掌握什么是主成分分析? 令2、理解主成分分析的基本思想和几何意义? ☆3、理解主成分求解方法:协方差矩阵与相 关系数矩阵的差异? ◆4、掌握运用SPSS或SAS软件求解主成分 ◆5、对软件输出结果进行正确分析 2021/1/21
2021/1/21 2 cxt 主成分分析的重点 ❖ 1、掌握什么是主成分分析? ❖ 2、理解主成分分析的基本思想和几何意义? ❖ 3、理解主成分求解方法:协方差矩阵与相 关系数矩阵的差异? ❖ 4、掌握运用SPSS或SAS软件求解主成分 ❖ 5、对软件输出结果进行正确分析
51主成分分析的基本思想 一项十分著名的工作是美国的统计学家斯通 ( stone)在1947年关于国民经济的研究。他 曾利用美国19291938年各年的数据,得 到了17个反映国民收入与支出的变量要素 例如雇主补贴、消费资料和生产资料、纯公 共支出、净增库存、股息、利息外贸平衡等 一等 2021/1/21 cXt
2021/1/21 3 cxt 5.1 主成分分析的基本思想 一项十分著名的工作是美国的统计学家斯通 (stone)在1947年关于国民经济的研究。他 曾利用美国1929一1938年各年的数据,得 到了17个反映国民收入与支出的变量要素, 例如雇主补贴、消费资料和生产资料、纯公 共支出、净增库存、股息、利息外贸平衡等 等
令在进行主成分分析后,竟以974%的精度, 用三新变量就取代了原17个变量。根据经济 学知识,斯通给这三个新变量分别命名为总 收入F1、总收入变化率F2和经济发展或衰退 的趋势F3。更有意思的是,这三个变量其实 都是可以直接测量的。斯通将他得到的主成 分与实际测量的总收入I、总收入变化率N以 及时间因素做相关分析,得到下表 2021/1/21
2021/1/21 4 cxt ❖ 在进行主成分分析后,竟以97.4%的精度, 用三新变量就取代了原17个变量。根据经济 学知识,斯通给这三个新变量分别命名为总 收入F1、总收入变化率F2和经济发展或衰退 的趋势F3。更有意思的是,这三个变量其实 都是可以直接测量的。斯通将他得到的主成 分与实际测量的总收入I、总收入变化率I以 及时间t因素做相关分析,得到下表:
FI F2 F3 FI F2 0 F3 0.9950.0410.0571 △10.0560.9480.124-0.1021 369-0.282-0.836-0.414-0.1121 2021/1/21 cXt
2021/1/21 5 cxt F1 F2 F3 i i t F1 1 F2 0 1 F3 0 0 1 i 0.995 -0.041 0.057 l Δi -0.056 0.948 -0.124 -0.102 l t -0.369 -0.282 -0.836 -0.414 -0.112 1
令主成分分析:将原来较多的指标简化为少数 几个新的综合指标的多元统计方法。 令主成分:由原始指标综合形成的几个新指标 依据主成分所含信息量的大小成为第一主成 分,第二主成分等等。 2021/1/21
2021/1/21 6 cxt ❖ 主成分分析:将原来较多的指标简化为少数 几个新的综合指标的多元统计方法。 ❖ 主成分:由原始指标综合形成的几个新指标。 依据主成分所含信息量的大小成为第一主成 分,第二主成分等等
☆主成分分析得到的主成分与原始变量之间的关 系: 1、主成分保留了原始变量绝大多数信息。 2、主成分的个数大大少于原始变量的数目。 3、各个主成分之间互不相关 4、每个主成分都是原始变量的线性组合 2021/1/21 cXt
2021/1/21 7 cxt ❖ 主成分分析得到的主成分与原始变量之间的关 系: 1、主成分保留了原始变量绝大多数信息。 2、主成分的个数大大少于原始变量的数目。 3、各个主成分之间互不相关。 4、每个主成分都是原始变量的线性组合
☆主成分分析的运用: 1、对一组内部相关的变量作简化的描述 2、用来削减回归分析或群集分析( Cluster)中变量的数 3、用来检查异常点 4、用来作多重共线性鉴定 5、用来做原来数据的常态检定 2021/1/21
2021/1/21 8 cxt ❖ 主成分分析的运用: 1、对一组内部相关的变量作简化的描述 2、用来削减回归分析或群集分析(Cluster)中变量的数 目 3、用来检查异常点 4、用来作多重共线性鉴定 5、用来做原来数据的常态检定
二、数学模型与几何解释-数学模型 令假设我们所讨论的实际问题中,有p个指标,我 们把这p个指标看作p个随机变量,记为X1, Ⅹ2,…,X。,主成分分析就是要把这p个指标 的问题,转变为讨论个指标的线性组合的问题, 而这些新的指标F1,F2…FRk≤p),按照 保留主要信息量的原则充分反映原指标的信息 并且相互独立。 2021/1/21 cXt
2021/1/21 9 cxt 二、数学模型与几何解释-数学模型 ❖ 假设我们所讨论的实际问题中,有p个指标,我 们把这p个指标看作p个随机变量,记为X1, X2,…,Xp,主成分分析就是要把这p个指标 的问题,转变为讨论p个指标的线性组合的问题, 而这些新的指标F1,F2,…,Fk (k≤p),按照 保留主要信息量的原则充分反映原指标的信息, 并且相互独立
令这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分 析通常的做法是,寻求原指标的线性组合 +Ll1X,+…+Ln1X F=,X,+1lX,+·+lLX p22-p X,+l.X,+∴+lLX P P P 2021/1/21 10 cXt
2021/1/21 10 cxt ❖ 这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分 析通常的做法是,寻求原指标的线性组合 Fi。 p p p pp p p p p p F u X u X u X F u X u X u X F u X u X u X = + + + = + + + = + + + 1 1 2 2 2 12 1 22 2 2 1 11 1 21 2 1