主成分分析
主成分分析
§1基本恩想 项十分著名的工作是美国的统计学家斯通 ( stone)在1947年关于国民经济的研究。他曾利用美 国1929-1938年各年的数据,得到了17个反映国民 收入与支出的变量要素,例如雇主补贴、消费资料 和生产资料、纯公共支出、净增库存、股息、利息 外贸平衡等等
一项十分著名的工作是美国的统计学家斯通 (stone)在1947年关于国民经济的研究。他曾利用美 国1929一1938年各年的数据,得到了17个反映国民 收入与支出的变量要素,例如雇主补贴、消费资料 和生产资料、纯公共支出、净增库存、股息、利息 外贸平衡等等。 §1 基本思想
在进行主成分分析后,竞以97.4%的精度, 用三新变量就取代了原17个变量。根据经济 知识,斯通给这三个新变量分别命名为总 收入F1、总收入变化率F2和经济发展或衰退 的趋势F3。更有意思的是,这三个变量其实 都是可以直接测量的。斯通将他得到的主成 分与实际测量的总收入I、总收入变化率A以 及时间t因素做相关分析,得到下表:
在进行主成分分析后,竟以97.4%的精度, 用三新变量就取代了原17个变量。根据经济 学知识,斯通给这三个新变量分别命名为总 收入F1、总收入变化率F2和经济发展或衰退 的趋势F3。更有意思的是,这三个变量其实 都是可以直接测量的。斯通将他得到的主成 分与实际测量的总收入I、总收入变化率I以 及时间t因素做相关分析,得到下表:
F1 F2 F3 ∧工 F1 F2 F3 0 0 0.995-0.0410.057 △工 0.0560.948-0.124-0.102 t 0.369-0.282-0.836-0.414-0.1121
F1 F2 F3 I I t F1 1 F2 0 1 F3 0 0 1 I 0.995 -0.041 0.057 l ΔI -0.056 0.948 -0.124 -0.102 l t -0.369 -0.282 -0.836 -0.414 -0.112 1
主成分分析是把各变量之间互相关联的复杂 关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析 和研究问题,必须考虑许多经济指标,这些指标 能从不同的侧面反映我们所研究的对象的特征, 但在某种程度上存在信息的重叠,具有一定的相 关性
主成分分析是把各变量之间互相关联的复杂 关系进行简化分析的方法。 在社会经济的研究中,为了全面系统的分析 和研究问题,必须考虑许多经济指标,这些指标 能从不同的侧面反映我们所研究的对象的特征, 但在某种程度上存在信息的重叠,具有一定的相 关性
主成分分析试图在力保数据信息丢失最少 的原则下,对这种多变量的截面数据表进行 最佳综合简化,也就是说,对高维变量空间 进行降维处理。 很显然,识辨系统在一个低维空间要比 在一个高维空间容易得多
主成分分析试图在力保数据信息丢失最少 的原则下,对这种多变量的截面数据表进行 最佳综合简化,也就是说,对高维变量空间 进行降维处理。 很显然,识辨系统在一个低维空间要比 在一个高维空间容易得多
在力求数据信息丢失最少的原则下,对高维的变 量空间降维,即研究指标体系的少数几个线性组合, 并且这几个线性组合所构成的综合指标将尽可能多 地保留原来指标变异方面的信息。这些综合指标就 称为主成分。要讨论的问题是: (1)基于相关系数矩阵还是基于协方差 矩阵做主成分分析。当分析中所选择的经济变 量具有不同的量纲,变量水平差异很大,应该 选择基于相关系数矩阵的主成分分析
(1) 基于相关系数矩阵还是基于协方差 矩阵做主成分分析。当分析中所选择的经济变 量具有不同的量纲,变量水平差异很大,应该 选择基于相关系数矩阵的主成分分析。 在力求数据信息丢失最少的原则下,对高维的变 量空间降维,即研究指标体系的少数几个线性组合, 并且这几个线性组合所构成的综合指标将尽可能多 地保留原来指标变异方面的信息。这些综合指标就 称为主成分。要讨论的问题是:
(2)选择几个主成分。主成分分析的目 的是简化变量,一般情况下主成分的个数应 该小于原始变量的个数。关于保留几个主成 分,应该权衡主成分个数和保留的信息。 (3)如何解释主成分所包含的经济意义
(2) 选择几个主成分。主成分分析的目 的是简化变量,一般情况下主成分的个数应 该小于原始变量的个数。关于保留几个主成 分,应该权衡主成分个数和保留的信息。 (3)如何解释主成分所包含的经济意义
§2数学型与几何解驿 假设我们所讨论的实际问题中,有p个指 ,我们把这p个指标看作p个随机变量,记为X1, ,X,主成分分析就是要把这p个指标的问 ,转变为讨论p个指标的线性组合的问题,而 这些新的指标F1,F2,…,F(k≤p),按照保留 主要信息量的原则充分反映原指标的信息,并且 相互独立
§2 数学模型与几何解释 假设我们所讨论的实际问题中,有p个指 标,我们把这p个指标看作p个随机变量,记为X1, X2,…,Xp,主成分分析就是要把这p个指标的问 题,转变为讨论p个指标的线性组合的问题,而 这些新的指标F1,F2,…,Fk(k≤p),按照保留 主要信息量的原则充分反映原指标的信息,并且 相互独立
这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通 常的做法是,寻求原指标的线性组合F F1=a41X1+221X2+…+n1X X,+LX+…+lX X,+l1X+…+X
p p p pp p p p p p F u X u X u X F u X u X u X F u X u X u X = + + + = + + + = + + + 1 1 2 2 2 12 1 22 2 2 1 11 1 21 2 1 这种由讨论多个指标降为少数几个综合指 标的过程在数学上就叫做降维。主成分分析通 常的做法是,寻求原指标的线性组合Fi