多元统计分析的定义 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。 多元统计分析的内容和方法 1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信 息又不太多。 1)主成分分析 (2)因子分析 (3)对应分析等 2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法 (2)判别分析:判别样本应属何种类型的统计方法 3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 是:两组变量间的相互关系(典型相关分析) 多元统计分析的理论基础 1、矩阵 2、多元正态分布 欧氏距离和马氏距离 1、欧氏距离(直线距离) (1)优点 (2)缺陷:权重被忽略和量纲不一致时处理不当 2、马氏距离 (1)优点:克服量纲、克服指标间相关性影响 (2)缺点:确定协方差矩阵困难 假设检验的基本原理 小概率事件原理 小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。反证法思想是先提出假 设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立:;反之, 则认为假设成立。 假设检验的步骤 (1)提出一个原假设和备择假设 (2)确定检验统计量 (3)确定显著性水平a (4)计算检验统计量的值并进行判断 均值向量的检验 正态总体均值检验的类型 1)根据样本对其总体均值大小进行检验(One- Sample T Test):如妇女身高的检验 2)根据来自两个总体的独立样本对其总体均值的检验( Indepent Two- Sample TTest):如两个班平均成绩 的检验 3)配对样本的检验(Pair- Sample T Test):如减肥效果的检验 4)多个总体均值的检验
多元统计分析的定义 多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。 多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。 多元统计分析的内容和方法 1、 简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信 息又不太多。 (1)主成分分析 (2)因子分析 (3)对应分析等 2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类。 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。 (2)判别分析:判别样本应属何种类型的统计方法。 3、变量间的相互联系 一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 二是:两组变量间的相互关系(典型相关分析) 多元统计分析的理论基础 1、矩阵 2、多元正态分布 欧氏距离和马氏距离 1、欧氏距离(直线距离) (1)优点 (2)缺陷:权重被忽略和量纲不一致时处理不当 2、马氏距离 (1)优点:克服量纲、克服指标间相关性影响 (2)缺点:确定协方差矩阵困难 假设检验的基本原理 小概率事件原理 小概率思想是指小概率事件(P<0.01 或 P<0.05 等)在一次试验中基本上不会发生。反证法思想是先提出假 设(检验假设 H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之, 则认为假设成立。 假设检验的步骤 (1)提出一个原假设和备择假设 (2)确定检验统计量 (3)确定显著性水平α (4)计算检验统计量的值并进行判断 均值向量的检验 正态总体均值检验的类型 1)根据样本对其总体均值大小进行检验( One-Sample T Test ):如妇女身高的检验。 2)根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test ):如两个班平均成绩 的检验。 3)配对样本的检验( Pair-Sample T Test ):如减肥效果的检验。 4)多个总体均值的检验
SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对SM手机的满意程度 SPSS处理: Analyze- Compare Mean- One-Way ANOVA 结果如下: Sumof Squares df Mean Square 6.863 3.432 Within Group 1333.341 5.089 Total 1340.204 264 表中 Sum of Squares表示组内和组间的变动情况,df代表自由度, Mean Square代表均方差,F检验值 0.674,显著性水平0.51。一般情况下,显著性水平0.1以下差异显著。对于SM手机来说,不同收入水平 方差分析F值显著性水平0.51,没有通过显著性水平检验,说明三种收入的被调查者的用户满意度没有 著性差异,即被调查者的收入水平并不影响其对SIM手机的满意程度 方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用 方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换 方法变为正态或接近正态后再进行方差分析。 (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差 不齐则不适用方差分析 聚类分析 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析类型及方法 1、聚类分析的类型有: 对样本分类,称为Q型聚类分析 对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来 型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似 变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的 聚类分析的方 系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K一均值法(快速聚类法)等等 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离 例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分 2.94 1927 3.29 13.30 7.98 32 10 1.35 10.06 l6.18 8.391196 l081 Gl={辽宁},G2={浙江},G3={河南,G4={甘肃},G5={青海
SIM 手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异 即:研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度。 SPSS 处理:Analyze — Compare Mean — One-Way ANOVA 结果如下: Sumof Squares df Mean Square F Sig. Between Groups 6.863 2 3.432 0.674 0.51 Within Groups 1333.341 262 5.089 Total 1340.204 264 表中 Sum of Squares 表示组内和组间的变动情况,df 代表自由度,Mean Square 代表均方差,F 检验值 0.674,显著性水平 0.51。一般情况下,显著性水平 0.1 以下差异显著。对于 SIM 手机来说,不同收入水平 方差分析 F 值显著性水平 0.51,没有通过显著性水平检验,说明三种收入的被调查者的用户满意度没有显 著性差异,即被调查者的收入水平并不影响其对 SIM 手机的满意程度。 方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用 方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换 方法变为正态或接近正态后再进行方差分析。 (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差 不齐则不适用方差分析。 聚类分析 是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。 将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 聚类分析类型及方法 1、聚类分析的类型有: 对样本分类,称为 Q 型聚类分析 对变量分类,称为 R 型聚类分析 Q 型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。 R 型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似 变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的 2、聚类分析的方法: 系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类 非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等 以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。 例 1:为了研究辽宁省 5 省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分 省份 x1 x2 x3 x4 x5 x6 x7 x8 辽宁 浙江 河南 甘肃 青海 7.90 7.68 9.42 9.16 10.06 39.77 50.37 27.93 27.98 28.64 8.49 11.35 8.20 9.01 10.52 12.94 13.30 8.14 9.32 10.05 19.27 19.25 16.17 15.99 16.18 11.05 14.59 9.42 9.10 8.39 2.04 2.75 1.55 1.82 1.96 13.29 14.87 9.76 11.35 10.81 G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}
采用欧氏距高: dl2=[79-7.682+(39.77-50.37)2+(849-1135)2+(1294 13.3)2+(1927-19.25)2+(11.05-14.59)2+(2.04-275)2+(13.29-1487)2]0.5=1167 dl3=1380dl4=13.12dl5=1280d23=2463d24=24.06d25=23.54d34=2.2d35=3.51 d45=2.21 DI= I 313.8024630 4|31224062200 5(2802354351210 l6l=d(34)l=min{dl3,dl4}=13.12d62=d(3,4)2=min{d23,d24}=24.06 d6=d(3,4)s=mn{d35,d45}=2.2l D2=1 13.120 24.0611.670 5(2.21 12.80 540 d7l=d(3,4,5)l=min{dl3,dl4dl5}=12.80 d72=d(3,4,5)2=mn{d23,d24,d25}=23.54 2(23.5411.670 d78=min{d7l,d72}=12.80 河南3**★★ 甘肃4* ☆☆☆☆如★食☆☆云云k★★食★k☆☆★ 肯海5* 辽宁1*★偷音音 浙江2*★会内会会索膏杂索会 判别分析与聚类分析的比较 1、判别分析是在己知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础 上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。 2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。 3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再 用判别分析构建判别式对新样本进行判别
采用欧氏距离: d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67 d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21 1 2 3 4 5 D1= 1 0 2 11.67 0 3 13.80 24.63 0 4 13.12 24.06 2.20 0 5 12.80 23.54 3.51 2.21 0 d61=d(3,4)1=min{d13,d14}=13.12 d62=d(3,4)2=min{d23,d24}=24.06 d65=d(3,4)5=min{d35,d45}=2.21 6 1 2 5 6 0 D2= 1 13.12 0 2 24.06 11.67 0 5 2.21 12.80 23.54 0 d71=d(3,4,5)1=min{d13,d14,d15}=12.80 d72=d(3,4,5)2=min{d23,d24,d25}=23.54 7 1 2 D3= 7 0 1 12.80 0 2 23.54 11.67 0 d78=min{d71,d72}=12.80 7 8 D4= 7 0 8 12.8 0 河南 3******* ****** 甘肃 4******* ************************* 青海 5************* ***** 辽宁 1**************************** ********** 浙江 2**************************** 判别分析与聚类分析的比较: 1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础 上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。 2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。 3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再 用判别分析构建判别式对新样本进行判别
距离判别基本思想 即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品, 计算它到各类平均数的距离,哪个距离最小就将它判归哪个类 贝叶斯( Bayes)判别基本思想: 贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(nkx)n=1,2k.比较k个概率的大 小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法 判别分析类型及方法 (1)按判别的组数来分,有两组判别分析和多组判别分析 (2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别 (3)按判别对所处理的变量方法不同有逐步判别、序贯判别。 (4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则 试用贝叶斯判别法将样本x0判到G1、G2、G3中的一个。考虑与不考虑误判损失的结果如何? 1、考虑误判损失: 误判到G1的平均损失为 ECMI=0.55*0.46°0+0.15·1.5*400+0.30*0.70*100= 误判到G2的平均损失为 ECM2=0.55*046·20+0.15·1.5*0+0.30*0.70*50 误判到G3的平均损失为 ECM3=0.55*0.46*80+0.15*1.5·200+0.30·0.700 其中ECM2最小,故将x0判别到G2。 不考虑误判损 将xO判别到G1的条件概率为 P(G1/x0)=(0.55*0.46/(0.55°0.46+0.15*1.5+0.300.70= 将x0判别到G2的条件概率为 P(G2/0)=(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)= 将x判别到G3的条件概率为 P(G3/0)=(0.30*0.70)0.55*0.46+0.15*1.5+0.30*0.70= 其中P(G1/0)取值最大,故将x0判别到Gl 例7:设有G1,G2和G3三个类,欲判别某样本x0属于哪一类已知 q=0.05,q2=0.65,q3=0.30,f(x0)=0.10,f2(x0)=0.63,f(x0)=24现利用后验概 率准则计算x属于各组的后验概率: PG/x)=4(x) 0.05×0.10 0.005 ∑9/(x)005×010+065×063+030×241145=004 P(G2/x)=9/2(x) 0.65×0.63 0.4095 0.361 0.05×0.10+0.65×0.63+0.30×241.1345 q(xo)
距离判别基本思想: 即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品, 计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。 贝叶斯(Bayes)判别基本思想: 贝叶斯判别法是通过计算被判样本 x 属于 k 个总体的条件概率 P(n/x),n=1,2…..k. 比较 k 个概率的大 小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。 判别分析类型及方法 (1)按判别的组数来分,有两组判别分析和多组判别分析 (2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别 (3)按判别对所处理的变量方法不同有逐步判别、序贯判别。 (4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则 试用贝叶斯判别法将样本 x0 判到 G1、G2、G3 中的一个。考虑与不考虑误判损失的结果如何? 1、考虑误判损失: 误判到 G1 的平均损失为 ECM1=0.55*0.46*0+0.15*1.5*400+0.30*0.70*100= 误判到 G2 的平均损失为 ECM2=0.55*0.46*20+0.15*1.5*0+0.30*0.70*50= 误判到 G3 的平均损失为 ECM3=0.55*0.46*80+0.15*1.5*200+0.30*0.70*0= 其中 ECM2 最小,故将 x0 判别到 G2。 2、不考虑误判损失: 将 x0 判别到 G1 的条件概率为: P(G1/x0) =(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)= 将 x0 判别到 G2 的条件概率为: P(G2/x0) =(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)= 将 x0 判别到 G3 的条件概率为: P(G3/x0) =(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)= 其中 P(G1/x0) 取值最大,故将 x0 判别到 G1。 例 7 : 设 有 G1 , G2 和 G3 三 个 类 , 欲 判 别 某 样 本 x0 属 于 哪 一 类 . 已 知 0.05, 0.65, 0.30, q1 = q2 = q3 = f 1 (x0 ) = 0.10 , f 2 (x0 ) = 0.63, f 3 (x0 ) = 2.4 现利用后验概 率准则计算 x0 属于各组的后验概率: 0.004 1.1345 0.005 0.05 0.10 0.65 0.63 0.30 2.4 0.05 0.10 ( ) ( ) ( ) 3 1 0 1 1 0 1 0 = = + + = = i= i i q f x q f x P G x 0.361 1.1345 0.4095 0.05 0.10 0.65 0.63 0.30 2.4 0.65 0.63 ( ) ( ) ( ) 3 1 0 2 2 0 2 0 = = + + = = i= i i q f x q f x P G x
P(G3/x)=9f(x) 0.30×24 0.72 b)0.05×0.10+0.65×0.63+0.30×241.13450635 q,( 例9:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重 要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为 x1:月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0 x4:目前工作的年限 x5:前一个工作的年限 x6:目前住所的年限 x7:前一个住所的年限 x8:家庭赡养的人口数 x9:信用程度,“5”的信用度最高,“1”的信用度最低 Yrs at Yrs at yrs at yrs at Record monthly monthly Home Pre sent Previous Present PreviousNoof Number Income Expe nses Owner? Job Job Address Address Depend.Output 2 850 25 5142 5 400 1000 5 3 2 2500 7 2200 1200 23.83.68 3 111 3 5 10 800 800 1 01234 750030 30 1000 1011010001111 5 30 00060 505530 10 334132433 5 70003700 4 2800 17
0.635 1.1345 0.72 0.05 0.10 0.65 0.63 0.30 2.4 0.30 2.4 ( ) ( ) ( ) 3 1 0 3 3 0 3 0 = = + + = = i= i i q f x q f x P G x 例 9:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重 要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为: x1: 月收入 x2:月生活费支出 x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0” x4:目前工作的年限 x5:前一个工作的年限 x6:目前住所的年限 x7:前一个住所的年限 x8: 家庭赡养的人口数 x9:信用程度,“5”的信用度最高,“1”的信用度最低。 Loan Yrs at Yrs at Yrs at Yrs at Record Monthly Monthly Home Present Previous Present Previous No. of Number Income ExpensesOwner? Job Job Address Address Depend. Output 1 3000 1500 0 2 8 6 2 5 3 2 850 425 1 3 3 25 25 1 3 3 1000 3000 0 0.1 0.3 0.1 0.3 4 1 4 9000 2250 1 8 4 5 3 2 5 5 4000 1000 1 3 5 3 2 1 4 6 3500 2500 0 0.5 0.5 0.5 2 1 1 7 2200 1200 1 6 3 1 4 1 3 8 4500 3500 0 8 2 10 1 5 2 9 1200 1000 0 0.5 0.5 1 0.5 3 1 10 800 800 0 0.1 1 5 1 3 1 11 7500 3000 1 10 3 10 3 4 5 12 3000 1000 1 20 5 15 10 1 5 13 2500 700 1 10 5 15 5 3 5 14 3000 2600 1 6 1 3 4 2 2 15 7000 3700 1 10 4 10 1 4 4 16 3000 2800 0 1 2 3 4 3 1 17 4500 1500 1 6 4 4 9 3 4
原始类 判类后验概率1后验概率2后验概率3后验概率4后验概率5 5 00.00001 00.99999 0.870790.005290.123790.00014 142111 0.039520.016050.146350.787140.01095 334132 51423315334132 0.048270.910020.036110.0056 0.3810.198530.410760.00970.00001 0.22920.108830.634830.026810.00032 0.64920.211280.138960.00056 0.000140.000060.002060.233910.76384 0.188840.006160.80490.0001 0.096240.001720.901690.000330.00003 0.008910.302990.012160.67590.0000 0.796190.003280.200270.00020.00006 0.263540.010660.684580.039750.00147 0.082620.832040.019820.0652 0 0.000020.001160.000060.998130.00062 0.115070.016510.367210.293970.20724 0.671840.239020.08880.00034 主成分分析定义 主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法 主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分 等等。 满足如下的条件: 1、每个主成分的系数平方和为1.即2+2+…+n=1 2、主成分之间相互独立,即无重叠的信息。即 Co(F,F)=0,i≠j,tj=l,2,…,P 3、主成分的方差依次递减,重要性依次递减,即ar(F)≥ar(F2)≥…≥Vamr(Fn) F、F2.…Fp分别称为原变量的第一、第二…第p个主成分。 口例1:设x=(x1,x2,x3)的协方差矩阵为 ∑=-250 002 从协方差矩阵出发,求解主成分 (1)求协方差矩阵的特征根 依据 0求解 2-=-25-20=(-2(5-(2-0-(2-2-)=0 02 12=2A1=5.833=0.17
主成分分析定义 主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。 主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分 等等。 满足如下的条件: 1、每个主成分的系数平方和为 1。即 1 2 2 2 2 u1i +u i ++upi = 2、主成分之间相互独立,即无重叠的信息。即 Cov(Fi,Fj)= 0,i j,i,j =1, 2,,p 3、主成分的方差依次递减,重要性依次递减,即 ( ) ( ) Var(F1)Var F2 Var Fp F1、F2….Fp 分别称为原变量的第一、第二….第 p 个主成分。 例1:设 ' 1 2 3 x = (x , x , x ) 的协方差矩阵为: − − = 0 0 2 2 5 0 1 2 0 从协方差矩阵出发,求解主成分. (1)求协方差矩阵的特征根 依据 −I = 0 求解. (1 )(5 )(2 ) ( 2)( 2)(2 ) 0 0 0 2 2 5 0 1 2 0 = − − − − − − − = − − − − − − = I 2 = 2 1 = 5.83 3 = 0.17 原始类 判类 后验概率1 后验概率2 后验概率3 后验概率4 后验概率5 5 5 0 0 0.00001 0 0.99999 1 1 0.87079 0.00529 0.12379 0.00014 0 4 4 0.03952 0.01605 0.14635 0.78714 0.01095 2 2 0.04827 0.91002 0.03611 0.0056 0 1 3 0.381 0.19853 0.41076 0.0097 0.00001 1 3 0.2292 0.10883 0.63483 0.02681 0.00032 1 1 0.6492 0.21128 0.13896 0.00056 0 5 5 0.00014 0.00006 0.00206 0.23391 0.76384 3 3 0.18884 0.00616 0.8049 0.0001 0 3 3 0.09624 0.00172 0.90169 0.00033 0.00003 4 4 0.00891 0.30299 0.01216 0.6759 0.00004 1 1 0.79619 0.00328 0.20027 0.0002 0.00006 3 3 0.26354 0.01066 0.68458 0.03975 0.00147 2 2 0.08262 0.83204 0.01982 0.06552 0 4 4 0.00002 0.00116 0.00006 0.99813 0.00062 3 3 0.11507 0.01651 0.36721 0.29397 0.20724 3 1 0.67184 0.23902 0.0888 0.00034 0
(2)求特征根对应的特征向量 0.383 0.924 l1=-0.9242=0l23=0383 0.000 0.000 (3)主成分: F=0383x1-0924x2 F F3=0.924x1+0.383x (4)各主成分的贡献率及累计贡献率 第一主成分贡献率:5.83/583+2+0.17)=0.72875 第二主成分贡献率:2/(583+2+0.17)=0.25 第三主成分贡献率:0.17(583+2+0.17)=0.02125 第一和第二主成分的累计贡献率 (5.83+2)/(583+2+0.17)=0.97875 由此可将以前三元的问题降维为两维问题.第一和第二主成分包含了以前变量的绝大部分信息97.87 样本主成分的性质 1、第K个主成分yk的系数向量是第K个特征根λk所对应的标准化特征向量。 2、第K个主成分的方差为第K个特征根λk,且任意两个主成分都是不相关的,也就是y1y2,yp的样 本协方差矩阵是对角矩阵 3、样本主成分的总方差等于原变量样本的总方差,为p 4、第K个样本主成分与第j个变量样本之间的相关系数为:√15(因子载荷量) 主成分个数的选取 Scree plot 1累积贡献率达到85%以上 2根据特征根的变化来确定A1>元 数据标准化情况下:元=1S 3.作碎石图 描述特征值的贡献 Component Number 因子分析的基本理论 因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵或协方差矩阵的内部
(2)求特征根对应的特征向量 = = = − 0.000 0.383 0.924 1 0 0 0.000 0.924 0.383 u1 u2 u3 (3)主成分: 1 1 924 2 F = 0.383x −0. x 2 3 F = x 3 1 383 2 F = 0.924x + 0. x (4)各主成分的贡献率及累计贡献率: 第一主成分贡献率: 5.83/(5.83+ 2 + 0.17) = 0.72875 第二主成分贡献率: 2 /(5.83+ 2 + 0.17) = 0.25 第三主成分贡献率: 0.17 /(5.83+ 2 + 0.17) = 0.02125 第一和第二主成分的累计贡献率: (5.83+ 2)/(5.83+ 2 + 0.17) = 0.97875 由此可将以前三元的问题降维为两维问题.第一和第二主成分包含了以前变量的绝大部分信息97.87 5%. 样本主成分的性质: 1、第 K 个主成分 yk 的系数向量是第 K 个特征根λk 所对应的标准化特征向量。 2、第 K 个主成分的方差为第 K 个特征根λk,且任意两个主成分都是不相关的,也就是 y1,y2,…,yp 的样 本协方差矩阵是对角矩阵 3、样本主成分的总方差等于原变量样本的总方差,为 p 4、第 K 个样本主成分与第 j 个变量样本之间的相关系数为: k ukj (因子载荷量) 主成分个数的选取 1.累积贡献率达到 85%以上 2.根据特征根的变化来确定 i 数据标准化情况下: 1 1 1 = = = p i i p 3.作碎石图 描述特征值的贡献 因子分析的基本理论 因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵或协方差矩阵的内部 Scree Plot Component Number 1 2 3 4 5 6 Eigenvalue 4 3 2 1 0
依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析 因子分析的基本思想: 把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量 共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子 主成分分析分析与因子分析的联系和差异: 因子分析是主成分分析的推广,是主成分分析的逆问题。主成分分析是将原始变量加以综合、归纳 因子分析是将原始变量加以分解、演绎 (1)主成分分析仅仅是变量变换,而因子分析需要构造因子模型 (2)主成分分析原始变量的线性组合表示新的综合变量,即主成分:因子分析:用潜在的假想变量 (公共因子)和随机影响变量(特殊因子)的线性组合表示原始变量。用假设的公因子来“解释”相关矩阵 内部的依赖关系 (3)主成分分析中主成分个数和变量个数相同,它是将一组具有相关关系的变量变换为一组互不相关 的变量,在解决实际问题时,一般取前m个主成分:因子分析的目的是用尽可能少的公因子,以便构造一 个结构简单的因子模型。 因子分析模型 设x(=12…,p)个变量,如果表示为x=1+an1F1+…+amFm+E au dl F1|E1 A2aa2…aF2|E2 api a pI F4 Le, 或X-=AF+E 称为F1,F2,…,Fm公共因子,是不可观测的变量,他们的系数称为因子载荷。E1是特殊因子,是不能被 前m个公共因子包含的部分。其中: (1)Cov(F,E)=0F,E相互独立即不相关 (2)D(F)= 即F1,F2,…,Fm互不相关,方差为1 (3)D(E)= 即互不相关,方差不一定相等,E1~N(0,a2)
依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析 因子分析的基本思想: 把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量 共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。 主成分分析分析与因子分析的联系和差异: 因子分析是主成分分析的推广,是主成分分析的逆问题。主成分分析是将原始变量加以综合、归纳; 因子分析是将原始变量加以分解、演绎。 (1)主成分分析仅仅是变量变换,而因子分析需要构造因子模型。 (2)主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:用潜在的假想变量 (公共因子)和随机影响变量(特殊因子)的线性组合表示原始变量。用假设的公因子来“解释”相关矩阵 内部的依赖关系。 (3)主成分分析中主成分个数和变量个数相同,它是将一组具有相关关系的变量变换为一组互不相关 的变量,在解决实际问题时,一般取前 m 个主成分;因子分析的目的是用尽可能少的公因子,以便构造一 个结构简单的因子模型。 因子分析模型: 设 Xi (i =1,2, , p) 个变量,如果表示为 i im m i i xi = + a F ++ a F + 1 1 − = + + + = X AF P p p pm m m p p F F F F a a a a a a a a a x x x 或 2 1 4 3 2 1 1 2 21 22 2 11 12 1 2 1 2 1 称为 F F Fm , , , 1 2 公共因子,是不可观测的变量,他们的系数称为因子载荷。 i 是特殊因子,是不能被 前 m 个公共因子包含的部分。其中: (1) Cov(F, ) = 0 F, 相互独立即不相关; (2) D F = I = 1 1 1 ( ) 即 F F Fm , , , 1 2 互不相关,方差为 1。 (3) = 2 2 2 2 1 ( ) p D 即互不相关,方差不一定相等, ~ (0, ) 2 i N i
满足以上条件的,称为正交因子模型 如果(2)不成立,即D(F)≠Ⅰ各公共因子之间不独立,则因子分析模型为斜交因子模型 公因子F2 共同度hi 特殊因子δi xl=代数1 0.341 0.919 x2=代数2 0.802 0.496 0.889 0.111 x3=几何 0.516 0 855 0.997 0.003 X4=三角 444 0.904 0.096 x5=解析几何 0.833 0.434 0.882 0.118 特征值G 1479 4.959 0.409 方差贡献率(变异量) 29.58% 91.859 F体现逻辑思维和运算能力,F2体现空间思维和推理能力 因子分析模型中的几个重要统计量的意义: (1)因子负荷量(或称因子载荷)-是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程 x1=a1F+a2F2+……+ a F+E Covxi, F)=co lakE+E,F) ∑aFk,F)+covE,F) COV(x * F)) r(x*)√var(F) 在各公共因子不相关的前提下,∝i(载荷矩阵中第i行,第j列的元素)是随机变量x*与公共因子F的 相关系数,表示x*依赖于F)的程度。反映了第i个原始变量在第j个公共因子上的相对重要性。因此an 绝对值越大,则公共因子F与原有变量X的关系越强。 (2)共同度又称共性方差或公因子方差( community或 common varlance)就是变量与每个公共因子之 负荷量的平方总和(一行中所有因素负荷量的平方和)。变量X1的共同度是因子载荷矩阵的第i行的元素 的平方和。记为 2=∑ 从共同性的大小可以判断这个原始实测变量与公共因子间之关系程度。如因子分析案例中 共同度h12=0.896+0.3412=099
满足以上条件的,称为正交因子模型. 如果(2)不成立,即 D(F) I 各公共因子之间不独立,则因子分析模型为斜交因子模型. 公因子 F1 公因子 F2 共同度 hi 特殊因子 δi x1=代数 1 0.896 0.341 0.919 0.081 x2=代数 2 0.802 0.496 0.889 0.111 x3=几何 0.516 0.855 0.997 0.003 x4=三角 0.841 0.444 0.904 0.096 x5=解析几何 0.833 0.434 0.882 0.118 特征值 G 3.113 1.479 4.959 0.409 方差贡献率(变异量) 62.26% 29.58% 91.85% F1 体现逻辑思维和运算能力,F2 体现空间思维和推理能力 因子分析模型中的几个重要统计量的意义: (1)因子负荷量(或称因子载荷)----是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程 度。 i1 1 i2 2 im m i * xi = F + F ++ F + ij j i m i 1 j m i 1 j * i cov( ,F ) cov( ,Fj) Cov(x ,F ) cov( ,F ) = = + = + = = i k k i k k i F F var( *) var( ) cov( *, ) r ij i j i j x F x F = r = 在各公共因子不相关的前提下, ij (载荷矩阵中第 i 行,第 j 列的元素)是随机变量 xi*与公共因子 Fj 的 相关系数,表示 xi*依赖于 Fj 的程度。反映了第 i 个原始变量在第 j 个公共因子上的相对重要性。因此 ij 绝对值越大,则公共因子 Fj 与原有变量 Xi 的关系越强。 (2)共同度----又称共性方差或公因子方差(community 或 common variance)就是变量与每个公共因子之 负荷量的平方总和(一行中所有因素负荷量的平方和)。变量 Xi 的共同度是因子载荷矩阵的第 i 行的元素 的平方和。记为 。 = = m j hi aij 1 2 2 从共同性的大小可以判断这个原始实测变量与公共因子间之关系程度。如因子分析案例中 共同度 2 1 h = 0.8962 + 0.3412 =0.919
特殊因子-各变量的特殊因素影响大小就是1减掉该变量共同度的值。如a2=1-0919=0081 (3)特征值-是第j个公共因子Fj对于X*的每一分量X所提供的方差的总和。又称第j个公共因子的 方差贡献。即每个变量与某一共同因素之因素负荷量的平方总和(因子载荷矩阵中某一公共因子列所有因 子负荷量的平方和 因子分析案例中 Fl的特征值 G=0.8962+0.802+0.5162+0.8412+0.8332 3.113 (4)方差贡献率--指公共因子对实测变量的贡献,又称变异量 方差贡献率=特征值G/实测变量数p, 是衡量公共因子相对重要性的指标,Gi越大,表明公共因子F对X*的贡献越大,该因子的重要程度 高 如因子分析案例中 Fl的贡献率为3.113/5=6226% 因子载荷矩阵求解的方法 (1)基于主成分模型的主成分分析法 2)基于因子分析模型的主轴因子法 (3)极大似然法 (4)最小二乘法 (5)a因子提取法 (6)映象分析法 例:假定某地固定资产投资率x1,通货膨胀率x2,失业率x3,相关系数矩阵为 1/5-1/5 l/512/5试用主成分分析法求因子分析模型 1/5-2/51 (1)求解特征根 41=1552=0853=06 (2)求解特征向量 「04750.8830 U'=0629-0.3310.707 06290.3310.707 (3)因子载荷矩阵: 04751550.883√085 0 0.5690.8140 A=0629155-0331√0850707√06=0783-03050548 06291550.330850.707√06-078303050548 (4)因子分析模型 x=0.5691+0.814F2
特殊因子----各变量的特殊因素影响大小就是 1 减掉该变量共同度的值。如 2 i =1- 0.919 = 0.081 (3)特征值----是第 j 个公共因子 Fj 对于 X*的每一分量 Xi*所提供的方差的总和。又称第 j 个公共因子的 方差贡献。即每个变量与某一共同因素之因素负荷量的平方总和(因子载荷矩阵中某一公共因子列所有因 子负荷量的平方和)。 如因子分析案例中 F1 的特征值 G= 0.8962 + 0.8022 + 0.5162 + 0.8412 + 0.8332 =3.113 (4)方差贡献率----指公共因子对实测变量的贡献,又称变异量 方差贡献率=特征值 G/实测变量数 p, 是衡量公共因子相对重要性的指标,Gi 越大,表明公共因子 Fj 对 X*的贡献越大,该因子的重要程度 越高 如因子分析案例中 F1 的贡献率为 3.113/5=62.26% 因子载荷矩阵求解的方法: (1)基于主成分模型的主成分分析法 (2)基于因子分析模型的主轴因子法 (3)极大似然法 (4)最小二乘法 (5)a 因子提取法 (6)映象分析法 例: 假定某地固定资产投资率 1 x ,通货膨胀率 2 x ,失业率 3 x ,相关系数矩阵为 − − − 1/ 5 2 / 5 1 1/ 5 1 2 / 5 1 1/ 5 1/ 5 试用主成分分析法求因子分析模型。 (1)求解特征根 1 =1.55 2 = 0.85 3 = 0.6 (2)求解特征向量: − = − 0.629 0.331 0.707 0.629 0.331 0.707 0.475 0.883 0 U (3)因子载荷矩阵: − = − 0.629 1.55 0.331 0.85 0.707 0.6 0.629 1.55 0.331 0.85 0.707 0.6 0.475 1.55 0.883 0.85 0 A − = − 0.783 0.305 0.548 0.783 0.305 0.548 0.569 0.814 0 (4)因子分析模型: 1 1 814 2 x = 0.569F +0. F