蚌埠医学院：《多元统计分析》第四讲多元统计分析.doc_大学文库

多元统计分析的定义多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。多元统计分析的内容和方法 1、简化数据结构(降维问题) 将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。 1)主成分分析 (2)因子分析 (3)对应分析等 2、分类与判别(归类问题) 对所考察的变量按相似程度进行分类 (1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法 (2)判别分析:判别样本应属何种类型的统计方法 3、变量间的相互联系一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析) 是:两组变量间的相互关系(典型相关分析) 多元统计分析的理论基础 1、矩阵 2、多元正态分布欧氏距离和马氏距离 1、欧氏距离(直线距离) (1)优点 (2)缺陷:权重被忽略和量纲不一致时处理不当 2、马氏距离 (1)优点:克服量纲、克服指标间相关性影响 (2)缺点:确定协方差矩阵困难假设检验的基本原理小概率事件原理小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立:反之, 则认为假设成立。假设检验的步骤 (1)提出一个原假设和备择假设 (2)确定检验统计量 (3)确定显著性水平a (4)计算检验统计量的值并进行判断均值向量的检验正态总体均值检验的类型 1)根据样本对其总体均值大小进行检验(One- Sample T Test):如妇女身高的检验 2)根据来自两个总体的独立样本对其总体均值的检验( Indepent Two- Sample TTest):如两个班平均成绩的检验 3)配对样本的检验(Pair- Sample T Test):如减肥效果的检验 4)多个总体均值的检验

多元统计分析的定义多元统计分析是运用数理统计的方法来研究多变量（多指标）问题的理论和方法，是一元统计学的推广。多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。多元统计分析的内容和方法 1、简化数据结构（降维问题）将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量，使研究问题得到简化但损失的信息又不太多。（1）主成分分析（2）因子分析（3）对应分析等 2、分类与判别（归类问题）对所考察的变量按相似程度进行分类。（1）聚类分析：根据分析样本的各研究变量，将性质相似的样本归为一类的方法。（2）判别分析：判别样本应属何种类型的统计方法。 3、变量间的相互联系一是：分析一个或几个变量的变化是否依赖另一些变量的变化。（回归分析）二是：两组变量间的相互关系（典型相关分析）多元统计分析的理论基础 1、矩阵 2、多元正态分布欧氏距离和马氏距离 1、欧氏距离（直线距离）（1）优点（2）缺陷：权重被忽略和量纲不一致时处理不当 2、马氏距离（1）优点：克服量纲、克服指标间相关性影响（2）缺点：确定协方差矩阵困难假设检验的基本原理小概率事件原理小概率思想是指小概率事件（P<0.01 或 P<0.05 等）在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设 H0)，再用适当的统计方法确定假设成立的可能性大小，如可能性小,则认为假设不成立；反之，则认为假设成立。假设检验的步骤（1）提出一个原假设和备择假设（2）确定检验统计量（3）确定显著性水平α （4）计算检验统计量的值并进行判断均值向量的检验正态总体均值检验的类型 1）根据样本对其总体均值大小进行检验（ One-Sample T Test ）：如妇女身高的检验。 2）根据来自两个总体的独立样本对其总体均值的检验（ Indepent Two-Sample T Test ）：如两个班平均成绩的检验。 3）配对样本的检验（ Pair-Sample T Test ）：如减肥效果的检验。 4）多个总体均值的检验

SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异即:研究被调查者的收入水平是否会影响其对SIM手机的满意程度 SPSS处理: Analyze- Compare Mean- One-Way ANOVA 结果如下: Sumof Squares df Mean Square 6.863 3.432 0.51 Within Group 1333.341 5.089 Total 1340.204 264 表中 Sum of Squares表示组内和组间的变动情况,df代表自由度, Mean Square代表均方差,F检验值 0.674,显著性水平0.51。一般情况下,显著性水平0.1以下差异显著。对于SM手机来说,不同收入水平方差分析F值显著性水平0.51,没有通过显著性水平检验,说明三种收入的被调查者的用户满意度没有显著性差异,即被调查者的收入水平并不影响其对SIM手机的满意程度方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。 (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差不齐则不适用方差分析聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。聚类分析类型及方法 1、聚类分析的类型有: 对样本分类,称为Q型聚类分析对变量分类,称为R型聚类分析 Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的聚类分析的方系统聚类(层次聚类) 非系统聚类(非层次聚类) 系统聚类法包括:凝聚方式聚类、分解方式聚类非系统聚类法包括:模糊聚类法、K一均值法(快速聚类法)等等以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分 2.94 1927 3.29 13.30 7.98 32 10 1.35 10.06 l6.18 8.391196 l081 Gl={辽宁},G2={浙江},G3={河南,G4={甘肃},G5={青海

SIM 手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异即：研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度。 SPSS 处理：Analyze — Compare Mean — One-Way ANOVA 结果如下： Sumof Squares df Mean Square F Sig. Between Groups 6.863 2 3.432 0.674 0.51 Within Groups 1333.341 262 5.089 Total 1340.204 264 表中 Sum of Squares 表示组内和组间的变动情况，df 代表自由度，Mean Square 代表均方差，F 检验值 0.674，显著性水平 0.51。一般情况下，显著性水平 0.1 以下差异显著。对于 SIM 手机来说，不同收入水平方差分析 F 值显著性水平 0.51，没有通过显著性水平检验，说明三种收入的被调查者的用户满意度没有显著性差异，即被调查者的收入水平并不影响其对 SIM 手机的满意程度。方差分析的应用条件（1）可比性，若资料中各组均数本身不具可比性则不适用方差分析。（2）正态性，各组的观察数据，是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。（3）方差齐性，各组的观察数据，是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差不齐则不适用方差分析。聚类分析是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。聚类分析类型及方法 1、聚类分析的类型有：对样本分类，称为 Q 型聚类分析对变量分类，称为 R 型聚类分析 Q 型聚类是对样本进行聚类，它使具有相似性特征的样本聚集在一起，使差异性大的样本分离开来。 R 型聚类是对变量进行聚类，它使具有相似性的变量聚集在一起，差异性大的变量分离开来，可在相似变量中选择少数具有代表性的变量参与其他分析，实现减少变量个数，达到变量降维的目的 2、聚类分析的方法：系统聚类（层次聚类）非系统聚类（非层次聚类）系统聚类法包括：凝聚方式聚类、分解方式聚类非系统聚类法包括：模糊聚类法、K－均值法（快速聚类法）等等以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。例 1：为了研究辽宁省 5 省区某年城镇居民生活消费的分布规律，根据调查资料做类型划分省份 x1 x2 x3 x4 x5 x6 x7 x8 辽宁浙江河南甘肃青海 7.90 7.68 9.42 9.16 10.06 39.77 50.37 27.93 27.98 28.64 8.49 11.35 8.20 9.01 10.52 12.94 13.30 8.14 9.32 10.05 19.27 19.25 16.17 15.99 16.18 11.05 14.59 9.42 9.10 8.39 2.04 2.75 1.55 1.82 1.96 13.29 14.87 9.76 11.35 10.81 G1={辽宁}，G2={浙江}，G3={河南}，G4={甘肃}，G5={青海}

距离判别基本思想：即：首先根据已知分类的数据，分别计算各类的重心即各组（类）的均值，判别的准则是对任给样品，计算它到各类平均数的距离，哪个距离最小就将它判归哪个类。贝叶斯(Bayes)判别基本思想：贝叶斯判别法是通过计算被判样本 x 属于 k 个总体的条件概率 P（n/x),n=1,2…..k. 比较 k 个概率的大小，将样本判归为来自出现概率最大的总体（或归属于错判概率最小的总体）的判别方法。判别分析类型及方法（1）按判别的组数来分，有两组判别分析和多组判别分析（2）按区分不同总体所用的数学模型来分，有线性判别和非线性判别（3）按判别对所处理的变量方法不同有逐步判别、序贯判别。（4）按判别准则来分，有费歇尔判别准则、贝叶斯判别准则试用贝叶斯判别法将样本 x0 判到 G1、G2、G3 中的一个。考虑与不考虑误判损失的结果如何？ 1、考虑误判损失：误判到 G1 的平均损失为 ECM1＝0.55*0.46*0+0.15*1.5*400+0.30*0.70*100＝误判到 G2 的平均损失为 ECM2＝0.55*0.46*20+0.15*1.5*0+0.30*0.70*50＝误判到 G3 的平均损失为 ECM3＝0.55*0.46*80+0.15*1.5*200+0.30*0.70*0＝其中 ECM2 最小，故将 x0 判别到 G2。 2、不考虑误判损失：将 x0 判别到 G1 的条件概率为： P（G1/x0) =(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)= 将 x0 判别到 G2 的条件概率为： P（G2/x0) =(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)= 将 x0 判别到 G3 的条件概率为： P（G3/x0) =(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)= 其中 P（G1/x0) 取值最大，故将 x0 判别到 G1。例 7 ：设有 G1 ， G2 和 G3 三个类，欲判别某样本 x0 属于哪一类．已知 0.05, 0.65, 0.30, q1 = q2 = q3 = f 1 (x0 ) = 0.10 ， f 2 (x0 ) = 0.63， f 3 (x0 ) = 2.4 现利用后验概率准则计算 x0 属于各组的后验概率： 0.004 1.1345 0.005 0.05 0.10 0.65 0.63 0.30 2.4 0.05 0.10 ( ) ( ) ( ) 3 1 0 1 1 0 1 0 = =  +  +   = =  i= i i q f x q f x P G x 0.361 1.1345 0.4095 0.05 0.10 0.65 0.63 0.30 2.4 0.65 0.63 ( ) ( ) ( ) 3 1 0 2 2 0 2 0 = =  +  +   = =  i= i i q f x q f x P G x

依赖关系出发，把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析因子分析的基本思想：把每个研究变量分解为几个影响因素变量，将每个原始变量分解成两部分因素，一部分是由所有变量共同具有的少数几个公共因子组成的，另一部分是每个变量独自具有的因素，即特殊因子。主成分分析分析与因子分析的联系和差异：因子分析是主成分分析的推广，是主成分分析的逆问题。主成分分析是将原始变量加以综合、归纳；因子分析是将原始变量加以分解、演绎。（1）主成分分析仅仅是变量变换，而因子分析需要构造因子模型。（2）主成分分析:原始变量的线性组合表示新的综合变量，即主成分；因子分析：用潜在的假想变量（公共因子）和随机影响变量（特殊因子）的线性组合表示原始变量。用假设的公因子来“解释”相关矩阵内部的依赖关系。（3）主成分分析中主成分个数和变量个数相同，它是将一组具有相关关系的变量变换为一组互不相关的变量，在解决实际问题时，一般取前 m 个主成分；因子分析的目的是用尽可能少的公因子，以便构造一个结构简单的因子模型。因子分析模型：设 Xi (i =1,2,  , p) 个变量，如果表示为  i im m i i xi = + a F ++ a F + 1 1         − = +               +                             +                 =               X AF P p p pm m m p p F F F F a a a a a a a a a x x x 或           2 1 4 3 2 1 1 2 21 22 2 11 12 1 2 1 2 1 称为 F F Fm , , , 1 2  公共因子，是不可观测的变量，他们的系数称为因子载荷。 i  是特殊因子，是不能被前 m 个公共因子包含的部分。其中：（1） Cov(F, ) = 0 F, 相互独立即不相关；（2） D F = I             = 1 1 1 ( )  即 F F Fm , , , 1 2  互不相关，方差为 1。（3）               = 2 2 2 2 1 ( ) p D      即互不相关，方差不一定相等， ~ (0, ) 2 i N  i 

蚌埠医学院：《多元统计分析》第四讲 多元统计分析

蚌埠医学院：《多元统计分析》第四讲多元统计分析