《多元统计分析》多元统计分析重点2.doc_大学文库

令3、配对样本的检验( paired samples) (针对同样的样本)考察实验前后样本均值有无差异。能够很好地控制非实验因素对结果的影响注意:实验前后两个样本两个样本并不独立注意:同一样本实验前后并不独立,但不同样本之间却相互独立 ◆配对样本的检验实际上是用配对差值与总体均数0°”进行比较,即推断差数的总体均数是否为“0。故其检验过程与依据样本均数推断总体均数大小的t检验类似,即: A、建立假设 H0:d=0,即差值的总体均数为“0”,H1:>0或灿d=a,则还不能拒绝HO。 ◆例4要比较50个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有50 个数目。 ◆这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令减肥前的重量均值为p1,而减肥后的均值为2;这样所要进行的检验为: Hl:1大于2 方差分析的基本思想 l、定义方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。 2、了解方差分析中几个重要概念: ◆(1)观测因素或称为观测变量如:考察农作物产量的影响因素。农作物产量就是观测变量。 (2)控制因素或称控制变量进行试验(实验)时我们称可控制的试验条件为因素( Factor,因素变化的各个等级为水平( Level) 影响农作物产量的因素,如品种、施肥量、土壤等如果在试验中只有一个因素在变化其他可控制的条件不变称它为单因素试验; 若试验中变化的因素有两个或两个以上则称为双因素或多因素试验令方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对观测变量有显著影响的变量令3、方差分析的基本原理设有r个总体,各总体分别服从N(A1,a2)N({2a2)……N(,a2),假定各总体方差相等。现从各总体随机抽取样本。透过各总体的样本数据推断r个总体的均值是否相等? 4/13

4/13 ❖ 3、配对样本的检验（ paired samples ）（针对同样的样本）考察实验前后样本均值有无差异。能够很好地控制非实验因素对结果的影响注意：实验前后两个样本两个样本并不独立 ❖ 注意：同一样本实验前后并不独立，但不同样本之间却相互独立。 ❖ 配对样本的检验实际上是用配对差值与总体均数“0”进行比较，即推断差数的总体均数是否为“0”。故其检验过程与依据样本均数推断总体均数大小的 t 检验类似，即： ❖ A、建立假设 H0：µd=0，即差值的总体均数为“0”，H1：µd>0 或 µd=α，则还不能拒绝 H0。 ❖ 例 4：要比较 50 个人在减肥前和减肥后的重量。这样就有了两个样本，每个都有 50 个数目。 ❖ 这里不能用前面的独立样本均值差的检验；这是因为两个样本并不独立。 ❖ 每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令减肥前的重量均值为 μ1 ，而减肥后的均值为μ2 ；这样所要进行的检验为： H0： μ1＝μ2 H1： μ1 大于μ2 一、方差分析的基本思想 1、定义方差分析又称变异数分析或 F 检验，其目的是推断两组或多组资料的总体均数是否相同，检验两个或多个样本均数的差异是否有统计学意义。 ❖ 2、了解方差分析中几个重要概念： ❖ （1）观测因素或称为观测变量如：考察农作物产量的影响因素。农作物产量就是观测变量。 ❖ （2）控制因素或称控制变量进行试验(实验)时,我们称可控制的试验条件为因素(Factor),因素变化的各个等级为水平(Level)。影响农作物产量的因素，如品种、施肥量、土壤等。如果在试验中只有一个因素在变化,其他可控制的条件不变,称它为单因素试验; 若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验。 ❖ 方差分析就是从观测变量的方差入手，研究诸多控制变量（因素）中哪些变量是对观测变量有显著影响的变量 ❖ 3、方差分析的基本原理设有 r 个总体，各总体分别服从 …… ，假定各总体方差相等。现从各总体随机抽取样本。透过各总体的样本数据推断 r 个总体的均值是否相等？ 2 1 N( , )   2 2 N( , )   2 ( , ) N  r

11=2 H1:至少有一组数据的平均值与其它组的平均值有显著性差异。分析的思路:用离差平方和(Ss)描述所有样本总的变异情况,将总变异分为两个来源: (1)组内变动( within groups),代表本组内各样本与该组平均值的离散程度,即水平内部(组内)方差 (2)组间变动( between groups),代表各组平均值关于总平均值的离散程度。即水平之间(组间)方差即:SS总=SS组间+SS组内 ◆消除各组样本数不同的影响-离差平方和除以自由度(即均方差)。从而构造统计量: F- SSum/(r-D) ☆方差分析的基本思想就是通过组内方差与组间方差的比值构造的F统计量,将其与给定显著性水平、自由度下的F值相对比,判定各组均数间的差异有无统计学意义零假设否定城:F>F_1 例2SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异即:研究被调查者的收入水平是否会影响其对SIM手机的满意程度 SPSS处理: Analyze- Compare Mean- One-Way ANOVA ◆多元方差分析(操作参见书例21,第36页) ☆SPSS选项: Analyze- General Linear Model- Multivariate 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量1和μ2相等与否,得到 F=88622,P=0.0008拒绝该年级男女生身体发育指标的总体均数向量相等的假设, 从而可认为该校男女生身体发育状况不同 4、方差分析的应用条件 (1)可比性,若资料中各组均数本身不具可比性则不适用方差分析 (2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析 (3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差不齐则不适用方差分析。依据涉及的分析变量多少分为:一元方差分析、多元方差分析依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析什么是聚类分析? 令聚类分析(P54) 是根据“物以类聚的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。令聚类分析的目的(P54) 使类内对象的同质性最大化和类间对象的异质性最大化、聚类分析的基本思想: 是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不 5/13

5/13 :至少有一组数据的平均值与其它组的平均值有显著性差异。 ❖ 分析的思路：用离差平方和（SS）描述所有样本总的变异情况，将总变异分为两个来源：（1）组内变动（within groups），代表本组内各样本与该组平均值的离散程度，即水平内部（组内）方差（2）组间变动（between groups），代表各组平均值关于总平均值的离散程度。即水平之间（组间）方差即：SS 总=SS 组间+SS 组内 ❖ 消除各组样本数不同的影响--离差平方和除以自由度（即均方差）。从而构造统计量： ❖ 方差分析的基本思想就是通过组内方差与组间方差的比值构造的 F 统计量，将其与给定显著性水平、自由度下的 F 值相对比，判定各组均数间的差异有无统计学意义。 ❖ 零假设否定域： ❖ 例 2 SIM 手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异即：研究被调查者的收入水平是否会影响其对 SIM 手机的满意程度。 ❖ SPSS 处理：Analyze — Compare Mean — One-Way ANOVA ❖ 多元方差分析（操作参见书例 2.1，第 36 页）： ❖ SPSS 选项： Analyze— General Linear Model — Multivariate 可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量μ1 和μ2 相等与否, 得到： F=8.8622，P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设，从而可认为该校男女生身体发育状况不同。 ❖ 4、方差分析的应用条件（1）可比性，若资料中各组均数本身不具可比性则不适用方差分析。（2）正态性，各组的观察数据，是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。 ❖ （3）方差齐性，各组的观察数据，是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差不齐则不适用方差分析。依据涉及的分析变量多少分为：一元方差分析、多元方差分析依据对分析变量的影响因素的数量分为：单因素方差分析、多因素方差分析 ❖ 一、什么是聚类分析？ ❖ 聚类分析(P54) 是根据“物以类聚”的道理，对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 ❖ 聚类分析的目的(P54) 使类内对象的同质性最大化和类间对象的异质性最大化。 ❖ 二、聚类分析的基本思想：是根据一批样品的多个观测指标，具体地找出一些能够度量样品或指标之间相似程度的统计量，然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类，把不 0 1 2 : H    = = r H1 SS r( 1) F SS − = 组间组内 (n-r)1, ( ) F F r n r − − 

◆判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。如何判断(判断依据)?利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别判别分析的特点(基本思想) 1、是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则 2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。判别分析的目的:识别一个个体所属类别 3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况: 被解释变量为属性变量; 解释变量是定量变量判别分析类型及方法 (1)按判别的组数来分,有两组判别分析和多组判别分析 (2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别 (3)按判别对所处理的变量方法不同有逐步判别、序贯判别。 (4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则距高判别基本思想即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类两个总体的距离判别法 1、方差相等先考虑两个总体的情况,设有两个协差阵∑相同的p维正态总体,对给定的样本Y 判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距高。故我们用马氏距高来给定判别规则,有 y∈G,如d2(y,G1)<d(y,G2 y∈G2,如d(y,G2)<d(y,G) 待判,如d(y,G1)=d2(y,G2) d(y, G2)-d(y, Gu) =(y-42y2-(y-2)-(y-1)(y-) =y2y-2y2k2+422-(yy-2y21+42p4) =2y(+2)1x-(-) 2 令m=+=2()=(a,a2,…a 2、当总体的协方差已知,且不相等 y∈G1 口d2(y,G1)<d2(y,G2) )<d2(y,G1) 待判,如d(vG1)=d2(y,G2) 9/13

9/13 ❖ 判别分析根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。如何判断（判断依据）？利用已知类别的样本信息求判别函数，根据判别函数对未知样本所属类别进行判别判别分析的特点（基本思想）１、是根据已掌握的、历史上若干样本的 p 个指标数据及所属类别的信息，总结出该事物分类的规律性，建立判别公式和判别准则。 2、根据总结出来的判别公式和判别准则，判别未知类别的样本点所属的类别。 ❖ 判别分析的目的：识别一个个体所属类别 3、判别分析和聚类分析往往联合使用。当总体分类不清楚时，先用聚类分析对一批样本进行分类，再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况：被解释变量为属性变量；解释变量是定量变量。判别分析类型及方法（1）按判别的组数来分，有两组判别分析和多组判别分析（2）按区分不同总体所用的数学模型来分，有线性判别和非线性判别（3）按判别对所处理的变量方法不同有逐步判别、序贯判别。（4）按判别准则来分，有费歇尔判别准则、贝叶斯判别准则距离判别基本思想即：首先根据已知分类的数据，分别计算各类的重心即各组（类）的均值，判别的准则是对任给样品，计算它到各类平均数的距离，哪个距离最小就将它判归哪个类。（一）两个总体的距离判别法 1、方差相等先考虑两个总体的情况，设有两个协差阵  相同的 p 维正态总体，对给定的样本 Y，判别一个样本 Y 到底是来自哪一个总体，一个最直观的想法是计算 Y 到两个总体的距离。故我们用马氏距离来给定判别规则，有： 2、当总体的协方差已知，且不相等 ( ) ( ) ( ) ( )      =     ( , ) ( , )2 2 1 2 1 2 2 2 2 2 2 1 2 1 d y G d y G G d G d G G d G d G 待判，如，如，，，如，，， y y y y y y ( ) ( ) ( ) ( )      =     ( , ) ( , )2 2 1 2 1 2 2 2 2 2 2 1 2 1 d y G d y G G d G d G G d G d G 待判，如，如，，，如，，， y y y y y y ( ) ( ) ( ) ( ) ( , ) ( , ) 1 1 2 1 1 2 1 2 2 2 = −   −  − −   −  − − − y y y y y y   d G d G 2 2 2 1 1 y y y    1 2 − − − =  −  +  ( 2 )1 1 1 1  − − − −  −  +  1 1 y y y ] ( ) 2 ( ) 2[ 1 2 1 2 1 y      − + = − − 2 1 2  + 令 = ( ) ( , , , ) 1 2 =  − =  − p a a  a 1 2 1   