社会学系列教材 第八章 多元方差分析 多元方差分析的主要用途是同时分析和检验不同类别在多个间距测度等级变 量上是否存在显著差别。这种方法由威尔克(S.S.Wlk)在1932年创建,后来 又得到逐步发展和完善。现在,许多计算机统计软件中都已经具有多元方差分析 的功能。但是,这种方法在我国社会科学研究中的应用尚属少见,有待进一步推 本章第一节将从多元方差分析与一元方差分析的关系入手,简介相关方法的 沿革及多元方差分析的特点。第二节主要介绍多元方差分析所要求的变量、数据 方面的条件。第三节提供本章例题数据及例题分析的三个模型。第四节将结合例 题的第一模型分析,介绍多元方差分析的主要指标、SPSS多元方差分析的主要 操作步骤。第五节主要结合例题第一模型的数据以图示方法说明多元方差分析 的原理。第六节和第七节分别继续讨论例题第二模型和第三模型的分析,并相应 介绍多因素多元方差分析的饱和模型与非饱和模型的设置。 、简介多元方差分析与一元方差分析的关系 要对多元方差分析形成一个较明确的整体概念,我们首先追溯一元方差分析
的产生。而一元方差分析又是为了简化多个t检验而建立的综合性更强的分析方 法 1.从t检验到·元方差分析 当统计分析中需要比较来自两个子总体的样本平均值是否有显著差异时,我 们通常应用t检验方法。比如,在比较男性和女性的平均初婚年龄时,无差异假 设为 Ho:Y=Y 即两个子总体各自的平均值之间无差异。于是,我们用从两个子总体中的随机样 本中计算的平均值作为对两个子总体的估计,然后在考虑抽样误差的条件下进行 比较,以决定接受或拒绝无差异假设 在研究中如果同时有多个子总体时,应用t检验需要两两加以比较,显得十 分繁琐。因此,我们往往应用综合性更强的方差分析( Analysis of variances,简 略表示为 ANOVA)方法而代之。方差分析将提出问题的方式进行了变化,其统 计假设为,这些子总体的平均值中是否至少有一个与其他子总体的平均值存在显 著差异,表示为无差异假设,即 Ho:Y1=Y2=…=Y 其中,下标g表示分组数。 方差分析的思路为,将来自各子总体抽样样本汇合在一起,先假设他们来自 个总体(即假设无差异),然后将这个汇合样本的总变动(用离差平方和表示) 分解为两个部分。一部分是组内变动,代表着本组内(即某个子总体内;在多因 素分析时则是按多因素进行划分的交互分组内)各案例值关于组平均值的分布离 散程度。另一部分是组间变动,代表着各组平均值关于总平均值的分布离散程 度。实际上,组内变动代表了在汇合总体的总变动中不能用分组因素进行解释的 部分,组间变动代表了同一总变动中可以用分组因素加以解释的部分。将这两个 变动部分除以它们所对应的自由度,即得到均方差。组间变动均方差除以组内变 动均方差以后的统计量服从F分布,于是我们可以根据统计值对应的显著水平 决定接受或拒绝当初的无差异假设。 由于一个完整的多元回归分析中包含了相关分析、方差分析、回归分析几方 面的内容,因此研究人员越来越愿意使用代表不同分组的虚拟变量(或效应变 量)以多元回归的形式进行方差分析。这种以多元回归形式所进行的方差分析
不仅可以检验同一无差异假设,而且描述各分组平均值与参照组平均值之间的差 异(在釆用效应变量时则是描述了各分组平均值与总平均值之间的差异),并且 对这些差异分别进行t检验①。 2.从一元方差分析到多元方差分析 本章所要介绍的多元方差分析是方差分析方法的进一步扩展。 无论是单因素方差分析、多因素方差分析,还是多元回归分析,它们的一个 共同点是它们只涉及到一个因变量(或称反应变量)。不管它们的自变量有多少, 换句话说,就是其分组有多复杂,最后是通过一个指标上的观测值来反映其所产 生的差异和变化的。所以,方差分析或以多元回归形式进行的方差分析是完全等 价的。它们以数学形式的一般模型(指略去权数的模型)为 y=x1+x2+x3+…+xk 其中,y是因变量,而且必须是间距测度等级的变量;x是表示分组(或称 分类)的名义变量(在方差分析中又称为因素, factor);k是分组变量的序号。 此处需要特别加以提示,k不是分组的个数,而是分组变量的个数。由于每个分 组变量内部类型数目不同(如性别只分两类,而婚姻状况就可分为多类),但类 型至少分为两种,因此分组变量数一定不等于分组数②。当模型中除了分类变量 以外,还有其他间距测度等级的自变量(在方差分析中又称协变量, covariate) 时,这一模型就成为协方差分析( Analysis of covariance,简称为 ANCOVA) 其功能是将间距变量作为控制变量的情况下进行方差分析。 而多元方差分析( Multivariate Analysis of variance,简称 MANOVA)则已 经不能以多元回归的形式来完成了,因为多元方差分析模型的因变量已经不再是 个.而是多个:它的一般模型如下 y1+y2+…+y=x1+x2+x3+…+xk 其中,自变量x的定义同方差分析模型一样也是分组变量,k为分组变量 数;而因变量ν有多个,并且必须都是间距测度等级的变量,不可以釆用虚拟 变量或效应变量。在本模型中,因变量按序号排列.下标i表示最后一个因变 ①有关t检验和方差分析的详细内容参见郭志刚、郝虹生、杜亚军、曲海波:《社会调 耷研究的量化方法》的有关部分或参阅其他统计教科书。 ②名义测度等级变量实际上不能直接进行计算。在应用SPSS软件进行分析时,方差分 析程序先按照一定方式将其转换为可计算的编码变量,如虚拟变量、效应变量等。因此,每 个分组变量在转换中所产生的编码变量数不一定等于分组变量数,并且也一定不等于分组数
量。因此,i同时表示因变量的数目,i也可以理解为指标( index)。 相比多元方差分析的一般模型与多元回归(在这里我们用来表示一元方差分 析)的一般模型,应该特别指出,这两个名称关于“元”的定义是完全不同的。 多元回归的“元”是指自变量的数目,而多元方差分析的“元”则是指因变量的 数目 多元方差分析所要解决的问题与一般的方差分析并无二致。它的用途仍然是 检验不同分组是否存在显著差异。所不同的是,它的检验是建立在同时考察多个 反应变量观测值上,而不是仅仅考察一个反应变量。 因此,多元方差分析的统计假设需要用向量形式来表达,其无差异假设为 H Y2K 其中.下标g代表分组数,i代表因变量数。y代表第g组在第个指标上观测 值的平均值。上述假设是,总体按各个因素进行分组后,各分组子总体在每一项 反应指标的平均值上均无差异。 关于上述假设表达式中有两点需要加以注意。 第一,这一无差异假设中表示分组的下标为g,不是上述多元方差分析一般 模型中最后一个自变量的下标k。这是因为,一般模型中的自变量不仅包含表示 分组的变量,也可能包含间距测度等级的协变量。并且,就是在没有协变量的纯 粹方差分析模型中,因为自变量是名义变量,根据一个自变量可以分成多组。比 如在中国1990年人口普查资料中对于15岁及15岁以上的人而言,变量婚姻状 况可以用1至4分别表示未婚、有配偶、丧偶、离婚四种情况。而多个分组变量 即表示分组要根据多种因素交互进行。比如,分组变量选用婚姻状况(四类 性别(男、女两类)和文化程度(从不识字至大学本科共有七类)三个(k 3),那么分组总数等于各名义变量中分类数的连乘积,即g=4×2×7=56。 第二,这种表达的含义并不等于多次单指标方差分析结果的迭加。这是因 为,在多元方差分析中各指标上是否存在差异的检验是同时完成的,它涉及到各 因变量的多元联合分布。正是因为如此,多个单指标方差分析的结果不能取代多 元方差分析的结果。在后面的例子中,我们就能看到在对单个因变量进行方差分 析时根本不呈现分组之间的显著差异,而多元方差分析却能够检验出分组间的显 著差异 根据本书的宗旨,这里并不想展开数理上的证明或说明。下面,我们仅通过
例题案例的具体分析结果来显示多元方差分析与多个单指标方差分析的差别,然 后采用一些简单的图示来简明扼要地说明为什么多元方差分析能够产生在同一问 题上与单指标方差分析不同的结论。 多元方差分析涉及了大量的矩阵计算。正是因为如此,限制了它的普遍应 用。得益于近年来计算机和统计软件的迅速发展,我们今天不再需要劳神于这些 中间过程的矩阵计算,因为只要我们将分析数据输入,统计软件可以十分迅速地 给出多元方差分析的最终结果。但是,为了正确应用多元方差分析方法并能够正 确理解和阐述它的结果,我们仍然需要充分理解这种方法应用的范围、依据的基 础假设条件,以及其最终输出结果的含义。 、多元方差分析的数据要求和假设条件 多元方差分析是一元方差分析的扩展。它的因变量必须为间距测度等级变 量,自变量为名义测度等级的分组变量。在应用SPSS进行方差分析时,不需要 将分组变量进行虚拟编码等转换,只需要使分组变量中各组以连贯整数作为代 码。 由于存在多个因变量,因此它对于因变量之间的关系有专门的要求。首先 因变量之间需要存在一定程度的相关。这里包含两层意思。其一是因变量之间应 该为线性关系,如果是非线性关系,则多元方差关系会失去发现和检验分组之间 多元差异的能力。如果已知某些因变量之间存在非线性关系,可以先对因变量进 行改造,使非线性关系线性化,然后再用改造得到的变量进行多元方差分析。其 一是因变量之间有一定强度的相关,否则不足以发现和检验分组之间的多元差 异。换句话说,因变量之间如果线性相关程度太弱,采用多元方差分析将一无所 获。SPSs的多元方差分析中提供有关因变量相关性的检验( Bartlett test of sphericity 多元方差分析在样本规模上也有一定要求,不仅总规模需要较大数量,而且 在各分组中也要有一定数量的案例,这是因为它是多元分析,否则不容易取得显 著结果。另外,各分组的样本规模不宜差别太大,尤其要注意避免出现空单元即 ①不要将此与多元回归中的多重共线性问题相混淆。多重共线性问题指多元回归分析 中自变量之间的高度相关,因此而无法确定各自变量对因变量的作用。而多元方差分析所要 求的是多个因变量之间的相关,这样才具备得到识别分组之间多元差异的可能性。所以在多 元方差分析中,一定程度的共线性或多元共线性不但不是问题,而且是必要条件
分组无案例的情况。 多元方差分析是在一定假设条件下进行的。只有这些假设条件得到满足,多 元方差分析才可能得到适当的应用。这些条件中包括 (1)案例来自随机抽样 每一分组的案例都是从对应该分组的总体中随机抽样得到的。这就是说案例 观测值之间是相互独立的。通常在横贯总体中的抽样基本上可以保证这个条件的 满足。而观测案例来自于时间序列资料时,则较容易产生案例之间发生序列相 关。但是,对于这一假设条件的满足情况很难通过统计手段来检验,主要是根据 经验判断。 (2)各因变量为正态分布且方差相等 对应所有因变量的那些总体必须为正态分布,并且每个分组的因变量分布具 有相同的方差。当各分组的样本规模比较接近时,比如最大一组的案例数不超过 最小一组案例数的1.5倍时,违反了这个假设条件影响也不太大。当分组规模差 别很大时,可以采用一些统计手段来检查各分组的方差是否相同,如SPSS多元 方差分析可提供的单组检验有 Cochran’ sC test、 Bartlett-box test,整体检验有 Box’ s M test然而,有的检验(如Box’ s test)又对于是否正态分布非常敏 感,所以在检验之前,还需要对于各因变量的分布是否正态进行检验。SPSS方 差分析能够提供图形供用户审阅变量是否为正态分布,如枝叶图(stem- and-leaf plot)、正态图( normal plot)、去趋向正态图( detrended normal plot)等 (3)各因变量之间为多元正态分布 作为多元方差分析的特别之处,它还要求各因变量分布之间具有特定关系 这种关系是通过联合分布的形式所描述的。每个单独的变量是正态分布并不能保 证它们的联合分布是正态分布。多元方差分析要求这些正态分布之间的联合分布 必须是多元正态分布。但是,这一条假设实际上很难得到验证 上述三个假设条件的前两个同样也是一元方差分析所要求的假设条件。但是 在实际应用中,这些假设条件的满足并不是十分严格。只有出现了非常特别的案 例时(异常值, outlier),才造成分析结果失去有效性。SPS可以输出案例在各 因变量上的数值与标准差的散点图,可供观察是否有异常值存在。 例题数据及三个分析模型 下面通过对一套数据资料建立不同模型来示范多元方差分析。 所用的数据资料是一套虚构的抽样调查数据(见表8-1)。案例是调查得到
表8-1 本章多元方差分析例题的数据 INC EDU NAT RUR 234567890 222 73 76 234 76 333333 序号仅为标注各案例而设,于分析无关,可不输入。 注:本书所附数据磁盘中的相应数据文件名为T81SAV 的24个社区的数据资料,包括两个间距测度等级变量和两个名义测度等级变量。 间距测度等级变量将作为多元方差分析模型的因变量,一个是人均收入水平(变 量名为INC,即 Income),另一个是15岁以上人口中具有小学毕业文化程度的 人所占比例(变量名为EDU,即 Education)。人均收入水平代表了社区的经济
发展水平,小学及以上文化程度的人口比例代表了社会发展水平。作为分组标志 的两个名义测度变量之一是民族(变量名为NAT,即 Nationality)。这一自变量 值编码从1至3,分别代表三个不同民族。每个民族有8个社区案例。另一个分 组名义变量是城乡地区类型(变量名为RUR,即 Rural),编码值1代表农村、2 代表城市 例题数据将采用三个模型进行同时考虑收入和教育两方面的多元方差分析 第一模型:对民族进行多元方差分析(单因素二元模型) 第二模型:对民族、城乡交互分组进行含交互影响的多元方差分析(双因素 二元饱和模型 第三模型:对民族、城乡交互分组进行无交互影响的多元方差分析(双因素 二元非饱和模型) 根据不同模型来介绍有关SPSS多元方差分析的操作步骤、统计结果输出及 模型分析结果的解释工作。毎个模型的分析作为一节。并且,我们将在得到第 模型的统计分析之后,专门设一节利用图示的方法形象地描述多元方差分析的原 理及其与一元方差分析的区别所在。 四、第一模型:单因素二元模型 第一模型的研究目的是通过样本数据检验这三个民族在社会经济发展上是否 存在显著差异。我们用多元方差分析的无差异假设可以将这个问题表达为 「INC3 EDU1」LEDU2」EDU3 其中下标1,2,3分别表示三个民族。这个无差异假设表示三个民族在经济 和社会两项指标上相等。注意这里是同时通过两个方面来检查是否存在民族差 异。在后面的结果中,将会看到同时对社会、经济两方面的检验结果与分别进行 两次一元方差分析所得的结果很不相同。 因为这一模型只有一个分组变量和两个因变量,所以它属于单因素二元模 1.PSS多元方差分析中单因素模型及其他检查的设置 将数据输入SPSS数据窗口(或打开已经存在的SPSS数据文件以后),用光 标拉开 Statistic(统计)菜单,然后选择 ANOVA Models(方差分析),继而选择
Multivariate Anova(多元方差分析)一项。于是视屏上会出现该程序的对话窗 在该窗口中左侧一栏为工作数据中可选的变量名称。用光标选择INC和 EDU,然后通过点击窗口中最上面一个向右的箭头键将其移入 Dependent Vari- abes(因变量)栏。 然后,用类似的方式再选择变量NAT,并将其移入中间的 Factor(因素, 即名义测度的分组自变量)一栏。一旦有新变量移入此栏,便会自动在变量名之 后出现[??]记号,这是用来定义该分组变量值域的。此时,需要点击该栏之 下的 Define range键,即会出现一个新的对话小窗口。在 Minimun一栏指示该 变量的最小值1;再在 Maximum一栏指示该变量的最大值3。注意在运行前必须 保证各分组变量值是连贯的整数值。如果分组变量中存在着超出指示值域的情 况,那么这些案例将会被排除出将进行的多元方差分析。在定义了分组变量的值 域以后,点击小窗口右侧的 Continue键继续后面的步骤。 如果只是需要取得多元方差分析的检验结果,那么现在只要在 Multivariate ANOVA窗口中点击右上角的OK键即能够得到。这时,SPSS按默认状态对所 定义的因变量和自变量来进行多元方差分析。上述命令产生的分析中默认状态包 括 只输出多元方差分析检验和一元方差分析检验两个统计结果。 不输出其他参数估计。 兴在分解总偏差平方和时釆用回归法,即每一项效应都相对模型中的所有 其他效应做调整 *在进行检验所有效应时,是用解释方差(即代表组间差异的方差)与组内 方差与残差的合计方差(这里的残差指模型的交互效应部分的方差)相比 而得的。 最后一项是关于自变量之间或自变量与协变量之间交互效应的规定,因本 章例题没有涉及协变量,所以与此项无关。 如果还需要更多的输出结果,那么还可以通过该窗口下面的三个窗口改变 SPSS多元方差分析程序的默认状态来取得。但是如不需要,不要随意改变默认 值,否则得到的统计结果可能与所需要的统计口径发生不一致 为了检查所用数据是否具备多元方差分析所要求的性质并符合其假设条件, 较多用到的检验包括:第一,检验因变量是否正态分布;第二,因变量是否具有 相同方差;第三,因变量之间是否有足够的相关。如果需要上述检验,可用光标 点击多元方差分析视窗中右下角的“ Options…”键,打开相应对话窗口。如需 265
上述第一项检查,选择该窗口中部 Diagnostics栏目中的 Residual plot一项。如 需要上述第二项,可选择同栏目中的 Homogeneity tests如需要上述第三项检 验,可选择该窗口的左下部分 Error matrices栏目中的 Correlation一项。 2.第一模型分析输出的结果及讨论 例题的第一模型中分组变量只有一个,因此只有主效应,没有交互效应,所 以残差项等于0。多元方差检验是按照SPSS方差检验的默认状态进行的、而实 际上是组间方差与组内方差相比的检验。 应用SPSS对上述例题进行多元方差分析所得到的输出包括以虚线分开的两 部分分析结果。第一部分是多元方差分析假设检验结果( Multivariate Test of Significance),第二部分是一元方差分析假设检验结果( Univariate F-tests) 多元方差分析假设检验结果中提供了以四种不同方法对自变量NAT在两个 因变量INC和FIU上的解释作用的检验。这一检验是同时完成的。所谓解释作 用以组间均方差代表,未解释部分以组内均方差代表。上述四种检验方法中包 括:Fili检验、 Hotelling检验、 Wilks检验和Roy检验(在SPSS中只给出Roy 统计量值,不进行检验)ε其中,wlks检验得到的F检验值是精确值,其他三 种检验得到的F值是近似值。这四种统计量一般取得十分相近的检验结果 般来说,我们希望所应用的方法在多元方差分析假设条件出现某种违反程度的情 况下其检验依然不受太大影响,并且能够保持最大的统计检验功效( power of statistical test,即在无差异假设实际上为不真实时正确地拒绝它的概率)。 在一般情况下,Pli检验的显著水平值比其他检验得到的α稍高,说明这 种方法在接受无差异假设时相对较为保险,并且它在样夲规模很小、各分组规模 不等、或分布的方差不等时使用的效果也较好。Wlks检验也具有不太受违反假 设条件影响、统计检验功效较强旳特点。然而,在足以确信所有假设条件能够得 到严格遵守且因变量能够由一维效应所代表时,Roy检验可以具有最强的检验功 效。但是,它的计算值不能直接换算成某种已知分布的统计量,所以在SS多 元方差分析报告中只提供计算值,没有提供换算的F检验值及其显著水平 般采用经验方法来评价Roy值,如果Roy值小于0.1,便认为其不显著。 检验功效的大小取决于几个因素,包括显著水平α的确定、效应规模(ef fect size,即各分组平均值之间的差异)以及各分组的样本规模。一般情况下 研究人员对于显著水平和效应规模没有什么选择的余地,所以通常采用扩大各分 组样本的规模的办法来增强检验的功效。在实际研究中,一般希望检验功效的概 率能够维持在08以上。如果各分组的样本规模少于50,对于维持上述检验功