杜会学系列教材 第五章 通径分析 引 科学的最终目的在于揭示事物变化的内在规律,因果关系是事物内在规律的 种基本形式。然而,事物的内在联系并不能直接观察到,所以需要在科学研究中应用 各种方法来加以探索和分析。通径分析便是一种探索系统因果关系的统计方法。 因果关系模型中明确设置自变量和因变量,通过模型分析,检査自变量对于 因变量的作用方向、作用强度和解释能力。并且,因果关系模型还可以用来进行 预测。本书第二章多元回归分析便是因果关系模型的一种。但是,多元回归模型 是一种比较简单的因果关系模型,它所假设的因果关系不存在多环节的因果结 构,尽管多元回归模型中可以包含多个自变量,然而各个自变量对因变量的作用 却是假设为并列存在的。多元回归模型可以用图5-1示意。 在多元回归模型中,各个自变量被假设处于相同的地位,多元回归分析得到的 回归系数(或标准化的回归系数)表示在控制其他自变量的条件下每个自变量对 于因变量单独的净作用。然而对于有些实际研究而言,这种假设显得过于简单,未 必能够达到充分、有效的要求。另外,多元回归可以允许自变量之间存在相关关系 比如图5-1还可以在两个自变量之间加上代表r12的双箭头曲线来表示这一相关关
系。但是由于回归分析一般并不关心m12,所以对这一相关关系的代表线省略。 xI 图5—1多元回归模型因果关系示意图 但是,有时研究人员从经验和理论两方面都有理由认为,变量之间的因果作 用是更复杂的传递过程,一个变量对于某些变量可能是原因变量( cause/ predic tor variable),而对于另外一些变量则可能是结果变量( response variable)。这时 对整个因果结构模型便不能简单地以因变量或自变量的概念来划分变量类型。对 于这样的模型,可以用结构方程组或相应的通径图来表示(见图 31 P 图5—2通径模型的因果结构示意图 通径分析的主要功能是研究变量之间关系的不同形式。通过多元回归的学 习.读者已经了解多元回归在分析上优越于简单回归。由于多元回归的统计控 制.其偏回归系数的数值往往不同于简单回归系数,有时甚至连系数的符号也不 相同。与回归分析相比,通径分析是一种统计分析能力更强大的工具,它还可以 进一步揭示多元回归系数与简单回归系数之间的数量联系。总的来说,简单回归 系数是一个自变量对因变量作用的“毛”测量( gross measure),而多元分析的 偏回归系数则是自变量作用的一种“净”测量( net measure)。类似于通常所说 的毛重中不仅包括净重而且还要加上其他包装填料的附加重量,自变量作用毛测 量也是由净作用加上其他作用所构成的。与净重和毛重之间关系不同的是,影响 作用有正负之分,所以自变量的毛作用并不一定大于其净作用,两者之间的数量
关系可以千变万化。回归分析本身无法对此做出分析和评价,然而通径分析的主 要功能之一便是将毛作用分解为直接作用(相当于上述的净作用)和各种形式的 间接作用,使我们对整个模型系统中变量的因果关系有更为具体、深入的理解。 通径分析的着眼点主要在变量之间作用系数的分解上。比如,进行两个变量 之间的简单回归就可以得到一个简单回归系数。如果我们可以根据理论,在这两 个变量之间加上许多中介变量,形成复杂的因果结构,以通径模型来表示,就有可 能将这个简单回归系数分解为不同因果链条上的作用,得到这一因果关系的更具 体的形式。实际上,通径分析只是结构方程模型这一类十分广泛的模型中的一种。 通径分析不仅能够对于简单回归系数进行分解,而且还可以对简单相关系数 进行分解。通径分析发展的最初动机,便是产生于将简单相关系数分解为不同的 影响部分。分解相关系数实际上与分解回归系数交织在一起。但是,分解相关系 数更具有一般方法论的意义。在研究方法论上,变量之间是否存在相关和偏相关 常常被作为检验因果关系的必要条件之一。因此,尽管有的统计学教科书由于分 解相关系数的通径分析技术比较繁琐(但并不算深奥难懂)而略去不谈,本章仍 然将其作为介绍的主要内容,相信读者学习之后,不仅可以作为一种分析技术应 用于实际研究,而且对于提高统计理论和方法论方面的基本素质有所收益。 二、通径模型的设置 通径模型既可以用结构方程组的形式来表示,也可以用通径图来表示。为了 表达和分析上的简明,一般在通径分析中采用标准化的变量,并按照因果序列给 出相应的下标。 比如,通径模型的结构方程组 对应着一个十分简单的通径图,各变量之间的关系可以从图中一目了然。图5 2便是对应上述结构方程组的通径图。在通径图中以通径(即图5-2中那些带 有箭头的直线)表达因果关系。比如图5-2中ε1与::之间的通径箭头指向 2,说明x1作用于x2。这一因果关系对应着上述结构方程组中的第一个方程。 对于这一因果关系(即x1对x2的作用)的强度,是用通径系数来表达的,即 户21如前所述,对于整个通径模型,很难用因变量或自变量来划分,因为这两 个概念只有在一个方程中才能确定。而对于拥有多个联立方程的整个通径模型则
很难应用。比如,就第一个方程而言,κ2是因变量。然而,就第二个方程而言 2又成了x3的两个自变量之一了。因此,通常在通径分析中不采用y来作为变 量名.而是根据因果链条以序号将变量定名。第二个方程对应着通径图的另一部 分,即从3来看,有两条通径指向它,分别代表了来自z:和x2的作用。为了 区别不同通径系数,一般用该通径箭头所指的结果变量的下标作为通径系数的第 下标,而用该通径的原因变量下标作为通径系数的第二下标。比如,p2代表 s对于x2的影响作用强度,p和px2分别代表x1和2对:3的影响作用。 通径分析模型中的变量分为两类 类是外生变量( exogenous variable),即模型中没有注明它的变化是由什 么因素造成的,也不准备讨论这一问题。可以是一个,也可以是多个。比如,图 5-2中只有一个外生变量z1。但是如果删除通径p2,变量x2就变成了外生变 量。外生变量之间可以用双箭头直线或曲线(,)表示其相关关系。如果设 置外生变量之间无关,即r12=0,则表示相关的双箭头连线可以省略。外生变量 的变化是完全由模型之外的因素决定的,因此不是模型研究的对象 另一类是内生变量( endogenous variable),即由模型中另外一些变量所影响的 那些变量。图5-2的通径模型中有两个内生变量(x2和:3)。内生变量的变化是 由同一模型中的外生变量或其他内生变量所决定的,但是也可能有一部分是由模 型之外的因素所决定,通常用相同下标的e来标志,作为该变量的误差(eror) 此外,我们可以将通径模型内不影响其他变量的内生变量称为最终结果变量 ( ultimate response variable)。图5-2中x便是最终结果变量。最终结果变量可 以有多个,比如将图52中的通径p2删除后,变量2就变成了最终结果变量 三、递归通径模型与非递归通径模型 通径模型有两种基夲类型:递归模型与非递归模型。两种模型在分析时有所 不同。递归模型可以直接通过常规最小二乘法回归(OLS)来取得通径系数估计 值,而对于非递归模型则不能这样做。尽管本章主要介绍递归模型的通径分析 但是要求读者能够预先正确判断一个模型的类型属性,才能保证应用这些分析技 术时不会发生搞错研究对象的问题。 1.递归通径模型 因果关系结构中全部为单向链条关系、无反馈作用的模型称为递归模型 148
( recursive model)。并且这意味着在这种模型中,各内生变量与其原因变量的误 差之间、或各两个内生变量的误差之间必须相互独立,即相关系数为0。图5-2 中便是一个递归模型。 上述简单定义在实际判断是否递归模型时,仍然可能不够明确。对此,我们 可以采取排除法,即如果一个模型不包含非递归模型的特征,即作为递归模型处 理。因此,我们将用一些篇幅简单介绍非递归模型的特征 2.非递归通径模型 与递归模型相对的另一类模型称作非递归模型( nonrecursive model)。如果 个通径模型中包括以下四种情况,便是非递归模型。 先讨论前三种情况。第一种情况是,模型中任何两个变量之间存在双向因果 关系即有直接反馈作用(见图5-3-(a)。第二种情况是某个变量存在自身反馈 (a)两个变量之间存在直接反馈作用 P31 (b)某些变量(上图中为2)在自反馈 P 2 c)某些变量之间构成间接循环圈 图5-3非递归通径模型的三种反馈作用类型 149
作用,即该变量存在自相关,就是说该变量的每一个值都影响作用于同一变量的下 个值(见图5-3—(b))。第三种情况是,变量之间虽然没有直接反馈,但是存在 间接反馈作用,即顺着某一变量及随后变量的通径方向循序前进,经过若干变量 后,又能返回这一起始变量的情况(见图5-3-(c))。请注意非递归作用关系与 相关关系在通径分析中的标注方法是不同的,不要将其混淆。 判断是否非递归模型时.除了要看是否存在上述三种反馈情况以外,还要看是 否存在第四种情况,即每一个内生变量的误差项是否与其他有关项目相关。第四 种情况还可以具体表现为两种情形:(1)一个结果变量的误差项与其原因变量相 关;(2)不同变量之间的误差项之间存在相关①(见图5-4)。如果一个模型中有 这种情况发生,就是一个非递归模型,不能用常规回归方法来求解通径系数。 p (1)一个内生变量的误差项与其原因变量相关 Pie 2 (2)一个内生变量的误差项与另一内生变量的误差项相关 图 因误差项相关造成的非递归模型 D Heise, David R (1975)Causal Analysis. John Wiley Sons, Inc: 153-160 150
图5-4中的第一种情况有可能是产生于没有将两个变量的共同原因变量明 确纳入模型,要是能够找到一个变量α3同时影响z1与α2,并明确将其设置于 模型之中,便能够将内生变量误差项e2与外生变量x1的相关部分从原有的e2 中剥离出去,使新得到的e2不再与z1相关。重新设置的模型便成为递归模型 如图5-5所示。 图55通过明确设置共同的原因变量使模型递归化 在图5-4的第二种情形中,虽然p21可以通过常规最小二乘法对方程x2= p21x回归求出,但是模型中的另一个内生变量x;对z2回归时却遇到与图5 中第一种情况同样的非递归问题(因为e2与e3和x2分别相关,所以可以视为 e3与z2相关)。图5-4中的两个非递归部分都不能直接采用最小二乘法回归求 解通径系数,因为在非递归的情况下用常规回归方法所计算的回归系数(或标准 化回归系数)并不等于所要求的通径系数。正如模型中如果发生图5-3中的三 种反馈作用,就不能简单应用最小二乘法回归来求解通径系数。 总之,非递归模型的参数估计过程将非常复杂,有时可能无解。并且,整个 模型也很难得到检验。一些非递归模型可以应用通径分析的变换规则将非递归模 型转换后求解,但是这些规则比较复杂,应用时还需要一定的技巧,所以本章不 讨论非递归模型的分析,有兴趣的读者可以参考有关书目。①以上关于非递归模 型的介绍主要服务于辨别递归模型和非递归模型,以免发生将非递归模型按照递 归模型分析处理的错误。 本章所介绍的递归模型实际上只是通径模型分析技术中的一部分。作为本章 内容范围内应牢记的递归通径分析基本性质有②:第一,所有递归模型都是可识 Berry william D.(1984)Nonrecursive Causal Models. Sage Publications, Inc Heise, David R.(1975)Causal Analysis, John Wiley Sons, Inc 2: Berry William D.(1984)Nonrecursive Causal Models. Sage Publications, Inc:8
别的,只有可识别的模型才可能确定有意义的通径模型联立方程组中的通径系数 解。第二,递归模型的假设条件允许采用最小二乘法回归来取得联立方程组中各 系数的无偏估计,即对于模型中每个方程进行(多元)回归,所得到的(偏)回 归系数就是相应的通径系数。另外,通径系数既可以采用非标准化的回归系数 也可以采用标准化的回归系数。采用标准化回归系数作为通径系数,将使得通径 分析的表达和分析变得比较简明。所以,本章将标准化变量作为研究对象 通径分析在分解相关系数时以模型中所有变量之间的相关系数矩阵作为基础 数据,分析也比较繁琐,我们将放到后面来介绍。而利用通径分析技术分解简单 回归系数时可以直接依赖计算机统计软件所输出的回归系数。借助上面陈述的两 个基本性质,我们将直接以计算输出的标准化回归系数作为基础数据,展示递归 通径模型分析技术。 3.递归通径模型分析的假设条件 总结本节以上讨论,可以归纳出递归通径模型需要满足以下假设和限制条 (1)通径模型中各变量之间的关系为线性、可加的因果关系模型变量之间 的关系必须为线性关系,意味着在设立因果关系时,原因变量的每一单位变化引 起结果变量的变化量不变。由于变量之间的关系是线性的,进而达到一个结果变 量在受多个原因变量作用时,各原因变量的作用可以迭加。 尽管通径分析本来可以处理交互作用,但不作为本章介绍的内容。 (2)每一内生变量的误差项与其前置变量不得相关,同时也不得与其他内生 变量的误差项相关这就是说,假设误差项所代表的一些未明确纳入模型的变 量不能与前置变量相关。同时,模型不对外生变量之间的相关进行分析。 (3)模型中因果关系必须为单向,不得包括各种形式的反馈作用 (4)模型中各变量均为间距测度等级 (5)各变量的测量不存在误差 在满足上述假设条件的情况下,便同时满足了一般回归的假设条件,因此通 径分析可以通过对每个内生变量进行简单或多元常规回归求解模型中各通径的系 数 四、分解简单回归系数的通径分析 在递归模型中,通过回归分析得到模型的所有通径系数以后,可以在此基础 152
上对于变量之间简单回归系数进行分解。与下一节将要介绍的对相关系数分解的 方法有所不同,在对回归系数分解的通径分析中,我们将忽略各个回归方程的误 差项。实际上,每个内生变量的误差项都作为模型的外部影响单列处理。分解简 单回归系数的通径分析的主要功能如下 第一,计算一个变量对最终反应变量( ultimate response variable)的直接影 响和间接影响,以及作为两者之和的总影响。 第二,在间接影响中,还可以分解出以不同通径传递的间接影响。 第三,在控制某些变量的条件下,完成上面两项工作。 第四,对于通径模型进行检验,包括对各通径的检验,以及对过度识别模型 ( overidentified model)进行检验。 计算一个变量对最终反应变量( ultimate response variable)的 各种影响 对于上面的简单的联立方程组通径模型,分析x1对于z3的影响。按照回归 分析的理解,我们知道p31就是在控制≈2的条件下x1对于x3的净影响。那么就 此模型而言,这就是直接影响。通径分析可以使我们计算出x1对于≈3的间接影 响。只要对上述联立方程组做一些简单的数学变换,即可完成这一任务。 比如、对于通径模型的结构方程组 2=p p32 用式1-1代入式1-2以后,我们有: 3=p31x1+p32(p211) (p3+p32p21) (1-2’) 于是,我们看到在式12’中最终反应变量x3被表达为z1的函数,在括号 中即为x1对x3的总影响系数,它是由两项组成的。第一项就是z1对z3的直接 影响;那么当然第二项就是间接影响。并且我们可以从间接影响的两个通径系数 下标看出这是由s1通过2再传递到x3的间接影响。其实,所谓x1对z3的总 影响(即括号内各项的代数和)实际上就是以x3为因变量对x1做简单回归时得 到的标准化回归系数值。当最终反应变量完全作为一个外生变量的函数时,我们 就称这个表达式为简化型模型( reduced form of the model)。在简化型模型中最 终反应变量与这一外生变量之间的关系就通过括号中的部分表示,它就是总影 响。而括号中可以包括一项直接影响和若干项间接影响。因为本例中的模型过于 153
简单,所以只有两项。 2.以不同通径传递的间接影响 如果模型比较复杂,则简化型模型便会呈现较为复杂的情况。由于中间变量 ( intermediate variables)较多,一个原因变量对于结果变量的总间接影响是通过 各种通径传递影响的总和,而这些不同的间接影响可以应用通径分析来进行分 解。让我们再用一个较复杂的模型作为例子(见图5-6)对此来加以示范。 P32 通径模型的因果关系示意图 相应图5-6模型的结构方程组为 p212 2-1) 3=p31x1+p (2-2) p52z2+p5323+p54z (24 这一模型比上一模型多两个内生变量,因而多两个回归方程。并且,这是一 个饱和模型( saturate model),即凡是可能有通径连结的地方都设立了通径。因 为前两个方程与上例相同,所以得到的简化形式22’与上例中的式1-2’相同。 再将其代入式23中的23,并将式21代人式23中的z20于是,我们有本例x4 用x1表示的简化型 24=p4121+p42p2121+p43(力31+p32力21)x1 (p4+2p21+p43p3+p4332p21)x1 (2-3’) 再将以上所有z2、x3、x4作为z1的函数表达式代入式2-4,就能够得到z5 以z1表示的简化型: