
第十四讲结构方程模型fi是否影响f2?但我们只能测到x,yV(x=Lfi+1y=L2f2+&2f2=Bf1+8B
第十四讲 结构方程模型 1 𝐵 𝑓1 𝐱 𝐲 𝐿 L2 1 𝐿2 𝑓2 ቐ 𝐱 = 𝐿1𝐟1 + 𝛆1 𝐲 = 𝐿2𝐟2 + 𝛆2 𝐟2 = 𝐵𝐟1 + 𝜹 𝑓1是否影响𝑓2?但我们只能测到𝐱, 𝐲

感兴趣的问题:变量f,f是否存在因果关系?但它们不可测,比如下图中的Intelligence,Academicperformance,我们只能测到它们的外显变量(或替代指标)x,y。结构方程模型(StructuralEquationModels,SEM)的终极目标是以可观测的显变量推断潜变量之间的关系,但也可以处理没有潜变量的情形在社会学、经济学、政治学、行为科学、心理、教育学中应用广泛。SEM模型以路径图(pathdiagram)表达:12万AcademicIntelligencePerformance.64.73.82.75.98,871+HighSATACTscale 2scale3scale 4scaleschool+DScoreScoreGPALeAe5e6e2
2 感兴趣的问题:变量𝑓1, 𝑓2是否存在因果关系? 但它们不可测,比如下图 中的Intelligence, Academic performance, 我们只能测到它们的外显变量 (或替代指标)𝐱, 𝐲。 结构方程模型(Structural Equation Models,SEM)的终极目标是以可 观测的显变量推断潜变量之间的关系, 但也可以处理没有潜变量的情形, 在社会学、经济学、政治学、行为科学、心理、教育学中应用广泛。 SEM模型以路径图(path diagram)表达: 𝑓1 𝑓2 𝐱 𝐲

SEM发展历史CharlesSpearman(1863-1945,心理学家):单因子分析SewallWright(1889-1988,遗传学家):路径分析pathanalysis,因果研究先驱,无隐变量。LouisThurstone(1887-1955,心理学家),HermanWold(1908-1992,经济学家,统计学家):多因子分析HerbertSimon(1916-2001,经济学家):Undercertainassumptionscorrelationisanindexofcausality.HubertBlalock(1926-1991,社会学家):Simon-BlalocktechniqueOtisDuncan(1921-2004,社会学家):pathanalysisandcausalmodelsKarlJoreskog(统计学家):协方差结构分析,SEM分析软件:LISREL(linearstructural relations)
3 • Charles Spearman (1863-1945,心理学家):单因子分析 • Sewall Wright (1889-1988,遗传学家):路径分析path analysis,因果研 究先驱,无隐变量。 • Louis Thurstone (1887-1955,心理学家),Herman Wold(1908-1992,经 济学家,统计学家): 多因子分析 • Herbert Simon (1916-2001, 经济学家):Under certain assumptions correlation is an index of causality. • Hubert Blalock (1926-1991, 社会学家):Simon-Blalock technique • Otis Duncan (1921-2004,社会学家):path analysis and causal models • Karl Joreskog (统计学家):协方差结构分析,SEM分析软件:LISREL (linear structural relations) SEM发展历史

SEM软件SEM商业软件LISREL(70'sKarlJoreskog):应用最广泛的软件EQS(80'sPeterBentler)AMOS(90'sJamesArbuckle)Mplus (00's BengtMuthen)SAS:proc CalisR Package:lavaan(2010-,):latent variableanalysis,开发者:YvesRosseel@GhentUniversity。仍在开发阶段,尚不能画pathdiagram。sem(2001-,JohnFox):模型设定格式比较复杂,可画pathdiagram。.Lava (2012-Klaus Holst):下面介绍,SEM的三种主要模型:1.确认因子分析(检验探索因子分析的结果)2.线性回归模型,路径分析(无潜变量)3.一般结构方程模型(包含上述两种)
4 SEM商业软件 • LISREL (70’s Karl Joreskog): 应用最广泛的软件 • EQS (80’s Peter Bentler) • AMOS (90’s James Arbuckle) • Mplus (00’s Bengt Muthen) • SAS: proc Calis R Package: • lavaan (2010-,): latent variable analysis, 开发者:Yves Rosseel@Ghent University。仍在开发阶段,尚不能画path diagram。 • sem (2001-,John Fox): 模型设定格式比较复杂,可画path diagram。 • Lava (2012-Klaus Holst): SEM软件 下面介绍,SEM的三种主要模型: 1.确认因子分析(检验探索因子分析的结果) 2.线性回归模型, 路径分析(无潜变量) 3.一般结构方程模型(包含上述两种)

1.确认因子分析探索因子分析(EFA:exploratoryFA):即前面我们考虑的因子分析,用于探索发现潜在的因子,解释显变量之间的相关性。确认因子分析(CFA:confirmativeFA):假如EFA发现某些因子与某些变量可能无关(载荷~O)。我们在CFA模型中假设这些载荷为0,并检验这个假设是否成立,即确认EFA结果是否显著。简言之,CFA与EFA基本相同,它对EFA做了两点修正:口假设某些载荷为0,无需估计:口但需要假设因子之间是相关的
5 探索因子分析(EFA:exploratory FA): 即前面我们考虑的因子 分析,用于探索发现潜在的因子,解释显变量之间的相关性。 确认因子分析(CFA: confirmative FA):假如EFA发现某些因子 与某些变量可能无关(载荷≈ 0)。我们在CFA模型中假设这些载 荷为0,并检验这个假设是否成立,即确认EFA结果是否显著。 1. 确认因子分析 简言之,CFA与EFA基本相同,它对EFA做了两点修正: 假设某些载荷为0,无需估计; 但需要假设因子之间是相关的

路径图F椭圆:潜变量回归系数相关系数(因子或因子一方差因子因子方形:显变量单向箭头:因果载荷因子显变量双向箭头:相关弯曲双箭头:SEM模型通常以路径图(pathdiagram)表示。路径图中,口椭圆代表因子(潜变量),不可测量,但可推断。口长方形代表显变量(manifestvariable,可以测量的变量)。口单箭头表示因果或载荷显示:因子之间的单箭头表示因果;因子到显变量的单箭头表示载荷显示(也是因果)。口双箭头表示相关:因子之间的双箭头表示相关。弯曲双箭头表示方差(有时为了简化,不显示)。口箭头旁边的数字为回归系数(因子一因子)、相关系数(因子因子)、载荷(因子一显变量)口特殊因子(误差)通常不显示。6
因子 回归系数 因子 因子 相关系数 因子 因子 载荷 显变量 6 SEM模型通常以路径图(path diagram)表示。路径图中, 椭圆代表因子(潜变量), 不可测量,但可推断。 长方形代表显变量(manifest variable,可以测量的变量)。 单箭头表示因果或载荷显示:因子之间的单箭头表示因果; 因子到显变量的单箭头表示载荷显示(也是因果)。 双箭头表示相关:因子之间的双箭头表示相关。弯曲双箭头 表示方差(有时为了简化,不显示)。 箭头旁边的数字为回归系数(因子→因子)、相关系数(因 子↔ 因子)、载荷(因子→显变量) 。 特殊因子(误差)通常不显示。 路径图 方差 f1 f2 x y 椭圆:潜变量 方形:显变量 单向箭头:因果 双向箭头:相关 弯曲双箭头: 或

CFA模型:例1基于EFA结果,我们假设如下确认因子模型:Gaelic =112F2+8Gaelic,English,Histroy只和F2有关,English =12F2+82Arithmetic,Algebra,Geometry只和F有关History =132F2+83Arithmetic=14,F +84这些假设体现在CFA中前三门课在E上载荷为O,Algebra =1s,F +&s后三门课在F上载荷为0。假设因子之间相关系数为p。Geometry =16,F +868,~N(O,y),i=1...6独立s's与F,E独立。路径图:F,F潜变量,F2(F)-~(8)C )其它为显变量L12L22L32GaelicF1EnglishHistoryOpsi2L51L61注意如果CFA模型假设A潜因子独立,则前三门Arithmeticpsi4Algebrapsi5Geometry成绩与后三门成绩独立,这与事实不符
其它为显变量 路径图:F1 , F2 潜变量, 7 后三门课在 上载荷为 。假设因子之间相关系数为 。 这些假设体现在 中前三门课在 上载荷为 , 只和 有关 只和 有关, 例 基于 结果,我们假设如下确认因子模型: F 0 CFA F 0 Arithmetic,Algebra,Geometry F1 . Gaelic,English,Histroy F2 1. EFA 1 1 1 1 , 0 0 ~ ' , ~ (0, ), 1,.,6 . Geometry Algebra Arithmetic History English Gaelic CFA 2 1 1 2 61 1 6 51 1 5 41 1 4 32 2 3 22 2 2 12 2 1 N F F s F F N i l F l F l F l F l F l F i i 与 独立。 独立 模型: 注意如果CFA模型假设 潜因子独立,则前三门 成绩与后三门成绩独立, 这与事实不符

假设CFA模型:极大似然法XpxI = LpxmFmI +&pxI, &~N,(0,Y), F~Nm(0,2), εll F其中4对角,载荷L有若于元素限制为0,Q非对角,则X ~ N(O,Z(0)),Z(0) = LQLT + 4其中0代表所有参数L.,2.极大似然法等价于极小化logdet(Z(0) + tr(SZ(0)-),其中S为x的协方差矩阵或相关系数矩阵。( l12122132H例1中,L=F141151618
8 T 1 1 1 L , ~ , , 2 1 2 61 51 41 32 22 12 N 0 F F F l l l l l l 例 中, 极大似 然法 其中 为 的协方差矩阵或相关系数矩阵。 , 其中 代表所有参数 极大似然法等价于极小化 其中 对角,载荷 有若干元素限制为 , 非对角,则 假设 模型: x θ θ θ x θ θ x ε ε 0 ε S S L N L L L p Lp m Fm p Np F Nm F logdet( ( )) tr( ( ) ) , , , ~ (0, ( )), ( ) 0 , ~ (0, ), ~ , , CFA 1 1 1 1 T ⫫

拟合优度基于Wilks似然比统计量(参见第10讲P2,Wilks定理):拟合优度W =-nlog(^), A= S//|2(0)Ip-value=P(xar>W),df =y-vo其中·=p(p+1)/2(不假设结构情形时Z参数个数)·V=p+|Ll。+m(m-1)/2(因子模型假设下参数个数)EFA中Vo = p + ILI - m(m - 1)/2例1中,确认因子模型的特殊方差个数为p=6,因子个数为m=2(因子之间的相关系数个数为m(m-1)/2=1)载荷矩阵L的非0个数记作|Ll=6
9 载荷矩阵 的非 个数记作 。 因子个数为 (因子之间的相关系数个数为 ) 例 中,确认因子模型的特殊方差个数为 , L 0 | | 6 2 ( 1)/ 2 1 , 1 6 0 L m m m p 拟合优度 | | ( 1)/ 2 ( ). ( 1)/ 2 ( ); p - value P( ), )| ˆ log | | / | ( Wilks 10 P2 Wilks 0 0 1 1 0 2 * * 因子模型假设下参数个数 不假设结构情形时 参数个数 ,其中 , 拟合优度基于 似然比统计量(参见第 讲 , 定理): v p L m m v p p W df v v W n S df θ EFA中𝜈0 = 𝑝 + 𝐿 − 𝑚(𝑚 − 1)/2

R程序包lavaan:方便使用,仍在开发,主要函数sem)lavaan早期开发,可绘制路径图,主要函数sem()sem:> library(lavaan)##1.指定模型(前后各加引号)> mymodel =factor1=~x1+x2.#显变量x1,x2与因子factor1有关=~即单箭头→#latentvariabledefinitions(潜变量定义)factor2 = ~x2#regressions(显变量factor1~factor2#factor1=b*factor2+error~即单箭头←之间或因子之间的线性x1 ~ x2#x1 = b*x2+error回归关系)factor1~~factor2#factor1与factor2相关#相关~~即双箭头##2.调用sem>sem(model=mymodel,sample.cov=,sample.nobs=,std.lv=)#sample.cov:样本协方差,另一种数据指定方式为data=原始数据矩阵)#当不提供原始数据矩阵时,需指定样本量;Iv.std=TRUE:因子的方差设定为110
10 lavaan: 方便使用,仍在开发, 主要函数sem() sem:早期开发,可绘制路径图,主要函数sem() R程序包 lavaan > library(lavaan) ##1. 指定模型 (前后各加引号') > mymodel = ' factor1 = ~ x1+x2. # 显变量x1,x2 与因子factor1 有关 factor2 = ~x2 factor1 ~ factor2 # factor1=b*factor2+error x1 ~ x2 # x1 = b*x2+error factor1 ~~ factor2 #factor1与factor2相关 ' ##2. 调用sem > sem(model=mymodel, sample.cov=, sample.nobs=, std.lv= ) #sample.cov: 样本协方差,另一种数据指定方式为 data=原始数据矩阵) #当不提供 原始数据矩阵时,需指定样本量; lv.std=TRUE: 因子的方差设定为1 =~即单箭头→ ~~即双箭头↔ # latent variable definitions (潜变量定义) # regressions (显变量 之间或因子之间的线性 回归关系) # 相关 ~即单箭头←