
第12章面板数据模型12.1面板数据定义12.2面板数据模型分类12.3面板数据模型的估计方法file:li-12-112.4面板数据模型的设定与检验file:li-12-1afile:li-12-212.5面板数据建模案例分析file:li-12-3file:li-12-3b12.6面板数据建模的EViews操作
第 12 章 面板数据模型 12.1 面板数据定义 12.2 面板数据模型分类 12.3 面板数据模型的估计方法 12.4 面板数据模型的设定与检验 12.5 面板数据建模案例分析 12.6 面板数据建模的 EViews 操作 file:li-12-1 file:li-12-1a file:li-12-2 file:li-12-3 file:li-12-3b

面板数据(paneldata)是指固定一组调查对象在等间隔时点连续观测得到的数据,是具有截面和时间两个特征的数据。面板数据的采集相对较早。1968年以来美国专门的研究机构相继建立了PSID(Panel Study of Income Dynamics),LRHS (Longitudinal Retirement HistoryStudy)、CPS(CurrentPopulation Survey)和HRS(HealthRetirement Study)面板数据库。德国、加拿大和欧共体等也分别于20世纪80年代、90年代和21世纪初建立了关于社会、经济、家庭的面板数据库。对面板数据建模的理论方法与应用研究则大约落后10年,始于20世纪70年代末和80年代初,但发展非常快。据统计,在1989年被SSCI收录的有关面板数据的论文只有29篇,10年之后的1999年被SSCI收录的有关面板数据的论文已达650篇。关于面板数据的计量经济理论与应用研究近年来呈现突飞猛进的发展态势。经过30多年的发展,面板数据建模研究已经成为计量经济学体系中的一个重要组成部分。现在几乎每本经济类学术期刊中都有关于面板数据的论文登载。(第4版300页)
面板数据(panel data)是指固定一组调查对象在等间隔时点连续观测得到的 数据,是具有截面和时间两个特征的数据。 面板数据的采集相对较早。1968 年以来美国专门的研究机构相继建立了 PSID (Panel Study of Income Dynamics)、LRHS(Longitudinal Retirement History Study)、CPS(Current Population Survey)和 HRS(Health Retirement Study) 面板数据库。德国、加拿大和欧共体等也分别于 20 世纪 80 年代、90 年代和 21 世 纪初建立了关于社会、经济、家庭的面板数据库。对面板数据建模的理论方法与应 用研究则大约落后 10 年,始于 20 世纪 70 年代末和 80 年代初,但发展非常快。据 统计,在 1989 年被 SSCI 收录的有关面板数据的论文只有 29 篇,10 年之后的 1999 年被 SSCI 收录的有关面板数据的论文已达 650 篇。关于面板数据的计量经济理论 与应用研究近年来呈现突飞猛进的发展态势。经过 30 多年的发展,面板数据建模 研究已经成为计量经济学体系中的一个重要组成部分。现在几乎每本经济类学术期 刊中都有关于面板数据的论文登载。 (第4版300页)

12.1面板数据定义时间序列数据或截面数据都是一维数据。时间序列数据是变量按等时间间隔得到的数据:截面数据是变量在固定时点得到的一组数据。面板数据是同时在时间和截面上取得的二维数据。所以,面板数据也称作时间序列与截面混合数据(pooledtimeseriesandcrosssectiondata。面板数据是截面上的个体在不同时点的重复观测数据。面板(panel)原指对一组固定调查对象的多次观测过程。近年来面板数据已经成为计量经济学中的专业术语。1978~2005年中国各省级地区城镇家庭消费性支出占可支配收入比率值面板数据如图12.1。其一个坐标表示时间,另一个坐标表示地区。面板数据从横截面(crosssection)看,是由若干个体(entity,unit,individual)在某一时点构成的截面观测值,从纵部面(longitudinalsection)看每个个体都是一个时间序列。由图12.1看出,自改革开放以来,28年间各省消费对收入比值序列均呈逐年下降态势,无其是在后期这个比值下降得更快。(第4版301页)5呵装码塑隔下刷箱机2
12.1 面板数据定义 时间序列数据或截面数据都是一维数据。时间序列数据是变量按等时间间隔得 到的数据;截面数据是变量在固定时点得到的一组数据。面板数据是同时在时间和 截面上取得的二维数据。所以,面板数据也称作时间序列与截面混合数据(pooled time series and cross section data)。面板数据是截面上的个体在不同时点的重复观 测数据。 面板(panel)原指对一组固定调查对象的多次观测过程。近年来面板数据已经 成为计量经济学中的专业术语。 19782005 年中国各省级地区城镇家庭消费性支出占可支配收入比率值面板数 据如图 12.1。其一个坐标表示时间,另一个坐标表示地区。面板数据从横截面(cross section)看,是由若干个体(entity, unit, individual)在某一时点构成的截面观测 值,从纵剖面(longitudinal section)看每个个体都是一个时间序列。由图 12.1 看 出,自改革开放以来,28 年间各省消费对收入比值序列均呈逐年下降态势,尤其是 在后期这个比值下降得更快。 (第4版301页)

面板数据用双下标变量表示。例如Yit,i= 1, 2, ..., N; t=1, 2,..., T其中i对应面板数据中不同个体。N表示面板数据中的个体数。t对应面板数据中不同时点。T表示时间序列的最大长度。若固定t不变,yi,(i=1,2,.…,M是横截面上的N个随机变量;若固定i不变,y.t,(t=1,2,…,T)是纵剖面上的一个时间序列(个体)。面板数据分为两种特征。一种是截面上个体数少,而每个个体的时间跨度长。另一种是截面上个体数多,而每个个体的时间跨度短。常使用的面板数据主要指后一种情形。利用面板数据建立模型的好处是:(1)由于观测值的增多,可以增加估计量的抽样精度。(2)对于固定效应模型,如果估计方法恰当,能得到参数的一致估计量,甚至是有效估计量。(3)面板数据可以建立动态模型(即自回归模型)比单纯截面数据建模可以获得动态信息。(第4版301页)
面板数据用双下标变量表示。例如 yit , i = 1, 2, ., N; t = 1, 2, ., T 其中 i 对应面板数据中不同个体。N 表示面板数据中的个体数。t 对应面板数据中不 同时点。T 表示时间序列的最大长度。若固定 t 不变,yi ., ( i = 1, 2, ., N)是横截面 上的 N 个随机变量;若固定 i 不变,y. t , (t = 1, 2, ., T)是纵剖面上的一个时间序列 (个体)。 面板数据分为两种特征。一种是截面上个体数少,而每个个体的时间跨度长。 另一种是截面上个体数多,而每个个体的时间跨度短。常使用的面板数据主要指后 一种情形。 利用面板数据建立模型的好处是:(1)由于观测值的增多,可以增加估计量的 抽样精度。(2)对于固定效应模型,如果估计方法恰当,能得到参数的一致估计量, 甚至是有效估计量。(3)面板数据可以建立动态模型(即自回归模型)比单纯截面 数据建模可以获得动态信息。 (第4版301页)

案例12.115个省级地区的居民家庭人均消费和人均可支配收入关系分析。1996~2002年中国东北、华北、华东15个省级地区的城镇居民家庭人均消费(CPi)对人均可支配收入(IPit)散点图见图12.2。图中每一种符号代表某一年度15个省级地区的截面数据(共有7个截面)。散点图显示人均消费(CPit)与人均可支配收入(IPit)的关系是线性的,并存在一定程度的递增型异方差。对CPit和IPit分别取对数,并用LnCPit、LnIPit表示。数据是7年的,每一年有15个数据,共105组观测值,属于平衡面板数据。AH,BJ,FJ,HB,HLJ,JL,JS,JX,N,NMG,SD,SH,SX,TJ,ZJ分别表示安徽省、北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古自治区、山东省、上海市、山西省、天津市、浙江省,是这组面板数据代表15个省级地区的个体标识。15个省级地区7年间对数的人均消费(LnCPit)与对数的人均可支配收入(LnIPi的面板数据散点图见图12.3。这105组观测值仍呈明显的线性关系。与图12.2相比,异方差性得到有效克服,所以应该建立关于人均消费的对数线性面板数据模型。11000CP10LOGICP1998100009CP1998900093CP20008000CP200120028.8(第4版302页)CP20027000caspnar8.660008.4e50008.240008.03000?PLOG(IP)s2000图12.2图12.38.08.28.48.68.89.09.29.49.64000600010000120001400020008000
案例 12.1 15 个省级地区的居民家庭人均消费和人均可支配收入关系分析。 19962002 年中国东北、华北、华东 15 个省级地区的城镇居民家庭人均消费 (CPit)对人均可支配收入(IPit)散点图见图 12.2。图中每一种符号代表某一年度 15 个省级地区的截面数据(共有 7 个截面)。散点图显示人均消费(CPit)与人均 可支配收入(IPit)的关系是线性的,并存在一定程度的递增型异方差。对 CPit 和 IPit分别取对数,并用 LnCPit、LnIPit表示。 数据是 7 年的,每一年有 15 个数据,共 105 组观测值,属于平衡面板数据。 AH, BJ, FJ, HB, HLJ, JL, JS, JX, LN, NMG, SD, SH, SX, TJ, ZJ 分别表示安徽省、 北京市、福建省、河北省、黑龙江省、吉林省、江苏省、江西省、辽宁省、内蒙古 自治区、山东省、上海市、山西省、天津市、浙江省,是这组面板数据代表 15 个 省级地区的个体标识。 15个省级地区 7年间对数的人均消费(LnCPit)与对数的人均可支配收入(LnIPit) 的面板数据散点图见图 12.3。这 105组观测值仍呈明显的线性关系。与图 12.2相比, 异方差性得到有效克服,所以应该建立关于人均消费的对数线性面板数据模型。 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 2000 4000 6000 8000 10000 12000 14000 CP1996 CP1997 CP1998 CP1999 CP2000 CP2001 CP2002 IP 7.8 8.0 8.2 8.4 8.6 8.8 9.0 9.2 9.4 8.0 8.2 8.4 8.6 8.8 9.0 9.2 9.4 9.6 LOG(CP1996) LOG(CP1997) LOG(CP1998) LOG(CP1999) LOG(CP2000) LOG(CP2001) LOG(CP2002) LOG(IP) 图12.2 图12.3 (第4版302页)

12.2面板数据模型分类面板数据模型通常分为三类,即混合模型、固定效应模型和随机效应模型。固定效应模型文可分为个体固定效应模型,时点固定效应模型,和个体时点双固定效应模型。而随机效应模型文可分为个体随机效应模型,时点随机效应模型,和个体时点双随机效应模型。实际中经常使用的是个体固定效应模型和个体随机效应模型下面分别介绍。(第4版304页)
12.2 面板数据模型分类 面板数据模型通常分为三类,即混合模型、固定效应模型和随机效应模型。固 定效应模型又可分为个体固定效应模型,时点固定效应模型,和个体时点双固定效 应模型。而随机效应模型又可分为个体随机效应模型,时点随机效应模型,和个体 时点双随机效应模型。实际中经常使用的是个体固定效应模型和个体随机效应模型。 下面分别介绍。 (第4版304页)

12.2.1混合模型(第4版305页)如果一个面板数据模型定义为:(12.1)Yit=α+Xit'β+uit,i=1,2,...,N;t=1,2,..,T其中yi是被解释变量(标量);α表示截距项,是一个常量;Xit是k×1阶解释变量列向量(包括k个解释变量);β是kx1阶回归系数列向量(包括k个回归系数);ui是随机误差项,其中i=1,2,.,N,N表示面板数据中的个体数,t=1,2,...TT表示面板数据中时间的长度。则称此模型为混合模型(Pooledmodel)。混合模型的特点是无论对任何个体和截面,回归系数和β都是相同的。混合模型(12.1)的假定条件是假定1:E(ui)=0,i=1,2,..,N;t=1,2,.….,T。随机误差项u的期望等于零。假定2:Var(uit)=α2,i=1,2,...,N;t=1,2,...,T。uit具有同方差性。假定3:Cov(uit,uir)=0,若i+i,或tt。不同个体和不同时点对应的ut相互独立。假定4:Cov(uit,Xjit)=0。对所有的j=1,2,…,k,以及i,t。其中xjit是Xi的分量。假定5:rk(Xit'Xi)=rk(Xi)=k。Xit不降秩。解释变量不存在完全共线性。假定6:当N->00,T→>o时,T-Xi'Xit→Q。其中Q是一个有限值的非退化矩阵,即解释变量具有有限方差,解释变量具有平稳性。如果模型是正确设定的,那么无论是N->00,还是T一→0,模型参数的混合最小二乘(PooledOLS)都是无偏、有效、一致估计量。实际中用面板数据建立混合模型的情形很少见,原因就是不同个体或不同截面特别是不同个体之间很自然会存在差异
12.2.1 混合模型 如果一个面板数据模型定义为, yit = +Xit ' + uit , i = 1, 2, ., N; t = 1, 2, ., T (12.1) 其中 yit是被解释变量(标量);表示截距项,是一个常量;Xit是 k 1 阶解释变量 列向量(包括 k 个解释变量); 是 k 1 阶回归系数列向量(包括 k 个回归系数); uit 是随机误差项,其中 i = 1, 2, ., N,N 表示面板数据中的个体数,t = 1, 2, ., T, T 表示面板数据中时间的长度。则称此模型为混合模型(Pooled model)。混合模型 的特点是无论对任何个体和截面,回归系数和 都是相同的。 混合模型(12.1)的假定条件是, 假定 1:E(uit ) = 0, i = 1, 2, ., N; t = 1, 2, ., T。随机误差项 uit的期望等于零。 假定 2:Var(uit ) = 2 , i = 1, 2, ., N; t = 1, 2, ., T。uit 具有同方差性。 假定 3:Cov(uit , ui't') = 0, 若 i i' ,或 t t'。不同个体和不同时点对应的 uit 相 互独立。 假定 4:Cov(uit , xjit) = 0。对所有的 j = 1, 2, ., k,以及 i,t。其中 xjit是 Xit 的 分量。 假定 5:rk(Xit 'Xit ) = rk(Xit ) = k。Xit不降秩。解释变量不存在完全共线性。 假定 6 :当 N→,T→时,T –1 Xit 'Xit → Q。其中 Q 是一个有限值的非退化 矩阵,即解释变量具有有限方差,解释变量具有平稳性。 如果模型是正确设定的,那么无论是 N→,还是 T→,模型参数的混合最小 二乘(Pooled OLS)都是无偏、有效、一致估计量。 实际中用面板数据建立混合模型的情形很少见,原因就是不同个体或不同截面, 特别是不同个体之间很自然会存在差异。 (第4版305页)

12.2.2固定效应模型固定效应模型(fixedeffectsmodel)分为3种类型,即个体固定效应模型、时点固定效应模型和个体时点双固定效应模型。1.个体固定效应模型(entityfixedeffectsmodel)(第4版306页)如果一个面板数据模型定义为,(12.2)Yit= α, +Xit'β+uitsi=1, 2, ., N;t=1, 2, ..., T其中yit是被解释变量(标量),Xi是k×1阶解释变量列向量(包括k个解释变量),α是随机变量,αi随个体变化,但不随时间t变化。α与Xi相关;β是kx1阶回归系数列向量,对于不同个体回归系数β值相同。uit是随机误差项,则称此模型(12.2)为个体固定效应模型。个体固定效应模型(12.2)的假定条件是,假定1:E(uit)=0,i=1,2,.,N;t=1,2,T。随机误差项uit的期望等于零。假定2:Var(uit)=2,i=1,2,...,N; t=1,2,...,T。uit具有同方差性。假定3:Cov(uit,uir)=0,若ii,或t≠t。不同个体和不同时点对应的uit相互独立。假定4:Cov(uits xit)=0。对所有的j=1,2,",k,以及i,t。假定5:rk(XitXi)=rk(Xi)=k。Xit不降秩。解释变量不存在完全共线性。假定6:当N→>80,T-→>8o时,T-Xit'Xit→Q。其中Q是一个有限值的非退化矩阵,即解释变量具有有限方差,解释变量具有平稳性
12.2.2 固定效应模型 固定效应模型(fixed effects model)分为 3 种类型,即个体固定效应模型、时 点固定效应模型和个体时点双固定效应模型。 1.个体固定效应模型(entity fixed effects model) 如果一个面板数据模型定义为, yit = i +Xit ' + uit , i = 1, 2, ., N; t = 1, 2, ., T (12.2) 其中 yit是被解释变量(标量),Xit是 k 1 阶解释变量列向量(包括 k 个解释变量), i是随机变量,i随个体变化,但不随时间 t 变化。i与 Xit相关; 是 k 1 阶回 归系数列向量,对于不同个体回归系数 值相同。uit 是随机误差项,则称此模型 (12.2)为个体固定效应模型。 个体固定效应模型(12.2)的假定条件是, 假定 1:E(uit ) = 0, i = 1, 2, ., N; t = 1, 2, ., T。随机误差项 uit的期望等于零。 假定 2:Var(uit ) = 2 , i = 1, 2, ., N; t = 1, 2, ., T。uit 具有同方差性。 假定 3:Cov(uit , ui't') = 0, 若 i i' ,或 t t'。不同个体和不同时点对应的 uit 相 互独立。 假定 4:Cov(uit , xjit) = 0。对所有的 j = 1, 2, ., k,以及 i,t。 假定 5:rk(Xit 'Xit ) = rk(Xit ) = k。Xit不降秩。解释变量不存在完全共线性。 假定 6 :当 N→,T→时,T –1 Xit 'Xit → Q。其中 Q 是一个有限值的非退化 矩阵,即解释变量具有有限方差,解释变量具有平稳性。 (第4版306页)

可见,混合模型(12.1)和个体固定效应模型(12.2)的唯一区别是,α在混合模型中是一个常量,而α在个体固定效应模型中是一个随机变量,且与解释变量Xit相关。α中包含只随个体不同而变化,但不随时间变化的解释yit变化的因素。如果模型是正确设定的,那么无论是当N>80,还是T→>80,模型回归系数的最小二乘虚拟变量(LSDV)估计量都是无偏、有效、一致估计量。个体固定效应模型(12.2)的假定条件下,每个个体对应的随机误差项ui的期望也是零。E(uitlαi, Xi)=0,i=1, 2, ., N(12.3)α:作为随机变量描述不同个体建立的回归函数间的差异。因为α是不可观测的,且与可观测的解释变量X的变化相联系,所以称式(12.2)为个体固定效应模型
可见,混合模型(12.1)和个体固定效应模型(12.2)的唯一区别是, 在混 合模型中是一个常量,而i 在个体固定效应模型中是一个随机变量,且与解释变量 Xit相关。i中包含只随个体不同而变化,但不随时间变化的解释 yit 变化的因素。 如果模型是正确设定的,那么无论是当 N→,还是 T→,模型回归系数的最 小二乘虚拟变量(LSDV)估计量都是无偏、有效、一致估计量。 个体固定效应模型(12.2)的假定条件下,每个个体对应的随机误差项 uit的期 望也是零。 E(uiti , Xit ) = 0, i = 1, 2, ., N (12.3) i作为随机变量描述不同个体建立的回归函数间的差异。因为i是不可观测的, 且与可观测的解释变量 Xit的变化相联系,所以称式(12.2)为个体固定效应模型

下面解释设定个体固定效应模型的原因。假定有面板数据模型(12.5)Yit=βo +βXit+β zi+uit,i=1,2,...,N; t=1, 2, ..., T其中β为常数,不随时间、截面变化;表示随个体变化,但不随时间变化的难以观测的解释变量。以案例12.1为例,“省家庭平均人口数”就是符合这种要求的一个解释变量。对于短期面板来说,这是一个基本不随时间变化的量,但是对于不同的省份,这个变量的值是不同的。很明显,“省家庭平均人口数”对家庭人均消费(CPi)是有解释作用的。上述模型可以被解释为含有N个截距,即每个个体都对应一个不同截距的模型令αi=β+βzi,于是式(12.5)变为Yiut= αi +β Xit + uit, i=1, 2, .., N; t = 1, 2, ..., T这正是个体固定效应模型的形式。对于每个个体,回归函数的斜率相同(都是β),截距α却因个体不同而变化。可见个体固定效应模型中的截距项α中包括了那些随个体变化,但不随时间变化的难以观测的变量的影响。α是一个随机变量。因为z是不随时间变化的量,所以当对个体固定效应模型中的变量进行差分时,可以剔除那些z的影响,即剔除α的影响。在实际中,个体固定效应模型是一种常用的面板数据模型
下面解释设定个体固定效应模型的原因。假定有面板数据模型 yit = 0 + 1 xit +2 zi +uit , i = 1, 2, ., N; t = 1, 2, ., T (12.5) 其中0 为常数,不随时间、截面变化;zi 表示随个体变化,但不随时间变化的难以 观测的解释变量。 以案例 12.1 为例,“省家庭平均人口数”就是符合这种要求的一个解释变量。 对于短期面板来说,这是一个基本不随时间变化的量,但是对于不同的省份,这个 变量的值是不同的。很明显,“省家庭平均人口数”对家庭人均消费(CPit)是有解 释作用的。 上述模型可以被解释为含有 N 个截距,即每个个体都对应一个不同截距的模型。 令i = 0 +2 zi,于是式(12.5)变为 yit = i + 1 xit + uit , i = 1, 2, ., N; t = 1, 2, ., T 这正是个体固定效应模型的形式。对于每个个体,回归函数的斜率相同(都是1), 截距i却因个体不同而变化。可见个体固定效应模型中的截距项i中包括了那些随 个体变化,但不随时间变化的难以观测的变量的影响。i是一个随机变量。因为 zi 是不随时间变化的量,所以当对个体固定效应模型中的变量进行差分时,可以剔除 那些 zi的影响,即剔除i的影响。 在实际中,个体固定效应模型是一种常用的面板数据模型