第章虚拟变量模型 一、虚拟变量的基本含义 二、虚拟变量的设置原则 三、虚拟变量的引入 四、虚拟变量的特殊应用 五、虚拟变量引入模型的作用
第八章 虚拟变量模型 一、虚拟变量的基本含义 二、虚拟变量的设置原则 三、虚拟变量的引入 四、虚拟变量的特殊应用 五、虚拟变量引入模型的作用
一、虚拟变量的基本含义 ·许多经济变量是可以定量度量的,如:商品需求 量、价格、收入、产量等 ·但也有一些影响经济变量的因素无法定量度量, 如:职业、性别对收入的影响,战争、自然灾害 对GDP的影响,季节对某些产品(如冷饮)销售 的影响等等。 ·为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化
一、虚拟变量的基本含义 • 许多经济变量是可以定量度量的,如:商品需求 量、价格、收入、产量等 • 但也有一些影响经济变量的因素无法定量度量, 如:职业、性别对收入的影响,战争、自然灾害 对GDP的影响,季节对某些产品(如冷饮)销售 的影响等等。 • 为了在模型中能够反映这些因素的影响,并提高 模型的精度,需要将它们“量化
这种“量化”通常是通过引入“虚拟变量”来 完成的。根据这些因素的属性类型,构造只取“0” 或“1的人工变量,通常称为虚拟变量(dummy variables),记为D。 ·例如,反映文化程度的虚拟变量可取为: 本科学历 D- 0, 非本科学历 一般地,在虚拟变量的设置中: 。基础类型、肯定类型取值为1; ·比较类型,否定类型取值为0
这种“量化”通常是通过引入“虚拟变量”来 完成的。根据这些因素的属性类型,构造只取“0” 或“1”的人工变量,通常称为虚拟变量(dummy variables),记为D。 • 例如,反映文化程度的虚拟变量可取为: 1, 本科学历 D= 0, 非本科学历 一般地,在虚拟变量的设置中: • 基础类型、肯定类型取值为1; • 比较类型,否定类型取值为0
概念: 同时含有一般解释变量与虚拟变量的模型称为虚拟 变量模型或者方差分析(analysis-of variance: ANOVA)模型。 一个以性别为虚拟变量考察企业职工薪金的模型: Y,=B。+B1X;+B2D+4 其中:Y为企业职工的薪金,X为工龄, D=1,若是男性,D=O,若是女性
概念: 同时含有一般解释变量与虚拟变量的模型称为虚拟 变 量 模 型 或 者 方 差 分 析 ( analysis-of variance: ANOVA)模型。 一个以性别为虚拟变量考察企业职工薪金的模型: Yi = 0 + 1 Xi + 2 Di + i 其中:Yi为企业职工的薪金,Xi为工龄, Di=1,若是男性,Di=0,若是女性
二、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变 量的类别数少1,即如果有m个定性变量,只在模型 中引入m-1个虚拟变量。 例。已知冷饮的销售量Y除受k种定量变量X的影 响外,还受春、夏、秋、冬四季变化的影响,要考察 该四季的影响,只需引入三个虚拟变量即可: 1 春季 夏季 秋季 其他 其他 其他
二、虚拟变量的设置原则 虚拟变量的个数须按以下原则确定: 每一定性变量所需的虚拟变量个数要比该定性变 量的类别数少1,即如果有m个定性变量,只在模型 中引入m-1个虚拟变量。 例。已知冷饮的销售量Y除受k种定量变量Xk的影 响外,还受春、夏、秋、冬四季变化的影响,要考察 该四季的影响,只需引入三个虚拟变量即可: = 0 1 D1t 其他 春季 = 0 1 D2t 其他 夏季 = 0 1 D3t 其他 秋季
测冷饮销售量的模型为: Y =Bo+B Xu+Bixk +a D+aD +asD+u ·在上述模型中,若再引入第四个虚拟变量 1 冬季 D4 其他 测冷饮销售模型变量为: Y,=Bo+BXu+BXk +a Du +a2D2 +asDs +aD+u 其矩阵形式为: Y=(X,D) +
则冷饮销售量的模型为: • 在上述模型中,若再引入第四个虚拟变量 Yt = 0 + 1 X1t + k Xkt +1 D1t + 2 D2t +3 D3t + t = 0 1 D4t 其他 冬季 则冷饮销售模型变量为: Yt = 0 + 1 X1t + k Xkt +1 D1t + 2 D2t +3 D3t + 4 D4t + t 其矩阵形式为: μ α β Y (X, D) + =
如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的: 1Xm.X11000 1X12 .Xk2 Bo 1 0100 1 X13 001 0 a2 (X,D)= Xk3 1 B= 0= X14 0001 03 1 X15 . 010 0 04 X16 Xk6100 0 显然,(X,D)中的第1列可表示成后4列的线性组合, 从而(X,D)不满秩,参数无法唯一求出。 这就是所谓的“虚拟变量陷井”,应避免。 注意:若无截距项,则引入个虚拟变量
如果只取六个观测值,其中春季与夏季取了 两次,秋、冬各取到一次观测值,则式中的: 显然,(X,D)中的第1列可表示成后4列的线性组合, 从而(X,D)不满秩,参数无法唯一求出。 这就是所谓的“虚拟变量陷井”,应避免。 = 1 1 0 0 0 1 0 1 0 0 1 0 0 0 1 1 0 0 1 0 1 0 1 0 0 1 1 0 0 0 ( ) 1 6 6 1 5 5 1 4 4 1 3 3 1 2 2 1 1 1 k k k k k k X X X X X X X X X X X X X,D = k 1 0 β = 4 3 2 1 α 注意:若无截距项,则引入m个虚拟变量
三、虚拟变量的引入 虚拟变量做为解释变量引入模型有两种基本方式: 加法方式和乘法方式。 1、加法方式 上述企业职工薪金模型中性别虚拟变量的引入采 取了加法方式。 在该模型中,如果仍假定E()=0,则 企业女职工的平均薪金为: E(Y,|X,D=0)=B。+BX 企业男职工的平均薪金为: E(Y,Xi D=1)=(Bo+B)+BXi
三、虚拟变量的引入 • 虚拟变量做为解释变量引入模型有两种基本方式: 加法方式和乘法方式。 E Yi Xi Di 0 1 Xi ( | , = 0) = + 企业男职工的平均薪金为: E Yi Xi Di 0 2 1 Xi ( | , =1) = ( + ) + 上述企业职工薪金模型中性别虚拟变量的引入采 取了加法方式。 在该模型中,如果仍假定E(i )=0,则 企业女职工的平均薪金为: 1、加法方式
几何意义: 假定阝2>0,则两个函数有相同的斜率,但有不同 的截距。意即,男女职工平均薪金对工龄的变化 率是一样的,但两者的平均薪金水平相差β2 ·可以通过传统的回归检验,对B,的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是 否有显著差异。 年薪Y 男职工 女职工 β21 Bo 工龄X
几何意义: • 假定2>0,则两个函数有相同的斜率,但有不同 的截距。意即,男女职工平均薪金对工龄的变化 率是一样的,但两者的平均薪金水平相差2。 • 可以通过传统的回归检验,对2的统计显著性进 行检验,以判断企业男女职工的平均薪金水平是 否有显著差异。 年薪 Y 男职工 女职工 工龄 X 0 2
。 还可将多个虚拟变量引入模型中以考察多种“定 性”因素的影响。 如在上述职工薪金的例中,再引入代表学历的虚拟 变量D2: 本科及以上学历 本科以下学历 职工薪金的回归模型可设计为: Y=B。+BX,+B2D1+B3D2+4
• 还可将多个虚拟变量引入模型中以考察多种“定 性”因素的影响。 如在上述职工薪金的例中,再引入代表学历的虚拟 变量D2: Yi = 0 + 1 Xi + 2 D1 + 3 D2 + i = 0 1 D2 本科及以上学历 本科以下学历 职工薪金的回归模型可设计为: