第5章二值选择模型
第5章 二值选择模型
主要内容 ◆离散被解释变量的例子 ◆二值选择模型 ◆二值选择模型的微观基础 ◆二值选择模型中的异方差问题 ◆稀有事件偏差(选读) ◆含内生变量的Prob模型(选读) ◆双变量Prob模型(选读) ◆部分可观测的双变量Pob模型(选读)
2 主要内容 离散被解释变量的例子 二值选择模型 二值选择模型的微观基础 二值选择模型中的异方差问题 稀有事件偏差(选读) 含内生变量的Probit模型(选读) 双变量Probit模型(选读) 部分可观测的双变量Probit模型(选读)
5.1离散被解释变量的例子 二值选择:考研或不考研;就业或待业;买房或不买房;买保 险或不买保险等。 多值选择:对不同交通方式的选择(走路、骑车、坐车上班); 对不同职业的选择。 这类模型被称为“离散选择模型”或“定性反应模型”。有时 被解释变量只能取非负整数: 企业在某段时间内获得的专利数;某人在一定时间内去医院看 病的次数;某省在一年内发生煤矿事故的次数。 这类数据称为“计数数据”,被解释变量也是离 散的。 考虑到离散被解释变量的特点,通常不宜用OLS进行回归
3 5.1 离散被解释变量的例子 二值选择:考研或不考研;就业或待业;买房或不买房;买保 险或不买保险等。 多值选择:对不同交通方式的选择(走路、骑车、坐车上班); 对不同职业的选择。 这类模型被称为“离散选择模型”或“定性反应模型” 。有时 被解释变量只能取非负整数: 企业在某段时间内获得的专利数;某人在一定时间内去医院看 病的次数;某省在一年内发生煤矿事故的次数。 这类数据称为“计数数据” ,被解释变量也是离 散的。 考虑到离散被解释变量的特点,通常不宜用OLS进行回归
52二值选择模型 “线性概率模型” y=xB+8(i= 优点:计算方便,容易得到边际效应。 缺点:(1)由于E=y-xB,故E1=1-xB或E1=-XB, 因此x必然与E相关,导致估计不一致。 (2)E服从两点分布,而非正态分布。 (3)由于ar(t;)=var(xP),故扰动项E的方差依赖 于x,存在异方差(故应使用稳健标准误)。 (4)可能出现y>1或j<0的不现实情形,参见图 5.1
4 5.2 二值选择模型 “线性概率模型” : 优点:计算方便,容易得到边际效应。 缺点:(1)由于 ,故 或 , 因此 必然与 相关,导致估计不一致。 (2) 服从两点分布,而非正态分布。 (3)由于 ,故扰动项 的方差依赖 于 ,存在异方差(故应使用稳健标准误)。 (4)可能出现 或 的不现实情形,参见图 5.1。 ( 1, , ) i i i y i n = + = x i i i = − y x 1 i i = − x i i = −x i i x i Var( ) Var( ) i i = x β i i x y ˆ 1 y ˆ 0
52二值选择模型 y OLS 图5.10LS与二值选择模型 5
5 5.2 二值选择模型 图5.1 OLS与二值选择模型
52二值选择模型 为使y的预测值总是介于[O,1之间,给定x,考虑y的两 点分布概率: P(y=1|x)=F(x,B) P(y=0x)=1-F(x,B 函数F(x,B)也称“连接函数” 通过选择合适的F(x,B),可保证0≤j≤1并将j理解为 “y=1”发生的概率,因为: B(y|x)=1P(y=11x)+0P(y=0|x)=P(y=1|1x) 如果F(x,B)为标准正态的cdf: P(=1|x)=F(,B)=D(xB)=p(dt 该模型称为“ Probit
6 5.2 二值选择模型 为使y的预测值总是介于 之间,给定 ,考虑y的两 点分布概率: 函数 也称“连接函数” 。 通过选择合适的 ,可保证 并将 理解为 “ ”发生的概率,因为: 如果 为标准正态的cdf: 该模型称为“Probit” 。 0,1 x P( 1| ) ( , ) P( 0 | ) 1 ( , ) y F y F = = = = − x x x x F( , ) x β F( , ) x β 0 1 y ˆ y ˆ y =1 E( | ) 1 P( 1| ) 0 P( 0 | ) P( 1| ) y y y y x x x x = = + = = = F( , ) x β P( 1| ) ( , ) ( ) ( ) y F t dt − = = = x x x x
52二值选择模型 如果F(x,B)为“逻辑分布”的cdf P(=1x=F(x,B)=M(x)=,0p(xB) 1+exp(x')(5.1) 该模型称为“ Logit”。 由于逻辑分布的cdf有解析表达式(而标准正态没有) 故计算 Logit比 Probit更为方便
7 5.2 二值选择模型 如果 为“逻辑分布”的cdf (5.1) 该模型称为“Logit”。 由于逻辑分布的cdf有解析表达式(而标准正态没有) ,故计算 Logit比Probit更为方便。 F( , ) x β exp( ) P( 1| ) ( , ) ( ) 1 exp( ) y F = = = + x x x x x
52二值选择模型 对于此非线性模型,进行MLE估计。 以 Logit模型为例。第i个观测数据的概率密度为: f(y1|x1,B) A(xB)若男 1-A(xB),若y=0 f(|x,B)=[(x)[-A(x月 Inf( lx B)=y, In[A(x B)+(1-y)1n [1-A(x B) 假设样本中的个体相互独立,则整个样本的对数似然函 数为 nL(B|x)=∑yn[A(x月+∑(1-y)n[-N(x) 在此非线性模型中,佔计量Bn并非边际效应
8 5.2 二值选择模型 对于此非线性模型,进行MLE估计。 以Logit模型为例。第i个观测数据的概率密度为: 假设样本中的个体相互独立,则整个样本的对数似然函 数为: 在此非线性模型中,估计量 并非边际效应。 ( ), 1 ( | , ) 1 ( ), 0 i i i i i i y f y y = = − = x x x 若 若 1 ( | , ) ( ) 1 ( ) i i y y i i i i f y − x x x = − ln ( | , ) ln ( ) (1 )ln 1 ( ) f y y y i i i i i i x x x = + − − 1 1 ln ( | , ) ln ( ) (1 )ln 1 ( ) n n i i i i i i L y y = = y x x x = + − − MLE ˆ
52二值选择模型 以 Probit为例, aP(=lx) aP(y=lx)a(B) P(rB). Bk 由于 Probit与Logi使用的分布函数不同,其参数估计值并不直 接可比。须计算边际效应,然后进行比较。 但对于非线性模型,边际效应不是常数,随着解释变量而变。常 用的边际效应概念: (1)平均边际效应,即分别计算在每个样本观测值上的边际效应,然 后进行简单算术平均。 (2)样本均值处的边际效应,即在x=x处的边际效应 (3)在某代表值处的边际效应,即给定x,在x=x处的边际效应
9 5.2 二值选择模型 以Probit为例, 由于Probit与Logit使用的分布函数不同,其参数估计值并不直 接可比。须计算边际效应,然后进行比较。 但对于非线性模型,边际效应不是常数,随着解释变量而变。常 用的边际效应概念: (1)平均边际效应,即分别计算在每个样本观测值上的边际效应,然 后进行简单算术平均。 (2)样本均值处的边际效应,即在 处的边际效应。 (3)在某代表值处的边际效应 ,即给定 ,在 处的边际效应。 P( 1| ) P( 1| ) ( ) ( ) ( ) k k k y y x x = = = = x x x x x x x = * x * x x =
52二值选择模型 在非线性模型中,样本均值处的个体行为并不等于样本中个体的 平均行为。 对于政策分析而言,平均边际效应( Stata的默认方法),或在某 代表值处的边际效应通常更有意义。 对于 Logit模型,记p≡P(y=1|x),则1-p=P(y=0x) 由于,p=px 故 1+exp(rP) 1+exp(rP) exp(xB) P p/(1-p)称为“几率比”或“相对风险” 10
10 5.2 二值选择模型 在非线性模型中,样本均值处的个体行为并不等于样本中个体的 平均行为。 对于政策分析而言,平均边际效应(Stata的默认方法),或在某 代表值处的边际效应通常更有意义。 对于Logit模型,记 ,则 。 由于, , ,故: 称为“几率比”或“相对风险” 。 p y = P( 1| ) x 1 P( 0 | ) − = = p y x exp( ) 1 exp( ) p = + x x 1 1 1 exp( ) − = p + x exp( ) 1 p p = − x ln 1 p p = − x p p (1 ) −