第14章分位数回归
第14章 分位数回归
主要内容 ◆为什么需要分位数回归 ◆总体分位数 ◆样本分位数 ◆分位数回归的估计方法
2 主要内容 为什么需要分位数回归 总体分位数 样本分位数 分位数回归的估计方法
14.1为什么需要分位数回归 一般的回归模型着重考察x对y的条件期望Eyx)的 影响,实际上是均值回归。 但我们关心x对整个条件分布yx的影响,而Ey|x) 只是刻画条件分布yx集中趋势的一个指标而已。 如果yx不是对称分布,则E(y|x)很难反映条件分布 的全貌。 如能够估计条件分布yx的若干重要的条件分位数 ( conditional quantiles),比如中位数( median)、分 位数(10 wer quartile)、分位数( upper quartile),能 更全面认识条件分布yx
3 14.1 为什么需要分位数回归 一般的回归模型着重考察𝐱对y的条件期望𝐸(𝑦|𝐱ሻ的 影响,实际上是均值回归。 但我们关心𝐱对整个条件分布𝑦|𝐱的影响,而𝐸(𝑦|𝐱ሻ 只是刻画条件分布𝑦|𝐱集中趋势的一个指标而已。 如果𝑦|𝐱不是对称分布,则𝐸(𝑦|𝐱ሻ很难反映条件分布 的全貌。 如能够估计条件分布𝑦|𝐱的若干重要的条件分位数 (conditional quantiles),比如中位数(median)、 分 位数(lower quartile)、 分位数(upper quartile),能 更全面认识条件分布𝑦|𝐱
14.1为什么需要分位数回归 使用OLS进行“均值回归”,由于最小化的目标函数 为残差平方和(∑,e2),故易受极端值影响。 Koenker and Bassett提出“分位数回归”(简记QR) 使用残差绝对值的加权平均(比如,∑292)作为最小化 的目标函数,不易受极端值影响,较为稳健。 分位数回归还能提供关于条件分布yx的全面信息
4 14.1 为什么需要分位数回归 使用OLS进行“均值回归” ,由于最小化的目标函数 为残差平方和(𝑖=1 𝑛 𝑒𝑖 2 ),故易受极端值影响。 Koenker and Bassett提出“分位数回归”(简记QR), 使用残差绝对值的加权平均(比如,𝑖=1 𝑛 𝑒𝑖 2 )作为最小化 的目标函数,不易受极端值影响,较为稳健。 分位数回归还能提供关于条件分布𝑦|𝐱的全面信息
142总体分位数 假设Y为连续型随机变量,其累积分布函数为F() Y的“总体q分位数”(0<q<1),记为y,满足以 下定义式: q=P(Y≤y)=Fn) 总体q分位数y正好将总体分布分为两部分,其中小 于或等于y的概率为q,而大于y的概率为(1-q)。 如果q=1/2,则为中位数,正好将总体分为两个相 等的部分。 如果F()严格单调递增,则有 Da=Fv1(q
5 14.2 总体分位数 假设𝑌为连续型随机变量,其累积分布函数为𝐹𝑦(⋅൯。 𝑌的“总体q分位数”(0 < 𝑞 < 1),记为𝑦𝑞,满足以 下定义式: 𝑞 = P(𝑌 ≤ 𝑦𝑞 ሻ = 𝐹𝑦(𝑦𝑞൯ 总体q分位数𝑦𝑞正好将总体分布分为两部分,其中小 于或等于𝑦𝑞的概率为q,而大于𝑦𝑞的概率为 1 − 𝑞 。 如果𝑞 = 1Τ2,则为中位数,正好将总体分为两个相 等的部分。 如果𝐹𝑦(⋅൯严格单调递增,则有: 𝑦𝑞 = 𝐹𝑦 ൯ −1 (𝑞
142总体分位数 其中,F1()为F()的逆函数,参见图141 图141总体q分位数与累积分布函数
6 14.2 总体分位数 其中,𝐹𝑦 ൯ −1 (⋅ 为𝐹𝑦(⋅൯的逆函数,参见图14.1。 图14.1总体q分位数与累积分布函数
142总体分位数 对于回归模型,记条件分布yx的累积分布函数为 条件分布yx的总体q分位数,记为y,满足以下定 义式: q=PrIx( 假设Fy1x()严格单调递增,则有 yq 由于条件累积分布函数Fx()依赖于x,故条件分布 yx的总体q分位数y也依赖于x,记为y(x),称为“条 件分位数函数
7 14.2 总体分位数 对于回归模型,记条件分布𝑦|𝐱的累积分布函数为 𝐹𝑦 | 𝐱 (⋅൯。 条件分布𝑦|𝐱的总体q分位数,记为𝑦𝑞,满足以下定 义式: 𝑞 = 𝐹𝑦 | 𝐱 (𝑦𝑞൯ 假设𝐹𝑦 | 𝐱 (⋅൯严格单调递增,则有 𝑦𝑞 = 𝐹 ൯ 𝑦 | 𝐱 −1 (𝑞 由于条件累积分布函数𝐹𝑦 | 𝐱 (⋅൯依赖于𝐱,故条件分布 𝑦|𝐱的总体q分位数𝑦𝑞也依赖于𝐱,记为𝑦𝑞 (𝐱൯,称为“条 件分位数函数”
142总体分位数 对于线性回归模型,如果扰动项满足同方差的假定, 或扰动项异方差的形式为乘积形式,则y(x)是x的线性函 数。 考虑以下模型:y=xB+l 不失一般性,假设?a(on2 如果x′a为常数,则扰动项u为同方差;反之,则为乘 积形式的异方差
8 14.2 总体分位数 对于线性回归模型,如果扰动项满足同方差的假定, 或扰动项异方差的形式为乘积形式,则𝑦𝑞 (𝐱൯是𝐱的线性函 数。 考虑以下模型: 不失一般性,假设𝐱 ′𝛼 > 0。 如果𝐱 ′𝛼为常数,则扰动项𝑢为同方差;反之,则为乘 积形式的异方差。 2 ~ iid(0, ) y u u = + = x x
142总体分位数 根据定义,条件分位数函数y(x)满足 q=Fy≤y(x)}(条件分位数的定义) Rx'B+u≤y(x)(代入y=xB+u) fu≤y(x)-x8(移项) =xa:E≤y(x)-x}(代入u=xa:E) =e≤x2}两边同除以xax>0) X O =(x2)(累积分布函数的定义) 故是的线性函数
9 14.2 总体分位数 根据定义,条件分位数函数𝑦𝑞 (𝐱൯满足 𝑞 = P 𝑦 ≤ 𝑦𝑞 (𝐱൯ (条件分位数的定义) = P 𝐱 ൯ ′𝛽 + 𝑢 ≤ 𝑦𝑞 (𝐱 (代入𝒚 = 𝐱 ′𝜷 + 𝒖) = P 𝑢 ≤ 𝑦𝑞 (𝐱ሻ − 𝐱 ′𝛽 (移项) = P 𝐱 ′𝛼 ⋅ 𝜀 ≤ 𝑦𝑞 (𝐱ሻ − 𝐱 ′𝛽 (代入𝑢 = 𝐱 ′𝛼 ⋅ 𝜀) = P 𝜀 ≤ 𝑦𝑞(𝐱ሻ−𝐱 ′𝛽 𝐱 ′𝛼 (两边同除以𝐱 ′𝛼 > 0) = 𝐹𝜀 𝑦𝑞(𝐱ሻ−𝐱 ′𝛽 𝐱 ′𝛼 (累积分布函数的定义) 故 是 的线性函数
142总体分位数 其中,F2()为E的累积分布函数。因此, (x)-x'B y(x)=xB+raF=(@)=x B+aFe(q) 故y(x)是x的线性函数。 在同方差的情况下,xa为常数,所有条件分位数函 数{y(x),0<q<1的斜率都等于β,只有截距项 xaF(q)依赖于q。 般地,条件分位数函数的“斜率”也依赖于q,记 为βa。在下文中,假设条件分位数函数是解释变量x的线 性函数。 10
10 14.2 总体分位数 其中,𝐹 ሻ 𝜀 (⋅ 为𝜀的累积分布函数。因此, 故𝑦𝑞 (𝐱൯是𝐱的线性函数。 在同方差的情况下,𝐱 ′𝛼为常数,所有条件分位数函 数 𝑦𝑞 (𝐱ሻ, 0 < 𝑞 < 1 的斜率都等于𝛃,只有截距项 𝐱 ሻ ′𝛂𝐹𝜀 −1 (𝑞 依赖于q。 一般地,条件分位数函数的“斜率”也依赖于q,记 为𝛃𝑞。在下文中,假设条件分位数函数是解释变量𝐱的线 性函数。 1 ( ) ( ) q y F q − − = x x x 1 1 ( ) ( ) ( ) q y F q F q − − = + = + x x x x