当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

《应用回归分析》课程教学资源(PPT课件讲稿)第7章 岭回归

资源类别:文库,文档格式:PPT,文档页数:46,文件大小:1.19MB,团购合买
7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析 7.4 岭参数k的选择 7.5 用岭回归选择变量
点击下载完整版文档(PPT)

第7章岭回归 71岭回归估计的定义 72岭回归估计的性质 73岭迹分析 74岭参数的选择 7.5用岭回归选择变量 76本章小结与评注

第7章 岭回归 7.1 岭回归估计的定义 7.2 岭回归估计的性质 7.3 岭迹分析 7.4 岭参数k的选择 7.5 用岭回归选择变量 7.6 本章小结与评注

§7.1岭回归估计的定义 、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就 很大,估计值就很不稳定,下面进一步用一个模拟的例 子来说明这一点。 例7.1假设已知x1,x2与y的关系服从线性回归模型 10+2x1+3x2+E

§7.1 岭回归估计的定义 一、普通最小二乘估计带来的问题 当自变量间存在复共线性时,回归系数估计的方差就 很大, 估计值就很不稳定,下面进一步用一个模拟的例 例7.1 假设已知x1,x2与y y=10+2x1+3x2+ε

§7.1岭回归估计的定义 给定x,x的10个值,如下表7.1的第(2)、(3)两行: 表71 序号12345678910 (1) 1.11.41.71.71.81.81.92.02.32.4 (2) 1.11.51.81.71.91.81.82.12.42.5 (3)10.8-0.5040.50.21.91.90.6-1.51.5 (4)y116.316.819.218.019.52092120.90.3.0

§7.1 岭回归估计的定义 给定x1,x2的10个值,如下表7.1的第(2)、(3)两行: 表7.1 序号 1 2 3 4 5 6 7 8 9 10 (1) x1 1.1 1.4 1.7 1.7 1.8 1.8 1.9 2.0 2.3 2.4 (2) x2 1.1 1.5 1.8 1.7 1.9 1.8 1.8 2.1 2.4 2.5 (3) εi 0.8 -0.5 0.4 -0.5 0.2 1.9 1.9 0.6 -1.5 -1.5 (4) yi 16.3 16.8 19.2 18.0 19.5 20.9 21.1 20.9 20.3 22.0

§7.1岭回归估计的定义 现在我们假设回归系数与误差项是未知的,用普通最小二乘法 求回归系数的估计值得: β=1l292,β1=1.307,β2=6.591 而原模型的参数 βa=10,B1-2,B2=3 看来相差太大。计算x,ⅹ的样本相关系数得rz=0.986,表明 x1与x之间高度相关

§7.1 岭回归估计的定义 现在我们假设回归系数与误差项是未知的,用普通最小二乘法 求回归系数的估计值得: 0 ˆ  =11.292, 1 ˆ  =11.307, 2 ˆ  =-6.591 β0=10,β1=2,β2=3 看来相差太大。计算x1,x2的样本相关系数得r12=0.986,表明 x1与x2之间高度相关

§7.1岭回归估计的定义 岭回归的定义 岭回归( Ridge Regression.,简记为RR提出的想法是很 自然的。 当自变量间存在复共线性时,|XX|≈0, 我们设想给XX加上一个正常数矩阵kI,(k>0), 那么XX+k接近奇异的程度就会比XX接近奇异的程度 小得多。 考虑到变量的量纲问题,我们先对数据做标准化 为了记号方便,标准化后的设计阵仍然用X表示

§7.1 岭回归估计的定义 二、岭回归的定义 岭回归(Ridge Regression,简记为RR)提出的想法是很 自然的。 当自变量间存在复共线性时,|X′X|≈0, 我们设想给X′X加上一个正常数矩阵kI,(k>0), 那么X′X+kI接近奇异的程度就会比X′X接近奇异的程度 小得多。 考虑到变量的量纲问题,我们先对数据做标准化, 为了记号方便,标准化后的设计阵仍然用X表示

§7.1岭回归估计的定义 我们称Bx)=(XX+kI)xy(72) 为β的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以XX就是自变量样本相 关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以 未经标准化 显然,岭回归做为β的估计应比最小二乘估计稳定, 当k=0时的岭回归估计就是普通的最小二乘估计

§7.1 岭回归估计的定义 我们称 β = XX + I Xy -1 (k) ( k ) ˆ 为β的岭回归估计,其中k称为岭参数。 由于假设X已经标准化,所以X′X就是自变量样本相 关阵,(7.2)式计算的实际是标准化岭回归估计。 (7.2)式中因变量观测向量y可以经过标准化也可以 未经标准化。 显然,岭回归做为β的估计应比最小二乘估计稳定, 当k=0时的岭回归估计就是普通的最小二乘估计。 (7.2)

§7.1岭回归估计的定义 因为岭参数k不是唯一确定的,所以我们得到的岭回归估计β(k) 实际是回归参数β的一个估计族。 例如对例71可以算得不同k值时的β1Q),B2(k),见表72 表72 0 0.10.150.20.30.40.51.01.52 B()1.313.482.92.712.392.202.061.661.431.271.03 62()6.590.631.02.211.391.461.491.411.281.17|0.98

§7.1 岭回归估计的定义 因为岭参数k不是唯一确定的,所以我们得到的岭回归估计 β(k) ˆ 实际是回归参数β的一个估计族。 例如对例7.1可以算得不同k值时的β1 (k) ˆ ,β(k) 2 ˆ ,见表7.2 k 0 0.1 0.15 0.2 0.3 0.4 0.5 1.0 1.5 2 3 β1 (k) ˆ 11.31 3.48 2.99 2.71 2.39 2.20 2.06 1.66 1.43 1.27 1.03 β2 (k) ˆ -6.59 0.63 1.02 1.21 1.39 1.46 1.49 1.41 1.28 1.17 0.98 表7.2

§7.1岭回归估计的定义 1(k) 2(k) 2345 图7.1

§7.1 岭回归估计的定义

§7,2岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2) 式中因变量观测向量y未经标准化。 性质1Bk)是回归参数β的有偏估计 证明:E[B(k)]E[X′X+kI)x′y (XX+kI)X′E(y) (X′X+kI)X′X 显然只有当k=0时,互(O)}B;当k≠0时,B(k)是β的有偏估计 要特别强调的是β(k)不再是β的无偏估计了, 有偏性是岭回归估计的一个重要特性

§7.2 岭回归估计的性质 在本节岭回归估计的性质的讨论中,假定(7.2) 式中因变量观测向量y未经标准化。 性质1 β(k) ˆ 是回归参数β 证明: E[β(k) ˆ ]=E[(X′X+kI) -1 X′y] =(X′X+kI) -1 X′E(y) =(X′X+kI) -1 X′X 显然只有当k=0时,E[ β(0) ˆ ]=β;当k≠0时, β(k) ˆ 是β的有偏估计。 要特别强调的是β(k) ˆ 不再是β的无偏估计了, 有偏性是岭回归估计的一个重要特性

§7,2岭回归估计的性质 性质2在认为岭参数k是与y无关的常数时,β(k)=(XX+kI)xy 是最小二乘估计β的一个线性变换,也是y的线性函数。 因为B(k)=(XX+kI)xy=(xX+kI)xX(xX)xy -(X'X+kI)X'XB 因此,岭估计β(k)是最小二乘估计β的一个线性变换, 根据定义式(k)=(X"x+kI)Xy知B(k)也是y的线性函数 这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来 确定,因而k也依赖于y,因此从本质上说β(k)并非β的线性变换,也不是 y的线性函数

§7.2 岭回归估计的性质 性质2 在认为岭参数k是与y 无关的常数时,β = XX + I Xy -1 (k) ( k ) ˆ 是最小二乘估计β ˆ 的一个线性变换,也是y 因为 β = XX + I Xy -1 (k) ( k ) ˆ = XX + I XX XX Xy -1 -1 ( k ) ( ) = X X I X Xβ ˆ  +  -1 ( k ) 因此,岭估计β(k) ˆ 是最小二乘估计β ˆ 的一个线性变换, 根据定义式β = XX + I Xy -1 (k) ( k ) ˆ 知β(k) ˆ 也是y 这里需要注意的是,在实际应用中,由于岭参数k总是要通过数据来 确定,因而k也依赖于y,因此从本质上说β(k) ˆ 并非β ˆ 的线性变换,也不是 y 的线性函数

点击下载完整版文档(PPT)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共46页,可试读16页,点击继续阅读 ↓↓
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有