第二节一元线性回归 在客观世界中,普遍存在着变量之间的关系数学的一个重要作用就是从数量上来揭示 表达和分析这些关系。而变量之间关系,一般可分为确定的和非确定的两类.确定性关系可 用函数关系表示,而非确定性关系则不然 例如,人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间 的关系等,它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。我们称这 类非确定性关系为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但是可以借 助函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为 回归函数。回归分析是研究两个或两个以上变量相关关系的一种重要的统计方法 在实际中最简单的情形是由两个变量组成的关系。考虑用下列模型表示Y=f(x).但 是,由于两个变量之间不存在确定的函数关系,因此必须把随机波动考虑进去,故引入模型 如下 Y=f(x)+a 其中γ是随机变量,x是普通变量,ε是随机变量(称为随机误差) 回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相 关关系,建立起变量之间关系的近似表达式,即经验公式,并由此对相应的变量进行预测和 控制等 本节主要介绍一元线性回归模型估计、检验以及相应的预测和控制等问题 分布图示 ★引言 ★引例 ★一元线性回归模型 ★最小二乘估计 ★例2 ★最小二乘估计的性质 ★回归方程的检验假设 ★总偏差平方和的分解 ★回归方程的检验方法 ★例3 ★例4 ★预测问题★例 ★控制问题 ★可化一元线性回归的情形 ★ ★内容小结 ★课堂练习 ★习题8-2 返回 内容要点 、引例 为了研究某一化学反应过程中温度x对产品得率Y的影响测得数据如下 温度x,/"C100110120130140150160170180190 温度y/%45515461667074788589 试研究这些数据所蕴藏的规律性 二、一元线性回归模型 一般地,当随机变量y与普通变量x之间有线性关系时,可设 Y=Po+Bx+E (1)
第二节 一元线性回归 在客观世界中, 普遍存在着变量之间的关系.数学的一个重要作用就是从数量上来揭示、 表达和分析这些关系。而变量之间关系, 一般可分为确定的和非确定的两类. 确定性关系可 用函数关系表示, 而非确定性关系则不然. 例如, 人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间 的关系等, 它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。我们称这 类非确定性关系为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但是可以借 助函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为 回归函数。回归分析是研究两个或两个以上变量相关关系的一种重要的统计方法。 在实际中最简单的情形是由两个变量组成的关系。考虑用下列模型表示 Y = f (x) . 但 是,由于两个变量之间不存在确定的函数关系,因此必须把随机波动考虑进去,故引入模型 如下 Y = f (x) + 其中 Y 是随机变量, x 是普通变量, 是随机变量(称为随机误差)。 回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相 关关系,建立起变量之间关系的近似表达式,即经验公式,并由此对相应的变量进行预测和 控制等。 本节主要介绍一元线性回归模型估计、检验以及相应的预测和控制等问题。 分布图示 ★ 引言 ★ 引例 ★ 一元线性回归模型 ★ 最小二乘估计 ★ 例1 ★ 例2 ★ 最小二乘估计的性质 ★ 回归方程的检验假设 ★ 总偏差平方和的分解 ★ 回归方程的检验方法 ★ 例3 ★ 例4 ★ 预测问题 ★ 例5 ★ 控制问题 ★ 可化一元线性回归的情形 ★ 例6 ★ 内容小结 ★ 课堂练习 ★ 习题 8-2 ★ 返回 内容要点 一、引例 为了研究某一化学反应过程中温度 x 对产品得率 Y 的影响. 测得数据如下: / % 45 51 54 61 66 70 74 78 85 89 / 100 110 120 130 140 150 160 170 180 190 i i y x C 温度 温度 试研究这些数据所蕴藏的规律性. 二、一元线性回归模型 一般地,当随机变量 Y 与普通变量 x 之间有线性关系时, 可设 Y = + x + 0 1 , (1)
N(0,a2),其中,B1为待定系数 设(x1,H1),(x2,H2),…(xn,)是取自总体(x,Y)的一组样本而(x2y1),(x2,y2),…,(xn,yn) 是该样本的观察值,在样本和它的观察值中的x,x2,…,xn是取定的不完全相同的数值,而样 本中的HF21…,n在试验前为随机变量,在试验或观测后是具体的数值,一次抽样的结果可 以取得n对数据(x,y1)、(x2,y2)…,(xn2yn),则有 另=B+B1x1+E,=1,2,…,n 其中s,2…,n相互独立。在线性模型中,由假设知 Y-N(Po+Bx, 0), E(Y)=Bo+B 回归分析就是根据样本观察值寻求B0,B1的估计B0,B1 对于给定x值,取 Bo+Pu (4) 作为E(Y)=B+B1x的估计,方程(4)称为Y关于x的线性回归方程或经验公式,其图像称为 回归直线,B1称为回归系数 三、最小二乘估计 对样本的一组观察值(x1,y),(x2y2),…,(xn,yn),对每个x1,由线性回归方程(4)可以确 定一回归值 j1=B0+B1 这个回归值j与实际观察值y之差 y1-y1=y1-B0+B1 刻画了y与回归直线=B0+B1x的偏离度.一个自然的想法就是:对所有x,若y与的 偏离越小,则认为直线与所有试验点拟和得越好 令 Q(B,B)=∑(y2-B0-B1x) 上式表示所有观察值y与回归直线的偏离平方和,刻划了所有观察值与回归直线的
~ (0, ), 2 N 其中 0 1 , 为待定系数。 设 ( , ),( , ), ,( , ) 1 1 2 2 n Yn x Y x Y x 是取自总体 (x,Y) 的一组样本,而 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y 是该样本的观察值,在样本和它的观察值中的 n x , x , , x 1 2 是取定的不完全相同的数值,而样 本中的 Y Y Yn , , , 1 2 在试验前为随机变量,在试验或观测后是具体的数值,一次抽样的结果可 以取得 n 对数据 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y ,则有 i i i y = + x + 0 1 , i =1,2, ,n (2) 其中 n , , , 1 2 相互独立。在线性模型中,由假设知 ~ ( ), 2 Y N 0 + 1 x, E Y x 0 1 ( ) = + (3) 回归分析就是根据样本观察值寻求 0 1 , 的估计 0 1 ˆ , ˆ . 对于给定 x 值, 取 Y x 0 1 ˆ ˆ ˆ = + (4) 作为 E Y x 0 1 ( ) = + 的估计,方程(4)称为 Y 关于 x 的线性回归方程或经验公式,其图像称为 回归直线, 1 ˆ 称为回归系数. 三、最小二乘估计 对样本的一组观察值 ( , ), 1 1 x y ( , ), 2 2 x y …, ( , ), n n x y 对每个 i x , 由线性回归方程(4)可以确 定一回归值 i i y x 0 1 ˆ ˆ ˆ = + , 这个回归值 i y ˆ 与实际观察值 i y 之差 i i i i y y y x 0 1 ˆ ˆ − ˆ = − + 刻画了 i y 与回归直线 y x 0 1 ˆ ˆ ˆ = + 的偏离度. 一个自然的想法就是: 对所有 i x ,若 i y 与 i y ˆ 的 偏离越小, 则认为直线与所有试验点拟和得越好. 令 = = − − n I i i Q y x 1 2 0 1 ( , ) ( ) 上式表示所有观察值 i y 与回归直线 i y ˆ 的偏离平方和, 刻划了所有观察值与回归直线的
偏离度。所谓最小二乘法就是寻求B与月的估计B0,B1,使Q(B0,B1)=mnQB0,B1) 利用微分的方法,求Q关于阳,B1的偏导数,并令其为零,得 G-B-B1x)=0 aP ∑(1-0-Rx)x=0 整理得 nB B Aa+∑=∑形 称此为正规方程组,解正规方程组得 (5) B=2*,yi-nxy 其中x=∑x,y=∑y,若记 ∑x-0--=∑x-m,l1=∑x-=∑x-mn 则 「A=j-B1 PI LL (5)或(6)叫做B0,B1的最小二乘估计.而 Y=Bo+Bix 为y关于x的一元经验回归方程 四、最小二乘估计的性质 定理1若B,B1为B,B1的最小二乘估计,则B,B1分别是0,B1的无偏估计,且
偏离度。所谓最小二乘法就是寻求 0与1 的估计 0 1 ˆ ˆ , ,使 ) min ( , ). ˆ , ˆ ( Q 0 1 = Q 0 1 利用微分的方法,求 Q 关于 0,1 的偏导数, 并令其为零, 得 = − − − = = − − − = = = n i i i i n i i i y x x Q y x Q 1 0 1 1 1 0 1 0 2 ( ) 0 2 ( ) 0 整理得 = + = + = = = = = i n i i n i i n i i n i i n i i x x x y n x y 1 1 1 2 0 1 1 1 1 0 , 称此为正规方程组,解正规方程组得 − = − = − = = n i i n i i i x y nxy x nx y x 1 2 2 1 1 0 1 ˆ ˆ ˆ (5) 其中 = = n i i x n x 1 1 , = = n i i y n y 1 1 , 若记 L x x y y x y nx y n i i i i n i i def xy = = = − − = − 1 1 ( )( ) , = = = − = − n i i n i i def xx L x x x nx 1 2 2 1 2 ( ) , 则 = = − Lxy Lxx y x 1 0 1 ˆ ˆ ˆ ˆ (6) (5) 或 (6) 叫做 0 1 , 的最小二乘估计. 而 Y x 0 1 ˆ ˆ ˆ = + 为 Y 关于 x 的一元经验回归方程. 四、最小二乘估计的性质 定理 1 若 0 1 ˆ , ˆ 为 0 1 , 的最小二乘估计,则 0 1 ˆ , ˆ 分别是 0 1 , 的无偏估计, 且 + Lxx x n N 2 2 0 0 1 ~ , ˆ , Lxx N 2 1 1 ~ , ˆ ()
五、回归方程的检验假设 前面关于线性回归方程y=B+B1x的讨论是在线性假设Y=B+B1x+ E~N(0,a2)下进行的这个线性回归方程是否有实用价值,首先要根据有关专业知识和实 践来判断,其次还要根据实际观察得到的数据运用假设检验的方法来判断 由线性回归模型Y=B+月1x+E,E~N(0.a2)可知,当B1=0时,就认为y与x之间不 存在线性回归关系,故需检验如下假设 H0:B1=0,H1:B1≠0. 为了检验假设H0,先分析对样本观察值y,y2…,yn的差异,它可以用总的偏差平方和 来度量,记为 由正规方程组,有 =∑(,-j2+2∑(--y+∑(-y)2 j)2+∑(-y 令S曰=∑(-y)2,S利=∑(y1-),则有 =S剩+Sp 上式称为总偏差平方和分解公式.S回称为回归平方和它由普通变量x的变化引起的,它的 大小(在与误差相比下)反映了普遍变量x的重要程度,S称为剩余平方和,它是由试验误差 以及其它未加控制因素引起的它的大小反映了试验误差及其它因素对试验结果的影响关于 S和S剩,有下面的性质: 定理2在线性模型假设下,当H成立时,B1与S剩相互独立,且 x2(n-2),S曰a2~x2(1) 对H的检验有三种本质相同的检验方法:
五、回归方程的检验假设 前面关于线性回归方程 y x 0 1 ˆ ˆ ˆ = + 的讨论是在线性假设 Y = + x + 0 1 , ~ (0, ) 2 N 下进行的. 这个线性回归方程是否有实用价值, 首先要根据有关专业知识和实 践来判断,其次还要根据实际观察得到的数据运用假设检验的方法来判断. 由线性回归模型 Y = + x + 0 1 , ~ (0, ) 2 N 可知,当 1 = 0 时,就认为 Y 与 x 之间不 存在线性回归关系,故需检验如下假设: : 0, H0 1 = H1 : 1 0 . 为了检验假设 H0 , 先分析对样本观察值 n y , y , , y 1 2 的差异,它可以用总的偏差平方和 来度量, 记为 2 1 ( ) = = − n i i S总 y y , 由正规方程组, 有 2 1 ( ˆ ˆ ) = = − + − n i i i i S总 y y y y = 2 1 1 1 2 ( ˆ) 2( ˆ )(ˆ ) ( ˆ ) = = = − + − − + − n i i n i i i i n i i y y y y y y y y = 2 1 2 1 ( ˆ ) ( ˆ ) = = − + − n i i n i i i y y y y . 令 2 1 ( ˆ ) = = − n i i S回 y y , 2 1 ( ˆ ) = = − n i i i S剩 y y , 则有 S总 = S剩 +S回 上式称为总偏差平方和分解公式. S回 称为回归平方和,它由普通变量 x 的变化引起的,它的 大小(在与误差相比下)反映了普遍变量 x 的重要程度; S剩 称为剩余平方和,它是由试验误差 以及其它未加控制因素引起的,它的大小反映了试验误差及其它因素对试验结果的影响.关于 S回 和 S剩 ,有下面的性质: 定理 2 在线性模型假设下, 当 H0 成立时, 1 ˆ 与 S剩 相互独立, 且 / ~ ( 2), 2 2 S剩 n − / ~ (1). 2 2 S回 对 H0 的检验有三种本质相同的检验方法:
T一检验法;F一检验法;相关系数检验法. 在介绍这些检验方法之前,先给出S8,S回,S的计算方法 8=∑(1-)2=∑y2-听2Ly S回=RLx=BLy B,L 1.T-检验法 由定理1,(B1-B)(a/√Lx)~NO,若令G2=S剩(n-2),则由定理2知,G为a2 的无偏估计,(n-2)2/o2=S/a2-x2(n-2),且(B1-B1)(o/√Lx)与(n-2)02/a2相 互独立.故取检验统计量 B1 由给定的显著性水平a,查表得ta2(m-2),根据试验数据(x,y1)(x2,y2)…,(x,yn)计 算7的值t,当|tta2(m-2)时,拒绝H,这时回归效应显著,当rkan2(m-2)时,接受Ho 此时回归效果不显著 2.F-检验法 由定理2,当H为真时,取统计量 S回~F(n-2) 由给定显著性水平α,査表得F(1,n-2),根据试验数据(x1,y1)(x2,y2),…(xn,yn)计算 F的值,若F>F(1,n-2)时,拒绝H0,表明回归效果显著;若F≤F(1,n-2)时,接受H0, 此时回归效果不显著 3.相关系数检验法 由第四章知,相关系数的大小可以表示两个随机变量线性关系的密切程度.对于线性回 归中的变量x与Y,其样本的相关系数为 ∑(x-x)0x-F) (-Y) 它反映了普通变量x与随机变量Y之间的线性相关程度.故取检验统计量
T —检验法; F —检验法;相关系数检验法. 在介绍这些检验方法之前, 先给出 S总 , S回 , S剩 的计算方法. = = = − = − n i n i i i def Lyy S y y y ny 1 1 2 2 2 总 ( ) S Lxx 1Lxy 2 1 ˆ ˆ 回 = = S Lyy 1Lxy ˆ 剩 = − 1. T −检验法 由定理 1, ) /( / ) ~ (0,1), ˆ (1 − 1 Lxx N 若令 ˆ /( 2), 2 = S剩 n − 则由定理 2 知, ˆ 为 2 的无偏估计, 2 2 (n − 2) ˆ = ~ ( 2), 2 2 S剩 n − 且 ) /( / ) ˆ (1 − 1 Lxx 与 2 2 (n − 2) ˆ / 相 互独立. 故取检验统计量 ~ ( 2) ˆ ˆ 1 T = Lxx t n − , 由给定的显著性水平 ,查表得 ( 2) t 2 n − ,根据试验数据 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y 计 算 T 的值 t , 当 | | ( 2) t t 2 n − 时,拒绝 H0 ,这时回归效应显著; 当 | | ( 2) t t 2 n − 时,接受 H0 , 此时回归效果不显著. 2. F −检验法 由定理 2, 当 H0 为真时, 取统计量 ~ (1, 2) ( 2) − − = F n S n S F 剩 回 由给定显著性水平 , 查表得 F (1, n − 2) , 根据试验数据 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y 计算 F 的值, 若 F F (1, n − 2) 时, 拒绝 H0 , 表明回归效果显著;若 F F (1, n − 2) 时, 接受 H0 , 此时回归效果不显著. 3. 相关系数检验法 由第四章知,相关系数的大小可以表示两个随机变量线性关系的密切程度. 对于线性回 归中的变量 x 与 Y ,其样本的相关系数为 xx yy xy n i i n i i n i i i L L L x x Y Y x x Y Y = − − − − = = = = 1 2 1 2 1 ( ) ( ) ( )( ) , 它反映了普通变量 x 与随机变量 Y 之间的线性相关程度. 故取检验统计量
对给定的显著性水平a,查相关系数表得r(m),根据试验数据 (x1,y1)(x2,y2)…(xn,yn)计算R的值,当|rbra(m)时,拒绝Ho,表明回归效果显著,当 r≤ra(n)时,接受H0,表明回归效果不显著 六、预测问题 在回归问题中,若回归方程经检验效果显著,这时回归值与实际值就拟合较好,因而可 以利用它对因变量Y的新观察值y0进行点预测或区间预测 对于给定的x,由回归方程可得到回归值 yo=Po+B,xo 称j为y在x的预测值.y的测试值y与预测值y之差称为预测误差 在实际问题中,预测的真正意义就是在一定的显著性水平a下,寻找一个正数(x0),使 得实际观察值y以1-a的概率落入区间(j。-(x0),j+δ(x)内,即 PlYo-jo k 8(xo)) 由定理1知 又因Y-j与G2相互独立,且 所以 2 故对给定的显著性水平a,求得(x0)=m2(n-1)元/++(x-x) 故得y的置信度为1-a的预测区间为(0-6(x0),jo+(x0) 易见,y0的预测区间长度为26(x0)对给定a,x越靠近样本均值x,(x)越小预测区间长度
xx yy xy L L L r = 对给定的显著性水平 , 查相关系数表得 r (n), 根据试验数据 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y 计算 R 的值, 当 | r | r (n) 时, 拒绝 H0 ,表明回归效果显著; 当 | r | r (n) 时, 接受 H0 , 表明回归效果不显著. 六、预测问题 在回归问题中,若回归方程经检验效果显著, 这时回归值与实际值就拟合较好, 因而可 以利用它对因变量 Y 的新观察值 0 y 进行点预测或区间预测. 对于给定的 0 x ,由回归方程可得到回归值 0 0 1 0 ˆ ˆ y ˆ = + x 称 0 y ˆ 为 y 在 0 x 的预测值. y 的测试值 0 y 与预测值 0 y ˆ 之差称为预测误差. 在实际问题中, 预测的真正意义就是在一定的显著性水平 下, 寻找一个正数 ( ) 0 x ,使 得实际观察值 0 y 以 1− 的概率落入区间 ( ˆ ( ), ˆ ( )) 0 0 0 0 y − x y + x 内, 即 P|Y0 − y ˆ 0 | (x0 )=1− , 由定理 1 知, − − + + 2 2 0 0 0 1 ( ) ˆ ~ 0, 1 Lxx x x n Y y N , 又因 0 0 Y − y ˆ 与 2 ˆ 相互独立, 且 ~ ( 2), ( 2) ˆ 2 2 2 − − n n 所以, ~ ( 2) 1 ( ) ( ˆ ) ˆ 1 2 0 0 0 − − = − + + t n L x x n T Y y xx , 故对给定的显著性水平 ,求得 xx a L x x n x t n 2 0 0 / 2 1 ( ) ( ) ( 1) ˆ 1 − = − + + 故得 0 y 的置信度为 1− 的预测区间为 ( ˆ ( ), ˆ ( )) 0 0 0 0 y − x y + x . 易见, 0 y 的预测区间长度为 2 ( ), 0 x 对给定 , 0 x 越靠近样本均值 , ( ) 0 x x 越小,预测区间长度
小效果越好。当n很大,并且x0较接近x时,有 la/2(n-2)≈l 则预测区间近似为(0-la/2G,jo+la/2G) 七、控制问题 控制问题是预测问题的反问题所考虑的问题是:如果要求将y控制在某一定范围内,问 应控制在什么范围? 这里我们仅对n很大的情形给出控制方法,对一般的情形,也可类似地进行讨论 对给出的n10时,控制范围为(x,x2)当B1<0时,控制范围为(x2,x);如图8-3-3 实际应用中,由(1)式知,要实现控制,必须要求区间(y,y2)的长度大于2uan2G,否则 控制区间不存在 特别,当a=0.05时,lan2=l025=196≈2,故(2)近似为 2G)/ x2(x)=(y1-B0-2a)/B1 八、可化为一元线性回归的情形 前面讨论了一元线性回归问题,但在实际应用中,有时会遇到更复杂的回归问题,但其 中有些情形,可通过适当的变量替换化为一元线性回归问题来处理 1.Y=B++E,E~N(0,a2) (1) 其中a,B,a2是与x无关的未知参数 令x'=-,则可化为下列一元线性回归模型 =B0+Bx+E,E~N(0.a2) E,nE~M(0,a-)
小,效果越好。当 n 很大, 并且 0 x 较接近 x 时, 有 1 1 ( ) 1 2 0 − + + Lxx x x n , / 2 / 2 ( 2) n u t − 则预测区间近似为 ( ˆ ˆ , ˆ ˆ). y0 − ua / 2 y0 + ua / 2 七、控制问题 控制问题是预测问题的反问题,所考虑的问题是:如果要求将 y 控制在某一定范围内, 问 x 应控制在什么范围? 这里我们仅对 n 很大的情形给出控制方法,对一般的情形,也可类似地进行讨论。 对给出的 ' 2 ' 1 y y 和置信度 1− , 令 = + + = + − ˆ ˆ ˆ ( ) ˆ ˆ ˆ ( ) 0 1 / 2 ' 2 0 1 / 2 ' 1 y x x u y x x u (1) 解得 = − − = − + 0 / 2 1 ' 1 ' 2 0 / 2 1 ' 1 ' 1 ˆ ˆ) / ˆ ( ) ( ˆ ˆ) / ˆ ( ) ( x x y u x x y u (2) 当 0 ˆ 1 时, 控制范围为 ( , ); ' 2 ' 1 x x 当 0 ˆ 1 时, 控制范围为 ( , ); ' 1 ' 2 x x 如图 8-3-3. 实际应用中, 由(1)式知, 要实现控制, 必须要求区间 ( , ) ' 2 ' 1 y y 的长度大于 2 ˆ u / 2 , 否则 控制区间不存在. 特别, 当 = 0.05 时, u / 2 = u0.025 =1.96 2 , 故(2)近似为 = − − = − + 0 1 ' 1 ' 2 0 1 ' 1 ' 1 ˆ 2 ˆ) / ˆ ( ) ( ˆ 2 ˆ) / ˆ ( ) ( x x y x x y 八、可化为一元线性回归的情形 前面讨论了一元线性回归问题, 但在实际应用中, 有时会遇到更复杂的回归问题, 但其 中有些情形, 可通过适当的变量替换化为一元线性回归问题来处理. 1. x Y 1 0 = + + , ~ (0, ), 2 N (1) 其中 2 , , 是与 x 无关的未知参数. 令 , 1 x x = 则可化为下列一元线性回归模型: ' ' , ~ (0, ), 2 Y = 0 + 1 x + N 2. = x Y e , ln ~ (0, ), 2 N (2)
其中a,B,a2是与x无关的未知参数 在Y=ce,g两边取对数得 In r=In a+Bx+Ina 令Y=hny,a=ha,b=B,x=x,E~hE,则(2)可转化为下列一元线性回归模型 InE- N(O, 0-) 其中a,B,a2是与x无关的未知参数 在Y=ax·E两边取对数得 令F=hnY,a=na,b=B,x=nx,E=hE,则(2)可转化为下列一元线性回归模型: bx+E',E~N(0,a2) 4.Y=a+ Bh(x)+E, s-N(O, 0 ), (4) 其中a,B,a2是与x无关的未知参数Mx)是x的已知函数令Y=,a=a,b=B,x=H(x,则(3) 可转化为 注:其它,如双曲线Y=-x一和S型曲线Y= a+ Ax a+x函数等亦可通过适当的变量替 换转化为一元线性模型来处理.若在原模型下,对于(x,Y)有样本 (x,y)(x2,y2),…,(xn2,yn) 就相当于在新模型下有样本 因而就能利用一元线性回归的方法进行估计、检验和预测,在得到Y关于x'的回归方程后 再将原变量代回,就得到Y关于x的回归方程,它的图形是一条曲线,也称为曲线回归方程。 例题选讲 元线性回归模型 例1(E01)求引例中产品得率Y关于温度x的回归方程 解为了方便,列出如右计算表格
其中 2 , , 是与 x 无关的未知参数. 在 = x Y e 两边取对数得 lnY = ln + x + ln 令 ln , ' Y = Y a = ln, b = , x' = x, ' ~ ln , 则(2)可转化为下列一元线性回归模型: ' ' ' , ' ~ (0, ), 2 Y = a + bx + N 3. ,ln ~ (0, ), 2 Y = x N (3) 其中 2 , , 是与 x 无关的未知参数. 在 Y = x 两边取对数得 lnY = ln + ln x + ln 令 Y' = lnY,a = ln,b = , x' = ln x,' = ln , 则(2)可转化为下列一元线性回归模型: ' ' ' , ' ~ (0, ), 2 Y = a + bx + N 4. ( ) , ~ (0, ), 2 Y = + h x + N (4) 其中 2 , , 是与 x 无关的未知参数. h(x) 是 x 的已知函数,令 Y' = Y,a =,b = , x' = h(x), 则(3) 可转化为 ' ' , ~ (0, ). 2 Y = a + bx + N 注: 其它,如双曲线 x x Y + = 和 S 型曲线 x e Y − + = 1 函数等亦可通过适当的变量替 换转化为一元线性模型来处理. 若在原模型下, 对于 (x,Y) 有样本 ( , ),( , ), ,( , ) 1 1 2 2 n n x y x y x y 就相当于在新模型下有样本 ( ' , '),( ' , '), ,( ' , ') 1 1 2 2 n n x y x y x y 因而就能利用一元线性回归的方法进行估计、检验和预测,在得到 Y' 关于 x' 的回归方程后, 再将原变量代回,就得到 Y 关于 x 的回归方程,它的图形是一条曲线,也称为曲线回归方程。 例题选讲 一元线性回归模型 例 1 (E01) 求引例中产品得率 Y 关于温度 x 的回归方程. 解 为了方便,列出如右计算表格
Vi x, 100 45 110 5 14400 2916 130 61 16900 3721 7930 22500 4900 10500 5476 l1840 817 78 28900 6084 13260 32400 7225 15300 1450673|218500 47225 101570 故x=×1450=145,j=×673=673 10 而Lx=∑x2-10x2=218500-10×(145)2=825 l01570-10×145×67.3=398 从而A=2=399=0483=-=673-145×0483=-2735 Lx8250 所以回归直线方程为j=-2735+0.483x 例2(E02)对某地区生产同一产品的8个不同规模的乡镇企业进行生产费用调查,得产 量x(万件)和生产费用Y(万元)的数据如下 x1.52345 9.110.512 y56667278 10.813.516.5 试据此建立Y关于x的回归方程 解作散点图 由散点图可见作一元线性回归较合适 由所给数据计算如下: 10 789101112
i i x i y 2 i x 2 i y i i x y 1 100 45 10000 2025 4500 2 110 51 12100 2601 5610 3 120 54 14400 2916 6480 4 130 61 16900 3721 7930 5 140 66 19600 4356 9240 6 150 70 22500 4900 10500 7 160 74 25600 5476 11840 8 170 78 28900 6084 13260 9 180 85 32400 7225 15300 10 190 89 36100 7921 116910 1450 673 218500 47225 101570 故 x 1450 10 1 = =145, y 673 10 1 = = 67.3, 而 Lxx 2 10 1 2 x 10x i = i − = 2 = 218500 −10(145) = 8250, Lxy = = − 10 1 10 i xy =101570 −10145 67.3 = 3985, 从而 1 ˆ xx xy L L = 8250 3980 = = 0.483, 0 ˆ 1 ˆ = y − x = 67.3 −145 0.483 = −2.735, 所以回归直线方程为 y ˆ = −2.735 + 0.483x. 例 2 (E02) 对某地区生产同一产品的 8 个不同规模的乡镇企业进行生产费用调查, 得产 量 x(万件)和生产费用 Y (万元)的数据如下: 5.6 6.6 7.2 7.8 10.1 10.8 13.5 16.5 1.5 2 3 4.5 7.5 9.1 10.5 12 y x 试据此建立 Y 关于 x 的回归方程. 解 作散点图. 由散点图可见作一元线性回归较合适. 由所给数据计算如下: = = 8 1 50.1, i i x = = 8 1 78.1, i i y 592.08, 8 1 = i= i i x y 428.81, 8 1 2 = = i i x
x1=626,j 9.76 从而 0.12=11505, #)立小 y=59208-×50.1×78.1=1029 故 L11505 B0=y-=976-0.90×626=413 由此得到回归方程y=413+0.90x 回归方程的显着性检验 例3(E03)以家庭为单位,某种商品年需求量与该商品价格之间的一组调查数据如下 需求量( 313 (1)求经验回归方程y=B0+B1x (2)检验线性关系的显著性(a=0.05,采用F-检验法) 解()x=29,Lx=7.18.,y=2.Ly=6.58 Ly=∑xy1-m=5497-2.1×2.9×10=-593 故A=1n1L=0826、A=Bx=44经验回归方程y=41508x (2)S回=A1x=(-0826)×(-593)=4898,S剩= 4.898 F 因F>F05(1,8),故回归是显著的 例4对本节中例2的线性回归作显著检验(a=001) 解假设H0:B1=0,先计算
x = = 8 1 8 1 i i x = 6.26, y = = 8 1 8 1 i i y = 9.76. 从而 Lxx 2 8 1 2 8 1 2 8 1 = − = i= i i i x x 2 50.1 8 1 = 428.81− =115.05, Lxy = − = = = 8 1 8 1 8 1 8 1 i i i i i i i x y x y 50.1 78.1 8 1 = 592.08 − =102.99, 故 1 ˆ xx xy L L = 115.05 102.99 = = 0.90, 0 ˆ y x ˆ = − = 9.76 − 0.90 6.26 = 4.13. 由此得到回归方程 y ˆ = 4.13 + 0.90x. 回归方程的显著性检验 例 3 (E03) 以家庭为单位, 某种商品年需求量与该商品价格之间的一组调查数据如下 表: ( ) 1 3.5 3 2.7 2.4 2.5 2 1.5 1.2 1.2 ( ) 5 2 2 2.3 2.5 2.6 2.8 3 3.3 3.5 k g x 需求量 价格 元 (1) 求经验回归方程 y x 0 1 ˆ ˆ ˆ = + ; (2) 检验线性关系的显著性( = 0.05 , 采用 F − 检验法). 解 (1) x = 2.9, = 7.18, Lxx y = 2.1, = 6.58, Lyy Lxy x y nxy n i = i i − =1 = 54.97 − 2.1 2.910 = −5.93, 故 1 ˆ Lxy Lxx = / = −0.826, 0 ˆ y x1 ˆ = − = 4.449, 经验回归方程 y ˆ = 4.495 − 0.826x. (2) S回 1Lxy ˆ = = (−0.826)(−5.93) = 4.898, S剩 Lyy 1Lxy ˆ = − =1.682, F0 ( − 2) = S n S 剩 回 1.682 4.898 = 8 = 23.297, = 0.05, (1.8) 5.32. F0.05 = 因 (1,8), F0 F0.05 故回归是显著的. 例 4 对本节中例 2 的线性回归作显著检验( = 0.01). 解 假设 : 0, H0 1 = 先计算 : Lyy