第八章多元回归分析 第一讲多元线性回归 元线性回归模型的评价 对一元线性回归模型需做数据的拟合优度、线性相关 关系的检验。 Y=B0十阝1x+e,e~N(0,02) 其中,β0、阝1、02是未知参数。 取定可控变量X的一组值x1,x2,…,xn,对Y做n 次观察(试验),假定各次试验是相互独立的。记试验结果 为Y1,Y2 则 Y=+阝1xi+ei;(i=1,2,…, (1)e1,ε2,…,εn相互独立 (2)εi~N(0,02),i=1,2,…,n 得参数β0、B1的估计:bo=B0、b1=B1,有经验回归模 型 y=60+b,x 「问题:产生试验(观察)值y,y2,…,ym之间的差异的原因? (1)自变量X的不同取值; 哪一个方面的 (2)其它因素(包括试验误差)的影响。 是主要的? 分析总偏差平方和
第八章 多元回归分析 第一讲 多元线性回归 一. 一元线性回归模型的评价 对一元线性回归模型需做数据的拟合优度、线性相关 关系的检验。 Y=β0 十 β1x+ε,ε~N(0,σ2) 其中,β0、β1、σ2 是未知参数。 取定可控变量 X 的一组值 x1,x2,…,xn,对 Y 做 n 次观察(试验),假定各次试验是相互独立的。记试验结果 为 Y1,Y2,…,Yn,则 Yi=β0 十 β1xi 十εi,(i=1,2,…, n), (1) ε1,ε2,…,εn相互独立; (2) εi~N(0,σ2),i=1,2,…,n. 得参数β0、β1的估计:b0= 0 ˆ 、b1= 1 ˆ ,有经验回归模 型 y b b x 0 1 ˆ = + (1) 自变量 X 的不同取值; (2) 其它因素(包括试验误差)的影响。 分析总偏差平方和 问题:产生试验(观察)值 y1,y2,…,yn 之间的差异的原因? 哪一个方面的影响 是主要的?
Qr=2(y1-y)2=l 是观察值y,y2,…,y相对均值y的离散程度,即n个观 察值之间的差异。有 Qr=∑[(02-y)2+(y1-y)2 ∑(y-y)2+∑(1-y)2=QR+QE 其中 QR=∑(-y)2= 称为回归平方和。回归平方和是由自变量X的变化而产生, 反映了自变量X的重要程度。 Qg=2(y1-1)2=,人 称为残差平方和。残差平方和的大小反映了试验误差和其 它因素对试验结果的影响程度。 可证明 x2(n-1) 当b=0时,~x()并且,Q2和Q相互独立
yy n i T i Q = y − y = l =1 2 ( ) 是观察值 y1,y2,…,yn相对均值 y 的离散程度,即 n 个观 察值之间的差异。有 = = = = − + − = + = − + − n i n i i i i R E n i T i i i y y y y Q Q Q y y y y 1 1 2 2 1 2 2 ( ˆ ) ( ˆ ) [( ˆ ) ( ˆ ) ] 其中 xx xy n i R i l l Q y y 2 1 2 = ( ˆ − ) = = 称为回归平方和。回归平方和是由自变量 X 的变化而产生, 反映了自变量 X 的重要程度。 xx xy yy n i E i i l l Q y y l 2 1 2 = ( − ˆ ) = − = 称为残差平方和。 残差平方和的大小反映了试验误差和其 它因素对试验结果的影响程度。 可证明 ~ ( 1), 2 2 n − QT ~ ( 2), 2 2 n − QE 当 b=0 时, ~ (1), 2 2 QR 并且, QE和QR 相互独立
若X与Y之间存在线性相关关系,回归方程 bo+6x 中应有b≠0。 检验假设H0:b=0,若I0成立,则由F分布定理,统 计量 /1 O F F(1,n-2) (n-2) QE/(n-2) 由于QR的大小反映了X对Y的影响程度,QR的值越大, 统计量F的值越大。对给定的显著性水平a,Ho:b=0的 拒绝域为 (f(1,n-2)+∞) 其中 P{F≤fa(1,n-2)}=1-a。 若拒绝H0,称该线性回归方程是显著的,或称X与Y的线 性相关关系显著。 多元线性回归 若影响因变量Y的可控变量有X1,X2,…,Xp研究 它们的定量关系是多元回归问题。 1.多元线性回归的数学模型 设随机变量Y与P个可控变量X1,X2,…,Xp的取值x1 ,x满足关系式
若 X 与 Y 之间存在线性相关关系,回归方程 y b b x 0 1 ˆ = + 中应有 b≠0。 检验假设 H0:b=0, 若 H0 成立,则由 F 分布定理,统 计量 ~ (1, 2) /( 2) /( 2) /1 2 2 − − = − = F n Q n Q n Q Q F E R E R 由于 QR的大小反映了 X 对 Y的影响程度,QR的值越大, 统计量 F 的值越大。对给定的显著性水平α,H0:b=0 的 拒绝域为 ( f (1,n − 2),+) , 其中 P{F f (1,n − 2)} =1− 。 若拒绝 H0,称该线性回归方程是显著的,或称 X 与 Y 的线 性相关关系显著。 二. 多元线性回归 若影响因变量 Y 的可控变量有 X1,X2,…,X p, 研究 它们的定量关系是多元回归问题。 1. 多元线性回归的数学模型 设随机变量 Y 与 P 个可控变量 X1, X2,…, Xp 的取值 x1, x2, …, xp 满足关系式
Y=o+ Bx+B2x Pxp+8 E~N(0,0 其中β0,B1,…,Bp,02>0是未知参数,P>1。称为P 元正态线性回归模型,有 E(YX1=x2…XP=xP)=角+x+B2 Pxp 称 y=u(x, xp)=Bo+Bx+B2x2+.+Bpx 为Y关于x1,x2,…,xp回归函数或理论回归方程 对可控变量X1,X2,…,Xp的N组试验数据及因变量Y 的试验结果为 i;x1,x;2,…,xp), 有如下的结构式(样本模型) h1=A+B1x1+2x2+…+Bpxp+61 Bo+B1x21+2x 2D+82 p2p YN=Bo+ BIXNI+ B2xN2+.+ PDXND+EN 其中,P>1,n>P,并假定 (1)1,ε2,…,εp相互独立,同服从正态分布 N(0,02) (2)自变量x,x,……,xp无完全的(或接近完全的)多
= + + + + + ~ (0, ) 2 0 1 1 2 2 N Y x x x P P (1) 其中β0,β1,…,βP,σ2>0 是未知参数,P>1。称为 P 元正态线性回归模型,有 E(Y X1 = x1 , ,XP = xP) = 0 + 1 x1 + 2 x2 ++ PxP , 称 P P P y = x x x = + x + x ++ x 1 2 0 1 1 2 2 ( , , , ) 为 Y 关于 x1, x2, …, xp 回归函数或理论回归方程 对可控变量 X1,X2,…,Xp 的 N 组试验数据及因变量 Y 的试验结果为 (yi ; xi,1, xi,2, …, xi,p), i=1,2,…,N. 有如下的结构式(样本模型): = + + + + + = + + + + + = + + + + + N N N p Np N p p p p Y x x x Y x x x Y x x x 0 1 1 2 2 2 0 1 21 2 22 2 2 1 0 1 11 2 12 1 1 (2) 其中,P>1,n>P,并假定 (1)ε1,ε2,…,εp 相互独立,同服从正态分布 N(0,σ2 ); (2)自变量 x1, x2, …, xp 无完全的(或接近完全的)多
重共线性,即自变量之间不存在完全的或接近完全的线性关 系性。 Y BI Y B 令 B IP 21 2P NP 多元线性回归数学模型的矩阵形式为 Y=X B+E 有(1)E是独立的N维随机向量,E~N(Onx1,02Inxn); 2)X是非随机矩阵,且Ⅹ′X是对称满秩矩阵。 称Y一因变量向量;X—(数据的)结构矩阵或设计矩 阵 2模型参数的估计 根据试验数据 y;xi,x;2,…,x1p),=1,2…,N 求未知参数β0,B1,…,Bp的最小二乘估计。设bo,b,…, bp分别是B0,B1,…,Bp的估计,经验回归模型为
重共线性,即自变量之间不存在完全的或接近完全的线性关 系性。 令 = YN Y Y Y 2 1 , = N 1 0 , = N 2 1 , = N NP P P x x x x x x X 1 2 1 2 1 1 1 1 1 1 , 多元线性回归数学模型的矩阵形式为 Y=Xβ+ε, 有(1)ε是独立的 N 维随机向量,ε~N(On×1,σ2 In×n); (2) X 是非随机矩阵,且 X′X 是对称满秩矩阵。 称 Y—因变量向量; X—(数据的)结构矩阵或设计矩 阵。 2.模型参数的估计 根据试验数据 (yi ; xi,1, xi,2, …, xi,p), i=1,2,…,N. 求未知参数β0,β1,…,βP 的最小二乘估计。设 b0, b1, …, bP 分别是β0,β1,…,βP的估计,经验回归模型为
y=b+bx1+b2x2+…+bpxp (3) 应选b,b,…,bp使得全部观察值与回归值y的残差平 方和 Qg=∑(V-)2=∑(y-b-b1x1-b2x2-…-bxp)2 达到最小。其正规方程形式为 (XX)b=XY (4) 由于X是满秩矩阵,Rank(XX)=P+1≤n,方程有唯 解 b=(XX)XY=A B=CB (5) 记 A=XX一正规方程组的系数矩阵(信息矩阵); B=XY一正规方程组的常数项矩阵 C=A=(cn)相关矩阵 最小二乘估计b有以下统计性质: (1)b是B的无偏估计量,若记
P P y = b + b x + b x ++ b x 0 1 1 2 2 ˆ (3) 应选 b0, b1, …, bP 使得全部观察值 yi 与回归值 i y ˆ 的残差平 方和 = = = − = − − − − − n i i i i P iP n i E i i Q y y y b b x b x b x 1 2 0 1 1 2 2 1 2 ( ˆ ) ( ) 达到最小。其正规方程形式为 (X X )b = X Y (4) 由于 X X 是满秩矩阵,Rank( X X )=P+1≤n,方程有唯一 解 b = XX XY = A B = CB −1 −1 ( ) (5) 记 A= X X —正规方程组的系数矩阵(信息矩阵); B= X Y —正规方程组的常数项矩阵; C= ( ) 1 ij A = c − —相关矩阵。 最小二乘估计 b 有以下统计性质: (1)b 是β的无偏估计量,若记
E(bo) E(b)=El b,E(b1) E(bp) E(b)=EI(XXXY=(XX)XE(Y) (XX)XE(XB+8=(XX"XIXB+E(8) (XX)(XXB= B (2)回归系数b的相关矩阵R=0C=02(cj),即 coV (bi, bj)=0-Cij, i,j=0, 1, 2,., P. 一般,C,(i≠j不全为零。 说明:用最小二乘法求出的各回归系数b,b,…,b存在相关性。 例1.(称量设计)用天平称质量会带有随机误差,如由 气温、湿度、卫生条件及人的视觉等所引起。 有A、B、C、D共4件物品,其质量分别为B1,B2, β3,B4,现用天平称量,每次将4见物品都放上,然后选 个砝码使天平平衡。有如下的称量设计: 1)把4件物品均放在天平一侧,物品质量为 Y1=B1+B2+B3+B4+e 2)把A、B放一侧,C、D放在另一侧,得 Y2=B1+B2-B3-B4+
= = ( ) ( ) ( ) ( ) 1 0 1 0 P E bP E b E b b b b E b E = = = + = + = = − − − − − ( ) ( ) ( ) ( ) ( ) [ ( )] ( ) [( ) ] ( ) ( ) 1 1 1 1 1 X X X X X X X E X X X X X E E b E X X X Y X X X E Y (2)回归系数 b 的相关矩阵 R=σ2C=σ2(cij),即 COV(bi, bj)=σ2 cij, i,j=0,1,2,…,P. 一般,cij , (i≠j)不全为零。 说明: 例 1.(称量设计)用天平称质量会带有随机误差,如由 气温、湿度、卫生条件及人的视觉等所引起。 有 A、B、C、D 共 4 件物品,其质量分别为β1,β2, β3,β4,现用天平称量,每次将 4 见物品都放上,然后选 一个砝码使天平平衡。有如下的称量设计: 1)把 4 件物品均放在天平一侧,物品质量为 Y1=β1+β2+β3+β4+ε1, 2)把 A、B 放一侧,C、D 放在另一侧,得 Y2=β1+β2-β3-β4+ε2, 用最小二乘法求出的各回归系数 b0, b1, …, bP 存在相关性
3)把A、C放一侧,B、D放在另一侧,得 Y1=B1-B2+B3-B4+E3, 4)把A、D放一侧,B、C放在另一侧,得 B1-B2-B3+B 其中e:~N(0 此4元回归模型的结构矩阵为 这是一个正交矩阵。系数矩阵和相关矩阵分别为 4 A 1/4 1/4 R=02A=02 1/4 常数项矩阵为
3)把 A、C 放一侧,B、D 放在另一侧,得 Y1=β1-β2+β3-β4+ε3, 4)把 A、D 放一侧,B、C 放在另一侧,得 Y1=β1-β2-β3+β4+ε4, 其中εi~N(0,σ2)。 此 4 元回归模型的结构矩阵为 − − − − − − = 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 X 这是一个正交矩阵。系数矩阵和相关矩阵分别为 = 4 4 4 4 A , = = − 1/ 4 1/ 4 1/ 4 1/ 4 2 1 2 R A 常数项矩阵为
y1+y2+y3+y4 B- yvy,+y2-23-y4 y1-y2+y3-y4 V1-V2- J3+ y2 由公式b=CB,求得 b=B1=(y1+y2+y3+y4) b2=B2=(1+y2-y3-y4) b3=B3=(y1-y2+y3-y4) b4=B4=(y1-y2-y3+y4) 根据最小二乘估计的性质可知 1)b1,b2,b3,b4分别是物体质量B1,B2,B3,B4的无偏 估计; 2)D(b)=0Ci=4 3)ci=0,当i≠j(i,j=1,2,3,4),即b,b2,b3,b4之间不相 关 结论:在不增加试验总次数的前提下,显著提高了称量精 度 3.模型的评价 ①回归方程的显著性检验
− − + − + − + − − + + + = = 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 y y y y y y y y y y y y y y y y B X Y 由公式 b=CB,求得 ( ) 4 1 ˆ ( ) 4 1 ˆ ( ) 4 1 ˆ ( ) 4 1 ˆ 4 4 1 2 3 4 3 3 1 2 3 4 2 2 1 2 3 4 1 1 1 2 3 4 b y y y y b y y y y b y y y y b y y y y = = − − + = = − + − = = + − − = = + + + 根据最小二乘估计的性质可知: 1)b1, b2,b3, b4 分别是物体质量β1,β2,β3,β4的无偏 估计; 2)D(bi)=σ2cii= 4 1 σ2 ; 3) cij=0, 当 i≠j ( i,j=1,2,3,4), 即 b1, b2,b3, b4 之间不相 关。 结论:在不增加试验总次数的前提下,显著提高了称量精 度。 3. 模型的评价 ① 回归方程的显著性检验
类似于一元线性回归,检验(经验)回归方程 j=bo+6x+b22+.+bpxp (6) 是否显著,即,判断因变量Y与可控变量X1,X2,…,Xp间 是否有显著的姓妇 需检验假设H0:β0=0,B1=0,…,βp=0; 若H成立,则多元线性回归模型 Y=XB+e 中β的每一分量均为零,Y与X1,X2…,Xp之间无显著的线 性相关关系。 总偏差平方和为 Q=∑(1-y)2+∑(1-y)2=QR+QE 可证明,若H成立且结构矩阵X满秩,有 x2(N-P-1 x2(P) Q和Q相互独立,从而统计量 F OR/P DE/(N-P-1) ~F(P,N-P-1), 若算得F的统计值f:f>fa(P,N-P-1),在显著性水平a 下,可认为方程(6) j=60+6x+b2 +6 有显著意义
类似于一元线性回归,检验(经验)回归方程 P P y = b + b x + b x ++ b x 0 1 1 2 2 ˆ (6) 是否显著,即,判断因变量 Y 与可控变量 X1, X2, …, Xp 间 是否有显著的线性相关关系。 若 H0 成立,则多元线性回归模型 Y=Xβ+ε 中β的每一分量均为零,Y 与 X1, X2, …, Xp 之间无显著的线 性相关关系。 总偏差平方和为 = = = − + − = + n i n i T i i i QR QE Q y y y y 1 1 2 2 ( ˆ ) ( ˆ ) 可证明,若 H0 成立且结构矩阵 X 满秩,有 ~ ( 1), 2 2 N − P − QE ~ ( ), 2 2 P QR QE和QR 相互独立,从而统计量 ~ ( , 1) /( 1) / − − − − = F P N P Q N P Q P F E R , 若算得 F 的统计值 f:f>fα(P, N-P-1),在显著性水平α 下,可认为方程(6) P P y = b + b x + b x ++ b x 0 1 1 2 2 ˆ 有显著意义。 需检验假设 H0:β0=0,β1=0,…,βP=0;