第十二章多元线性回归和相关分析 第一节 多元线性回归分析 多元线性回归分析( multiple linear regression analysis)的定义 通过建立关系方程式,实现用k(k≥2)个自变数来预测依变数及对预测精度给出评 价的统计分析,当自变数与依变数间的关系为线性时此分析称之为多元线性回归分析。 多元回归分析的内容: ①建立由各个自变数预测依变数反应量的多元回归方程,即确定各个自变数对依变数 的单独效应和综合效应 ②对上述单独和综合效应的显著性进行测验; ③评价各个自变数对依变数的相对重要性。多元回归分为线性和非线性,本章只介绍 多元线性回归分析 多元线性回归分析的数据结构 多元线性回归分析的数据结构如下 Y X X X X2n 二、多元线性回归分析的数学模型 多元线性回归分析的数学模型为 y=4+Bx1+B2x2+…+Bx+…+B1x+En 三、建立正规方程组和求出回归方程式 多元线性回归方程形如:y=a+bx1+b2x2+…bxk 按照最小二乘原理b1、b2、…、bk可依以下矩阵方程求出。 其中,系数矩阵、解向量和常数向量分别为: SP S SP? b2 B b
1 第十二章 多元线性回归和相关分析 第一节 多元线性回归分析 多元线性回归分析(multiple linear regression analysis)的定义: 通过建立关系方程式,实现用 k ( k ≥2)个自变数来预测依变数及对预测精度给出评 价的统计分析,当自变数与依变数间的关系为线性时此分析称之为多元线性回归分析。 多元回归分析的内容: ①建立由各个自变数预测依变数反应量的多元回归方程,即确定各个自变数对依变数 的单独效应和综合效应; ②对上述单独和综合效应的显著性进行测验; ③评价各个自变数对依变数的相对重要性。多元回归分为线性和非线性,本章只介绍 多元线性回归分析。 一、多元线性回归分析的数据结构 多元线性回归分析的数据结构如下: Y1 Y2 …… Yn X11 X12 …… X1n X21 X22 …… X2n …… …… …… …… Xk1 Xk2 …… Xkn 二、多元线性回归分析的数学模型 多元线性回归分析的数学模型为: j j j i i j k kj i j y = + x + x ++ x ++ x + 1 1 2 2 i = 1,2, , k j = 1,2, ,n 三、建立正规方程组和求出回归方程式 多元线性回归方程形如: k k y = a + b x + b x +b x 1 1 2 2 ˆ 按照最小二乘原理 b1、b2、…、bK可依以下矩阵方程求出。 AB=C 其中,系数矩阵、解向量和常数向量分别为: = k k k k k SP SP SS SP SS SP SS SP SP A 1 2 21 2 2 1 12 1 , = k b b b B 2 1 , = ky y y SP SP SP C 2 1
这样,就有B=AC以及,多元回归截距a=j-b1-b2x2-…-b 四、回归关系及各偏回归系数的假设检验 、在历:多元回归关系不显著的假设下,可由以下两个方差构成对这一假设的F测 回归平方和:U=∑b,具有自由度:k 离回归平方和:O=SS,-U,具有自由度:n-k-1 这样,F (n-k-1) 2、在H0:B1=0的假设下,可构成如下方差分析 第;个自变量的贡献平方和:U= 式中c为系数矩阵的逆矩阵A1的第i个对 角线元素,其占有1个自由度。 这样,F U (n-k-1) 五、多元线性回归方程实例 利用[例12.1讲解多元回归分析全过程 第二节二次多项式回归分析 回归模型为线性仅是回归分析中的特例,一般情况下其模型均会有自变量的高次方效 应模式。 、二次多项式回归分析的数据结构及整理 Y3 X X 2 X22 XR Xi
2 这样,就有 B = A-1C 以及,多元回归截距 k k a = y − b x − b x −− b x 1 1 2 2 四、回归关系及各偏回归系数的假设检验 1、在 H0:多元回归关系不显著的假设下,可由以下两个方差构成对这一假设的 F 测 验。 回归平方和: = = k i i iy U b sp 1 ,具有自由度:k ; 离回归平方和: Q = SSy −U ,具有自由度:n-k-1 ; 这样, ( − −1) = n k Q k U F 2、在 H0 : i = 0 的假设下,可构成如下方差分析。 第 i 个自变量的贡献平方和: ii i i c b U 2 = ,式中 ii c 为系数矩阵的逆矩阵 A-1 的第 i 个对 角线元素,其占有 1 个自由度。 这样, ( − −1) = n k Q U F i 五、多元线性回归方程实例 利用[例 12.1]讲解多元回归分析全过程。 第二节 二次多项式回归分析 回归模型为线性仅是回归分析中的特例,一般情况下其模型均会有自变量的高次方效 应模式。 一、二次多项式回归分析的数据结构及整理 Y1 Y2 …… Yn X11 X12 …… X1n X21 X22 …… X2n …… …… …… …… Xk1 Xk2 …… Xkn
从上表看出,其数据结构和多元线性回归分析的数据结构是完全一样的。由于各自变 量有二次效应模式存在,故其回归方程包括下列效应项: ∑bx+∑bxx+∑bx2 因此,若算上常数项a方程共有效应项1+k+C2+k=C2,项,故试验点数n不能 小于该值,以为离回归留出出足够的自由度。 原始资料整理成具有如下效应项的资料 (i,j=1,2,…k:a=1,2,…,n) 、二次多项式回归分析的步骤 原始资料按如上整理后,其统计分析步骤与多元线性回归分析完全相同 可以得到如下线性化的回归方程 y=a+∑bx+∑bx+∑bx 其得到的回归方程的回归关系和各偏回归系数的显著性检验亦完全一样 三、二次多项式回归分析举例 讲解书中例[12.5]。 第三节多元相关和偏相关分析 、多元相关的定义 多元相关( multiple correlation)为表达k+1个变数中任一变数和其余k个变数的总 相关密切程度的量值。 、多元相关系数的计算 多元相关系数系数可依下式计算
3 从上表看出,其数据结构和多元线性回归分析的数据结构是完全一样的。由于各自变 量有二次效应模式存在,故其回归方程包括下列效应项: = = = + + + i j k i ij i j ii i k i i i y a b x b x x b x 1 2 1 , 因此,若算上常数项 a 方程共有效应项 2 2 2 1+ + k + = Ck+ k C k 项,故试验点数 n 不能 小于该值,以为离回归留出出足够的自由度。 原始资料整理成具有如下效应项的资料: ij i j x = x x 2 ii i x = x ( i, j = 1,2, k ; = 1,2, ,n ) 二、二次多项式回归分析的步骤 原始资料按如上整理后,其统计分析步骤与多元线性回归分析完全相同。 可以得到如下线性化的回归方程: = = = + + + i j k i ij i j ii ii k i i i y a b x b x b x 1 1 其得到的回归方程的回归关系和各偏回归系数的显著性检验亦完全一样。 三、二次多项式回归分析举例 讲解书中例[12.5]。 第三节 多元相关和偏相关分析 一、多元相关的定义 多元相关(multiple correlation)为表达 k + 1 个变数中任一变数和其余 k 个变数的总 相关密切程度的量值。 二、多元相关系数的计算 多元相关系数系数可依下式计算:
式中,U的计算方法与视与m个自变数对应的单独的1个依变数的回归平方和相同 U=∑b 、多元线性相关的检验 在无效假设,H:p=0之下(p为总体多元相关系数),多元相关系数可通过如下F 测验进行 R2/k F (1-R2)/n-k-1) 上式中R2是多元相关系数的平方(又称多元决定系数),测验时用k和n-k-1作为分子 和分母均方自由度。 四、偏相关系数的计算 首先计算M=k+1个变数两两之间的简单相关系数,得到如下相关系数矩阵 R MI /M 然后求出其逆阵R1 CIM M 两两变数之间的偏相关系数计算为:=、CCn 五、举例讲解偏相关系数的统计学含义 讲解[例12.,并分析偏回归系数与简单相关系数之间统计学意义的异同
4 y y k SS U R 12 = ; 式中,U 的计算方法与视与 m 个自变数对应的单独的 1 个依变数的回归平方和相同。 = = k i i iy U b sp 1 。 三、多元线性相关的检验 在无效假设,H0: = 0 之下( 为总体多元相关系数),多元相关系数可通过如下 F 测验进行。 (1 )/( 1) / 2 2 − − − = R n k R k F 上式中 R 2 是多元相关系数的平方(又称多元决定系数),测验时用 k 和 n-k-1 作为分子 和分母均方自由度。 四、偏相关系数的计算 首先计算 M=k+1 个变数两两之间的简单相关系数,得到如下相关系数矩阵: = M M MM M M r r r r r r r r r R 1 2 21 22 2 11 22 1 然后求出其逆阵 R -1 = − M M MM M M c c c c c c c c c R 1 2 21 22 2 11 12 1 1 两两变数之间的偏相关系数计算为: ii jj ij ij C C C r − • = ; 五、举例讲解偏相关系数的统计学含义 讲解[例 12.7],并分析偏回归系数与简单相关系数之间统计学意义的异同
习题 12.1什么叫做多元回归和偏回归?如何计算多元回归系数和偏回归系数 2.2什么叫做多元相关和偏相关?如何计算多元相关系数和偏相关系数? 12.3如何测验多元回归方程、偏回归系数、多元相关系数和偏相关系数? 12.4右表为1973年对江苏启东高产 棉田的部分调查资料,x为每亩株数(单 6.21 10.2 190 位:千株),x为每株铃数,y为每亩皮棉 6.29 l1.8 221 产量(kg) 6.38 现已算得有关数据(试作核对,以便 6.50 l1.7 214 练习)为: 6.55 9.3 189 L11=0.50729L2=8.985Ly=19196 183 L12=-1.1785L1y=-7.188Ly= 6.77 9.8 199 108.50 6.82 8.8 元=6.561(千株/亩)x2=10.25(铃 株)y=1988(kg亩) 试计算:(1)多元回归方程;(2)对偏回归系数做显著性测验,并解释结果:(3)多 元相关系数和偏相关系数,并作显著性测验 12.5测定中粳“农垦46”在平均日照为400卡x吸氮量 大米产量 /cm2/日条件下的氮吸收量(x,500g/亩)和大米产量 210 (y,500g亩)的关系,得结果如下表。试应用表格 434 法计算:①大米产量依吸氮量的二次多项式回归方程,15 618 并作图。②大米产量最高时的吸氮量及该吸氮量下的20 735 期望大米产量 2
5 习 题 12.1 什么叫做多元回归和偏回归?如何计算多元回归系数和偏回归系数? 12.2 什么叫做多元相关和偏相关?如何计算多元相关系数和偏相关系数? 12.3 如何测验多元回归方程、偏回归系数、多元相关系数和偏相关系数? 12.4 右表为 1973 年对江苏启东高产 棉田的部分调查资料,x1 为每亩株数(单 位:千株),x2 为每株铃数,y 为每亩皮棉 产量(kg)。 现已算得有关数据(试作核对,以便 练习)为: L11 =0.507 29 L22 =8.985 Lyy =1919.6 L12 = -1.178 5 L1y = -7.188 L2y = 108.50 x1 = 6.561 (千株/亩) x2 = 10.25 (铃/ 株) y = 198.8 (kg/亩) x1 x2 y 6.21 6.29 6.38 6.50 6.52 6.55 6.61 6.77 6.82 6.96 10.2 11.8 9.9 11.7 11.1 9.3 10.3 9.8 8.8 9.6 190 221 190 214 219 189 183 199 182 201 试计算:(1)多元回归方程;(2)对偏回归系数做显著性测验,并解释结果;(3)多 元相关系数和偏相关系数,并作显著性测验。 12.5 测定中粳“农垦 46”在平均日照为 400 卡 x 吸氮量 y 大米产量 /cm2 /日条件下的氮吸收量(x,500g/亩)和大米产量 5 210 (y,500g/亩)的关系,得结果如下表。试应用表格 10 434 法计算:①大米产量依吸氮量的二次多项式回归方程, 15 618 并作图。②大米产量最高时的吸氮量及该吸氮量下的 20 735 期望大米产量。 25 765 30 692 35 596