第五章回归分析 前几章的方法都只涉及一种变量,主要是比较它的各组值之间的差异。但生物学所涉及 的问题是多种多样的,对许多问题的研究需要考虑不只一个变量,例如生物的生长发育速度 就与温度,营养,湿度……等许多因素有关,我们常常需要研究类似的多个变量之间的关系 这种关系可分为两大类,即相关关系与回归关系。 相关关系:两变量Ⅹ,Y均为随机变量,任一变量的每一可能值都有另一变量的一个确定分 布与之对应 回归关系:ⅹ是非随机变量或随机变量,Y是随机变量,对ⅹ的每一确定值ⅹ都有Y的一 个确定分布与之对应 从上述定义可看出相关关系中的两个变量地位是对称的,可以认为它们互为因果:而回 归关系中则不是这样,我们常称回归关系中的X是自变量,而Y是因变量。即把X视为原 因,而把Y视为结果。 这两种关系尽管有意义上的不同,分析所用的数学概念与推导过程也有所不同,但如果 我们使用共同的标准即使y的残差平方和最小(最小二乘法,详见下述),则不管是回归关 系还是相关关系都可以得到相同的参数估计式。因此本章将集中讨论数学处理较简单的回归 关系,且Ⅹ限定为非随机变量。从这些讨论中所得到的参数估计式也可用于X为随机变量 的情况,但我们不再讨论X为随机变量时的证明与推导。 另外,回归分析和相关分析的目的也有所不同。回归分析研究的重点是建立X与Y之 间的数学关系式,这种关系式常常用于预测,即知道一个新的X取值,然后预测在此情况 下的Y的取值:而相关分析的重点则放在研究ⅹ与Y两个随机变量之间的共同变化规律 例如当X增大时Y如何变化,以及这种共变关系的强弱。由于这种研究目的的不同,有时 也会引起标准和方法上的不同,我们将在相关分析一节中作进一步介绍 从两个变量间相关(或回归)的程度来看,可分为以下三种情况: (1)完全相关。此时一个变量的值确定后,另一个变量的值就可通过某种公式求出来:即 一个变量的值可由另一个变量所完全决定。这种情况在生物学研究中是不太多见的 (2)不相关。变量之间完全没有任何关系。此时知道一个变量的值不能提供有关另一个变 量的任何信息。 (3)统计相关(不完全相关)。介于上述两种情况之间。也就是说,知道一个变量的值通过 某种公式就可以提供关于另一个变量一些信息,通常情况下是提供有关另一个变量的均值的 信息。此时知道一个变量的取值并不能完全决定另一个变量的取值,但可或多或少地决定它 的分布。这是科研中最常遇到的情况。本章讨论主要针对这种情况进行。为简化数学推导, 本章中如无特别说明,一律假设Ⅹ为非随机变量,即ⅹ只是一般数字,并不包含有随机误 差。但所得结果可以推广到ⅹ为随机变量的情况 按相关中涉及公式类型可把相关关系分为线性相关和非线性相关。在多数情况下,我们 提到相关关系时都是指线性相关,这是因为线性相关的理论已经很完善,数学处理也很简单 而非线性问题则需要具体问题具体分析,常常没有什么好的解决方法,理论上能得到的结果 也很有限(详见§5.4)。因此在一般情况下我们常常只能解决线性相关的问题。也正是因为 如此,在不加说明的情况下提到相关时常常是指线性相关;如概率论基础部分曾提到独立可 以推出不相关,而逆命题不成立。讨论回归关系时也有类似现象 下面我们就来讨论回归关系中最简单的情况:一元线性回归。 §5.1一元线性回归
第五章 回归分析 前几章的方法都只涉及一种变量,主要是比较它的各组值之间的差异。但生物学所涉及 的问题是多种多样的,对许多问题的研究需要考虑不只一个变量,例如生物的生长发育速度 就与温度,营养,湿度……等许多因素有关,我们常常需要研究类似的多个变量之间的关系。 这种关系可分为两大类,即相关关系与回归关系。 相关关系:两变量 X,Y 均为随机变量,任一变量的每一可能值都有另一变量的一个确定分 布与之对应。 回归关系:X 是非随机变量或随机变量,Y 是随机变量,对 X 的每一确定值 xi 都有 Y 的一 个确定分布与之对应。 从上述定义可看出相关关系中的两个变量地位是对称的,可以认为它们互为因果;而回 归关系中则不是这样,我们常称回归关系中的 X 是自变量,而 Y 是因变量。即把 X 视为原 因,而把 Y 视为结果。 这两种关系尽管有意义上的不同,分析所用的数学概念与推导过程也有所不同,但如果 我们使用共同的标准即使 y 的残差平方和最小(最小二乘法,详见下述),则不管是回归关 系还是相关关系都可以得到相同的参数估计式。因此本章将集中讨论数学处理较简单的回归 关系,且 X 限定为非随机变量。从这些讨论中所得到的参数估计式也可用于 X 为随机变量 的情况,但我们不再讨论 X 为随机变量时的证明与推导。 另外,回归分析和相关分析的目的也有所不同。回归分析研究的重点是建立 X 与 Y 之 间的数学关系式,这种关系式常常用于预测,即知道一个新的 X 取值,然后预测在此情况 下的 Y 的取值;而相关分析的重点则放在研究 X 与 Y 两个随机变量之间的共同变化规律, 例如当 X 增大时 Y 如何变化,以及这种共变关系的强弱。由于这种研究目的的不同,有时 也会引起标准和方法上的不同,我们将在相关分析一节中作进一步介绍。 从两个变量间相关(或回归)的程度来看,可分为以下三种情况: (1)完全相关。此时一个变量的值确定后,另一个变量的值就可通过某种公式求出来;即 一个变量的值可由另一个变量所完全决定。这种情况在生物学研究中是不太多见的。 (2)不相关。变量之间完全没有任何关系。此时知道一个变量的值不能提供有关另一个变 量的任何信息。 (3)统计相关(不完全相关)。介于上述两种情况之间。也就是说,知道一个变量的值通过 某种公式就可以提供关于另一个变量一些信息,通常情况下是提供有关另一个变量的均值的 信息。此时知道一个变量的取值并不能完全决定另一个变量的取值,但可或多或少地决定它 的分布。这是科研中最常遇到的情况。本章讨论主要针对这种情况进行。为简化数学推导, 本章中如无特别说明,一律假设 X 为非随机变量,即 X 只是一般数字,并不包含有随机误 差。但所得结果可以推广到 X 为随机变量的情况。 按相关中涉及公式类型可把相关关系分为线性相关和非线性相关。在多数情况下,我们 提到相关关系时都是指线性相关,这是因为线性相关的理论已经很完善,数学处理也很简单; 而非线性问题则需要具体问题具体分析,常常没有什么好的解决方法,理论上能得到的结果 也很有限(详见§5.4)。因此在一般情况下我们常常只能解决线性相关的问题。也正是因为 如此,在不加说明的情况下提到相关时常常是指线性相关;如概率论基础部分曾提到独立可 以推出不相关,而逆命题不成立。讨论回归关系时也有类似现象。 下面我们就来讨论回归关系中最简单的情况:一元线性回归。 §5.1 一元线性回归
前边已经说过,回归关系就是对每一个X的取值x1,都有Y的一个分布与之对应。在这 种情况下,怎么建立X与Y的关系呢?一个比较直观的想法就是建立X与Y的分布的参数间 的关系,首先是与Y的均值的关系。这就是条件均值的概念,记为:yx=x。它的意思是 在X=x1的条件下,求Y的均值。更一般地,我们用山1x代表X取一切值时,Y的均值所构 成的集合。所谓一元线性回归,就是假定X与yx之间的关系是线性关系,而且满足 uy.x =a+ Bx 此时进行回归分析的目标就是给出参数a和β的估计值。 例5.1对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表5.1。试计 算日龄X与体重Y之间的回归方程。 表5.1大白鼠6-18日龄的体重 日龄 161 12 15 18 体重 首先,我们可以把数对(x,y)标在XY坐标系中,这种图称为散点图。它的优点是可 以使我们对Ⅹ、Y之间的关系有一个直观的、整体上的印象,如它们是否有某种规律性,是 接近一条直线还是一条曲线,等等。我们还可以画很多条接近这些点的直线或曲线,但这些 线中的哪一条可以最好地代表X,Y之间的关系,就不是凭直观印象可以做出判断的了。例 如对例5.1,我们可画出如下的散点图: 日龄 图5.1大白鼠日龄一体重关系图 图中的点看来是呈直线关系,但那条直线是否最好地反映了这种关系呢?或者换一种说法: 该如何找到最好地反映这种关系的直线呢?这就是我们以下要讨论的问题。 元正态线性回归统计模型: 线性回归意味着条件平均数与Ⅹ之间的关系是线性函数: X BX
前边已经说过,回归关系就是对每一个 X 的取值 xi,都有 Y 的一个分布与之对应。在这 种情况下,怎么建立 X 与 Y 的关系呢?一个比较直观的想法就是建立 X 与 Y 的分布的参数间 的关系,首先是与 Y 的均值的关系。这就是条件均值的概念,记为: 1 Y X =x 。它的意思是 在 X=x1 的条件下,求 Y 的均值。更一般地,我们用 YX 代表 X 取一切值时,Y 的均值所构 成的集合。所谓一元线性回归,就是假定 X 与 YX 之间的关系是线性关系,而且满足: YX = + X (5.1) 此时进行回归分析的目标就是给出参数α和β的估计值。 例 5.1 对大白鼠从出生第 6 天起,每三天称一次体重,直到第 18 天。数据见表 5.1。试计 算日龄 X 与体重 Y 之间的回归方程。 表 5.1 大白鼠 6-18 日龄的体重 序号 1 2 3 4 5 日龄 xi 6 9 12 15 18 体重 yi 11 16.5 22 26 29 首先,我们可以把数对(xi, yi)标在 X-Y 坐标系中,这种图称为散点图。它的优点是可 以使我们对 X、Y 之间的关系有一个直观的、整体上的印象,如它们是否有某种规律性,是 接近一条直线还是一条曲线,等等。我们还可以画很多条接近这些点的直线或曲线,但这些 线中的哪一条可以最好地代表 X, Y 之间的关系,就不是凭直观印象可以做出判断的了。例 如对例 5.1,我们可画出如下的散点图: 0 5 10 15 20 25 30 35 1 31 61 91 121 日龄 体重 图 5.1 大白鼠日龄—体重关系图 图中的点看来是呈直线关系,但那条直线是否最好地反映了这种关系呢?或者换一种说法: 该如何找到最好地反映这种关系的直线呢?这就是我们以下要讨论的问题。 一、 一元正态线性回归统计模型: 线性回归意味着条件平均数与 X 之间的关系是线性函数: YX = + X (5.1)
对于每个Y的观察值y来说,由于条件均值由(51)式决定,观察值就应该是在条件均值的 基础上再加上一个随机误差,即: y1=a+x1+E1 其中E1~ND(0,a2)。正态线性回归中“正态”的意思是随机误差服从正态分布。(52)式 就是一元正态线性回归的统计模型。 参数a和β的估计 统计模型中的a和β是总体参数,一般是不知道的。由于只能得到有限的观察数据,我 们无法算出准确的a与β的值,只能求出它们的估计值a和b,并得到y的估计值为: 那么,什么样的a和b是α和β最好的估计呢?换句话说,选取什么样的a和b可以最 好地反映X和Y之间的关系呢?一个合理的想法是使残差e1=y一y最小。为了避免使正 负e互相抵消,同时又便于数学处理,我们定义使残差平方和∑(y-j,)2达到最小的直 线为回归线,即令: ∑(y-a-bx)2,且 bx2)=0 得 (-2)x,(J 整理后,得 x1=∑y (5.4) ∑x+b∑x=∑xy 上式称为正规方程。解此方程
对于每个 Y 的观察值 yi 来说,由于条件均值由(5.1)式决定,观察值就应该是在条件均值的 基础上再加上一个随机误差,即: i i i y = + x + (5.2) 其中 ~ (0, ) 2 i NID 。正态线性回归中“正态”的意思是随机误差服从正态分布。(5.2)式 就是一元正态线性回归的统计模型。 二、 参数α和β的估计 统计模型中的α和β是总体参数,一般是不知道的。由于只能得到有限的观察数据,我 们无法算出准确的α与β的值,只能求出它们的估计值 a 和 b,并得到 yi 的估计值为: i a bxi y ˆ = + (5.3) 那么,什么样的 a 和 b 是α和β最好的估计呢?换句话说,选取什么样的 a 和 b 可以最 好地反映 X 和 Y 之间的关系呢?一个合理的想法是使残差 i i i e = y − y ˆ 最小。为了避免使正 负 ei 互相抵消,同时又便于数学处理,我们定义使残差平方和 = − n i i i y y 1 2 ( ˆ ) 达到最小的直 线为回归线,即令: = = − − n i e i a bxi SS y 1 2 ( ) ,且 = = 0 0 b SS a SS e e 得: − − − = − − − = = = n i i i i n i i i x y a bx y a bx 1 1 ( 2) ( ) 0 ( 2)( ) 0 整理后,得 + = + = = = = = = n i n i n i i i i i n i n i i i a x b x x y an b x y 1 1 1 2 1 1 (5.4) 上式称为正规方程。解此方程,得:
∑x)∑y) x,y x)(y1-y) b ∑(x,-x) 这种方法称为最小二乘法,它也适用于曲线回归,只要将线性模型(5.3)式换为非线 性模型即可。但要注意非线性模型的正规方程一般比较复杂,有些情况下甚至没有解析解。 另一方面,不管X与Y间的真实关系是什么样的,使用线性模型的最小二乘法的解总是存在 的。因此正确选择模型很重要,而且用最小二乘法得出的结果一般应经过检验 x=∑(x-x)2,称为X的校正平方和 y-y)2,称为Y的总校正平方和 S=∑(x-xy-j),称为校正交叉乘积和, 则: (5.7) 在实际计算时,可采用以下公式 y--y. x1 现在回到例5.1。 例5.1对大白鼠从出生第6天起,每三天称一次体重,直到第18天。数据见表5.1。试计 算日龄X与体重Y之间的回归方程 表5.1大白鼠6-18日龄的体重 序号 日龄 体重y 16.5 解:把数据代入上述公式得: x=60,∑x2=810.,∑y=1045.∑y 1390.5
= − − − − = − − = = = = = = = = (5.6) (5.5) ( ) ( )( ) ( ) / ( ) ( ) 1 2 1 1 2 1 2 1 1 1 a y bx x x x x y y x x n n x y x y b n i i n i i i n i n i i i n i i n i n i i i i 这种方法称为最小二乘法,它也适用于曲线回归,只要将线性模型(5.3)式换为非线 性模型即可。但要注意非线性模型的正规方程一般比较复杂,有些情况下甚至没有解析解。 另一方面,不管 X 与 Y 间的真实关系是什么样的,使用线性模型的最小二乘法的解总是存在 的。因此正确选择模型很重要,而且用最小二乘法得出的结果一般应经过检验。 记 = = − n i xx i S x x 1 2 ( ) ,称为 X 的校正平方和; = = − n i yy i S y y 1 2 ( ) ,称为 Y 的总校正平方和; = = − − n i xy i i S x x y y 1 ( )( ) ,称为校正交叉乘积和, 则: xx xy S S b = (5.7) 在实际计算时,可采用以下公式: = = = = − = − = − n i xy i i n i yy i n i xx i x y n S x y y n S y x n S x 1 2 1 2 1 2 2 . . 1 . , 1 . , 1 现在回到例 5.1。 例 5.1 对大白鼠从出生第 6 天起,每三天称一次体重,直到第 18 天。数据见表 5.1。试计 算日龄 X 与体重 Y 之间的回归方程。 表 5.1 大白鼠 6-18 日龄的体重 序号 1 2 3 4 5 日龄 xi 6 9 12 15 18 体重 yi 11 16.5 22 26 29 解:把数据代入上述公式,得: = = = = = = n i n i i i n i i x x y 1 1 2 1 60, 810, 104.5, = = n i i y 1 2 2394.25, = = n i i i x y 1 1390.5
Sx=810-(60)2=90 Sn=239425-(1045)2=2102, S_=1390.5 50×104.5=1365 b=-=1365/90=1.5167 a=y-bx=1045/5-1.5167×12=26996 即:所求的回归方程为:y=26996+1.5167x 带有统计功能的计算器常常也可以做一元线性回归,对于这样的计算器,只需把数据依 次输入,然后按一下键就可得到上述结果 、b与a的期望与方差 在介绍最小二乘法时我们曾提到,不管实际上X与Y之间有没有线性关系,用这种方 法总是可以得到解的。因此我们必须有一种方法可以检验得到的结果是不是反映了Ⅹ和Y 之间的真实关系。为此,我们需要研究b与a的期望与方差。 S E(b)=E()=·E∑(x-x)1-列 E∑(x2-x)y] E∑(x1-x)(a++E Ea∑(x1-x)+B )x+∑6(x2-x) 注意 ∑(x-x)x,=∑(x-x),EE 原式 D(b)=1 D∑(x-x)(y,-现 D∑y(x1-x 各y:互相独立,且D(y)=02;各x:为常数: D(b)
60 104.5 136.5, 5 1 1390.5 (104.5) 210.2, 5 1 2394.25 (60) 90 5 1 810 2 2 = − = = − = = − = xy yy xx S S S 104.5/ 5 1.5167 12 2.6996 136.5/ 90 1.5167 = − = − = = = = a y bx S S b xx xy 即:所求的回归方程为:y = 2.6996 + 1.5167 x 带有统计功能的计算器常常也可以做一元线性回归,对于这样的计算器,只需把数据依 次输入,然后按一下键就可得到上述结果。 三、b 与 a 的期望与方差 在介绍最小二乘法时我们曾提到,不管实际上 X 与 Y 之间有没有线性关系,用这种方 法总是可以得到解的。因此我们必须有一种方法可以检验得到的结果是不是反映了 X 和 Y 之间的真实关系。为此,我们需要研究 b 与 a 的期望与方差。 [ ( ) ( ) ( )] 1 [ ( ) ( )] 1 [ ( ) ] 1 [ ( )( )] 1 ( ) ( ) 1 1 1 1 1 1 = = = = = = = − + − + − = − + + = − = = − − n i n i i i n i i i i xx n i i i i xx n i i i xx n i i i xx xx xy E x x x x x x x S E x x x S E x x y S E x x y y S S S E b E 注意 ( ) 0, ( ) ( ) , 0, 1 2 1 1 − = − = − = = = = i n i i n i i i n i xi x x x x x x E ∴ 原式= xx = xx S S 1 = = = − = − − n i i i xx n i i i xx D y x x S D x x y y S D b 1 2 1 2 [ ( )] 1 [ ( ) ( )] 1 ( ) ∵ 各 yi 互相独立,且 D(yi)=σ2;各 xi 为常数; ∴ [ ( ) ] 1 ( ) 1 2 2 2 = = − n i i xx x x S D b
e(a)=e(-br)=a+Ar-Ar=a Vi(x (a)=D(y-x)=D∑y n x(x-x) D x(x-x) Ix( 0 x2-x)2) 为估计02,令:e1=y1-=y1-a-bx1,称为残差或剩余。则残差平方和为: ∑(y-卩 )2 (y一)-b(x,-对 (y2-y)2-2b(y-形x1-x)+b2(x1-x)] Sn-2bS+b2Sx(∵b=-) E(SS)=E(S)--.E(S) =E(∑(-)- SID(S)+[E(S 由于EC∑(-y)2)=E∑(a++61-a-所 E∑[B(x-x)+(51-E)2(:交叉项期望为0
Sxx / 2 = E(a) = E( y − bx) = + x − x = ) 1 ( 0 ( ) ) 1 ( ) ( ) ( ) 2 1 ( ) 1 ( ) ( ) ] 1 ( ) [ ( ] ( ) 1 ( ) ( ) [ 2 2 1 2 2 2 2 1 2 2 2 2 2 1 2 2 1 1 1 xx n i i xx n i xx i xx i n i xx i n i i xx i n i xx n i i i i S x n x x S x n S x x x nS x x x n S x x x n y S x x x n D S x y x x y n D a D y bx D = + = − + − − + − = − − = − − = − − = − = − = = = = = = 为估计σ2,令: i i i i a bxi e = y − y ˆ = y − − ,称为残差或剩余。则残差平方和为: yy xy xx xy yy xy xx n i i i i i n i i i n i i i n i n i e i i i S bS S S S bS b S b y y b y y x x b x x y y b x x y y bx bx SS e y a bx a y bx = − = − + = = − − − − + − = − − − = − + − = = − − = − = = = = = 2 ( ) [( ) 2 ( )( ) ( ) ] [( ) ( )] ( ) ( ) ( ) 2 1 2 2 2 1 2 1 2 1 1 2 2 [ ( ) [ ( )] ] 1 ( ( ) ) ( ) 1 ( ) ( ) 2 1 2 2 xy xy xx n i i xy xx e yy D S E S S E y y E S S E SS E S = − − + = − = 由于 = = − = + + − − − n i i i n i i E y y E x x 1 2 1 2 ( ( ) ) ( ) = = − + − n i i E x x 1 2 1 [( ) ( )] (∵交叉项期望为 0)
B2∑(x-x)2+E∑(E1-g)2 =B2Sa+E(∑2-nE2) B2 s +ng--n BS+(n-Do 且D(Sxy)=S E(Sxy)=βSx,(已证) E(SS,)=B S+(n-D)o (Sx0-+B2Sx)=(n-2)o E(MS)=E(≤) 用MS(剩余均方)代替o2,可得b与a的样本方差: S8=MS Sa =mse(+ 由于MSe的自由度为n-2,因此上述两方差的自由度也均为n-2。有了a和b的方差与均 值,我们就可构造统计量对它们进行检验 Ho:β=0 HA:B≠0(双侧检验) 或:HA:β>0(或β0(或a<0)(单侧检验) 统计量:t=a/S=a/、MS (59) 当H成立时,ta~t(n-2),可查相应分位数表进行检验 在对一个回归方程的统计检验中,我们更关心的是β是否为0,而不是a是否为0。这是 因为若β=0,则线性模型变为Y=α+E,与X无关;这意味着X与Y间根本没有线性关系 反之,α是否为0并不影响Ⅹ与Y的线性关系。因此我们常常只对β作统计检验 例52对例51中的β作检验:H:β=0 解:MS.=SSSn-bS /S
2 2 2 2 2 1 2 2 2 1 1 2 2 2 ( 1) ( ) ( ) ( ) = + − = + − = + − = − + − = = = S n n S n n S E n x x E xx xx n i xx i n i n i i i 且 D(Sxy) = Sxx 2 , E(Sxy) = Sxx , (已证) 2 2 2 2 2 2 ( ) ( 2) 1 ( ) = + ( −1) − S + S = n − S E SS S n xx xx xx e xx 2 ) 2 ( ) ( = − = n SS E MS E e e 用 MSe(剩余均方)代替 2,可得 b 与 a 的样本方差: xx e b S MS S = 2 ) 1 ( 2 2 xx a e S x n S = MS + 由于 MSe的自由度为 n-2,因此上述两方差的自由度也均为 n-2。有了 a 和 b 的方差与均 值,我们就可构造统计量对它们进行检验: H0 : = 0 HA: 0 (双侧检验) 或: HA: > 0 (或 0 (或 < 0) (单侧检验) 统计量: ) 1 / / ( 2 xx a a e S x n t = a S = a MS + (5.9) 当 H0 成立时,ta ~ t(n-2),可查相应分位数表进行检验。 在对一个回归方程的统计检验中,我们更关心的是是否为 0,而不是是否为 0。这是 因为若 = 0,则线性模型变为 Y = + ,与 X 无关;这意味着 X 与 Y 间根本没有线性关系。 反之,是否为 0 并不影响 X 与 Y 的线性关系。因此我们常常只对作统计检验。 例 5.2 对例 5.1 中的作检验:H0: =0 解: 2 / 2 2 2 − − = − − = − = n S S S n S bS n SS MS e yy xy yy xy xx e
210.2-136.52/90 10583 5-2 t=b/S=b/√MS/Sx 1.5167/√10583/90=1.5167/0.1084=13.99 查表,to9943)=5.841F,∴接受Ho,可认为两总体方差相等 计算公共的总体方差: M代-2)M△S1+(n2-2)AS +n2-4 6×0.1357+5×0.1080 ≈0.1231 (2)检验回归系数β1与B2是否相等:Ho:B1=B2;HA:β1≠B2
1.0583 5 2 210.2 136.5 / 90 2 = − − = b Sb b MSe Sxx t = / = / / = 1.5167 / 1.0583/ 90 = 1.5167 / 0.1084 = 13.99 查表,t0.995(3) = 5.841 F, 接受 H0,可认为两总体方差相等。 计算公共的总体方差: 0.1231 11 6 0.1357 5 0.1080 4 ( 2) ( 2) 1 2 1 1 2 2 + = + − − + − = n n n MS n MS MS e e e (2). 检验回归系数1 与2 是否相等:H0: 1 = 2; HA: 1 2
MsC 1.140-1.074 0.066 1.8766 0.03517 0.231×( 257.875162 查表,得to9(11)=2.201>t,∴接受Ho,可认为两回归系数相等。 共同总体回归系数的估计值为: b=Sl b,+S2 b2=Sy1+Sy2- 294+174 s+s 257875+l62.146 (3).再检验α1,a2是否相等:Ho:a1=a2;HA:a1≠a2 MS -38.15+31.15 ≈-2.1702 10123×1498375287)3225 257875162 查表,t9(1)=2.201,∴9n(1)>,接受H,可认为a=a2 若检验结果为α1≠α2,此题即可结束;但若检验结果为α=α,则需把全部原始数据放在 起,重新进行回归 Sx=902.933,Sxy=9654667,Sy=1035.733,3=93.067,y=68.53 =1.0693 从而得到合并的回归方程j=-309787+1.0693x 四、一元回归的方差分析 对回归方程的统计检验除可用上述t检验外,还有一些其他方法。这里我们再介绍一种 方差分析的方法,它的基本思想仍是对平方和的分解。 1.无重复的情况。 y的总校正平方和可进行如下的分解: C(y-y)2=∑[(y-j,)+(,-y (-)+∑(-2+2∑(0-一)
1.8766 0.03517 0.066 ) 162 1 257.875 1 0.1231 ( 1.140 1.074 ) 1 1 ( 1 2 1 2 2 2 2 1 1 2 = + − = + − = + − = xx xx e b b S S MS b b S S b b t 查表,得 t0.975(11) = 2.201 > t, 接受 H0,可认为两回归系数相等。 共同总体回归系数的估计值为: 1.1146 257.875 162 294 174 1 2 1 2 1 2 1 1 2 2 + + = + + = + + = xx xx xy xy xx xx xx xx S S S S S S S b S b b (3). 再检验1,2 是否相等:H0: 1 = 2; HA: 1 2 2.1702 3.22556 7 ) 162 87 257.875 98.375 7 1 8 1 0.1231 ( 38.15 31.15 ) 1 1 ( 2 2 2 2 2 1 2 2 1 1 1 2 2 2 2 1 1 2 − − + + + − + = + + + − = + − = xx xx e a a S X S n X n MS a a S S a a t 查表,t0.975(11) = 2.201, (11) , 0.975 t t 接受 H0,可认为: 1 = 2。 若检验结果为1 2,此题即可结束;但若检验结果为1 = 2,则需把全部原始数据放在 一起,重新进行回归: Sxx = 902.9333, Sxy = 965.4667, Syy = 1035.7333, x = 93.067, y = 68.533, b = xx xy S S = 1.0693, a = y − bx = −30.9787 从而得到合并的回归方程 y ˆ = −30.9787 +1.0693x 。 四、一元回归的方差分析 对回归方程的统计检验除可用上述 t 检验外,还有一些其他方法。这里我们再介绍一种 方差分析的方法,它的基本思想仍是对平方和的分解。 1. 无重复的情况。 y 的总校正平方和可进行如下的分解: = = = = = = − + − + − − − = − + − n i n i n i i i i i i i n i n i i i i i y y y y y y y y y y y y y y 1 1 1 2 2 1 1 2 2 ( ˆ ) ( ˆ ) 2 ( ˆ )( ˆ ) ( ) [( ˆ ) ( ˆ )]
(y--)=∑(-a-bx bx) + bxbx,-bx) b∑(y-x-x)-b∑(x-x)2 b(Sm-b.S=0 (y-y)2=∑(y1-j)2+∑(,- y的总校正平方和残差平方和 回归平方和 自由度 n-2 这样就把y的总校正平方和分解成了残差平方和与回归平方和。前已证明,Ms可作为 总体方差σ2的估计量,而MSR可作为回归效果好坏的评价。如果MSR仅由随机误差造成的 话,说明回归失败,Ⅹ和Y没有线性关系:;否则它应显著偏大。因此可用统计量 M (5.10) (n-2) 对H:β=0进行检验。若FFo9(1,3),拒绝Ho,差异极显著。即应认为回归方程有效 2.有重复的情况: 设在每一个x取值上对Y作了m次观察,结果记为y,y,…yim,则线性统计模型变 yn=a+所
( ) 0 [ ( )( ) ( ) ] ( )( ) ( ˆ )( ˆ ) ( )( ) 1 1 2 1 1 1 = − = = − − − − = − + − − − − = − − + − − = = = = = xy xx n i n i i i i n i i i i n i i i i i n i i i b S b S b y y x x b x x y y bx bx bx bx y y y y y a bx a bx a bx = = = − = − + − n i n i n i i i i i y y y y y y 1 1 1 2 2 2 ( ) ( ˆ ) ( ˆ ) 即: Syy = SSe + SSR y 的总校正平方和 残差平方和 回归平方和 自由度: n-1 n-2 1 这样就把 y 的总校正平方和分解成了残差平方和与回归平方和。前已证明,MSe可作为 总体方差 2 的估计量,而 MSR可作为回归效果好坏的评价。如果 MSR仅由随机误差造成的 话,说明回归失败,X 和 Y 没有线性关系;否则它应显著偏大。因此可用统计量 /( − 2) = = SS n SS MS MS F e R e R (5.10) 对 H0: = 0 进行检验。若 F F0.99(1, 3),拒绝 H0,差异极显著。即应认为回归方程有效。 2. 有重复的情况: 设在每一个 xi 取值上对 Y 作了 m 次观察,结果记为 yi1, yi2, ……yim, 则线性统计模型变 为: ij i ij y = + x + , i = 1, 2, … n, j = 1, 2, … m