第八章方差分析和回归分析 §8.1方差分析 、教学目的 1.了解单因素实验的方差分析. 2.了解双因素无重复实验的方差分析及双因素重复实验 的方差分析 教学重点:单因素实验的方差分析 三、教学难点:双因素重复实验的方差分析 四、教学过程: (一)单因素的方差分析 1.单因素实验:为了考察某个因素A对所研究的随机变量X的影响是否显著,实验 时让其他因素保持不变,仅让因素A改变 2.水平:因素A在实验中所取的不同状态 用A1 3.方差分析:检验同方差的若干正态母体均值是否相等的一种统计分析方法 (1)设在A水平下的实验结果YN1,O)i=1,2,…,r.(分组总体) (2)每组进行七次实验,获得七次实验结果,y…j=1,2,…t(组内观测 (3)随机误差Ey与的差.E。NO·).y的数据结构构成 形式 y u ta 检验H0:11=12=…=L 引入①一般平均u1=∑1 ②因素A在第i个水平A,下的效应C,=L41=4·则∑a1=a 此时y=+a+En,因此要检验的原假设为 H。:c1=c2=ax3=…=Cr 各组内样本均值y=1ytx+y
1 第八章 方差分析和回归分析 §8.1 方差分析 一、教学目的: 1.了解单因素实验的方差分析. 2.了解双因素无重复实验的方差分析及双因素重复实验 的方差分析. 二、教学重点:单因素实验的方差分析. 三、教学难点:双因素重复实验的方差分析. 四、教学过程: (一)单因素的方差分析 1. 单因素实验:为了考察某个因素 A 对所研究的随机变量 X 的影响是否显著,实验 时让其他因素保持不变,仅让因素 A 改变. 2. 水平:因素 A 在实验中所取的不同状态. 用 A 1 ,A 2 ,…………,A r . 3. 方差分析:检验同方差的若干正态母体均值是否相等的一种统计分析方法., (1) 设在 A i 水平下的实验结果 Y i ~~N(u i , 2 ) i=1,2,…,r. (分组总体) (2) 每组进行七次实验,获得七次实验结果, yij .j=1,2,…,t, (组内观测 值) (3) 随机误差 ij , yij 与 ui 的差. ij ~~ N(0, 2 ). yij 的数据结构构成 形式 yij =ui ij + i=1,2,…,r: j=1,2,…,t. 检验 H 0 : u u ur = = ... = 1 2 引入 ① 一般平均 u = = r i ui r 1 1 . ②因素 A 在第 i 个水平 A i 下的效应 i =ui =u . 则 = = r i i 1 . 此时 i ij yij = u + + , 因此要检验的原假设为 H 0 : ... 0 1 2 3 = = = = = r 各组内样本均值 yi = = t j ij y t 1 1 = = + + t j i ij t u 1 1
总的均值y=∑∑yl+(其中m=rt) 统计量:总的偏差平方和 y-y 由于 V-y+y i=l j yy 其中 ①S,称组内平方和(误差平方的偏差和)反映了实验过程中各种随机因素所引 起的随机误差。(偶然误差) Ci8 ②S4:称为组间平方和,反映了各组样本之间的差异程度,即由于因素A的不同 水平A所引起的系统误差 ai t a8 ES.∑EDE1-E) ∑EC =r(t-1)d (n-r) 2
2 总的均值 y = = = r i t j ij y n 1 1 1 =u + (其中 n=rt) 统计量:总的偏差平方和 ST == = − r i t j ij y y 1 1 ( )2 由于 ST == = − + − r i t j ij i i y y y y 1 1 ( )2 == = − r i t j ij i y y 1 1 ( )2 + = − r i i t y y 1 ( ) = Se S A + 其中 ① Sve 称组内平方和(误差平方的偏差和)反映了实验过程中各种随机因素所引 起的随机误差。(偶然误差) Se == = − r i t j ij i 1 1 ( )2 ② S A :称为组间平方和,反映了各组样本之间的差异程度,即由于因素 A 的不同 水平 Ai 所引起的系统误差。 S A == + − r i i i t 1 ( )2 E Se = = = − r i t j E ij i 1 1 2 [ ( )] = = = − r i t j ij i E t 1 1 2 2 ( ) == − r i t t t 1 2 2 ( * ) =r(t-1) 2 =(n-r) 2
EStEEIa+2a 8-8)+8-8)21 t∑a,+tECE t∑a,+(r-1) 若H为真,则及均为的无偏估计。 n-r I 故,F 的比值不能太大,否则H。不真 由于一切yN( )且相互独立 由于一切E0~N0o)-E1E)-x(t-1)根x分布可加性 S 且_SA~x(n-r)S』与S相互独立 故,F F(r-1, 赫伦定理:设x1x2…xn为n个独立N0,1)的随机变量,=∑x2为x2(m)变量,若 Q=Q1+Q2+…+Qk其中Q;是某些正态变量的平方和。这些变量分别是 xn的线性组合,其自由度为f1,则若Q1相互独立,且为X2(f)
3 E S A = = + − + − r i t E i i i i 1 2 2 [ 2( )( )] = = r i t i 1 2 + ( ) = − r i i E r t 1 2 2 = = r i t i 1 2 + = r i t t 1 2 - rt rt 2 = = r i t i 1 2 + 2 (r−1) 若 H 0 为真 ,则 n r Se − 及 r −1 S A 均为 2 的无偏估计。 故, F = n r r S S e A − −1 的比值不能太大,否则 H 0 不真。 由于一切 yij ~ ~ ( , ) 2 N u 且相互独立 ~ ( 1) 1 2 2 S x n − T 。 由于一切 ( , ) 2 ~ N 0 ij ( )~ ( 1) 1 2 2 − x t − i i 根 x 2 分布可加性 Se x(n − r) 2 2 ~ 1 且 S A x(n − r) 2 2 ~ 1 S A 与 Se 相互独立 故, (r ,n r) n r r F S S F e A − − − − = ~ 1 1 。 赫伦定理:设 x n x x 1 2 , 为 n 个独立 N(0,1)的随机变量,Q= = n i i x 1 2 为 x (n) 2 变量,若 Q=Q 1+ Q 2 + +Q k 其中 Q i 是某些正态变量的平方和。这些变量分别是 x 1 ,x 2 x n 的线性组合,其自由度为 f i ,则若 Q i 相互独立,且为 X 2 ( i f )
变量台∑/=n(∑f) 证 必要性 若Q1,Q2 Qk相互独立且Q1~x2()i=1,2,…k则由X2-分布的可加性知 Q∑Q~x2(∑)又有Q~x2(m)从而n∑ 充分性: 设=n为正态变量1=12,…kj=12,…m1且Q=∑ 由假设知在=n1212…m中必可选出f个,而其余的可由这厂个线性表示,不妨 m可由 线性表示,代入Q、得:Q,为=1,2=12 的一个非负二次型化成标准二次型Q、=∑bb=士12是=,=2 的 线性组合,由于z是x1,x2…xn的线性组合 (二)双因子方差分析 设在某实验中,二因子在变动,因子A取r个不同水平A,A2…4,因子B取S不同 水平B,B1…B、在(4,B)水平组合下的实验结果独立的服从N(n,o2) 引入:= i=1,2 j=1,2 B =H,-H 则 0∑B,=0 若=+a+B1无交互的方差分析模型 Ju=A+A +ui +Eu 0 ∑B s相互独立且服从N0a2分布
4 变量 = = k i f i n 1 ( = k i i f 1 ) 证: 必要性: 若 Q , 1 Q 2 , Q k 相互独立 且 Q i ~x 2 ( )i f i = 1,2,k 则由 X 2 -分布的可加性知 Q= = k i 1 Q i ~x 2 ( = k i i f 1 ) 又有 Q~x (n) 2 从而 n= = k i i f 1 充分性: 设 ij z 为正态变量 i = 1,2,k mi j = 1,2, 且 Q = = mi j ij z 1 2 由假设知 在 i i i im z z z 1, 2 中必可选出 i f 个 ij z ,而其余的可由这 i f 个线性表示,不妨 设 1 , i= i f z , mi i z , , 可由 i i i i f z z z ,1 ,2 , , , 线性表示,代入 Q i 得:Q i 为 i i i i f z z z ,1 ,2 , , , 的一个非负二次型 化成标准二次型 Q i == i f i ij i b z 1 ~2 bij = 1 ~2 i z 是 i i i i f z z z ,1 ,2 , , , 的 线性组合,由于 ij z 是 x n x x 1 2 , 的线性组合。 (二)双因子方差分析 设在某实验中,二因子在变动,因子 A 取 r 个不同水平 , , A1 A2Ar 因子 B 取 S 不同 水平 B B BS , , 1 2 在 ( ) Ai Bj , 水平组合下的实验结果独立的服从 ( ) 2 N ij , 引入: = = = r i s j ij rs 1 1 1 s i 1 . = = s j ij 1 i = 1,2,r r j 1 . = = r i ij 1 j = 1,2,s i = i. − j = j − 则 = = r i i 1 . 0 = = s j j 1 . 0 一.若 ij = +i + j 无交互的方差分析模型 ( ) = = = + + + = = = = 相互独立 且服从 2 分布 1 1 0, 0 0 1,2, 1,2, N y i r j s i j s j j r i i i j i j i j
检验假设Ho1:a1=a2 a.=0 Ho2: B=B2 Ps 2.构造统计量F4= ~F(-1(-1Xs-1) F s-1,(-1)s-1) 3.给出显著性水平a,查F一分布表,确定拒绝域 4.计算F一值 S=∑∑Un-=∑∑ 其中ny s4=∑S(2-y)2=∑y-ny2 ∑ ∑ SeSr-S4-SB 其中:S。是由随机因素所引起的偶然误差 S,是由因素A的不同水平所引起的系统误差 SB是由因素B的不同水平所引起的系统误差 理论依据 引理1证Sr=S+SA+SB ∑∑(-y)2=∑∑(-y-y+y2+∑5 (其中交叉项乘积的代数和为零) 在H01,H02为真时
5 1. 检验假设 : H01 1 =2 = =r = 0 : H02 1 = 2 = = S = 0 2. 构造统计量 ( 1)( 1) 1 − − − = r s S r S F e A A ~ F(r −1,(r −1)(s −1)) ( 1)( 1) 1 − − − = r s S r S F e B B ~ F(s −1,(r −1)(s −1)) 3. 给出显著性水平 ,查 F − 分布表,确定拒绝域 4. 计算 F − 值 ST = = = r i s 1 j 1 ( ) 2 y y ij − == = r i s 1 j 1 2 2 y ny ij − 其中 2 ny = 2 1 1 1 = = r i s j ij y n S A == − r i i S y y 1 2 . ( ) = 2 1 2 . ny S y r i i − = S B == − s j j r y y 1 2 . ( ) = n y S y s i j − =1 2 . S e =S T -S A -S B 其中: S e 是由随机因素所引起的偶然误差 S A 是由因素 A 的不同水平所引起的系统误差 S B 是由因素 B 的不同水平所引起的系统误差 理论依据 引理 1 证 S T = S e +S A +S B S T == = − r i s j ij y y 1 1 2 ( ) == = − − + r i s j ij i j y y y y 1 1 2 . . ( ) + = − r i i s y y 1 2 . ( ) + = − s i j r y y 1 2 . ( ) (其中交叉项乘积的代数和为零) 在 H 01,H 02 为真时
(2)1 SA~x2(r-1) 由线形关系式∑(y1-y)=0 2(-1)由线形关系式∑(y,-y)=0 S中有r+s个线形关系式 y +y)=0 (y-y2-y,+y)=0 且只有r+s-1个相互独立的 其自由度rs(+s-1)=(r-1)(s-1) 例P 交互作用下的二因子方差分析 (=+a1+B,+y,其中n=st) =l j=l k=l y与yy与yy与y,有类似前面的记法 y=u+8 y=+a1+B,+y y.=+a1+E y=A+B,+E 2>>(yy)+(y--+)+(y-)+(,-列) (0k)2一+列)2(-) r∑(-y) Se sXb++ SB
6 (2) 2 1 S T ~ ( 1) 2 rs − 2 1 S A ~ ( 1) 2 r − 由线形关系式 = − r i i y y 1 . ( ) =0 2 1 S B ~ ( 1) 2 s − 由线形关系式 = − s j j y y 1 . ( ) =0 S e 中有 r+s 个线形关系式 ( ) 0 1 − . − + = = r i ij i j y y y y ( ) 0 1 − . − . + = = s j ij i j y y y y 且只有 r+s-1 个相互独立的 其自由度 rs-(+s-1)=(r-1)(s-1) 例 P 8.2 387 例 二.交互作用下的二因子方差分析。 y = n 1 = = = r i s j t k ijk y 1 1 1 ( ij i j ij = + + + ,其中 n=rst) yij. 与 yij. yi.. 与 yi.. y. j. 与 y. j. 有类似前面的记法 y = + . . ij i j ij ij y = + + + + . . . . j j j y = + + S T = = = = r i s j t 1 1 k 1 ) 2 (y y ijk − = = = = − r i s i t k ijk y 1 1 1 (( ) + . yij ( ) . .. . . y y y y ij i j − − + +( ) .. y y i − +( ) . . y y j − ) = − = = = r i s j t k y y ijk ij 1 1 1 2 ( ) . + − − + = = r i s j y y y y ij i j t 1 1 2 ) . .. . . ( +st − = r i y y i 1 2 ( ) . +rt − = s j y y j 1 2 ( ) . . = se + sAB + sA sB + .. .. i i i y = + +
理论依据:s;~X2(r1)-S~X2(-1 2SAB~X(-1s-1) .s x (rst-1 由于rst-1=rs(t-1)+(r-1)(t-1)+r-1+s-1 iSe x (rs(t-1)) P391例8.3 作业P4178.2 §8.2线性回归分析的数学模型 、教学目的 1.理解回归分析的基本的概念,掌握一元线性回归方程。 2.掌握线性相关性的显著性检验 3.会利用一元线性回归方程进行预测 4.了解一些可线性化的非线性回归及多项式回归问题 5.了解二元线性回归分析 二、教学重点: 线性回归分析及其常用方法一一最小二乘法。 2.二元线性回归分析。 三、教学难点: 1.运用相关数学软件计算线回归分析中有关统计量的观测值的方法 2.决线性回归分析问题 引入1.现实世界中变量之间的关系可以分成两大类 一类:确定性的关系:如U=IR,S=丌R2等 二类:非确定性的关系:如血压与年龄 (不能用一个确定的函数关系式表达出来) 随机变量(至少其中一个是随机变量)之间的关系 回归分析 1.寻找这类不确定的变量间的数学关系式,并进行统计推的一种方法。 最简单的关系式是线性回归) 2设κ是可以精确测量或控制的非随机变量,y是s随机变量。当X取x时,Y的概率分析与 x有关,则称Y与X之间有相关关系。 当X取x时,y的概率分析与X有关,则称Y
7 理论依据: sA X 2 2 ~ 1 (r-1) ~ ( 1) 1 2 2 X s − sB ~ 1 2 sAB [( 1)( 1)] 2 X r − s − 2 1 S T ~ X 2 (rst-1) 由于 rst-1=rs(t-1)+(r-1)(t-1)+r-1+s-1 2 1 S e ~X 2 (rs(t-1)) P 391 例 8.3 作业.P 417 8.2 §8.2 线性回归分析的数学模型 一、教学目的 1. 理解回归分析的基本的概念,掌握一元线性回归方程。 2. 掌握线性相关性的显著性检验 3. 会利用一元线性回归方程进行预测 4. 了解一些可线性化的非线性回归及多项式回归问题 5. 了解二元线性回归分析 二、教学重点: 1.线性回归分析及其常用方法——最小二乘法。 2.二元线性回归分析。 三、教学难点: 1.运用相关数学软件计算线回归分析中有关统计量的观测值的方法 2.决线性回归分析问题 引入 1.现实世界中变量之间的关系可以分成两大类 一类:确定性的关系:如 U=IR,S= R 2 等 二类:非确定性的关系:如血压与年龄 (不能用一个确定的函数关系式表达出来) 随机变量(至少其中一个是随机变量)之间的关系 一. 回归分析: 1.寻找这类不确定的变量间的数学关系式,并进行统计推的一种方法。 (最简单的关系式是线性回归) 2 设 x 是可以精确测量或控制的非随机变量,y 是 s 随机变量。当 X 取 x 时,Y 的概率分析与 x 有关,则称 Y 与 X 之间有相关关系。 当 X 取 x 时,y 的概率分析与 X 有关,则称 Y
X之间有相关关系。 当X=x时 E(y) (x)作为y的估计值 即j=(x)称作y关于x的回归方程 3.线性回归分析: B +rx+e 即试验结果y的一部分由x的线性函数引起,另一部分有由随机因素引起 Ho: y=(B+Bx,8 E-N(o, 8) 进行若干次独立试验,得到的结果为y,x)=12…n 由y=B+Bx+E,估计B。B 4.多元回归分析 y=B+Bx+……+B,x2+E n组观测植Uy,xn,x2,…x y=B+B Bx 解决问题 1.根据样本估计未知参数B0B,…Bnδ 2.对此数量关系式的可信度进行统计检验 3.检验各变量x1,x2,…xn分别对指标是否有显著性影响 二参数估计 P元线性回归方程 y=B0+B1Bn+…+Bpx 样本点 回归值 y=B0+B1x+…+Ppxn B。B… B0B…B ∑(y-Bo-B1xn-…-B ∑(-Bo-B
8 X 之间有相关关系。 当 X=x 时 E(y) | X =x = (x) 作为 y 的估计值 即 y ˆ = (x) 称作 y 关于 x 的回归方程 3. 线性回归分析: y = 0 + 1 x + 即试验结果 y 的一部分由 x 的线性函数引起 ,另一部分有由随机因素引起 ( ) ( ) 2 2 0 1 0 H : y ~ N + x, ~ N 0, 进行若干次独立试验,得到的结果为 (y x ) i n i i , =1,2 由 , . 0 1 0 1 i i 估计 yi = + x + 4.多元回归分析 y = 0 + 1 x1 ++ p x p + n 组观测植 (y x x x ) i i ip i , 1 , 2 , y x xip p i i = 0 + 1 1 ++ (i =1,2, n) 解决问题 1. 根据样本估计未知参数 2 0 1 , , , p 2. 对此数量关系式的可信度进行统计检验。 3. 检验各变量 x x x p , , 1 2 分别对指标是否有显著性影响。 二 参数估计 ( ) y x x x x x y x i p i i i i p p i p p P ^ 1 ^ ^ 1 2 ^ 1 ^ ^ 0 1 , , 0 1 = + + + = + + + 回归值 样本点 元线性回归方程 Q( p , ........ 0 1 )=min( p , ........ 0 1 ) − − − − = n i yi xi p xip 1 2 ( ...... ) 0 1 1 = − − − − = n i yi xi p xip 1 2 ( ˆ ˆ ...... ) 1 0 1
由最小二乘法原理 B y-B。-B1x1-…-Bx 令 2(y-B0-B,xn-…-B,x)x 即:正规方程组 B+∑x1B xnB=∑ ∑xB+∑xB x ∑xnB+∑xx1B1+…+∑xnBn=∑x 1用矩阵形式表示 1 x x 1 d X 为结构矩阵4=xx为正规系数矩阵。B=xy 为常数项矩阵,此时最小二乘估B=(xx)xy xnxm…xn)对应y的预测值.y=B0+B,xm1+…+B,x 2估计 (1)残差实测值v与回归值y.的差 (2)残差向量y-yy=yxB=ln-(xx)xyly )残差平方和(剩余平方和)S-2(y-y)=yy (y-xy(y-xB
9 由最小二乘法原理 令 = − − − − − = = − − − − − = = = n i i p i j p i i j N I i p p i i y x x x y x x Q Q 1 1 0 1 1 1 0 1 0 2 ( ...... ) 0 2 ( ...... ) 0 j=1, 2,……p 即:正规方程组 + + + = + + + = + + + = x x x x x y x x x x x y x x y i i p p i p i p i i p i i p i i i p i p p i i i p n 2 1 1 0 1 1 2 1 0 1 1 1 0 ........... ............................................................................. ......... ......... 1.用矩阵形式表示: = x x x x x x n np p p X 1 21 2 11 1 1 1 1 为结构矩阵 A x x ` = 为正规系数矩阵 。 B x y ` = 为常数项矩阵,此时 最小二乘估 x x x y ` 1 ^ ( ) ` − = 。 (x x x ) 01 02 0 p , , 对应 y0 的预测值。 ^ 0 y = 0 ^ + x01 ^ 1 + + x p p 0 ^ 2.估计 2 (1)残差 实测值 yi 与回归值 yi ^ 的差。 (2)残差向量 y ~ = y - y ^ = y - x ^ =[ I n x x x y ` 1 ( ) ` − − ] y (3) 残差平方和(剩余平方和) se = = ( − ) ^ 2 y y i i y y ~ = ( ) ^ ` y x yi − ( ) ^ y−x
yy. y+yxBBxx yy.Bxy yu x(xx)xly 定理82ES=(np1)δ ElSE-E(y D)=E(t, y D)=E(t, yy)"t, E(yy) E(y=E(y-x B=E(y-x(xx)xy) B-x(xx)xxB x B-x B E(yy)=D(y=D[(I-x(xx)x)yI =I,x(xx)xlDI-x(xx)xI nx(xx)x E(s)=t,δ(nx(xx)x) S(I-t(xx)xx =8n -tI=8(n-p 为δ的无偏估计。 例1.求一元线性回归y=B+B1x+E:中参数B,B的最小二乘估计及 δ2的无偏估计
10 = y y ` - ` ^ x ` y + y ` ^ x - ` ^ x ` ^ x = y y ` - x y ` ^ ` = y I n x x x x] y ` [ ` ` 1 ( ) − − 定理 8.2 (S ) E E =(n-p-1) 2 (S ) E E =E ) ` ( ~ ~ y y =E ) ` ( ~ ~ tr y y =E ) ` ( ~ tr y y = ) ` ( ~ ~ t y y E r E ( ) ~ y =E ( ) ^ y − x =E( ) ` ` 1 y x (x x ) x y − − = x x x x x x ` 1 ( ) ` − − = x − x =0 E ) ` ( ~ ~ y y =D ( ) ~ y =D ) ] ` [( ` 1 I n x (x x ) x y − − = ] ` [ ( ) 1 I n x x x x − − D [ ( ) ] 1 I n x x x x − − = 2 2 ( ) ] ` 1 ` [ I n x x x x − − E ( ) se = ) ` ( ` 1 2 tr I n x (x x ) x − − = ) ` ( ` 1 2 tr I n tr (x x ) x x − − = ( ) 1 2 n tr I p+ − = ( 1) 2 n − p − Cor1: 1 2 ^ − − = n p se 为 2 的无偏估计。 例 1. 求一元线性回归 i i yi = + x + 0 1 中参数 0 , 1 的最小二乘估计及 2 的无偏估计。 解: