第八章方差分析与回归分析 第一节单因素试验的方差分析 在科学试验、生产实践和社会生活中,影响一个事件的因素往往很多。例如,在工业生 产中,产品的质量往往受到原材料、设备、技术及员工素质等因素的影响;又如,在工作中, 影响个人收入的因素也是多方面的,除了学历、专业、工作时间、性别等方面外,还受到个 人能力、经历及机遇等偶然因素的影响.虽然在这众多因素中,每一个因素的改变都可能影 响最终的结果,但有些因素影响较大,有些因素影响较小.故在实际问题中,就有必要找出 对事件最终结果有显著影响的那些因素.方差分析就是根据试验的结果进行分析,通过建立 数学模型,鉴别各个因素影响效应的一种有效方法 分布图示 ★引言 ★基本概念 ★例1 ★例2 ★假设前提 ★方差分析的任务 ★偏差平方和及其分解 ★Sg和SA的统计特性 ★检验方法 ★例3 例4 ★习题8-1 ★返回 内容要点 、甚本概念 在方差分析中,我们将要考察的对象的某种特征称为试验指标影响试验指标的条件称 为因素.因素可分为两类,一类是人们可以控制的(如上例的原材料、设备、学历、专业等 因素);另一类人们无法控制的(如上例中员工素质与机遇等因素) 今后,我们所讨论的因素都是指可控制因素。因素所处的状态,称为该因素的水平.如 果在一项试验中只有一个因素在改变,则称为单因素试验:如果多于一个因素在改变,则称 为多因素试验.为方便起见,今后用大写字母A,B,C,等表示因素,用大写字母加下标表示 该因素的水平,如A1,A2,…等 二、假设前提 设单因素A具有r个水平,分别记为A1,A2,…,A4,在每个水平A1(=1,2,…,r)下,要考 察的指标可以看成一个总体,故有r个总体,并假设 (1)每个总体均服从正态分布;
第八章 方差分析与回归分析 第一节 单因素试验的方差分析 在科学试验、生产实践和社会生活中,影响一个事件的因素往往很多。例如,在工业生 产中,产品的质量往往受到原材料、设备、技术及员工素质等因素的影响;又如,在工作中, 影响个人收入的因素也是多方面的,除了学历、专业、工作时间、性别等方面外,还受到个 人能力、经历及机遇等偶然因素的影响. 虽然在这众多因素中,每一个因素的改变都可能影 响最终的结果,但有些因素影响较大,有些因素影响较小. 故在实际问题中,就有必要找出 对事件最终结果有显著影响的那些因素. 方差分析就是根据试验的结果进行分析,通过建立 数学模型,鉴别各个因素影响效应的一种有效方法. 分布图示 ★ 引言 ★ 基本概念 ★ 例 1 ★ 例 2 ★ 假设前提 ★ 方差分析的任务 ★ 偏差平方和及其分解 ★ SE 和 S A 的统计特性 ★ 检验方法 ★ 例 3 ★ 例 4 ★ 习题 8-1 ★ 返回 内容要点 一、基本概念 在方差分析中,我们将要考察的对象的某种特征称为试验指标. 影响试验指标的条件称 为因素. 因素可分为两类,一类是人们可以控制的(如上例的原材料、设备、学历、专业等 因素);另一类人们无法控制的(如上例中员工素质与机遇等因素). 今后,我们所讨论的因素都是指可控制因素。因素所处的状态,称为该因素的水平. 如 果在一项试验中只有一个因素在改变,则称为单因素试验;如果多于一个因素在改变,则称 为多因素试验. 为方便起见,今后用大写字母 A,B,C, 等表示因素,用大写字母加下标表示 该因素的水平,如 A1 , A2 , 等. 二、假设前提 设单因素 A 具有 r 个水平,分别记为 , , , , A1 A2 Ar 在每个水平 A (i 1,2, ,r) i = 下,要考 察的指标可以看成一个总体,故有 r 个总体,并假设: (1) 每个总体均服从正态分布;
(2)每个总体的方差相同; (3)从每个总体中抽取的样本相互独立 那么,要比较各个总体的均值是否一致,就是要检验各个总体的均值是否相等,设第ⅰ个总 体的均值为4,则 假设检验为H0:1=2=… 备择假设为H1:1,42…,山不全相等 通常备择假设可以不写 在水平A(=12,…,r)下,进行n次独立试验,得到试验数据为Xn,X2…,km,记数 据的总个数为n=∑n 由假设有X~N(H1,02)(H1和a2未知),即有x,-1~N(Qa2),故x-共可视为 随机误差记xn-H1=6,从而得到如下数学模型 En~N(0,a2),各个En相互独立,H1和2未知 方差分析的任务: 1)检验该模型中r个总体№(μ1,a2)(i=1,2,…,r)的均值是否相等 2)作出未知参数,A2,…,,a2的估计 为了更仔细地描述数据,常在方差分析中引入总平均和效应的概念.称各均值的加权平 均 为总平均其中m∑n再引入 61=11-,i=1,2,…r 6表示在水平A下总体的均值1与总平均4的差异,称其为因子A的第i个水平A1的效应 间有如下关系式: 利用上述记号,前述数学模型可改写为
(2) 每个总体的方差相同; (3) 从每个总体中抽取的样本相互独立. 那么,要比较各个总体的均值是否一致,就是要检验各个总体的均值是否相等,设第 i 个总 体的均值为 i ,则 假设检验为 : . H0 1 = 2 == r 备择假设为 : , , , . H1 1 2 r不全相等 通常备择假设可以不写. 在水平 A (i 1,2, ,r) i = 下,进行 i n 次独立试验,得到试验数据为 , , , , 1 2 i Xi Xi Xin 记数 据的总个数为 n = . 1 = r i i n 由假设有 Xij ~ ( , ) 2 N i ( i 和 2 未知),即有 Xij − i ~ (0, ), 2 N 故 Xij − i 可视为 随机误差.记 Xij − i = ij ,从而得到如下数学模型: = + = = ~ (0, 2 ), 各个 相互独立, i和 2未知 , 1,2, , , 1,2, , ij ij ij i ij i N X i r j n (1) 方差分析的任务: 1) 检验该模型中 r 个总体 ( , ) 2 N i (i =1,2, ,r) 的均值是否相等; 2) 作出未知参数 r , , , 1 2 , 2 的估计. 为了更仔细地描述数据,常在方差分析中引入总平均和效应的概念. 称各均值的加权平 均 , 1 1 = = r i ni i n 为总平均. 其中 n= . 1 = r i i n 再引入 = − , i i i =1,2, ,r, i 表示在水平 Ai 下总体的均值 i 与总平均 的差异,称其为因子 A 的第 i 个水平 i 的效应. 易见,效应间有如下关系式: ( ) 0, 1 1 = − = = = r i i i r i ni i n 利用上述记号,前述数学模型可改写为
X=+61+En,i=l2…,r,j=1,2,…,n 0 En~N(0,a2),各个En相互独立,1和σ2未知 而前述检验假设则等价于 61=2 H1:1,2,…,,不全为零 三、偏差平方和及其分解 为了使造成各X之间的差异的大小能定量表示出来,我们先引入 记在水平A,下数据和记为X=∑X,其样本均值为x=∑X,因素A下的所 有水平的样本总均值为 x=Sx 为了通过分析对比产生样本 j=12,…,k 之间差异性的原因,从而确定因素A的影响是否显著,我们引入偏差平方和来度量各个体 间的差异程度 Sr能反映全部试验数据之间的差异,又称为总偏差平方和 如果H成立,则r个总体间无显著差异,也就是说因素A对指标没有显著影响,所有 的x可以认为来自同一个总体N(a2),各个X间的差异只是由随机因素引起的。若H 不成立,则在总偏差中,除随机因素引起的差异外,还包括由因素A的不同水平的作用而产 生的差异,如果不同水平作用产生的差异比随机因素引起的差异大的多,就认为因素A对指 标有显著影响,否则,认为无显著影响.为此,可将总偏差中的这两种差异分开,然后进行 比较 ST=sat se (4) 其中SA=∑n(X1-x),SE=∑∑(Xn-X)
= = + + = = = 2 各个 相互独立 i和 2未知 1 ~ (0, ), , 0 , 1,2, , , 1,2, , ij ij r i i i ij i ij r N n X i r j n (2) 而前述检验假设则等价于: : , , , . : . 1 1 2 0 1 2 r不全为零 r H H = == 三、偏差平方和及其分解 为了使造成各 Xij 之间的差异的大小能定量表示出来,我们先引入: 记在水平 i 下数据和记为: = = ni j Xi Xij 1 . ,其样本均值为 Xi. = , 1 1 = i n j ij i X n 因素 A 下的所 有水平的样本总均值为 X = = = r i n j ij i X n 1 1 1 = = r i Xi r 1 . 1 , 为了通过分析对比产生样本 Xij , i =1,2, ,r , j =1,2, , k 之间差异性的原因,从而确定因素 A 的影响是否显著,我们引入偏差平方和来度量各个体 间的差异程度: ST = = = − r i n j ij i X X 1 1 2 ( ) (3) T S 能反映全部试验数据之间的差异,又称为总偏差平方和. 如果 H0 成立,则 r 个总体间无显著差异,也就是说因素 A 对指标没有显著影响,所有 的 Xij 可以认为来自同一个总体 ( , ) 2 N ,各个 Xij 间的差异只是由随机因素引起的。若 H0 不成立,则在总偏差中,除随机因素引起的差异外,还包括由因素 A 的不同水平的作用而产 生的差异,如果不同水平作用产生的差异比随机因素引起的差异大的多,就认为因素 A 对指 标有显著影响,否则,认为无显著影响. 为此,可将总偏差中的这两种差异分开,然后进行 比较。 记 ST = SA + SE (4) 其中 S A = ( ) , 1 2 . = − r i i ni X X SE = ( ) . 1 1 2 . = = − r i n j i ij i X X
S4反映在每个水平下的样本均值与样本总均值的差异,它是由因素A取不同水平引起 的,称为组间(偏差)平方和,也称为因素A的偏差平方和 SE表示在水平A下样本值与该水平下的样本均值之间的差异,它是由随机误差引起 的,称为误差(偏差)平方和,也称为组内(偏差)平方和 等式Sr=SA+Sg称为平方和分解式事实上 ∑∑(x-x)2=∑∑[(x-x)+(x2-X ∑∑(x-x)+2∑x1-x从x-x)+∑(x-x 根据X和X的定义知 ∑∑(xn-Xn)X1-X)=0, 所以 s=∑∑(x-X+∑n(x-x)2=S+S 四、Sg与SA的统计特性 如果H0成立,则所有的x都服从正态分布Na2),且相互独立,由第五章第三 的定理,可以证明 1)S-/o2~x2(n-1) 2)So2~x2(n-r),且E(S)=∑∑X2,所以SE1(m-r)为a2的无不偏 =1k=1 估计 3)S4a2~x2(r-1),且E(SA)=(-1)G2,因此SA/(r-1为a2的无偏估计 4)Sg与S4相互独立 五、检验方法 如果组间差异比组内差异大的多,即说明因素的各水平间有显著差异,r个总体不能认 为是同一个正态总体,应认为H不成立,此时,比值如n=)S有偏大的趋势。为此,选用
S A 反映在每个水平下的样本均值与样本总均值的差异,它是由因素 A 取不同水平引起 的,称为组间(偏差)平方和,也称为因素 A 的偏差平方和. SE 表示在水平 Ai 下样本值与该水平下的样本均值之间的差异,它是由随机误差引起 的,称为误差(偏差)平方和,也称为组内(偏差)平方和. 等式 ST = SA + SE 称为平方和分解式. 事实上 T S == = − r i n j ij i X X 1 1 2 ( ) == = − + − r i n j i i ij i X X X X 1 1 2 [( .) ( . )] == = − r i n j i ij i X X 1 1 2 ( .) + 2 ( )( ) . 1 1 X X . Xi X r i n j i ij i − − = = ( ) , 2 . 1 n Xi X r i + i − = 根据 Xi. 和 X 的定义知 ( )( . ) 0 1 1 − . − = = = X X Xi X r i n j i ij i , 所以 ST == = − r i n j i ij i X X 1 1 2 ( .) 2 . 1 n (X X ) i r i + i − = = . S E + S A 四、 SE 与 S A 的统计特性 如果 H0 成立,则所有的 Xij 都服从正态分布 ( , ) 2 N ,且相互独立,由第五章第三节 的定理,可以证明: 1) ~ ( 1); 2 2 ST n − 2) 2 SE / ~ ( ) 2 n − r ,且 E(S E ) = = = s j t k Xijk st 1 1 1 . 2 所以 S / (n r) E − 为 2 的无不偏 估计. 3) 2 SA / ~ ( 1) 2 r − ,且 2 E(S A ) = (r −1) ,因此 S (r −1) A 为 2 的无偏估计. 4) SE与SA 相互独立. 五、检验方法 如果组间差异比组内差异大的多,即说明因素的各水平间有显著差异, r 个总体不能认 为是同一个正态总体,应认为 H0 不成立,此时,比值 E A r S n r S ( 1) ( ) − − 有偏大的趋势. 为此,选用
统计量 SA/(-1)(n-r)S 在H0为真时,有 F(r-1,n-r) 对给定的检验水平a,査F(r-1,n-r)的值,由样本观察值计算Sg,S4,从而计算 出统计量F的观察值.由于H不真时,SA值偏大,导致F值偏大.因此, 1)若F>F(r-1,n-r)时,拒绝H0,表示因素A的各水平下的效应有显著差异 2)若F<Fa(r-1,n-r)时,则接受H,表示因素A的各水平下的效应无显著差异 实际分析中,常采用如下简便算法和记号: x,1=12…;n,T=∑∑X=∑X T2 T2 T n 为表达的方便和直观,将上面的分析过程和结果制成一个表格,称这个表为单因素方差 分析表 表8-1B单因素方差分析表 差来源平方和自由度均方和F值 因素 S F Ms 误差E MS E S 例题选讲 例I(E01)设有三台机器,用来生产规格相同的铝合金薄板取样,测量薄板的厚度精确 至千分之一厘米.得结果如下表所示 铝合金板的厚度 0.236 0.257 0258 0.264 0.248 0.255 0.259 0.267 0.243 0.261 0262 这里,试验的指标是薄板的厚度,机器为因素,不同的三台机器就是这个因素的三个不 同的水平.如果假定除机器这一因素外,材料的规格、操作人员的水平等其它条件都相同, 这就是单因素试验试验的目的是为了考察各台机器所生产的薄板的厚度有无显著的差异 即考察机器这一因素对厚度有无显著的影响。如果厚度有显著差异,就表明机器这一因素对
统计量 ( ) ( 1) S n r S r F E A − − = = E A r S n r S ( 1) ( ) − − 在 H0 为真时,有 F = E A r S n r S ( 1) ( ) − − ~ F (r −1, n − r). 对给定的检验水平 a ,查 Fa (r −1, n − r) 的值,由样本观察值计算 SE , S A ,从而计算 出统计量 F 的观察值. 由于 H0 不真时, S A 值偏大,导致 F 值偏大. 因此, 1) 若 F> Fa (r −1, n − r) 时,拒绝 H0 ,表示因素 A 的各水平下的效应有显著差异; 2) 若 F< Fa (r −1, n − r) 时,则接受 H0 ,表示因素 A 的各水平下的效应无显著差异. 实际分析中,常采用如下简便算法和记号: Ti = = i n j Xij 1 ,i =1,2, ,r, T = = = r i n j ij i X 1 1 = . 1 = r i Xi T S == = r i n j ij i X 1 1 2 n T 2 − , S A == r i i i n T 1 2 . n T 2 − , SE = ST − SA 为表达的方便和直观,将上面的分析过程和结果制成一个表格,称这个表为单因素方差 分析表: 表 8-1B 单因素方差分析表 1 1 1 − − − = = − − = T S n n r S E S n r MS MS MS F r S A S r MS F T E E E E A A A A 总和 误差 因素 方差来源 平方和 自由度 均方和 值 例题选讲 例 1 (E01) 设有三台机器, 用来生产规格相同的铝合金薄板.取样, 测量薄板的厚度精确 至千分之一厘米. 得结果如下表所示. 铝合金板的厚度 机器Ⅰ 机器Ⅱ 机器Ⅲ 0.236 0.257 0.258 0.238 0.253 0.264 0.248 0.255 0.259 0.245 0.254 0.267 0.243 0.261 0.262 这里, 试验的指标是薄板的厚度,机器为因素, 不同的三台机器就是这个因素的三个不 同的水平. 如果假定除机器这一因素外, 材料的规格、操作人员的水平等其它条件都相同, 这就是单因素试验. 试验的目的是为了考察各台机器所生产的薄板的厚度有无显著的差异, 即考察机器这一因素对厚度有无显著的影响. 如果厚度有显著差异, 就表明机器这一因素对
厚度的影响是显著的 例2(F02)某食品公司对一种食品设计了四种新包装为了考察哪种包装最受欢迎,选 了十个有近似相同销售量的商店作试验,其中两种包装各指定两个商店销售,另两种包装各 指定三个商店销售.在试验期中各商店的货架排放位置、空间都尽量一致,营业员的促销方 法也基本相同.观察在一定时期的销售量,数据如下表所示 销售量 包装 商店数n 12 13 A 4 24 30 在本例中,我们要比较的是四种包装的销售量是否一致,为此把包装类型看成是一个因 子,记为因子A,它有四种不同的包装就看成是因子A的四个水平记为A1,A2,A,4,一般 将第i种包装在第j个商店的销售量记为 xn,=1234j=12,…,n1(在本例中,n1=2,n2=3,n3=3,n4=2) 由于商店间的差异已被控制在最小的范围内,因此一种包装在不同商店里的销售量被 看作为一种包装的若干次重复观察,所以可以把一种包装看作一个总体.为比较四种包装的 销售量是否相同,相当于要比较的四个总体的均值是否一致。简化起见,需要给出若干假定 把所要回答的问题归结为下个统计问题,然后设法解决它 例3(E03)在例1中,检验假设(a=0.05) H0:1=42=3,H1:A1,2,山3不全相等 解这里r=3,n1=n2=n3=5,n=15 s,=∑∑xn-7 3.8 s0.963912 1s=000124533 (1212+1.282+1,312)-382/15=000105333 SE=Sr-SA=0.000192 Sx,SA,S的自由度依次为n-1=14,r-1=2,n-r=12,得方差分析表如下: 方差来源平方和 自由度均方和 F比 因素 0.00105333 2 0.00052667 误差 0.000192 12 0.000016 总和 0.00124533 因F05(2,12)=389<3292,故在水平005下拒绝H0,认为各台机器生产的薄板厚度有显 著的差异
厚度的影响是显著的. 例 2 (E02) 某食品公司对一种食品设计了四种新包装. 为了考察哪种包装最受欢迎, 选 了十个有近似相同销售量的商店作试验, 其中两种包装各指定两个商店销售, 另两种包装各 指定三个商店销售. 在试验期中各商店的货架排放位置、空间都尽量一致, 营业员的促销方 法也基本相同. 观察在一定时期的销售量, 数据如下表所示: 销售量 包装 商店 商店数 i n 1 2 3 A1 12 18 2 A2 14 12 13 3 A3 19 17 21 3 A4 24 30 2 在本例中, 我们要比较的是四种包装的销售量是否一致, 为此把包装类型看成是一个因 子, 记为因子A, 它有四种不同的包装, 就看成是因子 A 的四个水平, 记为 1 2 3 4 A , A , A , A .一般 将第 i 种包装在第 j 个商店的销售量记为 ij ni x ,i =1,2,3,4; j =1,2, , (在本例中, n1 = 2, n2 = 3, n3 = 3, n4 = 2 ). 由于商店间的差异已被控制在最小的范围内, 因此一种包装在不同商店里的销售量被 看作为一种包装的若干次重复观察, 所以可以把一种包装看作一个总体. 为比较四种包装的 销售量是否相同, 相当于要比较的四个总体的均值是否一致. 简化起见,需要给出若干假定, 把所要回答的问题归结为下个统计问题, 然后设法解决它. 例 3 (E03) 在例 1 中,检验假设( = 0.05 ) 0 1 2 3 1 1 2 3 H : = = , H : , , 不全相等. 解 这里 r = 3, 5, n1 = n2 = n3 = n =15, T S 15 3 2 1 5 1 T X i j = ij − = = 15 3.8 0.963912 2 = − = 0.00124533, S A n T n T i i i 3 2 1 2 = − = (1.21 1.28 1.31 ) 3.8 15 5 1 2 2 2 2 = + + − = 0.00105333, SE = ST − S A = 0.000192. ST SA SE , , 的自由度依次为 n −1=14, r −1= 2, n − r =12, 得方差分析表如下: 方差来源 平方和 自由度 均方和 F 比 误差 因素 0.000192 0.00105333 12 2 0.000016 0.00052667 32.92 总和 0.00124533 14 因 F0.05 (2,12) = 3.89 32.92, 故在水平 0.05 下拒绝 , H0 认为各台机器生产的薄板厚度有显 著的差异
例4(E04)在例2中,检验假设(a=005) H0:41=p2=42=44,H1:1,2,p3,山4不全相等 解这里r=4,n1=n4=2,n2=n3=3,n=10 T=30,T2.=39,7=57,T4.=54,T=180, =3544-3240=304 3498-3240=258 Sr,SA,SE的自由度依次为n-1=9,r-1=3,n-r=6,得方差分析如下 方差来源平方和「自由度均方和F值 因素 258 l12 369 7.67 总和 304 因F05(36)=474<1122,故在水平005下拒绝H0,即认为四种包装的销售量有显著 差异,这说明不同包装受欢迎的程度不同
例 4 (E04) 在例 2 中,检验假设( = 0.05 ) 0 1 2 3 4 1 1 2 3 4 H : = = = , H : , , , 不全相等. 解 这里 r = 4, 2, n1 = n4 = 3, n2 = n3 = n =10, 30, T1 = 39, T2 = 57, T3 = 54, T4 = T =180, T S n T X i n j ij 4 i 2 1 1 2 = − = = = 3544 − 3240 = 304, S A n T n T i i i 4 2 1 2 = − = = 3498 − 3240 = 258, ST SA SE , , 的自由度依次为 n −1= 9, r −1= 3, n − r = 6, 得方差分析如下: 方差来源 平方和 自由度 均方和 F 值 因素 误差 258 46 3 6 86 7.67 11.2 总和 304 9 因 F0.05 (3,6) = 4.74 11.22, 故在水平 0.05 下拒绝 H0 , 即认为四种包装的销售量有显著 差异, 这说明不同包装受欢迎的程度不同