方差分析 1.理解方差分析的概念,了解方差分析的原理; 掌握单因素试验的方差分析原理与方法 3.了解双因素无重复试验的方差分析方法 4.了解双因素等重复试验的方差分析方法 在科学试验和生产实践中,影响结果的因素往往有多个,有些因素影响较大,有 些影响较小。这就有必要寻找出对结果有显著影响的因素。方差分析就是根据试 验结果作出分析,判断各因素对试验结果影响程度的一种常用科学方法。 本章主要介绍了单因素方差分析和双因素方差分析,请注意方差分析本 质上是一种假设检验 在双因素方差分析中,往往不能忽略各因素间的交互作用对结果的影 响,否则,可能导出错误的结论 第一节单因素试验的方差分析 方差分析 在科学实验或生产实践中,任何事物总是受很多因素影响的.例如,工业 产品的质量受原料、机器、人工等因素的影响。农作物的产量受种子、肥料、土 壤、水分、天气等因素的影响.利用试验数据,分析各个因素对该事物的影响是否 显著,数理统计中所采用的一种有效方法就是方差分析 ●单因素试验的概念 为了分析某一个因素A对所考察的随机变量5的影响,我们可以在试验 时让其它因素保持不变,而只让因素A改变,这样的试验叫做单因素试验,因素A 所处的状态叫做水平 单因素试验的方差分析原理 设因素A有不同水平4,A…,4,各水平A对应的总体与服从正态分 布M,口),产,2,,1;这里,我们假定各与有相同的标准差o,但各总体均 值两可能不同例如,5与…,与可以是用种不同工艺生产的电灯泡的使用寿命, 或者是1个不同品种的小麦的单位面积产量,等等
方差分析 1. 理解方差分析的概念,了解方差分析的原理; 2. 掌握单因素试验的方差分析原理与方法; 3. 了解双因素无重复试验的方差分析方法; 4. 了解双因素等重复试验的方差分析方法 在科学试验和生产实践中,影响结果的因素往往有多个,有些因素影响较大,有 些影响较小。这就有必要寻找出对结果有显著影响的因素。方差分析就是根据试 验结果作出分析,判断各因素对试验结果影响程度的一种常用科学方法。 本章主要介绍了单因素方差分析和双因素方差分析,请注意方差分析本 质上是一种假设检验。 在双因素方差分析中,往往不能忽略各因素间的交互作用对结果的影 响,否则,可能导出错误的结论。 第一节 单因素试验的方差分析 ⚫ 方差分析 在科学实验或生产实践中,任何事物总是受很多因素影响的.例如,工业 产品的质量受原料、机器、人工等因素的影响。农作物的产量受种子、肥料、土 壤、水分、天气等因素的影响.利用试验数据,分析各个因素对该事物的影响是否 显著,数理统计中所采用的一种有效方法就是方差分析. ⚫ 单因素试验的概念 为了分析某一个因素 A 对所考察的随机变量ξ的影响,我们可以在试验 时让其它因素保持不变,而只让因素 A 改变,这样的试验叫做单因素试验,因素 A 所处的状态叫做水平. ⚫ 单因素试验的方差分析原理 设因素 A 有不同水平 ,各水平 对应的总体 服从正态分 布 ,i=1,2,...,l; 这里,我们假定各 有相同的标准差σ,但各总体均 值 可能不同.例如, 可以是用 l 种不同工艺生产的电灯泡的使用寿命, 或者是 l 个不同品种的小麦的单位面积产量,等等
在水平4进行n次试验,产1,2,,1;我们假定所有的试验都是独立 的.设得到样本观测值x如下表 水平 Xix xIn,X 因为在水平4下的样本观测值2(=12…,)与总体服从相同的分布 所以有~M41口),(产1,2,,D(9.1) 我们的任务就是根据这l组观测值来检验因素A对试验结果的影响是否 显著如果因素A的影响不显著,则所有样本观测值就可以看作是来自同一总 体M(102),因此要检验的原假设是 H0:1内=;(9.2) 1,1=共-1,(=1,2…,) 当(9.2)成立时,各凸H则原假设(9.2)等价于0:a=a2=…21=0 方差分析问题实质上是一个假设检验问题,下面探讨如何构造合适的统计量. 方差分析统计量的构造 (1)定义 组内平均值分v X 总平均值 8-∑∑(x-)2 SA=∑吗(不。一x)2 总离差平方和 ,组间平方和
在水平 进行 ni次试验,i=1,2,...,l;我们假定所有的试验都是独立 的.设得到样本观测值 xij如下表: 水平A1 A2 Al 观 察 值 因为在水平 下的样本观测值 与总体服从相同的分布, 所以有 ,(i=1,2,...,l) (9.1) 我们的任务就是根据这l组观测值来检验因素 A对试验结果的影响是否 显著.如果因素 A 的影响不显著,则所有样本观测值 就可以看作是来自同一总 体 ,因此要检验的原假设是 ; (9.2) 令 . 当(9.2)成立时,各 则原假设(9.2)等价于 . 方差分析问题实质上是一个假设检验问题,下面探讨如何构造合适的统计量. ⚫ 方差分析统计量的构造 (1)定义 组内平均值 总平均值 , 总离差平方和 ,组间平方和
∑∑(x-元.)2 误差平方和 S反映各组样本之间的差异程度,即由于因素A的不同水平所引起的系统差异 S反映各种随机因素引起的试验误差 (2)几个重要结论 我们可以导出如下结论 证明 今S与S是相互独立的 令若品成立,则a2~x2(n- (3)构造F统计量 利用以上结论,定义 组间平均平方和-1;误差平均平方和n F==A 考察统计量 ,它服从什么分布? F 因为5(8/02)1(n-1),利用上面的结论及F分布的定义可知 F~F(l-1,m- 方差分析的方法
误差平方和 SA反映各组样本之间的差异程度,即由于因素 A 的不同水平所引起的系统差异; Se反映各种随机因素引起的试验误差. (2)几个重要结论 我们可以导出如下结论: ; 证明 SA与 Se是相互独立的; ; 若 H0成立,则 , . (3)构造 F 统计量 利用以上结论,定义: 组间平均平方和 ;误差平均平方和 考察统计量 ,它服从什么分布? 因为 ,利用上面的结论及 F 分布的定义可知 F~F(l-1,n-l) ⚫ 方差分析的方法
如果因素A的各个水平对总体的影响差不多,则组间平方和S较小,因而F也较 小;反之,如果因素A的各个水平对总体的影响显著不同,则组间平方和S较大 因而F也较大.由此可见,我们可以根据F值的大小来检验上述原假设压 对于给定的显著性水平a,由F分布表5查得相应的分位数2.如果由样本观测 值计算得到的F的值大于2,则在水平a下拒绝原假设即认为因素A的不同 水平对总体有显著影响;如果F的值不大于F,则接受瓜即认为因素A的不同水 平对总体无显著影响. 通常分别取a=0.05和a=0.01,按F所满足的不同条件作出不同的判断: 条件 显著 氵性 F≤F不显著 成F≤应显著(可用“*”表示) Fa高度显著(可用“*”表示) 通常还根据计算结果,列出如下方差分析表: 方差来源平方和自由度」均方和F值临界值显著性 组间S1-1 Fa 误差Sn-1 Fa =Sn-1) 总和 S n 例 1 例2 注:有时为了简化计算,可把全部观察值x减去或加上一个常数C,并不影响离 差平方和的计算结果 例1 用四种不同的工艺生产电灯泡.从各种工艺生产的电灯泡中分别抽取样品,并测 得样品的寿命(小时)如下: 工艺 观1620158014601500
如果因素 A 的各个水平对总体的影响差不多,则组间平方和 SA较小,因而 F 也较 小;反之,如果因素 A 的各个水平对总体的影响显著不同,则组间平方和 SA较大, 因而 F 也较大.由此可见,我们可以根据 F 值的大小来检验上述原假设 H0. 对于给定的显著性水平α,由 F 分布表 5 查得相应的分位数 .如果由样本观测 值计算得到的 F 的值大于 ,则在水平α下拒绝原假设 H0,即认为因素 A 的不同 水平对总体有显著影响;如果 F 的值不大于 ,则接受 H0,即认为因素 A 的不同水 平对总体无显著影响. 通常分别取α=0.05 和α=0.01,按 F 所满足的不同条件作出不同的判断: 条 件 显 著 性 F≤F0.05 不显著 F0.05 F0.01 高度显著(可用“**”表示) 通常还根据计算结果,列出如下方差分析表: 方差来源平方和自由度 均方和 F 值 临界值显著性 组 间 误 差 SA Se l-1 n-l F0.05 F0.01 总 和 S n-1 例 1 例 2 注:有时为了简化计算,可把全部观察值 xij减去或加上一个常数 C,并不影响离 差平方和的计算结果. ⚫ 例 1 用四种不同的工艺生产电灯泡. 从各种工艺生产的电灯泡中分别抽取样品,并测 得样品的寿命(小时)如下: 工艺 A1 A2 A3 A4 观 1620 1580 1460 1500
察1670160015401550 值1700164016201610 1750 172018001680 试检验这四种工艺生产的电灯泡寿命是否有显著差异 解为了化简计算,把全部观察值减去常数1500,再计算各离差平 方和后可得 方差分析表: 方差来源平方和自由度均方和/值临界值显著性 组间62820 2094040Fa0=3.49* 误差618801251571m5.95 总和12470015 其中n=5,n=4,n=3,n=4,k=4,m=16.因为P4.06介于Fas(3,12)和Fa(3, 12)之间,故可认为不同工艺生产的电灯泡寿命是有显著差异的.第一种工艺生 产的电灯泡平均寿命为1708小时,明显比其它工艺生产的电灯泡平均寿命大, 故应采纳此工艺 例2 对于高压电的电路网络,需要使用抗张强度较大而且均匀性较好的 电缆.每一条电缆是由同样长度的导线12根合并而成.现在为了 检验一批电缆所用导线的抗张强度是否来自同一正态总体,抽查人 了9条电缆的每一根导线的抗张强度,测试值(kg)如下表所示(为 了化简计算,全部测试值都减去了340) 电缆 5|-11 0-1271-1 测试值 -13-13-10410006 5-8-1525-5277 28-12100-4158
察 值 1670 1700 1750 1600 1640 1720 1540 1620 1800 1550 1610 1680 试检验这四种工艺生产的电灯泡寿命是否有显著差异. 解 为了化简计算,把全部观察值减去常数 1500,再计算各离差平 方和后可得 方差分析表: 方差来源平方和自由度均方和F 值 临界值 显著性 组 间 误 差 62820 61880 3 12 20940 5157 4.06 F0.05=3.49 F0.01=5.95 * 总 和 124700 15 其中 n1=5, n2=4, n3=3, n4=4, l=4, n=16. 因为 F=4.06 介于 F0.05(3,12)和 F0.01(3, 12)之间,故可认为不同工艺生产的电灯泡寿命是有显著差异的. 第一种工艺生 产的电灯泡平均寿命为 1708 小时,明显比其它工艺生产的电灯泡平均寿命大, 故应采纳此工艺. 例 2 对于高压电的电路网络,需要使用抗张强度较大而且均匀性较好的 电缆.每一条电缆是由同样长度的导线 12 根合并而成. 现在为了 检验一批电缆所用导线的抗张强度是否来自同一正态总体, 抽查 了 9 条电缆的每一根导线的抗张强度, 测试值(kg)如下表所示(为 了化简计算,全部测试值都减去了 340) 电缆 A1 A2 A3 A4 A5 A6 A7 A8 A9 测 试 值 5 -13 -5 -2 -11 -13 -8 8 0 -10 -15 -12 -12 4 2 10 7 1 5 0 1 0 -5 -4 -1 0 2 1 -1 0 7 5 2 6 7 8
10 1015 -6|-12 8-8602811 -5-12 5-125271-7 0|-10 35-4-5011-310 5-3-106-408 5-10-110-27 试检验这9条电缆的抗张强度是否有显著差异. 解把9条电缆看作9个不同水平,同一条电缆中的12条导线的测试值可认为是 在同一水平下作12次测试.此时,l=9,m=12(i=1,2,…,D,m108.计算得 S=1924.3,S=2626.9 再列出方差分析表 方差来源平方和自由度均方和F值临界值显著性 组间1924.38240.54ma2.03* 误差P626.9991265370m2.70 总和4552107 因为户=9.07>2.70=Fm(8,99),故可认为这9条电缆的抗张强度有显著差异. 作业题
-10 -6 -5 0 -3 2 -7 -5 -3 -12 -12 -10 5 -6 -12 -10 -2 -8 -5 0 -4 -1 -5 -11 -5 -8 -12 0 -5 -3 -3 0 10 6 5 2 0 -1 -10 -2 -1 0 2 5 1 -2 6 7 -4 2 7 5 1 0 -4 2 10 8 1 2 -3 6 0 5 15 11 -7 7 10 7 8 1 试检验这 9 条电缆的抗张强度是否有显著差异. 解 把 9 条电缆看作 9 个不同水平,同一条电缆中的 12 条导线的测试值可认为是 在同一水平下作 12 次测试. 此时,l=9, ni=12 (i=1,2,…,l), n=108. 计算得 SA=1924.3, Se=2626.9 再列出方差分析表: 方差来源平方和自由度均方和F 值 临界值 显著性 组 间 误 差 1924.3 2626.9 8 99 240.54 26.53 9.07 F0.05=2.03 F0.01=2.70 * * 总 和 4551.2 107 因为 F=9.07>2.70=F0.01(8,99), 故可认为这 9 条电缆的抗张强度有显著差异. 作业题
1.用五种不同的施肥方案分别得到某种农作物的收获量(kg)如下: 施肥方案ⅢⅢNⅣ 7990 收 获 试检验这五种施肥方案对农作物的收获量是否有显著影响. 2.某灯泡厂使用三种不同材料的灯丝制成三批灯泡.从这三批灯泡中分别抽样测 得灯泡的使用寿命(小时)如下 批号Im 160015801540 使161016401550 用165016401570 寿68017001600 命170017501660 172018001680 试检验这三批灯泡的使用寿命是否有显著差异 第二节双因素无重复试验的方差分析 双因素试验的方差分析原理 如果我们要同时考虑两个因素A与B对所考察的随机变量§是否有影响的问题, 则应讨论双因素试验的方差分析
1.用五种不同的施肥方案分别得到某种农作物的收获量(kg)如下: 施肥方案 Ⅰ Ⅱ Ⅲ Ⅳ Ⅴ 收 获 量 67 67 55 42 98 96 91 66 60 69 50 35 79 64 81 70 90 70 79 88 试检验这五种施肥方案对农作物的收获量是否有显著影响. 2.某灯泡厂使用三种不同材料的灯丝制成三批灯泡.从这三批灯泡中分别抽样测 得灯泡的使用寿命(小时)如下: 批号 Ⅰ Ⅱ Ⅲ 使 用 寿 命 1600 1610 1650 1680 1700 1720 1580 1640 1640 1700 1750 1800 1540 1550 1570 1600 1660 1680 试检验这三批灯泡的使用寿命是否有显著差异. 第二节 双因素无重复试验的方差分析 ⚫ 双因素试验的方差分析原理 如果我们要同时考虑两个因素 A 与 B 对所考察的随机变量ξ是否有影响的问题, 则应讨论双因素试验的方差分析
设因素A有不同水平4,A2…A,因素B有不同水平,B2,…Bm,在它们的每 种搭配(A,B)下的总体与服从正态分布M口),产1,2,,产,2,…,m 这里,我们假定各知有相同的标准差σ,但各总体均值可能不同.所谓无重复 试验就是因素A和B的每一种水平搭配(A,B)下仅取一个观察值x我们假定 所有的试验都是独立的.全部样本观测值x可用下表表示 因素 B, B2 B 因素A I2m 因为观测值与总体服从相同的分布,所以 有~My0),(1=1,2,,,1,闩=1,2,…,m (9.3) 我们的任务就是根据这些观测值来检验因素A和B对试验结果的影响是否显著 令 ,(总均值 =∑A,(在因素的水平4下的均值) A,=24,(在因素B的水平B下的均值) G=A-,(因素A的水平A的效应) B,=,一,(因素酬的水平B的效应) 0-x游 ,因此可表示为
设因素 A 有不同水平 ,因素 B 有不同水平 ,在它们的每一 种搭配(Ai,Bj)下的总体 服从正态分布 ,i=1,2,...,l;j=1,2,…,m. 这里,我们假定各 有相同的标准差σ,但各总体均值 可能不同. 所谓无重复 试验就是因素 A 和 B 的每一种水平搭配(Ai,Bj)下仅取一个观察值 xij. 我们假定 所有的试验都是独立的. 全部样本观测值 xij可用下表表示: 因素 B 因素 A B1 B2 Bm A1 A2 … Al 因为观测值 与总体 服从相同的分布,所以 有 ,(i=1,2,...,l,j=1,2,…,m) (9.3) 我们的任务就是根据这些观测值来检验因素 A 和 B 对试验结果的影响是否显著. 令 显然有, ,因此 可表示为
y=H+a3+B,(2=12…l;=12,…m) 若因素A或B的影响不显著,则其各水平的效应为零要检验的原假设可分别设 为 0 (9.3) B1=A2=…Bm=0 (9.4) ●方差分析统计量的构造 (1)定义 第i行平均值 第j列平均值 总平均值2 )2 总离差平方和 4=m∑(元.-)2 因素A的离差平方和 SE2=2(,-对 因素B的离差平方和 误差平方和0-.-元,-买2 S=∑ S与S分别反映因素A和B的不同水平所引起的系统差异;而S则反映各种随 机因素引起的试验误差 (2)几个重要结论 我们可以导出如下结论
若因素 A 或 B 的影响不显著,则其各水平的效应为零.要检验的原假设可分别设 为 , (9.3) , (9.4) ⚫ 方差分析统计量的构造 (1)定义 第 i 行平均值 第 j 列平均值 总平均值 ,总离差平方和 , 因素 A 的离差平方和 , 因素 B 的离差平方和 , 误差平方和 . SA与 SB分别反映因素 A 和 B 的不同水平所引起的系统差异;而 Se则反映各种随 机因素引起的试验误差. (2)几个重要结论 我们可以导出如下结论: ;
◆S、S、S是相互独立的; x2(l-1)(m-1) 2(2-1) 今若历成立,则 ◆若成立,则 (3)构造F统计量 利用以上结论,定义 S 因素A的平均平方和}-1;因素B的平均平方和 误差平均平方和(2-1)(m-1) FA=和F2 考察统计量 ,利用上面的结论及F分布的定义可知 当历成立时,FAF(1-1,(1-1)(m-1), 当成立时,FBF(m1,(1-1(m-1) 方差分析的方法 与单因素试验方差分析方法相仿,我们可以根据F与F的值的大小来检验上述 原假设与la 对于给定的显著性水平a,由F分布表查得相应的分位数2如果由样本观测值 计算得到的F的值大于2,则在水平a下拒绝原假设,即认为该因素的不同水平
SA、SB、Se是相互独立的; ; 若 H01成立,则 , 若 H02成立,则 . (3)构造 F 统计量 利用以上结论,定义: 因素 A 的平均平方和 ;因素 B 的平均平方和 ; 误差平均平方和 . 考察统计量 ,利用上面的结论及 F 分布的定义可知 当 H01成立时,FA~F(l-1,(l-1)(m-1)), 当 H02成立时,FB~F(m-1,(l-1)(m-1)). ⚫ 方差分析的方法 与单因素试验方差分析方法相仿,我们可以根据 FA与 FB的值的大小来检验上述 原假设 H01与 H02。 对于给定的显著性水平α,由 F 分布表查得相应的分位数 .如果由样本观测值 计算得到的 F 的值大于 ,则在水平α下拒绝原假设,即认为该因素的不同水平