§7方差分析
§7 方差分析
§7.1单因素试验的方差分析 本节要求掌握单因素实验的方差分析的基本方法和 步骤。 在科学试验和生产实际中,影响一事物的因素往往 是很多的。例如,在化工生产中,有原料成分、原料剂 量、催化剂、反应温度、压力、溶液浓度、反应时间、 机器设备及操作人员的水平等因素。每一因素的改变都 有可能影响产品的数量和质量。有些因素影响较大,有 些较小。为了使生产过程得以稳定,保证优质、高产, 就有必要找出对产品质量有显著影响的那些因素。为此 我们需进行试验。方差分析就是根据实验的结果进行分 析,鉴别各个有关因素对实验结果影响的有效方法 (即方差分析就是通过对试验数据进行分析,检验方差 相同各正态总体的均值是否相等,以判断各因素对试验 结果的影响是否显著。)
§7.1 单因素试验的方差分析 本节要求掌握单因素实验的方差分析的基本方法和 步骤。 在科学试验和生产实际中,影响一事物的因素往往 是很多的。例如,在化工生产中,有原料成分、原料剂 量、催化剂、反应温度、压力、溶液浓度、反应时间、 机器设备及操作人员的水平等因素。每一因素的改变都 有可能影响产品的数量和质量。有些因素影响较大,有 些较小。为了使生产过程得以稳定,保证优质、高产, 就有必要找出对产品质量有显著影响的那些因素。为此, 我们需进行试验。方差分析就是根据实验的结果进行分 析,鉴别各个有关因素对实验结果影响的有效方法。 (即方差分析就是通过对试验数据进行分析,检验方差 相同各正态总体的均值是否相等,以判断各因素对试验 结果的影响是否显著。)
在试验中,我们将要考察的指标称为试验指 标。影响试验指标的条件称为因素。因素可分为 两类,一类是人们可以控制的(可控因素),另 类是人们不能控制的。例如,反应温度、原料 剂量、溶液浓度等是可以控制的,而测量误差、 气象条件等一般是难以控制的。以下我们所说的 因素都是可控因素。因素所处的状态,称为该因 素的水平。如果在一项试验中只有一个因素在改 变称为单因素试验,如果多于一个因素在改变称 为多因素试验
在试验中,我们将要考察的指标称为试验指 标。影响试验指标的条件称为因素。因素可分为 两类,一类是人们可以控制的(可控因素),另 一类是人们不能控制的。例如,反应温度、原料 剂量、溶液浓度等是可以控制的,而测量误差、 气象条件等一般是难以控制的。以下我们所说的 因素都是可控因素。因素所处的状态,称为该因 素的水平。如果在一项试验中只有一个因素在改 变称为单因素试验,如果多于一个因素在改变称 为多因素试验
§71.1单因素试验方差分析的模型 例1进行某化学合成反应时,为了解催化剂对收率是否有影响,分 别用5种不同的催化剂独立地在相同条件下进行试验,每种催化剂试 验4次得收率如下表。试判断催化剂对收率是否有显著性影响? 催化剂 收率 平均收率 0.860.890.910.900.8900 2(X2) 0.800.830.880.84 0.8375 3 0.830.900.940.850.8800 4(X4) 0.760.810.840.820.8075 0.960.930.950.940.9450 解:此例中只有催化剂一个因素(可控因素),5种不同的催化剂可 视为该因素的5个非数量水平,所考察的试验指标是收率。 在同一催化剂下试验所得收率可视为一个总体,5种不同的催化剂 对应于5个总体。记为X 1542,43,4-4,45 又假定X;间相互独立同 方差且X1N(H12)(i=1,2,3,4,5)。设第个总体的各次试验值为X 可看成随机误差。记x1因1=1,则x可与2)。因此,s (j=1,2,3,4,故X1~N(p1,02),即有X1共~N(0 X1=H1+8 C:~N(0,2),各ε:独立, i=1,2,3,4,5;j=1,2,3,4
§7.1.1 单因素试验方差分析的模型 例1 进行某化学合成反应时,为了解催化剂对收率是否有影响,分 别用5种不同的催化剂独立地在相同条件下进行试验, 每种催化剂试 验4次,得收率如下表。试判断催化剂对收率是否有显著性影响? 催化剂 收率 平均收率 1(X1 ) 0.86 0.89 0.91 0.90 0.8900 2(X2 ) 0.80 0.83 0.88 0.84 0.8375 3(X3 ) 0.83 0.90 0.94 0.85 0.8800 4(X4 ) 0.76 0.81 0.84 0.82 0.8075 5(X5 ) 0.96 0.93 0.95 0.94 0.9450 解:此例中只有催化剂一个因素(可控因素),5种不同的催化剂可 视为该因素的5个非数量水平,所考察的试验指标是收率。 在同一催化剂下试验所得收率可视为一个总体,5种不同的催化剂 对应于5个总体。记为X1 , X2 , X3 , X4 , X5 。又假定Xi 间相互独立同 方差且Xi ~N(μi ,σ2 ) (i=1,2,3,4,5) 。设第i个总体的各次试验值为Xij (j=1,2,3,4),故Xij ~ N(μi ,σ2 ),即有Xij - μi ~N(0,σ 2 )。因此, Xij - μi可看成随机误差。记Xij - μi =εij,则Xij可写成 Xij = μi +εij, εij ~N(0,σ 2 ),各εij独立, i =1,2,3,4,5;j=1,2,3,4。
这样我们的问题归结为检验假设 H0:μ=队23=4=5;H1:即1234不全相等. 现将问题一般化。设因素A有r个水平A1,A2,,在水平A (i=1,2,…,r)下,进行n1(1>2)次独立试验,得到如下表的结果 单因素试验数据及其计算表 ∑xn∑x∑ A1(X1)X1X12…X1,n1 A2(X2)X21X22…X2 ∑ ∑x∑ Ax) X, X,. X >x,n1(∑亏 ∑∑x∑n∑∑x)2∑∑x n2
这样我们的问题归结为检验假设 H0 : μ1=μ2=μ3=μ4=μ5 ; H1 : μ1 ,μ2 ,μ3 ,μ4 ,μ5 不全相等. 现将问题一般化。设因素A有r个水平A1 ,A2 ,…,Ar,在水平Ai (i=1,2,… ,r)下,进行ni (i≥2) 次独立试验,得到如下表的结果。 单因素试验数据及其计算表 A Xij A1 (X1 ) X11 X12 … X1,n1 A2 (X2 ) X21 X22 … X2,n2 ┆ ┆ ┆ ┆ Ar (Xr ) Xr1 Xr2 … Xr,rn = = = i i ni j i j n j i j i i n j i j x x n x n 1 2 2 1 1 1 = = = 1 1 1 1 2 2 1 1 1 1 1 n j ij n j ij n j ij x x n x n = = = 2 2 2 1 2 2 2 1 2 1 1 n j i j n j i j n j i j x x n x n = = = r r nr j i j n j i j r r n j i j x x n x n 1 2 2 1 1 1 i i j i j j i j i i i i i j i j x x n x n 2 2 ( ) 1
我们假定:各个水平A1(i=1,2,,r)下的样本X1X2,X1m来自具有 相同方差G2,均值分别为μ(i=1,2,,r)的正态总体N(p12),与2 未知。且设不同水平A2下的样本之间相互独立。 由于X1~N(p,2),即有X吗2~N(0,a2)。因此,X1-可看 成随机误差。记X1H1=,则X可写成 E:~N(0,c2),各:独立, (1.1) i=1,2,3,…,r;j=1,2,…,n 其中μ与σ均为未知参数。(1.1)式称为单因素试验方差分析的 数学模型。这是本节的研究对象。 方差分析的任务是对于模型(1.1),一是检验r个总体N(p1012) N(μ2o2)…,N(12)的均值是否相等,即检验假设 H0:1=2=,=;H1:1,2…,不全相等。(1.2) 二是作出未知参数μ1μ2…,H-,σ2的估计。(二略)。 为了将问题(12)写成便于讨论的形式我们将p1,2,H的加权平 均值 M2记为μ,即 N ∑ 其中 N u称为总平均。再引入
我们假定:各个水平Ai (i=1,2,… ,r)下的样本Xi1,Xi2,…,Xi,ni来自具有 相同方差σ 2,均值分别为μi (i=1,2,…,r) 的正态总体N(μi ,σ2 ),μi与σ 2 未知。且设不同水平Ai下的样本之间相互独立。 由于Xij ~ N(μi ,σ2 ),即有Xij - μi ~N(0, σ 2 )。因此, Xij - μi可看 成随机误差。记Xij - μi =εij,则Xij可写成 Xij = μi +εij, εij ~N(0,σ 2 ),各εij独立, (1.1) i =1,2,3,… ,r; j=1,2,… ,ni 。 其中μi与σ 2均为未知参数。(1.1)式称为单因素试验方差分析的 数学模型。这是本节的研究对象。 方差分析的任务是对于模型(1.1) ,一是检验r个总体N(μ1 ,σ1 2 ), N(μ2 ,σ2 2 ),…,N(μr ,σr 2 )的均值是否相等,即检验假设 H0 : μ1=μ2=…=μr ; H1 : μ1 ,μ2 ,…,μr不全相等。 (1.2) 二是作出未知参数μ1 ,μ2 ,…,μr, σ 2的估计。(二略)。 为了将问题(1.2)写成便于讨论的形式,我们将μ1 ,μ2 ,…,μr的加权平 均值 记为μ ,即 其中 , μ 称为总平均。再引入 = r i ni i N 1 1 = = r i i i n N 1 1 = = r i N ni 1
6=μ,i=1,2,,r,此时有n61+n262+,+n,6,=0,6表示水 平A下的总体平均值与总平均的差异,习惯上将δ称为水 平A的效应。 利用这些记号,模型(1.1)可改写成 X:=+6;k5 EN(0,02),各;独立 1,2 1.2 (1.1) n6.=0 i=1 而假设(12)等价于假设 H:6,= 6.=0 0 (1.2) H1:δ,2,…,δ不全为零 这是因为当且仅当μ=2=…甲时,1=即,即81=0, i=1,2,,r
δi=μi -μ , i=1,2,…,r,此时有n1 δ1+n2 δ2+…+nr δr=0,δi表示水 平Ai下的总体平均值与总平均的差异,习惯上将δi称为水 平Ai的效应。 利用这些记号,模型(1.1)可改写成 Xij=μ+δi+εij , εij~N(0,σ2 ) , 各εij独立 i=1,2,…,r ; j=1,2,…,ni 而假设(1.2)等价于假设 这是因为当且仅当μ1=μ2=…=μr时, μi = μ,即δi =0, i=1,2,…,r 。 0 1 = = r i ni i (1.1) (1.2) : , , , . : 0; 1 1 2 0 1 2 r 不全为零 r H H = == =
§712离差平方和的分解 下面我们从平方和的分解着手,导出假设检验问题(1.2) 的检验统计量。 引入总的离差平方和 SS=∑∑(X-X)2 i=1j=1 其中 X N ∑∑X 是数据的总平均。SS1能反应全部试验数据之间的差异, 因此SSr又称为总变差。又记A水平下的样本平均值 为X1,即 X,=-∑X1i=1
§7.1.2 离差平方和的分解 下面我们从平方和的分解着手,导出假设检验问题 的检验统计量。 引入总的离差平方和 其中 是数据的总平均。SST 能反应全部试验数据之间的差异, 因此SST 又称为总变差。又记Ai水平下的样本平均值 为 ,即 (1.2) = = = − r i n j T i j i SS X X 1 1 2 ( ) X i r n X ni j i j i i 1,2, , 1 1 = = = = = = r i n j ij i X N X 1 1 1 X i
我们将SS写成 S=∑∑(x2-x)+(x-x)=∑∑(x2-x) +∑∑(x-x)+2∑∑(x-xx-x) 注意到上式第三项(即交叉项) 2(-x),-x)=2(x)(x,-x 2∑(x-x)∑x-nX=0 于是我们就将SS1分解成为SS=SS+SS(1.3)
我们将SST写成 注意到上式第三项(即交叉项) 于是我们就将SST分解成为 SST=SSE+SSA (1.3) ( ) ( ) ( ) (X X ) (X X )(X X ) SS X X X X X X i r i n j i i j r i n j i r i n j r i n j i i j i i T i j i i i i + − + − − = − + − = − = = = = = = = = 1 1 1 1 2 2 1 1 1 1 2 2 ( )( ) ( ) ( ) 2 ( ) 0 2 2 1 1 1 1 1 1 = = − − − − = − − = = = = = = i i i n j i i j i r i i n j i i j r i i i r i n j i i j X X X n X X X X X X X X X
其中 S5=∑∑(xn-x) SS各项(Xn-XJ表示在水平A下,样本观察值与 样本均值的差异,这是由随机误差所引起的。叫做误差 平方和(或组内离差平方和)。 S5=∑∑(x-x)=∑n(x,-x) i=1j=1 i=1 NX SS的各项nx-X)表示A水平下的样本均值与数据 总平均的差异,这是由水平A的效应的差异以及随机误 差引起的。SS叫做因素A的效应平方和(或组间离差平 方和)。(1.3)式就是我们所需要的平方和分解式
其中 SSE的各项 表示在水平Ai下,样本观察值与 样本均值的差异,这是由随机误差所引起的。叫做误差 平方和(或组内离差平方和)。 SSA的各项 表示Ai水平下的样本均值与数据 总平均的差异,这是由水平Ai的效应的差异以及随机误 差引起的。SSA 叫做因素A的效应平方和(或组间离差平 方和)。(1.3)式就是我们所需要的平方和分解式。 ( ) 2 1 1 = = = − r i n j i E ij i SS X X ( ) 2 − i Xij X ( ) ( ) 2 1 2 2 1 1 1 2 n X N X SS X X n X X r i i i i r i i r i n j i A i = − = − = − = = = = ( ) 2 ni X i − X