第五章t检验 前面讲了样本平均数抽样分布的问题。抽样研究的目的是用样本信息来推断总体特征。 所谓统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假 设检验( test of hypothesis)和参数估计( parametric estimation)二个内容。由一个样本 平均数可以对总体平均数作出估计,但样本平均数包含有抽样误差,用包含有抽样误差的 样本平均数来推断总体,其结论并不是绝对正确的。因而要对样本平均数进行统计假设检 假设检验又叫显著性检验( test of significance),是统计学中一个很重要的内容。显著 性检验的方法很多,常用的有检验、F检验和x2检验等。尽管这些检验方法的用途及使 用条件不同,但其检验的基本原理是相同的。本章以两个平均数的差异显著性检验为例来 阐明显著检验的原理,介绍几种t检验的方法,然后介绍总体参数的区间估计( interval estmation 第一节显著性检验的基本原理 、显著性检验的意义 为了便于理解,我们结合一个具体例子来说明显著性检验的意义。随机抽测10头长白 猪和10头大白猪经产母猪的产仔数,资料如下 长白:11,11,9,12,10,13,13,8,10,13 大白:8,11,12,10,9,8,8,9,10,7 经计算,得长白猪10头经产母猪产仔平均数x1=11头,标准差S=1.76头;大白猪10 头经产母猪产仔平均数x2=9.2头,标准差S2=1.549头。能否仅凭这两个平均数的差值 xx2=1.8头,立即得出长白与大白两品种经产母猪产仔数不同的结论呢?统计学认为 这样得出的结论是不可靠的。这是因为如果我们再分别随机抽测10头长白猪和10头大白 猪经产母猪的产仔数,又可得到两个样本资料。由于抽样误差的随机性,两样本平均数就 不一定是11头和9.2头,其差值也不一定是1.8头。造成这种差异可能有两种原因,一是 品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验误差(或抽样误差) 对两个样本进行比较时,必须判断样本间差异是抽样误差造成的,还是本质不同引起的。 如何区分两类性质的差异?怎样通过样本来推断总体?这正是显著性检验要解决的问题。 两个总体间的差异如何比较?一种方法是研究整个总体,即由总体中的所有个体数据 计算出总体参数进行比较。这种研究整个总体的方法是很准确的,但常常是不可能进行的 因为总体往往是无限总体,或者是包含个体很多的有限总体。因此,不得不采用另一种方 法,即研究样本,通过样本研究其所代表的总体。例如,设长白猪经产母猪产仔数的总体 平均数为41,大白猪经产母猪产仔数的总体平均数为2,试验研究的目的,就是要给1 2是否相同做出推断。由于总体平均数{1、H2未知,在进行显著性检验时只能以样本 平均数x1、x2作为检验对象,更确切地说,是以(x-x2)作为检验对象
54 第五章 t 检验 前面讲了样本平均数抽样分布的问题。抽样研究的目的是用样本信息来推断总体特征。 所谓统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假 设检验(test of hypothesis)和参数估计(parametric estimation)二个内容。由一个样本 平均数可以对总体平均数作出估计,但样本平均数包含有抽样误差,用包含有抽样误差的 样本平均数来推断总体,其结论并不是绝对正确的。因而要对样本平均数进行统计假设检 验。 假设检验又叫显著性检验(test of significance),是统计学中一个很重要的内容。显著 性检验的方法很多,常用的有 t 检验、F 检验和 2 检验等。尽管这些检验方法的用途及使 用条件不同,但其检验的基本原理是相同的。本章以两个平均数的差异显著性检验为例来 阐明显著检验的原理,介绍几种 t 检验的方法,然后介绍总体参数的区间估计(interval estimation)。 第一节 显著性检验的基本原理 一、显著性检验的意义 为了便于理解,我们结合一个具体例子来说明显著性检验的意义。随机抽测 10 头长白 猪和 10 头大白猪经产母猪的产仔数,资料如下: 长白:11,11,9,12,10,13,13,8,10,13 大白:8,11,12,10,9,8,8,9,10,7 经计算,得长白猪 10 头经产母猪产仔平均数 1 x =11 头,标准差 S1=1.76 头;大白猪 10 头经产母猪产仔平均数 2 x =9.2 头,标准差 S2=1.549 头。能否仅凭这两个平均数的差值 1 x - 2 x =1.8 头,立即得出长白与大白两品种经产母猪产仔数不同的结论呢?统计学认为, 这样得出的结论是不可靠的。这是因为如果我们再分别随机抽测 10 头长白猪和 10 头大白 猪经产母猪的产仔数,又可得到两个样本资料。由于抽样误差的随机性,两样本平均数就 不一定是 11 头和 9.2 头,其差值也不一定是 1.8 头。造成这种差异可能有两种原因,一是 品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验误差(或抽样误差)。 对两个样本进行比较时,必须判断样本间差异是抽样误差造成的,还是本质不同引起的。 如何区分两类性质的差异?怎样通过样本来推断总体?这正是显著性检验要解决的问题。 两个总体间的差异如何比较?一种方法是研究整个总体,即由总体中的所有个体数据 计算出总体参数进行比较。这种研究整个总体的方法是很准确的,但常常是不可能进行的, 因为总体往往是无限总体,或者是包含个体很多的有限总体。因此,不得不采用另一种方 法,即研究样本,通过样本研究其所代表的总体。例如,设长白猪经产母猪产仔数的总体 平均数为 1 ,大白猪经产母猪产仔数的总体平均数为 2 ,试验研究的目的,就是要给 1 、 2 是否相同做出推断。由于总体平均数 1 、 2 未知,在进行显著性检验时只能以样本 平均数 1 x 、 2 x 作为检验对象,更确切地说,是以( 1 x - 2 x )作为检验对象
为什么以样本平均数作为检验对象呢?这是因为样本平均数具有下述特征 1、离均差的平方和∑(x-x)2最小。说明样本平均数与样本各个观测值最接近, 均数是资料的代表数。 2、样本平均数是总体平均数的无偏估计值,即E(x)=μ 3、根据统计学中心极限定理,样本平均数x服从或逼近正态分布。 所以,以样本平均数作为检验对象,由两个样本平均数差异的大小去推断样本所属总 体平均数是否相同是有其依据的 由上所述,一方面我们有依据由样本平均数x和x2的差异来推断总体平均数1、H2 相同与否,另一方面又不能仅据样本平均数表面上的差异直接作出结论,其根本原因在于 试验误差(或抽样误差)的不可避免性。若对样本观测值的数据结构作一简单剖析,就可 更清楚地看到这一点 通过试验测定得到的每个观测值x,既由被测个体所属总体的特征决定,又受个体差 异和诸多无法控制的随机因素的影响。所以观测值x由两部分组成,即x1=H+E1。总体平 均数反映了总体特征,E表示误差。若样本含量为n,则可得到n个观测值:x1,x2,…, xn。于是样本平均数x=∑xn=∑(+E,)n=+E。说明样本平均数并非总体平均 数,它还包含试验误差的成分。 对于接受不同处理的两个样本来说,则有:x=41+E1,x2=42+E2 这说明两个样本平均数之差(x-x2)也包括了两部分:一部分是两个总体平均数的 差(142),叫做试验的处理效应( treatment effect.:另一部分是试验误差(E1-E2) 也就是说样本平均数的差(x1-x2)包含有试验误差,它只是试验的表面效应。因此,仅 凭(x1x2)就对总体平均数H1、42是否相同下结论是不可靠的。只有通过显著性检验 才能从(x-x2)中提取结论。对(x-x2)进行显著性检验就是要分析:试验的表面效 应(x1x2)主要由处理效应(H1-2)引起的,还是主要由试验误差所造成。虽然处理 效应(H12)未知,但试验的表面效应是可以计算的,借助数理统计方法可以对试验误 差作出估计。所以,可从试验的表面效应与试验误差的权衡比较中间接地推断处理效应是 否存在,这就是显著性检验的基本思想。 为了通过样本对其所在的总体作出符合实际的推断,要求合理进行试验设计,准确地 进行试验与观察记载,尽量降低试验误差,避免系统误差,使样本尽可能代表总体。只有 从正确、完整而又足够的资料中才能获得可靠的结论。若资料中包含有较大的试验误差与 系统误差,有许多遗漏、缺失甚至错误,再好的统计方法也无济于事。因此,收集到正确、 完整而又足够的资料是通过显著性检验获得可靠结论的基本前提。 二、显著性检验的基本步骤 仍以前面所举实例说明显著性检验的基本步骤 )首先对试验样本所在的总体作假设这里假设=2或1-2=0,即假 设长白猪和大白猪两品种经产母猪产仔数的总体平均数相等,其意义是试验的表面效应 x-x2=1.8头是试验误差,处理无效,这种假设称为无效假设( null hypothesis),记作H 1=μ2或山1-μ2=0。无效假设是被检验的假设,通过检验可能被接受,也可能被否定。提
55 为什么以样本平均数作为检验对象呢?这是因为样本平均数具有下述特征: 1、离均差的平方和∑( x - x ) 2 最小。说明样本平均数与样本各个观测值最接近,平 均数是资料的代表数。 2、样本平均数是总体平均数的无偏估计值,即 E( x )=μ。 3、根据统计学中心极限定理,样本平均数 x 服从或逼近正态分布。 所以,以样本平均数作为检验对象,由两个样本平均数差异的大小去推断样本所属总 体平均数是否相同是有其依据的。 由上所述,一方面我们有依据由样本平均数 1 x 和 2 x 的差异来推断总体平均数 1 、2 相同与否,另一方面又不能仅据样本平均数表面上的差异直接作出结论,其根本原因在于 试验误差(或抽样误差)的不可避免性。若对样本观测值的数据结构作一简单剖析,就可 更清楚地看到这一点。 通过试验测定得到的每个观测值 i x ,既由被测个体所属总体的特征决定,又受个体差 异和诸多无法控制的随机因素的影响。所以观测值 i x 由两部分组成,即 i x = + i 。总体平 均数 反映了总体特征, i 表示误差。若样本含量为 n ,则可得到 n 个观测值: 1 x , 2 x , , n x 。于是样本平均数 x = xi n =( + i ) n = + i 。说明样本平均数并非总体平均 数,它还包含试验误差的成分。 对于接受不同处理的两个样本来说,则有: 1 x = 1 + 1 , 2 x = 2 + 2 。 这说明两个样本平均数之差( 1 x - 2 x )也包括了两部分:一部分是两个总体平均数的 差( 1 - 2 ),叫做试验的处理效应(treatment effect);另一部分是试验误差( 1 - 2 )。 也就是说样本平均数的差( 1 x - 2 x )包含有试验误差,它只是试验的表面效应。因此,仅 凭( 1 x - 2 x )就对总体平均数 1、 2 是否相同下结论是不可靠的。只有通过显著性检验 才能从( 1 x - 2 x )中提取结论。对( 1 x - 2 x )进行显著性检验就是要分析:试验的表面效 应( 1 x - 2 x )主要由处理效应( 1 - 2 )引起的,还是主要由试验误差所造成。虽然处理 效应( 1 - 2 )未知,但试验的表面效应是可以计算的,借助数理统计方法可以对试验误 差作出估计。所以,可从试验的表面效应与试验误差的权衡比较中间接地推断处理效应是 否存在,这就是显著性检验的基本思想。 为了通过样本对其所在的总体作出符合实际的推断,要求合理进行试验设计,准确地 进行试验与观察记载,尽量降低试验误差,避免系统误差,使样本尽可能代表总体。只有 从正确、完整而又足够的资料中才能获得可靠的结论。若资料中包含有较大的试验误差与 系统误差,有许多遗漏、缺失甚至错误,再好的统计方法也无济于事。因此,收集到正确、 完整而又足够的资料是通过显著性检验获得可靠结论的基本前提。 二、显著性检验的基本步骤 仍以前面所举实例说明显著性检验的基本步骤。 (一)首先对试验样本所在的总体作假设 这里假设 1 = 2 或 1 - 2 =0,即假 设长白猪和大白猪两品种经产母猪产仔数的总体平均数相等,其意义是试验的表面效应: 1 x - 2 x =1.8 头是试验误差,处理无效,这种假设称为无效假设(null hypothesis), 记作 H0 : 1 = 2 或 1 - 2 =0。无效假设是被检验的假设,通过检验可能被接受,也可能被否定。提
出H0:A1=H2或1-42=0的同时,相应地提出一对应假设,称为备择假设( alternative hypothesis),记作H4。备择假设是在无效假设被否定时准备接受的假设。本例的备择假 设是H4:仙≠2或2≠0,即假设长白猪与大白猪两品种经产母猪产仔数的总体平 均数山1与2不相等或山与山2之差不等于零,亦即存在处理效应,其意义是指试验的表面 效应,除包含试验误差外,还含有处理效应在内 (二)在无效假设成立的前提下,构造合适的统计量,并研究试验所得统 计量的抽样分布,计算无效假设正确的概率对于上述例子,研究在无效假设H0: H1=2成立的前提下,统计量(x-x2)的抽样分布。经统计学研究,得到一个统计量 t=. 其中 Sx-(-x)2 X2-d (n1-1)+(n2-1) S3x做均数差异标准误:n1、n2为两样本的含量 所得的统计量r服从自由度d=(n1-1)+(n2-1)的t分布。 根据两个样本的数据,计算得:x1-x2=1192=18 (n1-1)+(n2-1) 28+21.6 =0.742 (10-1)+(10-1)1010 S;-,=0.m2=2426 我们需进一步估计出|≥2.426的两尾概率,即估计P(|≥2.426)是多少?查附 表3,在4=(n1-1)+(n2-1)=(10-1)+(101)=18时,两尾概率为0.05的临界t值 0.05(18) 2.101,两尾概率为0.01的临界′值:to ol(18) =2.878,即 P(|l|>2.101)=P(D2.101)+P(t2.878)=P(1>2.878)+P(-2.878)=0.01 由于根据两样本数据计算所得的t值为2.426,介于两个临界t值之间,即 t005<2.426(1o01 所以,|l≥2.426的概率P介于0.01和0.05之间,即:0.01<P0.05
56 出 H0 : 1 = 2 或 1 - 2 =0 的同时,相应地提出一对应假设,称为备择假设(alternative hypothesis),记作 H A 。备择假设是在无效假设被否定时准备接受的假设。本例的备择假 设是 H A: 1 ≠ 2 或 1 - 2 ≠0,即假设长白猪与大白猪两品种经产母猪产仔数的总体平 均数 1 与 2 不相等或 1 与 2 之差不等于零,亦即存在处理效应,其意义是指试验的表面 效应,除包含试验误差外,还含有处理效应在内。 (二)在无效假设成立的前提下,构造合适的统计量,并研究试验所得统 计量的抽样分布,计算无效假设正确的概率 对于上述例子,研究在无效假设 H0 : 1 = 2 成立的前提下,统计量( 1 x - 2 x )的抽样分布。经统计学研究,得到一个统计量 t: 1 2 1 2 Sx x x x t − − = 其中 1 2 Sx −x = ) 1 1 ( ( 1) ( 1) ( ) ( ) 1 2 1 2 2 2 2 2 1 1 n n n n x x x x + − + − − + − 1 2 Sx −x 叫做均数差异标准误; 1 n 、 2 n 为两样本的含量。 所得的统计量 t 服从自由度 df =( 1 n -1)+( 2 n -1)的 t 分布。 根据两个样本的数据,计算得: 1 x - 2 x =11-9.2=1.8; 1 2 Sx −x = ) 1 1 ( ( 1) ( 1) ( ) ( ) 1 2 1 2 2 2 2 2 1 1 n n n n x x x x + − + − − + − = ) 10 1 10 1 ( (10 1) (10 1) 28 21.6 + − + − + =0.742 1 2 1 2 Sx x x x t − − = = 0.742 11 − 9.2 =2.426 我们需进一步估计出|t|≥2.426 的两尾概率,即估计 P(| t|≥2.426)是多少?查附 表 3,在 df =( 1 n -1)+( 2 n -1)=(10-1)+(10-1)=18 时,两尾概率为 0.05 的临界 t 值: 0.05(18) t =2.101,两尾概率为 0.01 的临界 t 值: 0.01(18) t =2.878,即: P(| t|>2.101)= P(t>2.101)+ P(t 2.878)= P(t>2.878)+ P(t<-2.878)=0.01 由于根据两样本数据计算所得的 t 值为 2.426,介于两个临界 t 值之间,即: t0.05<2.426<t0.01 所以,| t|≥2.426 的概率 P 介于 0.01 和 0.05 之间,即:0.01 <P< 0.05
f(t) 2.T 878-2.101 2.1012.878 2.426 图5-1|t|≥2.426的两尾概率 如图5-1所示,说明无效假设成立的可能性,即试验的表面效应为试验误差的可能性 在0.01—0.05之间。 (三)根据“小概率事件实际不可能性原理”否定或接受无效假设上章曾 论及:若随机事件的概率很小,例如小于0.05,0.01,0.001,称之为小概率事件;在统 计学上,把小概率事件在一次试验中看成是实际上不可能发生的事件,称为小概率事件实 际不可能原理。根据这一原理,当试验的表面效应是试验误差的概率小于0.05时,可以认 为在一次试验中试验表面效应是试验误差实际上是不可能的,因而否定原先所作的无效假 设H0:1=2,接受备择假设H4:≠2,即认为:试验的处理效应是存在的。当试 验的表面效应是试验误差的概率大于0.05时,则说明无效假设H0:A=山2成立的可能性 大,不能被否定,因而也就不能接受备择假设H4:≠μ2。 本例中,按所建立的H0:41=H2,试验的表面效应是试验误差的概率在0.01-0.05 之间,小于0.05,故有理由否定H0:A1=2,从而接受H4:≠2。可以认为长白猪 与大白猪两品种经产母猪产仔数总体平均数1和2不相同。 综上所述,显著性检验,从提出无效假设与备择假设到根据小概率事件实际不可能性 原理来否定或接受无效假设,这一过程实际上是应用所谓“概率性质的反证法”对试验样 本所属总体所作的无效假设的统计推断。对于各种显著性检验的方法,除明确其应用条件, 掌握有关统计运算方法外,正确的统计推断是不可忽视的。 三、显著水平与两种类型的错误 在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原理” 用来确定否定或接受无效假设的概率标准叫显著水平( significance level),记作α。在生 物学研究中常取a=0.05或α=0.01。对于上述例子所用的检验方法(t检验)来说,若
57 如图 5-1 所示,说明无效假设成立的可能性,即试验的表面效应为试验误差的可能性 在 0.01─0.05 之间。 (三)根据“小概率事件实际不可能性原理”否定或接受无效假设 上章曾 论及:若随机事件的概率很小,例如小于 0.05,0.01,0.001,称之为小概率事件;在统 计学上,把小概率事件在一次试验中看成是实际上不可能发生的事件,称为小概率事件实 际不可能原理。根据这一原理,当试验的表面效应是试验误差的概率小于 0.05 时,可以认 为在一次试验中试验表面效应是试验误差实际上是不可能的,因而否定原先所作的无效假 设 H0 : 1 = 2 ,接受备择假设 H A: 1 ≠ 2 ,即认为:试验的处理效应是存在的。当试 验的表面效应是试验误差的概率大于 0.05 时,则说明无效假设 H0 :1 = 2 成立的可能性 大,不能被否定,因而也就不能接受备择假设 H A: 1 ≠ 2 。 本例中,按所建立的 H0 : 1 = 2 ,试验的表面效应是试验误差的概率在 0.01─0.05 之间,小于 0.05,故有理由否定 H0 : 1 = 2 ,从而接受 H A: 1 ≠ 2 。可以认为长白猪 与大白猪两品种经产母猪产仔数总体平均数 1 和 2 不相同。 综上所述,显著性检验,从提出无效假设与备择假设到根据小概率事件实际不可能性 原理来否定或接受无效假设,这一过程实际上是应用所谓“概率性质的反证法”对试验样 本所属总体所作的无效假设的统计推断。对于各种显著性检验的方法,除明确其应用条件, 掌握有关统计运算方法外,正确的统计推断是不可忽视的。 三、显著水平与两种类型的错误 在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原理”。 用来确定否定或接受无效假设的概率标准叫显著水平(significance level),记作 。在生 物学研究中常取 =0.05 或 =0.01。对于上述例子所用的检验方法(t 检验)来说,若 图 5-1 | t|≥2.426 的两尾概率
l0.05,即表面效应属于试验误差 的可能性大,不能否定H0:A1=2,统计学上把这一检验结果表述为:“两个总体平均数 1与2差异不显著”,在计算所得的t值的右上方标记“n”或不标记符号:若to05≤d42),它们构成的抽样
58 |t|0.05,即表面效应属于试验误差 的可能性大,不能否定 H0 : 1 = 2 ,统计学上把这一检验结果表述为:“两个总体平均数 1 与 2 差异不显著”,在计算所得的 t 值的右上方标记“ ns ”或不标记符号;若 0.05 t ≤|t| 2 ),它们构成的抽样
a a/2 H接受域 Hb否定域 x1-又2 Hb否定域 图5-2两类错误示意图 分布相叠加。有时我们从4-2≠0抽样总体抽取一个(x-x2)恰恰在H0成立时的接受 域内(如图中横线阴影部分),这样,实际是从-μ2≠0总体抽的样本,经显著性检验却 不能否定H0,因而犯了Ⅱ型错误。犯Ⅱ型错误的概率用B表示。误概率β值的大小较难 确切估计,它只有与特定的H4结合起来才有意义。一般与显著水平a、原总体的标准差 、样本含量n、以及相互比较的两样本所属总体平均数之差A-42等因素有关。在其它 因素确定时,α值越小,β值越大;反之,α值越大,β值越小;样本含量η及μ-μ2越 大、σ越小,β值越小 由于B值的大小与a值的大小有关,所以在选用检验的显著水平时应考虑到犯I、Ⅱ 型错误所产生后果严重性的大小,还应考虑到试验的难易及试验结果的重要程度。若一个 试验耗费大,可靠性要求高,不允许反复,那么a值应取小些:当一个试验结论的使用事 关重大,容易产生严重后果,如药物的毒性试验,a值亦应取小些。对于一些试验条件不 易控制,试验误差较大的试验,可将a值放宽到0.1,甚至放宽到0.25。 在提高显著水平,即减小α值时,为了减小犯Ⅱ型错误的概率,可适当增大样本含量 因为增大样本含量可使(x1-x2)分布的方差σ(1/n1+1/n2)变小,使图5-2左右两曲 线变得比较“高”、“瘦”,叠加部分减少,即β值变小。我们的愿望是α值不越过某个给定 值,比如α=0.05或0.01的前提下,β值越小越好。因为在具体问题中1-42和o相对不 变,所以B值的大小主要取决于样本含量的大小。 图5-2中的1-β称为检验功效或检验力( power of test),也叫把握度。其意义是当两 总体确有差别(即HA成立)时,按a水平能发现它们有差别的能力。例如1-B=0.9,意 味着若两总体确有差别,则理论上平均100次抽样比较中有90次能得出有差别的结论。 两类错误的关系可归纳如下:
59 分布相叠加。有时我们从 1 - 2 ≠0 抽样总体抽取一个( 1 x - 2 x )恰恰在 H0 成立时的接受 域内(如图中横线阴影部分),这样,实际是从 1 - 2 ≠0 总体抽的样本,经显著性检验却 不能否定 H0 ,因而犯了Ⅱ型错误。犯Ⅱ型错误的概率用 表示。 误概率 值的大小较难 确切估计,它只有与特定的 H A 结合起来才有意义。一般与显著水平 、原总体的标准差 σ、样本含量 n 、以及相互比较的两样本所属总体平均数之差 1 - 2 等因素有关。在其它 因素确定时, 值越小, 值越大;反之, 值越大, 值越小;样本含量 n 及 1 - 2 越 大、σ越小, 值越小。 由于 值的大小与 值的大小有关,所以在选用检验的显著水平时应考虑到犯Ⅰ、Ⅱ 型错误所产生后果严重性的大小,还应考虑到试验的难易及试验结果的重要程度。若一个 试验耗费大,可靠性要求高,不允许反复,那么 值应取小些;当一个试验结论的使用事 关重大,容易产生严重后果,如药物的毒性试验, 值亦应取小些。对于一些试验条件不 易控制,试验误差较大的试验,可将 值放宽到 0.1,甚至放宽到 0.25。 在提高显著水平,即减小 值时,为了减小犯Ⅱ型错误的概率,可适当增大样本含量。 因为增大样本含量可使( 1 x - 2 x )分布的方差σ2(1/ 1 n +1/ n2 )变小,使图 5-2 左右两曲 线变得比较“高”、“瘦”,叠加部分减少,即 值变小。我们的愿望是 值不越过某个给定 值,比如 =0.05 或 0.01 的前提下, 值越小越好。因为在具体问题中 1 -2 和σ相对不 变,所以 值的大小主要取决于样本含量的大小。 图 5-2 中的 1- 称为检验功效或检验力(power of test),也叫把握度。其意义是当两 总体确有差别(即 H A 成立)时,按 水平能发现它们有差别的能力。例如 1- =0.9,意 味着若两总体确有差别,则理论上平均 100 次抽样比较中有 90 次能得出有差别的结论。 两类错误的关系可归纳如下: 图 5-2 两类错误示意图
表5-1两类错误的关系 客观实际 否定H 接受H H0成立 Ⅰ型错误(a) 推断正确(1-a) 不成立 惟断正确(1-B) Ⅱ型错误(B) 四、双侧检验与单侧检验 在上述显著性检验中,无效假设H0:A1=2与备择假设H4:≠山2。此时,备择 假设中包括了A>2或A1≤2两种可能。这个假设的目的在于判断与m2有无差异,而 不考虑谁大谁小。如比较长白猪与大白猪两品种猪经产母猪的产仔数,长白猪可能高于大 白猪,也可能低于大白猪 此时,在a水平上否定域为(-∞,ta]和[a+∞),对称地分配在t分布曲线的两侧尾部 每侧的概率为α/2,如图5-3所示。这种利用两尾概率进行的检验叫双侧检验( two-sided test),也叫双尾检验(two- tailed test),L为双侧检验的临界r值。但在有些情况下,双 侧检验不一定符合实际情况。如采用某种新的配套技术措施以期提高鸡的产蛋量,已知此 种配套技术的实施不会降低产蛋量。此时,若进行新技术与常规技术的比较试验,则无效 假设应为H0:A1=μ2,即假设新技术与常规技术产蛋量是相同的,备择假设应为HA >山2,即新配套技术的实施使产蛋量有所提高。检验的目的在于推断实施新技术是否提 高了产蛋量,这时H0的否定域在t分布曲线的右尾。在a水平上否定域为[n+∞),右侧的 概率为a,如图5-4所示。若无效假设H0为山1=2,备择假设HA为1μ 图5-4单侧检验 由上可以看出,若对同一资料进行双侧检验也进行单侧检验,那么在∝水平上单侧检 验显著,只相当于双侧检验在2α水平上显著。所以,同一资料双侧检验与单侧检验所得 的结论不一定相同。双侧检验显著,单侧检验一定显著:但单侧检验显著,双侧检验未必
60 表 5-1 两类错误的关系 客观实际 否定 H0 接受 H0 H0 成立 Ⅰ型错误( ) 推断正确(1- ) H0 不成立 推断正确(1- ) Ⅱ型错误( ) 四、双侧检验与单侧检验 在上述显著性检验中,无效假设 H0 : 1 = 2 与备择假设 H A: 1 ≠ 2 。此时,备择 假设中包括了 1 > 2 或 1 2 ,即新配套技术的实施使产蛋量有所提高。检验的目的在于推断实施新技术是否提 高了产蛋量,这时 H0 的否定域在 t 分布曲线的右尾。在 水平上否定域为 ,+) t ,右侧的 概率为 ,如图 5-4A 所示。若无效假设 H0 为 1 = 2 ,备择假设 H A 为 1 < 2 ,此时 H0 的 否定域在 t 分布曲线的左尾。在 水平上, H0 的否定域为 ( − ,−t ,左侧的概率为 。如 图 5-4B 所示。这种利用一尾概率进行的检验叫单侧检验(one-sided test)也叫单尾检验 (one-tailed test)。此时 t 为单侧检验的临界 t 值。显然,单侧检验的 t =双侧检验的 2 t 。 由上可以看出,若对同一资料进行双侧检验也进行单侧检验,那么在 水平上单侧检 验显著,只相当于双侧检验在 2 水平上显著。所以,同一资料双侧检验与单侧检验所得 的结论不一定相同。双侧检验显著,单侧检验一定显著;但单侧检验显著,双侧检验未必 图 5-3 双侧检验 图 5-4 单侧检验
显著。 选用单侧检验还是双侧检验应根据专业知识及问题的要求在试验设计时就确定。一般 若事先不知道所比较的两个处理效果谁好谁坏,分析的目的在于推断两个处理效果有无差 别,则选用双侧检验:若根据理论知识或实践经验判断甲处理的效果不会比乙处理的效果 差(或相反),分析的目的在于推断甲处理是否比乙处理好(或差),则用单侧检验。一般 情况下,如不作特殊说明均指双侧检验。 五、显著性检验中应注意的问题 上面我们已详细阐明了显著性检验的意义及原理。进行显著性检验还应注意以下几个 问题: (一)为了保证试验结果的可靠及正确,要有严密合理的试验或抽样设计,保证各样本 是从相应同质总体中随机抽取的。并且处理间要有可比性,即除比较的处理外,其它影响因 素应尽可能控制相同或基本相近。否则,任何显著性检验的方法都不能保证结果的正确。 (二)选用的显著性检验方法应符合其应用条件。上面我们所举的例子属于“非配对 设计两样本平均数差异显著性检验”。由于研究变量的类型、问题的性质、条件、试验设计 方法、样本大小等的不同,所用的显著性检验方法也不同,因而在选用检验方法时,应认 真考虑其适用条件,不能滥用。 三〕要正确理解差异显著或极显著的统计意义。显著性检验结论中的“差异显著 或“差异极显著”不应该误解为相差很大或非常大,也不能认为在专业上一定就有重要或 很重要的价值。“显著”或“极显著”是指表面上如此差别的不同样本来自同一总体的可能 性小于0.05或001,已达到了可以认为它们有实质性差异的显著水平。有些试验结果虽然 差别大,但由于试验误差大,也许还不能得出“差异显著”的结论,而有些试验的结果间 的差异虽小,但由于试验误差小,反而可能推断为“差异显著” 显著水平的高低只表示下结论的可靠程度的高低,即在0.01水平下否定无效假设的 可靠程度为99%,而在0.05水平下否定无效假设的可靠程度为95%。 差异不显著”是指表面上的这种差异在同一总体中出现的可能性大于统计上公认的 概率水平0.05,不能理解为试验结果间没有差异。下“差异不显著”的结论时,客观上存 在两种可能:一是本质上有差异,但被试验误差所掩盖,表现不出差异的显著性来。如果 减小试验误差或增大样本含量,则可能表现出差异显著性;二是可能确无本质上差异。显 著性检验只是用来确定无效假设能否被推翻,而不能证明无效假设是正确的。 (四)合理建立统计假设,正确计算检验统计量。就两个样本平均数差异显著性检验 来说,无效假设H0与备择假设HA的建立,一般如前所述,但也有时也例外。如经收益与 成本的综合经济分析知道,饲喂畜禽以高质量的Ⅰ号饲料比饲喂Ⅱ号饲料提高的成本需用 畜禽生产性能提高d个单位获得的收益来相抵,那么在检验喂Ⅰ号饲料与Ⅱ号饲料在收益 上是否有差异时,无效假设应为H0:1-2=d,备择假设为HA:p41-2≠d(双侧检 验);或H4:1-42>d(单侧检验);t检验计算公式为 (x1-x2)-d (5-1)
61 显著。 选用单侧检验还是双侧检验应根据专业知识及问题的要求在试验设计时就确定。一般 若事先不知道所比较的两个处理效果谁好谁坏,分析的目的在于推断两个处理效果有无差 别,则选用双侧检验;若根据理论知识或实践经验判断甲处理的效果不会比乙处理的效果 差(或相反),分析的目的在于推断甲处理是否比乙处理好(或差),则用单侧检验。一般 情况下,如不作特殊说明均指双侧检验。 五、显著性检验中应注意的问题 上面我们已详细阐明了显著性检验的意义及原理。进行显著性检验还应注意以下几个 问题: (一)为了保证试验结果的可靠及正确,要有严密合理的试验或抽样设计,保证各样本 是从相应同质总体中随机抽取的。并且处理间要有可比性,即除比较的处理外,其它影响因 素应尽可能控制相同或基本相近。否则,任何显著性检验的方法都不能保证结果的正确。 (二)选用的显著性检验方法应符合其应用条件。上面我们所举的例子属于“非配对 设计两样本平均数差异显著性检验”。由于研究变量的类型、问题的性质、条件、试验设计 方法、样本大小等的不同,所用的显著性检验方法也不同,因而在选用检验方法时,应认 真考虑其适用条件,不能滥用。 (三)要正确理解差异显著或极显著的统计意义。显著性检验结论中的“差异显著” 或“差异极显著”不应该误解为相差很大或非常大,也不能认为在专业上一定就有重要或 很重要的价值。“显著”或“极显著”是指表面上如此差别的不同样本来自同一总体的可能 性小于 0.05 或 0.01,已达到了可以认为它们有实质性差异的显著水平。有些试验结果虽然 差别大,但由于试验误差大,也许还不能得出“差异显著”的结论,而有些试验的结果间 的差异虽小,但由于试验误差小,反而可能推断为“差异显著”。 显著水平的高低只表示下结论的可靠程度的高低,即在 0.01 水平下否定无效假设的 可靠程度为 99%,而在 0.05 水平下否定无效假设的可靠程度为 95%。 “差异不显著”是指表面上的这种差异在同一总体中出现的可能性大于统计上公认的 概率水平 0.05,不能理解为试验结果间没有差异。下“差异不显著”的结论时,客观上存 在两种可能:一是本质上有差异,但被试验误差所掩盖,表现不出差异的显著性来。如果 减小试验误差或增大样本含量,则可能表现出差异显著性;二是可能确无本质上差异。显 著性检验只是用来确定无效假设能否被推翻,而不能证明无效假设是正确的。 (四)合理建立统计假设,正确计算检验统计量。就两个样本平均数差异显著性检验 来说,无效假设 H0 与备择假设 H A 的建立,一般如前所述,但也有时也例外。如经收益与 成本的综合经济分析知道,饲喂畜禽以高质量的Ⅰ号饲料比饲喂Ⅱ号饲料提高的成本需用 畜禽生产性能提高 d 个单位获得的收益来相抵,那么在检验喂Ⅰ号饲料与Ⅱ号饲料在收益 上是否有差异时,无效假设应为 H0 : 1 - 2 = d ,备择假设为 H A: 1 - 2 ≠ d (双侧检 验);或 H A: 1 - 2 > d (单侧检验);t 检验计算公式为: 1 2 ( ) 1 2 x x S x x d t − − − = (5-1)
如果不能否定无效假设,可以认为喂高质量的I号饲料得失相抵,只有当(x-x2)d 达到一定程度而否定了H0,才能认为喂号饲料可获得更多的收益。 (五)结论不能绝对化。经过显著性检验最终是否否定无效假设则由被研究事物有无本 质差异、试验误差的大小及选用显著水平的高低决定的。同样一种试验,试验本身差异程 度的不同,样本含量大小的不同,显著水平高低的不同,统计推断的结论可能不同。否定H0 时可能犯Ⅰ型错误,接受H时可能犯Ⅱ型错误。尤其在P接近α时,下结论应慎重,有 时应用重复试验来证明。总之,具有实用意义的结论要从多方面综合考虑,不能单纯依靠 统计结论 此外,报告结论时应列出,由样本算得的检验统计量值(如t值),注明是单侧检验 还是双侧检验,并写出P值的确切范围,如0.01O.05,不能否定H0:=0,表明 样本平均数x与总体平均数山0差异不显著,可以认为样本是取自该总体:若l05≤ l<to,则0.01<P≤0.05,否定H0:u=pn,接受H4:≠山,表明样本平均数x与 总体平均数山差异显著,有95%的把握认为样本不是取自该总体;若|≥10,则P≤0.0, 表明样本平均数ⅹ与总体平均数山0差异极显著,有99%的把握认为样本不是取自该总体 若在0.05水平上进行单侧检验,只要将计算所得t值的绝对值r与由附表3查得 =0.10的临界t值to10比较,即可作出统计推断 【例5.1】母猪的怀孕期为114天,今抽测10头母猪的怀孕期分别为116、115、113 12、114、117、115、116、114、113(天),试检验所得样本的平均数与总体平均数114
62 如果不能否定无效假设,可以认为喂高质量的Ⅰ号饲料得失相抵,只有当( 1 x - 2 x )> d 达到一定程度而否定了 H0 ,才能认为喂Ⅰ号饲料可获得更多的收益。 (五)结论不能绝对化。经过显著性检验最终是否否定无效假设则由被研究事物有无本 质差异、试验误差的大小及选用显著水平的高低决定的。同样一种试验,试验本身差异程 度的不同,样本含量大小的不同,显著水平高低的不同,统计推断的结论可能不同。否定 H0 时可能犯Ⅰ型错误,接受 H0 时可能犯Ⅱ型错误。尤其在 P 接近 时,下结论应慎重,有 时应用重复试验来证明。总之,具有实用意义的结论要从多方面综合考虑,不能单纯依靠 统计结论。 此外,报告结论时应列出,由样本算得的检验统计量值(如 t 值),注明是单侧检验 还是双侧检验,并写出 P 值的确切范围,如 0.010.05,不能否定 H0 : = 0 ,表明 样本平均数 x 与总体平均数 0 差异不显著,可以认为样本是取自该总体;若 0.05 t ≤ |t|< 0.01 t ,则 0.01<P≤0.05,否定 H0 : = 0 ,接受 H A: ≠ 0 ,表明样本平均数 x 与 总体平均数 0 差异显著,有 95%的把握认为样本不是取自该总体;若|t|≥ 0.01 t ,则 P≤0.01, 表明样本平均数 x 与总体平均数 0 差异极显著,有 99%的把握认为样本不是取自该总体。 若在 0.05 水平上进行单侧检验,只要将计算所得 t 值的绝对值|t|与由附表 3 查得 =0.10 的临界 t 值 0.10 t 比较,即可作出统计推断。 【例 5.1】 母猪的怀孕期为 114 天,今抽测 10 头母猪的怀孕期分别为 116、115、113、 112、114、117、115、116、114、113(天),试检验所得样本的平均数与总体平均数 114
天有无显著差异? 根据题意,本例应进行双侧t检验 1、提出无效假设与备择假设H6:4=114,H4:≠14 2、计算t值 经计算得:x=114.5,S=1.581 所以t=x=14.5-14=205=100 581/10 df=n-1=10-1=9 3、查临界t值,作出统计推断由矿=9,查1值表(附表3)得1o09=2.262, 因为|0.05,故不能否定H0:=114,表明样本平均数与总体平均数差异不显 著,可以认为该样本取自母猪怀孕期为114天的总体 【例5.2】按饲料配方规定,每1000kg某种饲料中维生素C不得少于246g,现从工 厂的产品中随机抽测12个样品,测得维生素C含量如下:255、260、262、248、244、245 250、238、246、248、258、270g/1000kg,若样品的维生素C含量服从正态分布,问此产 品是否符合规定要求? 按题意,此例应采用单侧检验。 1、提出无效假设与备择假设H0:=246,H4:>250 2、计算r值 经计算得:x=252,S=9.115 所以t=x=n=22-246=6=2.,281 9.15/122631 df=n-1=12-1=ll 3、查临界t值,作出统计推断因为单侧to0x1=双侧o0=1.796,||>单侧 o5(1,pP(0.05,否定H0:=246,接受HA:>246,表明样本平均数与总体平均数差 异显著,可以认为该批饲料维生素C含量符合规定要求 第三节两个样本平均数的差异显著性检验 在实际工作中还经常会遇到推断两个样本平均数差异是否显著的问题,以了解两样本 所属总体的平均数是否相同。对于两样本平均数差异显著性检验,因试验设计不同,一般 可分为两种情况:一是非配对设计或成组设计两样本平均数的差异显著性检:二是配对设 计两样本平均数的差异显著性检
63 天有无显著差异? 根据题意,本例应进行双侧 t 检验。 1、 提出无效假设与备择假设 H0 : =114 , H A: ≠114 2、计算 t 值 经计算得: x =114.5,S=1.581 所以 Sx x u t − 0 = = 1.581 10 114.5 −114 = 0.5 0.5 =1.000 df = n −1 =10-1=9 3、查临界 t 值,作出统计推断 由 df =9,查 t 值表(附表 3)得 0.05(9) t =2.262, 因为|t|0.05,故不能否定 H0 : =114,表明样本平均数与总体平均数差异不显 著,可以认为该样本取自母猪怀孕期为 114 天的总体。 【例 5.2】 按饲料配方规定,每 1000kg 某种饲料中维生素 C 不得少于 246g,现从工 厂的产品中随机抽测 12 个样品,测得维生素 C 含量如下:255、260、262、248、244、245、 250、238、246、248、258、270g/1000kg,若样品的维生素 C 含量服从正态分布,问此产 品是否符合规定要求? 按题意,此例应采用单侧检验。 1、提出无效假设与备择假设 H0 : =246, H A: >250 2、计算 t 值 经计算得: x =252,S=9.115 所以 S x x u t − = = 9.115 12 252 − 246 = 2.631 6 =2.281 df = n −1 =12-1=11 3、查临界 t 值,作出统计推断 因为单侧 0.05(11) t =双侧 0.10(11) t =1.796,|t|> 单侧 t0.05(11),P246,表明样本平均数与总体平均数差 异显著,可以认为该批饲料维生素 C 含量符合规定要求。 第三节 两个样本平均数的差异显著性检验 在实际工作中还经常会遇到推断两个样本平均数差异是否显著的问题,以了解两样本 所属总体的平均数是否相同。对于两样本平均数差异显著性检验,因试验设计不同,一般 可分为两种情况:一是非配对设计或成组设计两样本平均数的差异显著性检;二是配对设 计两样本平均数的差异显著性检