中国农业出版社：《生物统计附试验设计》课程教学资源（教材，第三版）第五章 t检验.doc_大学文库

第五章t检验前面讲了样本平均数抽样分布的问题。抽样研究的目的是用样本信息来推断总体特征。所谓统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断,它主要包括假设检验( test of hypothesis)和参数估计( parametric estimation)二个内容。由一个样本平均数可以对总体平均数作出估计,但样本平均数包含有抽样误差,用包含有抽样误差的样本平均数来推断总体,其结论并不是绝对正确的。因而要对样本平均数进行统计假设检假设检验又叫显著性检验( test of significance),是统计学中一个很重要的内容。显著性检验的方法很多,常用的有检验、F检验和x2检验等。尽管这些检验方法的用途及使用条件不同,但其检验的基本原理是相同的。本章以两个平均数的差异显著性检验为例来阐明显著检验的原理,介绍几种t检验的方法,然后介绍总体参数的区间估计( interval estmation 第一节显著性检验的基本原理、显著性检验的意义为了便于理解,我们结合一个具体例子来说明显著性检验的意义。随机抽测10头长白猪和10头大白猪经产母猪的产仔数,资料如下长白:11,11,9,12,10,13,13,8,10,13 大白:8,11,12,10,9,8,8,9,10,7 经计算,得长白猪10头经产母猪产仔平均数x1=11头,标准差S=1.76头;大白猪10 头经产母猪产仔平均数x2=9.2头,标准差S2=1.549头。能否仅凭这两个平均数的差值 xx2=1.8头,立即得出长白与大白两品种经产母猪产仔数不同的结论呢?统计学认为这样得出的结论是不可靠的。这是因为如果我们再分别随机抽测10头长白猪和10头大白猪经产母猪的产仔数,又可得到两个样本资料。由于抽样误差的随机性,两样本平均数就不一定是11头和9.2头,其差值也不一定是1.8头。造成这种差异可能有两种原因,一是品种造成的差异,即是长白猪与大白猪本质不同所致,另一可能是试验误差(或抽样误差) 对两个样本进行比较时,必须判断样本间差异是抽样误差造成的,还是本质不同引起的。如何区分两类性质的差异?怎样通过样本来推断总体?这正是显著性检验要解决的问题。两个总体间的差异如何比较?一种方法是研究整个总体,即由总体中的所有个体数据计算出总体参数进行比较。这种研究整个总体的方法是很准确的,但常常是不可能进行的因为总体往往是无限总体,或者是包含个体很多的有限总体。因此,不得不采用另一种方法,即研究样本,通过样本研究其所代表的总体。例如,设长白猪经产母猪产仔数的总体平均数为41,大白猪经产母猪产仔数的总体平均数为2,试验研究的目的,就是要给1 2是否相同做出推断。由于总体平均数{1、H2未知,在进行显著性检验时只能以样本平均数x1、x2作为检验对象,更确切地说,是以(x-x2)作为检验对象

54 第五章 t 检验前面讲了样本平均数抽样分布的问题。抽样研究的目的是用样本信息来推断总体特征。所谓统计推断是根据样本和假定模型对总体作出的以概率形式表述的推断，它主要包括假设检验（test of hypothesis）和参数估计（parametric estimation）二个内容。由一个样本平均数可以对总体平均数作出估计，但样本平均数包含有抽样误差，用包含有抽样误差的样本平均数来推断总体，其结论并不是绝对正确的。因而要对样本平均数进行统计假设检验。假设检验又叫显著性检验（test of significance），是统计学中一个很重要的内容。显著性检验的方法很多，常用的有 t 检验、F 检验和 2 检验等。尽管这些检验方法的用途及使用条件不同，但其检验的基本原理是相同的。本章以两个平均数的差异显著性检验为例来阐明显著检验的原理，介绍几种 t 检验的方法，然后介绍总体参数的区间估计（interval estimation）。第一节显著性检验的基本原理一、显著性检验的意义为了便于理解，我们结合一个具体例子来说明显著性检验的意义。随机抽测 10 头长白猪和 10 头大白猪经产母猪的产仔数，资料如下：长白：11，11，9，12，10，13，13，8，10，13 大白：8，11，12，10，9，8，8，9，10，7 经计算，得长白猪 10 头经产母猪产仔平均数 1 x =11 头，标准差 S1=1.76 头；大白猪 10 头经产母猪产仔平均数 2 x =9.2 头，标准差 S2=1.549 头。能否仅凭这两个平均数的差值 1 x - 2 x =1.8 头，立即得出长白与大白两品种经产母猪产仔数不同的结论呢？统计学认为，这样得出的结论是不可靠的。这是因为如果我们再分别随机抽测 10 头长白猪和 10 头大白猪经产母猪的产仔数，又可得到两个样本资料。由于抽样误差的随机性，两样本平均数就不一定是 11 头和 9.2 头，其差值也不一定是 1.8 头。造成这种差异可能有两种原因，一是品种造成的差异，即是长白猪与大白猪本质不同所致，另一可能是试验误差（或抽样误差）。对两个样本进行比较时，必须判断样本间差异是抽样误差造成的，还是本质不同引起的。如何区分两类性质的差异？怎样通过样本来推断总体？这正是显著性检验要解决的问题。两个总体间的差异如何比较？一种方法是研究整个总体，即由总体中的所有个体数据计算出总体参数进行比较。这种研究整个总体的方法是很准确的，但常常是不可能进行的，因为总体往往是无限总体，或者是包含个体很多的有限总体。因此，不得不采用另一种方法，即研究样本，通过样本研究其所代表的总体。例如，设长白猪经产母猪产仔数的总体平均数为 1 ，大白猪经产母猪产仔数的总体平均数为 2 ，试验研究的目的，就是要给 1 、 2 是否相同做出推断。由于总体平均数 1 、 2 未知，在进行显著性检验时只能以样本平均数 1 x 、 2 x 作为检验对象，更确切地说，是以（ 1 x - 2 x ）作为检验对象

为什么以样本平均数作为检验对象呢?这是因为样本平均数具有下述特征 1、离均差的平方和∑(x-x)2最小。说明样本平均数与样本各个观测值最接近, 均数是资料的代表数。 2、样本平均数是总体平均数的无偏估计值,即E(x)=μ 3、根据统计学中心极限定理,样本平均数x服从或逼近正态分布。所以,以样本平均数作为检验对象,由两个样本平均数差异的大小去推断样本所属总体平均数是否相同是有其依据的由上所述,一方面我们有依据由样本平均数x和x2的差异来推断总体平均数1、H2 相同与否,另一方面又不能仅据样本平均数表面上的差异直接作出结论,其根本原因在于试验误差(或抽样误差)的不可避免性。若对样本观测值的数据结构作一简单剖析,就可更清楚地看到这一点通过试验测定得到的每个观测值x,既由被测个体所属总体的特征决定,又受个体差异和诸多无法控制的随机因素的影响。所以观测值x由两部分组成,即x1=H+E1。总体平均数反映了总体特征,E表示误差。若样本含量为n,则可得到n个观测值:x1,x2,…, xn。于是样本平均数x=∑xn=∑(+E,)n=+E。说明样本平均数并非总体平均数,它还包含试验误差的成分。对于接受不同处理的两个样本来说,则有:x=41+E1,x2=42+E2 这说明两个样本平均数之差(x-x2)也包括了两部分:一部分是两个总体平均数的差(142),叫做试验的处理效应( treatment effect.:另一部分是试验误差(E1-E2) 也就是说样本平均数的差(x1-x2)包含有试验误差,它只是试验的表面效应。因此,仅凭(x1x2)就对总体平均数H1、42是否相同下结论是不可靠的。只有通过显著性检验才能从(x-x2)中提取结论。对(x-x2)进行显著性检验就是要分析:试验的表面效应(x1x2)主要由处理效应(H1-2)引起的,还是主要由试验误差所造成。虽然处理效应(H12)未知,但试验的表面效应是可以计算的,借助数理统计方法可以对试验误差作出估计。所以,可从试验的表面效应与试验误差的权衡比较中间接地推断处理效应是否存在,这就是显著性检验的基本思想。为了通过样本对其所在的总体作出符合实际的推断,要求合理进行试验设计,准确地进行试验与观察记载,尽量降低试验误差,避免系统误差,使样本尽可能代表总体。只有从正确、完整而又足够的资料中才能获得可靠的结论。若资料中包含有较大的试验误差与系统误差,有许多遗漏、缺失甚至错误,再好的统计方法也无济于事。因此,收集到正确、完整而又足够的资料是通过显著性检验获得可靠结论的基本前提。二、显著性检验的基本步骤仍以前面所举实例说明显著性检验的基本步骤 )首先对试验样本所在的总体作假设这里假设=2或1-2=0,即假设长白猪和大白猪两品种经产母猪产仔数的总体平均数相等,其意义是试验的表面效应 x-x2=1.8头是试验误差,处理无效,这种假设称为无效假设( null hypothesis),记作H 1=μ2或山1-μ2=0。无效假设是被检验的假设,通过检验可能被接受,也可能被否定。提

55 为什么以样本平均数作为检验对象呢？这是因为样本平均数具有下述特征： 1、离均差的平方和∑（ x - x ） 2 最小。说明样本平均数与样本各个观测值最接近，平均数是资料的代表数。 2、样本平均数是总体平均数的无偏估计值，即 E（ x ）=μ。 3、根据统计学中心极限定理，样本平均数 x 服从或逼近正态分布。所以，以样本平均数作为检验对象，由两个样本平均数差异的大小去推断样本所属总体平均数是否相同是有其依据的。由上所述,一方面我们有依据由样本平均数 1 x 和 2 x 的差异来推断总体平均数 1 、2 相同与否，另一方面又不能仅据样本平均数表面上的差异直接作出结论，其根本原因在于试验误差（或抽样误差）的不可避免性。若对样本观测值的数据结构作一简单剖析，就可更清楚地看到这一点。通过试验测定得到的每个观测值 i x ，既由被测个体所属总体的特征决定，又受个体差异和诸多无法控制的随机因素的影响。所以观测值 i x 由两部分组成，即 i x =  + i  。总体平均数  反映了总体特征， i  表示误差。若样本含量为 n ，则可得到 n 个观测值： 1 x , 2 x , ， n x 。于是样本平均数 x = xi n =( +  i ) n =  + i  。说明样本平均数并非总体平均数，它还包含试验误差的成分。对于接受不同处理的两个样本来说，则有： 1 x = 1 + 1  , 2 x =  2 + 2  。这说明两个样本平均数之差（ 1 x - 2 x ）也包括了两部分：一部分是两个总体平均数的差（ 1 - 2 ），叫做试验的处理效应（treatment effect）；另一部分是试验误差（ 1  - 2  ）。也就是说样本平均数的差（ 1 x - 2 x ）包含有试验误差，它只是试验的表面效应。因此，仅凭（ 1 x - 2 x ）就对总体平均数 1、 2 是否相同下结论是不可靠的。只有通过显著性检验才能从（ 1 x - 2 x ）中提取结论。对（ 1 x - 2 x ）进行显著性检验就是要分析：试验的表面效应（ 1 x - 2 x ）主要由处理效应（ 1 - 2 ）引起的，还是主要由试验误差所造成。虽然处理效应（ 1 - 2 ）未知，但试验的表面效应是可以计算的，借助数理统计方法可以对试验误差作出估计。所以，可从试验的表面效应与试验误差的权衡比较中间接地推断处理效应是否存在，这就是显著性检验的基本思想。为了通过样本对其所在的总体作出符合实际的推断，要求合理进行试验设计，准确地进行试验与观察记载，尽量降低试验误差，避免系统误差，使样本尽可能代表总体。只有从正确、完整而又足够的资料中才能获得可靠的结论。若资料中包含有较大的试验误差与系统误差，有许多遗漏、缺失甚至错误，再好的统计方法也无济于事。因此，收集到正确、完整而又足够的资料是通过显著性检验获得可靠结论的基本前提。二、显著性检验的基本步骤仍以前面所举实例说明显著性检验的基本步骤。（一）首先对试验样本所在的总体作假设这里假设 1 =  2 或 1 -  2 =0，即假设长白猪和大白猪两品种经产母猪产仔数的总体平均数相等，其意义是试验的表面效应： 1 x - 2 x =1.8 头是试验误差，处理无效，这种假设称为无效假设（null hypothesis）, 记作 H0 ： 1 =  2 或 1 -  2 =0。无效假设是被检验的假设，通过检验可能被接受，也可能被否定。提

56 出 H0 ： 1 =  2 或 1 -  2 =0 的同时，相应地提出一对应假设，称为备择假设（alternative hypothesis）,记作 H A 。备择假设是在无效假设被否定时准备接受的假设。本例的备择假设是 H A： 1 ≠  2 或 1 -  2 ≠0，即假设长白猪与大白猪两品种经产母猪产仔数的总体平均数 1 与  2 不相等或 1 与  2 之差不等于零，亦即存在处理效应，其意义是指试验的表面效应，除包含试验误差外，还含有处理效应在内。（二）在无效假设成立的前提下，构造合适的统计量，并研究试验所得统计量的抽样分布，计算无效假设正确的概率对于上述例子，研究在无效假设 H0 ： 1 =  2 成立的前提下，统计量（ 1 x - 2 x ）的抽样分布。经统计学研究，得到一个统计量 t： 1 2 1 2 Sx x x x t − − = 其中 1 2 Sx −x = ) 1 1 ( ( 1) ( 1) ( ) ( ) 1 2 1 2 2 2 2 2 1 1 n n n n x x x x  + − + −  − + − 1 2 Sx −x 叫做均数差异标准误； 1 n 、 2 n 为两样本的含量。所得的统计量 t 服从自由度 df =（ 1 n -1）+( 2 n -1)的 t 分布。根据两个样本的数据，计算得： 1 x - 2 x =11-9.2=1.8； 1 2 Sx −x = ) 1 1 ( ( 1) ( 1) ( ) ( ) 1 2 1 2 2 2 2 2 1 1 n n n n x x x x  + − + −  − + − = ) 10 1 10 1 ( (10 1) (10 1) 28 21.6  + − + − + =0.742 1 2 1 2 Sx x x x t − − = = 0.742 11 − 9.2 =2.426 我们需进一步估计出|t|≥2.426 的两尾概率，即估计 P（| t|≥2.426）是多少？查附表 3，在 df =（ 1 n -1）+( 2 n -1)=（10-1）+（10-1）=18 时，两尾概率为 0.05 的临界 t 值： 0.05(18) t =2.101，两尾概率为 0.01 的临界 t 值： 0.01(18) t =2.878，即： P（| t|>2.101）= P（t>2.101）+ P（t 2.878）= P（t>2.878）+ P（t<-2.878）=0.01 由于根据两样本数据计算所得的 t 值为 2.426，介于两个临界 t 值之间，即： t0.05<2.426<t0.01 所以，| t|≥2.426 的概率 P 介于 0.01 和 0.05 之间，即：0.01 <P< 0.05

f(t) 2.T 878-2.101 2.1012.878 2.426 图5-1|t|≥2.426的两尾概率如图5-1所示,说明无效假设成立的可能性,即试验的表面效应为试验误差的可能性在0.01—0.05之间。 (三)根据“小概率事件实际不可能性原理”否定或接受无效假设上章曾论及:若随机事件的概率很小,例如小于0.05,0.01,0.001,称之为小概率事件;在统计学上,把小概率事件在一次试验中看成是实际上不可能发生的事件,称为小概率事件实际不可能原理。根据这一原理,当试验的表面效应是试验误差的概率小于0.05时,可以认为在一次试验中试验表面效应是试验误差实际上是不可能的,因而否定原先所作的无效假设H0:1=2,接受备择假设H4:≠2,即认为:试验的处理效应是存在的。当试验的表面效应是试验误差的概率大于0.05时,则说明无效假设H0:A=山2成立的可能性大,不能被否定,因而也就不能接受备择假设H4:≠μ2。本例中,按所建立的H0:41=H2,试验的表面效应是试验误差的概率在0.01-0.05 之间,小于0.05,故有理由否定H0:A1=2,从而接受H4:≠2。可以认为长白猪与大白猪两品种经产母猪产仔数总体平均数1和2不相同。综上所述,显著性检验,从提出无效假设与备择假设到根据小概率事件实际不可能性原理来否定或接受无效假设,这一过程实际上是应用所谓“概率性质的反证法”对试验样本所属总体所作的无效假设的统计推断。对于各种显著性检验的方法,除明确其应用条件, 掌握有关统计运算方法外,正确的统计推断是不可忽视的。三、显著水平与两种类型的错误在显著性检验中,否定或接受无效假设的依据是“小概率事件实际不可能性原理” 用来确定否定或接受无效假设的概率标准叫显著水平( significance level),记作α。在生物学研究中常取a=0.05或α=0.01。对于上述例子所用的检验方法(t检验)来说,若

57 如图 5-1 所示，说明无效假设成立的可能性，即试验的表面效应为试验误差的可能性在 0.01─0.05 之间。（三）根据“小概率事件实际不可能性原理”否定或接受无效假设上章曾论及：若随机事件的概率很小，例如小于 0.05，0.01，0.001，称之为小概率事件；在统计学上，把小概率事件在一次试验中看成是实际上不可能发生的事件，称为小概率事件实际不可能原理。根据这一原理，当试验的表面效应是试验误差的概率小于 0.05 时，可以认为在一次试验中试验表面效应是试验误差实际上是不可能的，因而否定原先所作的无效假设 H0 ： 1 =  2 ，接受备择假设 H A： 1 ≠  2 ，即认为：试验的处理效应是存在的。当试验的表面效应是试验误差的概率大于 0.05 时，则说明无效假设 H0 ：1 =  2 成立的可能性大，不能被否定，因而也就不能接受备择假设 H A： 1 ≠  2 。本例中，按所建立的 H0 ： 1 =  2 ，试验的表面效应是试验误差的概率在 0.01─0.05 之间，小于 0.05，故有理由否定 H0 ： 1 =  2 ，从而接受 H A： 1 ≠  2 。可以认为长白猪与大白猪两品种经产母猪产仔数总体平均数 1 和  2 不相同。综上所述，显著性检验，从提出无效假设与备择假设到根据小概率事件实际不可能性原理来否定或接受无效假设，这一过程实际上是应用所谓“概率性质的反证法”对试验样本所属总体所作的无效假设的统计推断。对于各种显著性检验的方法，除明确其应用条件，掌握有关统计运算方法外，正确的统计推断是不可忽视的。三、显著水平与两种类型的错误在显著性检验中，否定或接受无效假设的依据是“小概率事件实际不可能性原理”。用来确定否定或接受无效假设的概率标准叫显著水平（significance level），记作  。在生物学研究中常取  =0.05 或  =0.01。对于上述例子所用的检验方法（t 检验）来说，若图 5-1 | t|≥2.426 的两尾概率

a a/2 H接受域 Hb否定域 x1-又2 Hb否定域图5-2两类错误示意图分布相叠加。有时我们从4-2≠0抽样总体抽取一个(x-x2)恰恰在H0成立时的接受域内(如图中横线阴影部分),这样,实际是从-μ2≠0总体抽的样本,经显著性检验却不能否定H0,因而犯了Ⅱ型错误。犯Ⅱ型错误的概率用B表示。误概率β值的大小较难确切估计,它只有与特定的H4结合起来才有意义。一般与显著水平a、原总体的标准差、样本含量n、以及相互比较的两样本所属总体平均数之差A-42等因素有关。在其它因素确定时,α值越小,β值越大;反之,α值越大,β值越小;样本含量η及μ-μ2越大、σ越小,β值越小由于B值的大小与a值的大小有关,所以在选用检验的显著水平时应考虑到犯I、Ⅱ 型错误所产生后果严重性的大小,还应考虑到试验的难易及试验结果的重要程度。若一个试验耗费大,可靠性要求高,不允许反复,那么a值应取小些:当一个试验结论的使用事关重大,容易产生严重后果,如药物的毒性试验,a值亦应取小些。对于一些试验条件不易控制,试验误差较大的试验,可将a值放宽到0.1,甚至放宽到0.25。在提高显著水平,即减小α值时,为了减小犯Ⅱ型错误的概率,可适当增大样本含量因为增大样本含量可使(x1-x2)分布的方差σ(1/n1+1/n2)变小,使图5-2左右两曲线变得比较“高”、“瘦”,叠加部分减少,即β值变小。我们的愿望是α值不越过某个给定值,比如α=0.05或0.01的前提下,β值越小越好。因为在具体问题中1-42和o相对不变,所以B值的大小主要取决于样本含量的大小。图5-2中的1-β称为检验功效或检验力( power of test),也叫把握度。其意义是当两总体确有差别(即HA成立)时,按a水平能发现它们有差别的能力。例如1-B=0.9,意味着若两总体确有差别,则理论上平均100次抽样比较中有90次能得出有差别的结论。两类错误的关系可归纳如下:

59 分布相叠加。有时我们从 1 -  2 ≠0 抽样总体抽取一个（ 1 x - 2 x ）恰恰在 H0 成立时的接受域内（如图中横线阴影部分），这样，实际是从 1 -  2 ≠0 总体抽的样本，经显著性检验却不能否定 H0 ，因而犯了Ⅱ型错误。犯Ⅱ型错误的概率用  表示。误概率  值的大小较难确切估计，它只有与特定的 H A 结合起来才有意义。一般与显著水平  、原总体的标准差 σ、样本含量 n 、以及相互比较的两样本所属总体平均数之差 1 -  2 等因素有关。在其它因素确定时，  值越小，  值越大；反之，  值越大，  值越小；样本含量 n 及 1 -  2 越大、σ越小，  值越小。由于  值的大小与  值的大小有关，所以在选用检验的显著水平时应考虑到犯Ⅰ、Ⅱ 型错误所产生后果严重性的大小，还应考虑到试验的难易及试验结果的重要程度。若一个试验耗费大，可靠性要求高，不允许反复，那么  值应取小些；当一个试验结论的使用事关重大，容易产生严重后果，如药物的毒性试验，  值亦应取小些。对于一些试验条件不易控制，试验误差较大的试验，可将  值放宽到 0.1，甚至放宽到 0.25。在提高显著水平，即减小  值时，为了减小犯Ⅱ型错误的概率，可适当增大样本含量。因为增大样本含量可使（ 1 x - 2 x ）分布的方差σ2（1/ 1 n +1/ n2 ）变小，使图 5-2 左右两曲线变得比较“高”、“瘦”，叠加部分减少，即  值变小。我们的愿望是  值不越过某个给定值，比如  =0.05 或 0.01 的前提下，  值越小越好。因为在具体问题中 1 -2 和σ相对不变，所以  值的大小主要取决于样本含量的大小。图 5-2 中的 1-  称为检验功效或检验力（power of test），也叫把握度。其意义是当两总体确有差别（即 H A 成立）时，按  水平能发现它们有差别的能力。例如 1-  =0.9，意味着若两总体确有差别，则理论上平均 100 次抽样比较中有 90 次能得出有差别的结论。两类错误的关系可归纳如下：图 5-2 两类错误示意图

显著。选用单侧检验还是双侧检验应根据专业知识及问题的要求在试验设计时就确定。一般若事先不知道所比较的两个处理效果谁好谁坏,分析的目的在于推断两个处理效果有无差别,则选用双侧检验:若根据理论知识或实践经验判断甲处理的效果不会比乙处理的效果差(或相反),分析的目的在于推断甲处理是否比乙处理好(或差),则用单侧检验。一般情况下,如不作特殊说明均指双侧检验。五、显著性检验中应注意的问题上面我们已详细阐明了显著性检验的意义及原理。进行显著性检验还应注意以下几个问题: (一)为了保证试验结果的可靠及正确,要有严密合理的试验或抽样设计,保证各样本是从相应同质总体中随机抽取的。并且处理间要有可比性,即除比较的处理外,其它影响因素应尽可能控制相同或基本相近。否则,任何显著性检验的方法都不能保证结果的正确。 (二)选用的显著性检验方法应符合其应用条件。上面我们所举的例子属于“非配对设计两样本平均数差异显著性检验”。由于研究变量的类型、问题的性质、条件、试验设计方法、样本大小等的不同,所用的显著性检验方法也不同,因而在选用检验方法时,应认真考虑其适用条件,不能滥用。三〕要正确理解差异显著或极显著的统计意义。显著性检验结论中的“差异显著或“差异极显著”不应该误解为相差很大或非常大,也不能认为在专业上一定就有重要或很重要的价值。“显著”或“极显著”是指表面上如此差别的不同样本来自同一总体的可能性小于0.05或001,已达到了可以认为它们有实质性差异的显著水平。有些试验结果虽然差别大,但由于试验误差大,也许还不能得出“差异显著”的结论,而有些试验的结果间的差异虽小,但由于试验误差小,反而可能推断为“差异显著” 显著水平的高低只表示下结论的可靠程度的高低,即在0.01水平下否定无效假设的可靠程度为99%,而在0.05水平下否定无效假设的可靠程度为95%。差异不显著”是指表面上的这种差异在同一总体中出现的可能性大于统计上公认的概率水平0.05,不能理解为试验结果间没有差异。下“差异不显著”的结论时,客观上存在两种可能:一是本质上有差异,但被试验误差所掩盖,表现不出差异的显著性来。如果减小试验误差或增大样本含量,则可能表现出差异显著性;二是可能确无本质上差异。显著性检验只是用来确定无效假设能否被推翻,而不能证明无效假设是正确的。 (四)合理建立统计假设,正确计算检验统计量。就两个样本平均数差异显著性检验来说,无效假设H0与备择假设HA的建立,一般如前所述,但也有时也例外。如经收益与成本的综合经济分析知道,饲喂畜禽以高质量的Ⅰ号饲料比饲喂Ⅱ号饲料提高的成本需用畜禽生产性能提高d个单位获得的收益来相抵,那么在检验喂Ⅰ号饲料与Ⅱ号饲料在收益上是否有差异时,无效假设应为H0:1-2=d,备择假设为HA:p41-2≠d(双侧检验);或H4:1-42>d(单侧检验);t检验计算公式为 (x1-x2)-d (5-1)

61 显著。选用单侧检验还是双侧检验应根据专业知识及问题的要求在试验设计时就确定。一般若事先不知道所比较的两个处理效果谁好谁坏，分析的目的在于推断两个处理效果有无差别，则选用双侧检验；若根据理论知识或实践经验判断甲处理的效果不会比乙处理的效果差（或相反），分析的目的在于推断甲处理是否比乙处理好（或差），则用单侧检验。一般情况下，如不作特殊说明均指双侧检验。五、显著性检验中应注意的问题上面我们已详细阐明了显著性检验的意义及原理。进行显著性检验还应注意以下几个问题：（一）为了保证试验结果的可靠及正确，要有严密合理的试验或抽样设计，保证各样本是从相应同质总体中随机抽取的。并且处理间要有可比性，即除比较的处理外，其它影响因素应尽可能控制相同或基本相近。否则，任何显著性检验的方法都不能保证结果的正确。（二）选用的显著性检验方法应符合其应用条件。上面我们所举的例子属于“非配对设计两样本平均数差异显著性检验”。由于研究变量的类型、问题的性质、条件、试验设计方法、样本大小等的不同，所用的显著性检验方法也不同，因而在选用检验方法时，应认真考虑其适用条件，不能滥用。（三）要正确理解差异显著或极显著的统计意义。显著性检验结论中的“差异显著” 或“差异极显著”不应该误解为相差很大或非常大，也不能认为在专业上一定就有重要或很重要的价值。“显著”或“极显著”是指表面上如此差别的不同样本来自同一总体的可能性小于 0.05 或 0.01，已达到了可以认为它们有实质性差异的显著水平。有些试验结果虽然差别大，但由于试验误差大，也许还不能得出“差异显著”的结论，而有些试验的结果间的差异虽小，但由于试验误差小，反而可能推断为“差异显著”。显著水平的高低只表示下结论的可靠程度的高低，即在 0.01 水平下否定无效假设的可靠程度为 99％，而在 0.05 水平下否定无效假设的可靠程度为 95%。 “差异不显著”是指表面上的这种差异在同一总体中出现的可能性大于统计上公认的概率水平 0.05，不能理解为试验结果间没有差异。下“差异不显著”的结论时，客观上存在两种可能：一是本质上有差异，但被试验误差所掩盖，表现不出差异的显著性来。如果减小试验误差或增大样本含量，则可能表现出差异显著性；二是可能确无本质上差异。显著性检验只是用来确定无效假设能否被推翻，而不能证明无效假设是正确的。（四）合理建立统计假设，正确计算检验统计量。就两个样本平均数差异显著性检验来说，无效假设 H0 与备择假设 H A 的建立，一般如前所述，但也有时也例外。如经收益与成本的综合经济分析知道，饲喂畜禽以高质量的Ⅰ号饲料比饲喂Ⅱ号饲料提高的成本需用畜禽生产性能提高 d 个单位获得的收益来相抵，那么在检验喂Ⅰ号饲料与Ⅱ号饲料在收益上是否有差异时，无效假设应为 H0 ： 1 - 2 = d ，备择假设为 H A： 1 - 2 ≠ d （双侧检验）；或 H A： 1 - 2 > d （单侧检验）；t 检验计算公式为： 1 2 ( ) 1 2 x x S x x d t − − − = （5-1）