《生物统计》第三章统计推断.doc_大学文库

第三章统计推断 §3.1统计学的基本概念。前面两章中我们介绍了概率论的基本内容,包括古典概型的一些计算方法以及研究随机现象的有力工具一一随机变量。从本章起,我们开始讨论统计学的核心内容,即如何从一些包含有随机误差,又并不完全的信息中得出科学的、尽可能正确的结论。在一般情况下,所谓信息就是从实验或调査中得到的数据,这些数据显然带有一些我们既无法控制、也无法避免的误差。换句话说,即使我们尽可能保持所有条件都不改变,当你把实验重做一遍时,所得到的结果总会或多或少有所不同,这就是随机误差的影响。至于信息的不完全性,这主要是因为在一般情况下我们不可能把所有感兴趣的东西都拿来进行测定。例如要研究中国人的体型或某种病的流行程度,我们不可能把全中国每个人都测量一番,或对每个人进行体检, 只能是按照某种事先确定好实验方案挑选一些人进行体检或测量。再比如希望对一批产品是否合格作出判断时,常常也不能对每个产品均做检验,只能是抽査少数产品。在这些情况下, 我们获得的信息显然是不够完整的。如何从这些不完整的信息出发,对我们感兴趣的事物整体作出尽可能正确的判断呢?这就是统计学要解决的主要问题。一般来说,我们获得的信息所包含的不确定性,主要来自以下几个方面:(1)测量过程引入的随机误差:(2)取样随机性所带来的变化,即由于只取少数样品测量,那么取这一批样品的测量结果与取另外一批当然会有差别:(3)我们所关心的性质确实发生了某种变化显然只有第三种改变才是我们所要检测的。统计学的任务就是在前两种干挠存在的情况下, 对第三种改变是否存在给出一个科学的结论。另外需要注意的一点是统计学是可能发生错误的。由于据以作出统计判断的信息是不完全的,有误差的,我们也就无法保证统计学结论是百分之一百地正确。这与它的科学性并不矛盾,我们所面对的就是这样一个并不完美的世界,我们对这个世界的认识也只能是一种相对正确的真理,我们只能在此基础上作出尽可能正确的结论。同时,统计学一般不仅给出结论,而且给出这一结论的可靠性,即它是正确的可能性有多大。这样,我们就可以对一旦犯错误所造成的损害进行某种控制。总之,对于需要从有误差的实验数据中得出结论的科学工作者来说,统计学是一种不可或缺的工具、统计推断的两种途径:假设检验与参数估计作出统计判断的主要工具就是假设检验。它的基本思路是这样的:首先,根据需要判断的目标建立一个统计假设,它的主要要求是一但我们对这一假设是否成立作出了结论,就应该能够对所要判断的目标作出明确的回答;其次,根据所建立的统计假设,利用统计学知识建立起一个理论分布,根据这一理论分布必须能计算出我们观察到的实验结果出现的可能性有多大;第三步,是算出实验结果出现的可能性后,把这可能性与人为规定的一个标准( 般取为0.05,称为显著性水平)进行比较,如果可能性大于这一标准,则认为统计假设很可能是对的,即接受统计假设:若可能性小于这一标准,说明在统计假设成立的条件下,观测到这一实验结果的可能性很小。一般来说,一个小概率事件在一次观测中是不应出现的,而现在它竟然出现了,一个合理的解释就是它实际上不是一个小概率事件,我们把它当作一个小概率事件是因为我们的统计假设不对,因此所算出来的它出现的概率也不对。在这种情况下,我们就应拒绝统计假设。这样,我们就根据实验结果对统计假设是否成立作出了判断, 从而也对我们要解决的目标作出了明确的回答。根据统计假设的类型,我们可以把假设检验进一步分为参数检验和非参数检验。统计的另一个重要功能就是作出参数估计。在实践中,我们常常希望对某些参数给出估计值,例如农作物的产量,产品的合格率或使用寿命,人群中某种疾病的发病率,等等。统计学也可根据抽样结果对这一类问题作出回答。答案一般有两种类型,一种是给出该参数可

第三章统计推断 §3.1 统计学的基本概念。前面两章中我们介绍了概率论的基本内容，包括古典概型的一些计算方法以及研究随机现象的有力工具——随机变量。从本章起，我们开始讨论统计学的核心内容，即如何从一些包含有随机误差，又并不完全的信息中得出科学的、尽可能正确的结论。在一般情况下，所谓信息就是从实验或调查中得到的数据，这些数据显然带有一些我们既无法控制、也无法避免的误差。换句话说，即使我们尽可能保持所有条件都不改变，当你把实验重做一遍时，所得到的结果总会或多或少有所不同，这就是随机误差的影响。至于信息的不完全性，这主要是因为在一般情况下我们不可能把所有感兴趣的东西都拿来进行测定。例如要研究中国人的体型或某种病的流行程度，我们不可能把全中国每个人都测量一番，或对每个人进行体检，只能是按照某种事先确定好实验方案挑选一些人进行体检或测量。再比如希望对一批产品是否合格作出判断时，常常也不能对每个产品均做检验，只能是抽查少数产品。在这些情况下，我们获得的信息显然是不够完整的。如何从这些不完整的信息出发，对我们感兴趣的事物整体作出尽可能正确的判断呢？这就是统计学要解决的主要问题。一般来说，我们获得的信息所包含的不确定性，主要来自以下几个方面：（1）测量过程引入的随机误差；（2）取样随机性所带来的变化，即由于只取少数样品测量，那么取这一批样品的测量结果与取另外一批当然会有差别；（3）我们所关心的性质确实发生了某种变化。显然只有第三种改变才是我们所要检测的。统计学的任务就是在前两种干挠存在的情况下，对第三种改变是否存在给出一个科学的结论。另外需要注意的一点是统计学是可能发生错误的。由于据以作出统计判断的信息是不完全的，有误差的，我们也就无法保证统计学结论是百分之一百地正确。这与它的科学性并不矛盾，我们所面对的就是这样一个并不完美的世界，我们对这个世界的认识也只能是一种相对正确的真理，我们只能在此基础上作出尽可能正确的结论。同时，统计学一般不仅给出结论，而且给出这一结论的可靠性，即它是正确的可能性有多大。这样，我们就可以对一旦犯错误所造成的损害进行某种控制。总之，对于需要从有误差的实验数据中得出结论的科学工作者来说，统计学是一种不可或缺的工具。一、统计推断的两种途径：假设检验与参数估计作出统计判断的主要工具就是假设检验。它的基本思路是这样的：首先，根据需要判断的目标建立一个统计假设，它的主要要求是一但我们对这一假设是否成立作出了结论，就应该能够对所要判断的目标作出明确的回答；其次，根据所建立的统计假设，利用统计学知识建立起一个理论分布，根据这一理论分布必须能计算出我们观察到的实验结果出现的可能性有多大；第三步，是算出实验结果出现的可能性后，把这可能性与人为规定的一个标准（一般取为 0.05，称为显著性水平）进行比较，如果可能性大于这一标准，则认为统计假设很可能是对的，即接受统计假设；若可能性小于这一标准，说明在统计假设成立的条件下，观测到这一实验结果的可能性很小。一般来说，一个小概率事件在一次观测中是不应出现的，而现在它竟然出现了，一个合理的解释就是它实际上不是一个小概率事件，我们把它当作一个小概率事件是因为我们的统计假设不对，因此所算出来的它出现的概率也不对。在这种情况下，我们就应拒绝统计假设。这样，我们就根据实验结果对统计假设是否成立作出了判断，从而也对我们要解决的目标作出了明确的回答。根据统计假设的类型，我们可以把假设检验进一步分为参数检验和非参数检验。统计的另一个重要功能就是作出参数估计。在实践中，我们常常希望对某些参数给出估计值，例如农作物的产量，产品的合格率或使用寿命，人群中某种疾病的发病率，等等。统计学也可根据抽样结果对这一类问题作出回答。答案一般有两种类型，一种是给出该参数可

能性最大的取值,这叫做点估计;另一种是给出一个区间,并给出指定参数落入这一区间的概率,这叫做区间估计。参数估计与假设检验所依据的统计学理论其实是一样的,它们的区别只是以不同形式给出结果而己。本章主要介绍统计推断的一般原理及对总体均值和方差进行统计推断的方法。统计学常用术语: 个体:可以单独观测和研究的一个物体,一定量的材料或服务。也指表示上述物体,材料或服务的一个定量或定性的特性值总体:一个统计问题中所涉及的个体的全体特性:所考查的定性或定量的性质或指标。总体分布:当个体理解为定量特性值时,总体中的每一个个体可看成是某一确定的随机变量的一个观测值,称这个随机变量的分布为总体分布样本:按一定程序从总体中抽取的一组(一个或多个)个体。样本量:样本中所包含的个体数目观测值:作为一次观测结果而确定的特性值。统计量:样本观测值的函数,它不依赖于未知参数。例如: 样本均值:x=∑x 样本方差:S2= 样本协方差 Vi=) 样本k阶属点矩:∑x 样本k阶中心矩:∑(x1-x 分位数:对随机变量X,满足条件P(X≤xn)≥p的最小实数x称为X或其分布的P分位数。几点说明: 1°对每次观察来说,样本是确定的一组数。但在不同的观察中,它会取不同的值。因此作为一个整体,应把样本视为随机变量,也有自己的分布。样本全部可能值的集合称为样本空间 2°样本的任何函数,只要不含有未知参数,都可称为统计量。例如x2+x2,x1-3都是统计量,x1+x2一/不是统计量,因为μ,o是总体参数,一般是未知数。构造统计量的目的是把样本中我们关心的信息集中起来以便加以检验,因此针对不同的问题需要构造不同的统计量。 3°为了使样本能真正反映总体的特性,我们要求它有代表性和随机性。即要求样本中的每

能性最大的取值，这叫做点估计；另一种是给出一个区间，并给出指定参数落入这一区间的概率，这叫做区间估计。参数估计与假设检验所依据的统计学理论其实是一样的，它们的区别只是以不同形式给出结果而已。本章主要介绍统计推断的一般原理及对总体均值和方差进行统计推断的方法。二、统计学常用术语：个体：可以单独观测和研究的一个物体，一定量的材料或服务。也指表示上述物体，材料或服务的一个定量或定性的特性值。总体：一个统计问题中所涉及的个体的全体。特性：所考查的定性或定量的性质或指标。总体分布：当个体理解为定量特性值时，总体中的每一个个体可看成是某一确定的随机变量的一个观测值，称这个随机变量的分布为总体分布。样本：按一定程序从总体中抽取的一组（一个或多个）个体。样本量：样本中所包含的个体数目。观测值：作为一次观测结果而确定的特性值。统计量：样本观测值的函数，它不依赖于未知参数。例如：样本均值： = = n i i x n x 1 1 样本方差： = − − = n i i x x n S 1 2 2 ( ) 1 1 样本协方差： = − − − n i i i x x y y n 1 ( )( ) 1 1 样本 k 阶原点矩： = n i K i x n 1 1 样本 k 阶中心矩： = − n i K i x x n 1 ( ) 1 分位数：对随机变量 X，满足条件 P(X≤xp）≥p 的最小实数 xp 称为 X 或其分布的 P 分位数。几点说明： 1°对每次观察来说，样本是确定的一组数。但在不同的观察中，它会取不同的值。因此作为一个整体，应把样本视为随机变量，也有自己的分布。样本全部可能值的集合称为样本空间。 2°样本的任何函数，只要不含有未知参数，都可称为统计量。例如 , 1 3 2 2 2 x1 + x x − 都是统计量，而   x x x , 2 1 2 − + 不是统计量，因为μ，σ是总体参数，一般是未知数。构造统计量的目的是把样本中我们关心的信息集中起来以便加以检验，因此针对不同的问题需要构造不同的统计量。 3°为了使样本能真正反映总体的特性，我们要求它有代表性和随机性。即要求样本中的每

个个体都具有与总体相同的分布，且每个个体相互独立。这样的样本称为简单随机样本。有限总体无放回抽样的样本不是相互独立的。但若总体个数 N 很大，且样本含量 n<0.1N，则可近似认为是简单随机样本。三、抽样分布前已述及，统计检验过程中要构造统计量把样本中我们关心的信息集中起来，以便加以检验；而这种检验主要是通过计算统计量取到观测值的可能性大小，并把这种可能性与指定标准（即显著性水平）比较来进行的。为了计算这种可能性，我们就需要知道统计量所服从的理论分布。由于这些理论分布的推导需要较多的数学知识，同时它们的分布函数和密度函数的数学表达式也很复杂，对于生物系的同学来说，掌握推导过程和这些表达式也没有什么实际用途，因此本书略去了这一部分，有兴趣的同学可参考概率论或数理统计的教科书，例如复旦大学编写的教材《概率论》。下面我们就介绍一些常用统计量的理论分布。如无特别说明，假设所有样本均抽自正态总体。 1.样本线性函数的分布：若 X1,X2,……Xn 为一简单随机样本，其总体分布为 N(μ，σ2 ), 统计量 u 为： u=a1X1+a2X2+…+anXn , 其中 a1,a2,…,an 为常数，则 u 也为正态随机变量，且   = = =  =  n i i n i i D u a E u a 1 2 2 1 ( ) ( )   （3.1）显然若取 ai= n 1 , i=1,2,…,n，则 u= X 为样本均值。此时 1 2 ( ) , ( )  n E X = D X = 。 2. χ2 分布：设 X1，X2…Xn 相互独立，且同服从 N（0，1），则称随机变量 = = n i Y Xi 1 2 (3.2) 所服从的分布为χ2 分布，记为 Y~χ2（n）, n 称为它的自由度。 3. t 分布：设 X~N(0，1），Y~χ2（n），且 X，Y 互相独立，则称随机变量 Y n X T / = （3.3）所服从的分布为 t 分布，记为 T~t(n）。n 称为它的自由度。 4. F 分布设 X~χ2（m），Y~χ2（n），且互相独立，则称随机变量 Y n X m F / / = (3.4) 所服从的分布为 F 分布，记为 F~F(m,n）, (m,n)称为它的自由度。 5. 正态总体样本均值与方差的分布。这一定理及它的推论构成了本章主要内容的理论基础

§3.2假设检验的基本方法与两种类型的错误在我们从一道例题入手,看看假设检验的基本做法和其中所涉及的一些理论性问题例3.1某地区10年前普查时,13岁男孩子平均身高为1.51m,现抽查200个12.5岁到13.5 岁男孩,身高平均值为1.53m,标准差0.073m,问10年来该地区男孩身高是否有明显增分析:从题目知10年前总体均值μ1=1.51m。现在抽取200个个体,得样本均值X=153m 样本标准差S=0.073m。现在总体均值μ未知。题目要求判断μ>μ1是否成立。解决方法:先假设μ=μ1=1.51m。再看从这样一个总体中抽出一个n=200,X=153 S=0.073的样本的可能性有多大?如果这可能性很大,我们只能认为μ与μ1差别不大,即 μ=μ很可能成立。反之若可能性很小,则说明在假设μ=u1成立的条件下,抽出这样一个样本的事件是一个小概率事件。小概率事件在一次观察中是不应发生的,但它现在发生了一个合理的解释就是它本不是小概率事件,是我们把概率算错了。而算错的原因就是我们在一开始就做了一个错误的假设μ=μ1。换句话说,此时我们应该认为μ>μ1,即男孩身高有明显增长。这就是假设检验的基本思路。按这一思路解题,首先需要明确以下几个问题 1°假设的建立。零假设:记为H,针对要考查的内容提出。本例中可为:H6:μ=151。它通常为一个数值, 或一个半开半闭区间(例如可能为H:u≤151)。原则为:a)通过统计检验决定接受或拒绝 H后,可对问题作出明确回答;b)要能根据H建立统计量的理论分布。备择假设:记为H,是除H外的一切可能值的集合。这里强调一切可能值是因为检验只能判断H是否成立,若不成立则必须是H。H通常是一个区间。例如当H取为μ=151时, H应取为u≠151。此时若有理由认为μ>151或μ<151不可能出现,也可只取H为可能出现的一半,即μ<151或μ冮151,这样可提高检验精度(原因参见单侧与双侧检验)。当H 取为μ≥151或μ≤151时,H则应相应取为μ<151或μ151。原则为:a)应包括除H外的一切可能值:b)如有可能,应缩小备择假设范围以提高检验精度 2°小概率原理:小概率事件在一次观察中不应出现。这是一切统计检验的理论基础注意:小概率事件不是不可能事件。观察次数多了,它迟早会出现。因此“一次”这个词是重要的 3°两种类型的错误:统计量是随机变量,它的取值受随机误差等因素的影响,是可以变化的。我们根据它作出的决定也完全可能犯错误。这一点无法绝对避免。统计上犯的错误可分为以下两类第一类错误:H正确,却被拒绝。又称弃真。犯这种错误的概率记为α。第二类错误:H错误,却被接受。又称存伪。犯这种错误的概率记为β 两类错误的关系可用图3.1说明:

§3.2 假设检验的基本方法与两种类型的错误现在我们从一道例题入手，看看假设检验的基本做法和其中所涉及的一些理论性问题。例 3.1 某地区 10 年前普查时，13 岁男孩子平均身高为 1.51m，现抽查 200 个 12.5 岁到 13.5 岁男孩，身高平均值为 1.53m，标准差 0.073m，问 10 年来该地区男孩身高是否有明显增长？分析：从题目知 10 年前总体均值μ1=1.51m。现在抽取 200 个个体，得样本均值 X = 1.53 m，样本标准差 S=0.073m。现在总体均值μ未知。题目要求判断μ>μ1 是否成立。解决方法：先假设μ=μ1=1.51m。再看从这样一个总体中抽出一个 n=200, X = 153， S=0.073 的样本的可能性有多大？如果这可能性很大，我们只能认为μ与μ1 差别不大，即 μ=μ1 很可能成立。反之若可能性很小，则说明在假设μ=μ1 成立的条件下，抽出这样一个样本的事件是一个小概率事件。小概率事件在一次观察中是不应发生的，但它现在发生了，一个合理的解释就是它本不是小概率事件，是我们把概率算错了。而算错的原因就是我们在一开始就做了一个错误的假设μ=μ1。换句话说，此时我们应该认为μ>μ1，即男孩身高有明显增长。这就是假设检验的基本思路。按这一思路解题，首先需要明确以下几个问题： 1°假设的建立。零假设：记为 H0，针对要考查的内容提出。本例中可为：H0: μ=151。它通常为一个数值，或一个半开半闭区间（例如可能为 H0:u≤151）。原则为：a)通过统计检验决定接受或拒绝 H0 后，可对问题作出明确回答；b）要能根据 H0 建立统计量的理论分布。备择假设：记为 HA，是除 H0 外的一切可能值的集合。这里强调一切可能值是因为检验只能判断 H0 是否成立，若不成立则必须是 HA。HA 通常是一个区间。例如当 H0 取为 μ=151 时， HA 应取为μ≠151。此时若有理由认为μ>151 或μ151，这样可提高检验精度（原因参见单侧与双侧检验）。当 H0 取为μ≥151 或μ≤151 时，HA 则应相应取为μ151。原则为：a)应包括除 H0 外的一切可能值；b)如有可能，应缩小备择假设范围以提高检验精度。 2°小概率原理：小概率事件在一次观察中不应出现。这是一切统计检验的理论基础。注意：小概率事件不是不可能事件。观察次数多了，它迟早会出现。因此“一次”这个词是重要的。 3°两种类型的错误：统计量是随机变量，它的取值受随机误差等因素的影响，是可以变化的。我们根据它作出的决定也完全可能犯错误。这一点无法绝对避免。统计上犯的错误可分为以下两类：第一类错误：H0 正确，却被拒绝。又称弃真。犯这种错误的概率记为α。第二类错误：H0 错误，却被接受。又称存伪。犯这种错误的概率记为β。两类错误的关系可用图 3.1 说明：

双侧检验时拒绝域分为两块,但阴影部分总面积是与单侧检验相同的,因此 un2|>l,从而使B增大(参见3°)。这样在a相同时,单侧检验的B值小于双侧检验, 即单侧检验优于双侧检验。这是因为我们使用了额外的知识排除了一种可能性 5°显著性水平的选择。 a的选择有很大任意性。选择的主要依据是犯了两类错误后的危害性大小。例如,若问题为药品出厂检验,H:合格,H:不合格。第一类错误为实际合格,判为不合格,药厂承受经济损失;第二类错误为实际不合格,判为合格,出厂后可能引起严重的索赔问题。权衡利弊,第二类错误危害大。因此应取较大的α,以减小β。反之,若检验对象是钮扣,则即使有些废品率稍高的产品进入市场也不会有多大关系,而报废一批产品损失就很大,因此应减小a a的常用值为:0.05,0.01。个别情况下使用0.1。 §3.3正态总体的假设检验本节开始介绍对正态总体进行假设检验的具体方法。从正态分布的密度函数可知,正态总体只有两个参数,这就是期望μ和方差02。因此我们的检验主要也是针对这两个参数进行。本节只讨论两种类型的假设检验,那就是单样本检验和双样本检验。所谓单样本检验就是全部样品都抽自一个总体,检验的目的通常是μ或σ是否等于某一数值:双样本检验则是有分别抽自不同总体的两个样本,检验的目的是看这两个总体的μ或0是否相等。双样本检验的最大优点是我们不必知道总体的参数究竟应该等于什么数值,而只要看看它是否有变化就可以了。在生物学实验中我们常常采取设置对照的方法,如检验某种药物是否比安慰剂有更好的疗效:或新品种农作物是否比旧品种产量更高等等,此时都应该采用双样本检验的方法。如果我们需要考虑三个以上总体,则应采用第四章介绍的方差分析的方法。、单样本检验步骤 1°建立假设,包括H与H。般来说,H取值有三种可能:μ=μ。,μ≤μ,或μ≥μo。这里μ是一个具体数值注意H的表达式中必须包含等号,因为我们实际上就是根据这个等号建立理论分布的。μ。数值的确定一般有三种可能的来源:a)凭经验我们知道μ应等于多少;b)根据某种理论可以计算出μ。应等于多少:c)实际问题要求它等于多少,例如市场要求产品寿命不得小于 1000小时等。至于H中是否包含大于或小于号则主要看实际问题的要求对应于H的三种可能取值,H也有相应三种:μ≠ 或μ>μo。当H取为 μ=μo,但我们由专业知识可知μ>μ,或μ<μ。中有一种不可能出现时,也可选择另一种为H。此时也相当于单侧检验。注意H应包括除外的一切可能值。在有专业知识可依据的情况下,应优先选取单侧检验,因为这样可提高检验精度。需要强调的是选择单尾的依据必须来自数据以外的专业知识或实践要求,而不能来自数据本身。换句话说,不能看数据偏大就取上单尾检验,偏小就取下单尾检验。这是因为即使观测数据偏大,它们也可能来自一个均值偏小的总体 2°选择显著性水平a。 α最常用的数值是0.05。当我们计算出统计量的观测值出现的概率大于0.05时,我们称之为“没有显著差异”,并接受H;当小于0.05时,我们称之为“差异显著”,并拒绝H 一般情况下,此时我们应进一步与0.01比较,若算出的概率也小于0.01,则称“差异极显著”,此时我们拒绝H就有了更大把握。在个别情况下,例如犯第二类错误后后果十分严重时,也可选用0.1或其他数值。需要特别强调的是我们一般都取α=0.05,这只是一种约定

双侧检验时拒绝域分为两块，但阴影部分总面积是与单侧检验相同的，因此 u / 2  ua ，从而使β增大（参见 3°）。这样在α相同时，单侧检验的β值小于双侧检验, 即单侧检验优于双侧检验。这是因为我们使用了额外的知识排除了一种可能性。 5°显著性水平的选择。 α的选择有很大任意性。选择的主要依据是犯了两类错误后的危害性大小。例如，若问题为药品出厂检验，H0：合格，HA：不合格。第一类错误为实际合格，判为不合格，药厂承受经济损失；第二类错误为实际不合格，判为合格，出厂后可能引起严重的索赔问题。权衡利弊，第二类错误危害大。因此应取较大的α，以减小β。反之，若检验对象是钮扣，则即使有些废品率稍高的产品进入市场也不会有多大关系，而报废一批产品损失就很大，因此应减小α。 α的常用值为：0.05, 0.01。个别情况下使用 0.1。 §3.3 正态总体的假设检验本节开始介绍对正态总体进行假设检验的具体方法。从正态分布的密度函数可知，正态总体只有两个参数，这就是期望μ和方差σ2。因此我们的检验主要也是针对这两个参数进行。本节只讨论两种类型的假设检验，那就是单样本检验和双样本检验。所谓单样本检验就是全部样品都抽自一个总体，检验的目的通常是μ或σ是否等于某一数值；双样本检验则是有分别抽自不同总体的两个样本，检验的目的是看这两个总体的μ或σ是否相等。双样本检验的最大优点是我们不必知道总体的参数究竟应该等于什么数值，而只要看看它是否有变化就可以了。在生物学实验中我们常常采取设置对照的方法，如检验某种药物是否比安慰剂有更好的疗效；或新品种农作物是否比旧品种产量更高等等，此时都应该采用双样本检验的方法。如果我们需要考虑三个以上总体，则应采用第四章介绍的方差分析的方法。一、单样本检验步骤 1°建立假设，包括 H0 与 HA。一般来说，H0 取值有三种可能：μ=μ0，μ≤μ0，或μ≥μ0。这里μ0 是一个具体数值。注意 H0 的表达式中必须包含等号，因为我们实际上就是根据这个等号建立理论分布的。μ0 数值的确定一般有三种可能的来源：a）凭经验我们知道μ0 应等于多少；b）根据某种理论可以计算出μ0 应等于多少；c）实际问题要求它等于多少，例如市场要求产品寿命不得小于 1000 小时等。至于 H0 中是否包含大于或小于号则主要看实际问题的要求。对应于 H0 的三种可能取值，HA 也有相应三种：μ≠μ0，μμ0。当 H0 取为 μ=μ0，但我们由专业知识可知μ>μ0，或μ<μ0 中有一种不可能出现时，也可选择另一种为 HA。此时也相当于单侧检验。注意 HA 应包括除 H0 外的一切可能值。在有专业知识可依据的情况下，应优先选取单侧检验，因为这样可提高检验精度。需要强调的是选择单尾的依据必须来自数据以外的专业知识或实践要求，而不能来自数据本身。换句话说，不能看数据偏大就取上单尾检验，偏小就取下单尾检验。这是因为即使观测数据偏大，它们也可能来自一个均值偏小的总体。 2°选择显著性水平α。 α最常用的数值是 0.05。当我们计算出统计量的观测值出现的概率大于 0.05 时，我们称之为“没有显著差异”，并接受 H0；当小于 0.05 时，我们称之为“差异显著”，并拒绝 H0。一般情况下，此时我们应进一步与 0.01 比较，若算出的概率也小于 0.01，则称“差异极显著”，此时我们拒绝 H0 就有了更大把握。在个别情况下，例如犯第二类错误后后果十分严重时，也可选用 0.1 或其他数值。需要特别强调的是我们一般都取α=0.05，这只是一种约定

俗成,理论上并没有任何特殊意义。从这个角度看,当我们算出的概率等于0.051时就接受 H,等于0.049时就拒绝H,这是没有什么道理的。在实际工作中,如果我们算出的概率十分接近0.05,一般不应轻易下结论,而应增加样本含量后再次进行检验。 3°选择统计量及其分布。检验均值一般选择Ⅹ为统计量,检验方差则选择S2为统计量。统计量服从什么分布则要由§3.1中的抽样分布来决定。各种情况下的统计量理论分布如下检验均值:可根据是否知道总体方差分为以下两种情况: a)总体方差σ已知:根据§3.1(3.5)式应使用u检验,统计量服从正态分布。 ~N() (3.10) 注意这里分母上要除以√n,这是因为o是总体标准差,统计量F的标准差应为总体标准差的1/Nm,因此用上述公式才能将F标准化。 b)总体方差σ2未知:根据§3.1(3.7)式,应使用t检验,统计量服从t分布。一o~t( (3.11) S/√n 注意这里分母上除以√m的原因与u检验相同,n不是S2的自由度。S的自由度n-1已在它的表达式中除去了。参见§3.1最后的说明。检验方差:根据§3.1(3.6)式,使用x2检验,统计量服从x2分布 (n-1)S 上述各式中X为样本均值,S2为样本方差,n为样本容量,uo与G2为H中总体均值与方差取值 4°建立拒绝域。根据统计假设确定是单侧检验还是双侧检验,根据统计量的分布选取适当的表,再根据选定的α值查出分位数取值,从而建立拒绝域。注意正态分布和t分布的密度函数关于y 轴对称,如果是双侧检验可取绝对值与分位数比:如果是单侧检验则应区分下单尾是小于负分位数拒绝H,上单尾则是大于正分位数拒绝H。x2分布则没有对称性,必须分别查下侧分位数和上侧分位数。 5°计算统计量,并对结果作出解释把样本观测值代入统计量公式,求得统计量取值,检查是否落入拒绝域。若没落入则认为“无显著差异”,接受H:若落入α=0.05的拒绝域,则应进一步与α=0.01的拒绝域比较若未落入,则认为“有显著差异,但未达极显著水平”,拒绝H;若也落入a=0.01拒绝域, 则认为“有极显著差异”,拒绝秈。最后,根据上述检验结果对原问题作出明确回答例3.1某地区10年前普查时,13岁男孩平均身高为1.51m。现抽查200个12.5岁至13.5 岁男孩,身高平均值为1.53m,标准差S=0.073m,问10年来该地区男孩身高是否有明显增长?

俗成，理论上并没有任何特殊意义。从这个角度看，当我们算出的概率等于 0.051 时就接受 H0，等于 0.049 时就拒绝 H0，这是没有什么道理的。在实际工作中，如果我们算出的概率十分接近 0.05，一般不应轻易下结论，而应增加样本含量后再次进行检验。 3°选择统计量及其分布。检验均值一般选择 X 为统计量，检验方差则选择 S 2 为统计量。统计量服从什么分布则要由§3.1 中的抽样分布来决定。各种情况下的统计量理论分布如下：检验均值：可根据是否知道总体方差分为以下两种情况： a）总体方差σ2 已知：根据§3.1（3.5）式应使用 u 检验，统计量服从正态分布。 ~ (0,1) / 0 N n X u  −  = (3.10) 注意这里分母上要除以 n ，这是因为σ是总体标准差，统计量 X 的标准差应为总体标准差的 1/ n ，因此用上述公式才能将 X 标准化。 b) 总体方差σ2 未知：根据§3.1（3.7）式，应使用 t 检验，统计量服从 t 分布。 S n X t / − 0 = ～t(n-1) (3.11) 注意这里分母上除以 n 的原因与 u 检验相同，n 不是 S 2 的自由度。S 2 的自由度 n-1 已在它的表达式中除去了。参见§3.1 最后的说明。检验方差：根据§3.1（3.6）式，使用 2 检验，统计量服从 2 分布。 ~ ( 1) ( 1) 2 2 0 2 2 − − = n n S    （3.12）上述各式中 X 为样本均值，S 2 为样本方差，n 为样本容量，μ0 与 2  0 为 H0 中总体均值与方差取值。 4°建立拒绝域。根据统计假设确定是单侧检验还是双侧检验，根据统计量的分布选取适当的表，再根据选定的α值查出分位数取值，从而建立拒绝域。注意正态分布和 t 分布的密度函数关于 y 轴对称，如果是双侧检验可取绝对值与分位数比；如果是单侧检验则应区分下单尾是小于负分位数拒绝 H0，上单尾则是大于正分位数拒绝 H0。 2 分布则没有对称性，必须分别查下侧分位数和上侧分位数。 5°计算统计量，并对结果作出解释。把样本观测值代入统计量公式，求得统计量取值，检查是否落入拒绝域。若没落入则认为“无显著差异”，接受 H0；若落入α=0.05 的拒绝域，则应进一步与α=0.01 的拒绝域比较，若未落入，则认为“有显著差异，但未达极显著水平”，拒绝 H0；若也落入α=0.01 拒绝域，则认为“有极显著差异”，拒绝 H0。最后，根据上述检验结果对原问题作出明确回答。例 3.1 某地区 10 年前普查时，13 岁男孩平均身高为 1.51m。现抽查 200 个 12.5 岁至 13.5 岁男孩，身高平均值为 1.53m，标准差 S=0.073m，问 10 年来该地区男孩身高是否有明显增长？

S2=a∑(x2-308)2=9254 S=962 sx-Ao_308-3002495 S/√n 查t分布表,得:to9(8)=2306,t9s(8)=5.841,∴b9st<9s,差异显著,但未达极显著水平,拒绝Ho,药物对果穗重量有影响。这道题虽然两种解法结果都是差异显著但未达极显著,但比较它们的分位数可知,u 检验统计量已接近极显著水平,而t检验则是接近显著水平。这说明两种解法间还是有一定差异的。这样就马上引出一个问题:哪种解法更好?如果它们的结果不同,应采用哪一种? 这个问题问得很简洁,也很直截了当,但却没有一个同样简洁,同样直截了当的回答仔细看一下t分布的分位数表,就可以发现正态分布其实就是t分布自由度趋于∞的极限再比较一下u检验和t检验的表达式,可见它们的差异就是用总体标准差σ还是用样本标准差S作分母。t分布的分位数比正态分布大,说明t检验不如u检验精确,原因就是t检验中的S是根据一个小样本估计的,它本身也有误差:而u检验中的是已知的总体参数,它是准确的,不再包含任何其他误差了。考虑到S中误差的影响,t检验的精度确实会有所下降,因此它的分位数才会比正态分布大,而且自由度越小与正态分布的差别就越大。从上述讨论看,解法1似乎优于解法2,但实际情况却不那么简单。上述讨论的前提是喷药后果穗重量的方差确实没有改变,因此我们才有一个现成的可以用。这一点并不是由什么专业知识来判断,而是解法1中第一步检验的结果。在本题中,这似乎问题不大,因为ⅹ2统计量几乎是在两个分位数构成的接受域的中点,说明方差可能确实没有改变:但如果情况不是这样,而是x2统计量接近于某个分位数,我们又该如何判断呢?此时若我们仍用方法1,虽然u检验比较精确,但它的基础却有点不可靠,因为统计检验的原则就是一般情况下都接受 H,只有差异实在是相当显著,无法忽略了才拒绝。这样虽然ⅹ2检验通过了,但实际情况很可能是方差有所改变,只是变得不大而已。如果这是真的,那就相当于在u检验中引入了个额外误差,大大降低了它的可靠性。总结上述的讨论,关于这两种方法哪种好的回答应当是:如果象本题这样σ2没有改变的可能性很大,最好用第一种方法;如果ⅹ2检验就拒绝了H,即σ2已有改变,那当然应用第二种方法;如果介于这二者之间,即x2检验的统计量接近某一侧分位数,那就不太好说了,理论上使用哪种方法都可以,都不能说错,不过我自己倾向于使用第二种方法双样本检验步骤双样本检验步骤与单样本基本相同。只是H中的μ=μ。要改为μ:=μ2,即现在不再是检验总体参数是否等于某一数值,而是检验两个总体参数是否相等。再有就是统计量和分布都有所变化。下面我们着重介绍统计量及分布的变化,相同或变化不大的部分,如建立统计假设、选择显著性水平、建立拒绝域、计算统计量并解释结果等不再重复。统计量的选择方法如下检验两个方差是否相等:F检验。在:01=02成立的条件下,根据§31的(38)式,有 (m-1,n-1) 其中S2,S2分别为两样本子样方差,m,n分别为样本含量

2.495 9.62 / 9 308 300 / 9.62 ( 308) 92.54 8 1 0 9 1 2 2 = − = − = = =  − = = S n x t S S x i i  查 t 分布表，得：t0.975(8) = 2.306, t0.995(8) = 5.841, ∴t0.975 <t < t0.995, 差异显著，但未达极显著水平，拒绝 H0，药物对果穗重量有影响。这道题虽然两种解法结果都是差异显著但未达极显著，但比较它们的分位数可知，u 检验统计量已接近极显著水平，而 t 检验则是接近显著水平。这说明两种解法间还是有一定差异的。这样就马上引出一个问题：哪种解法更好？如果它们的结果不同，应采用哪一种？这个问题问得很简洁，也很直截了当，但却没有一个同样简洁，同样直截了当的回答。仔细看一下 t 分布的分位数表，就可以发现正态分布其实就是 t 分布自由度趋于∞的极限。再比较一下 u 检验和 t 检验的表达式，可见它们的差异就是用总体标准差σ还是用样本标准差 S 作分母。t 分布的分位数比正态分布大，说明 t 检验不如 u 检验精确，原因就是 t 检验中的 S 是根据一个小样本估计的，它本身也有误差；而 u 检验中的σ是已知的总体参数，它是准确的，不再包含任何其他误差了。考虑到 S 中误差的影响，t 检验的精度确实会有所下降，因此它的分位数才会比正态分布大，而且自由度越小与正态分布的差别就越大。从上述讨论看，解法 1 似乎优于解法 2，但实际情况却不那么简单。上述讨论的前提是喷药后果穗重量的方差确实没有改变，因此我们才有一个现成的σ可以用。这一点并不是由什么专业知识来判断，而是解法 1 中第一步检验的结果。在本题中，这似乎问题不大，因为χ2 统计量几乎是在两个分位数构成的接受域的中点，说明方差可能确实没有改变；但如果情况不是这样，而是χ2 统计量接近于某个分位数，我们又该如何判断呢？此时若我们仍用方法 1，虽然 u 检验比较精确，但它的基础却有点不可靠，因为统计检验的原则就是一般情况下都接受 H0，只有差异实在是相当显著，无法忽略了才拒绝。这样虽然χ2 检验通过了，但实际情况很可能是方差有所改变，只是变得不大而已。如果这是真的，那就相当于在 u 检验中引入了一个额外误差，大大降低了它的可靠性。总结上述的讨论，关于这两种方法哪种好的回答应当是：如果象本题这样σ2 没有改变的可能性很大，最好用第一种方法；如果χ2 检验就拒绝了 H0，即σ2 已有改变，那当然应用第二种方法；如果介于这二者之间，即χ2 检验的统计量接近某一侧分位数，那就不太好说了，理论上使用哪种方法都可以，都不能说错，不过我自己倾向于使用第二种方法。二、双样本检验步骤双样本检验步骤与单样本基本相同。只是 H0 中的μ=μ0 要改为μ1=μ2，即现在不再是检验总体参数是否等于某一数值，而是检验两个总体参数是否相等。再有就是统计量和分布都有所变化。下面我们着重介绍统计量及分布的变化，相同或变化不大的部分，如建立统计假设、选择显著性水平、建立拒绝域、计算统计量并解释结果等不再重复。统计量的选择方法如下：检验两个方差是否相等：F 检验。在 H0: σ1=σ2 成立的条件下，根据§3.1 的（3.8）式，有： ~ ( 1, 1) 2 2 2 1 = F m − n − S S F (3.13) 其中 2 2 2 1 S , S 分别为两样本子样方差，m, n 分别为样本含量

《生物统计》第三章 统计推断

《生物统计》第三章统计推断