第七章假设检验 推论统计有两个基本内容:①假设检验;②参数估计。有了概率和概率分布 的知识,接下来我们要逐步掌握统计检验的一般步骤。既然按照数学规则得到的 概率都不能用经验方法准确求得,于是,理论概率和经验得到的频率之间肯定存 在某种差别,这就引出了实践检验理论的问题。 随机变量的取值状态不同,其概率分布的形式也就不同。本章我们不仅要引 出二项分布和正态分布这两个著名的概率分布,并且要将它们与抽样调查联系起 来,以领会统计检验,并逐步拓宽其应用面 第一节二项分布 二项分布是从著名的贝努里试验中推导而来。所谓贝努里试验,是指只有两 种可能结果的随机试验。在实际问题中,有许多随机现象只包含两个结果,如男 与女,是与非,生与死,同意与不同意,赞成与反对等等。通常,我们把其中比 较关注那个结果称为“成功”,另一个结果则称为“失败”。每当情况如同贝努里 试验,是在相同的条件下重复n次,考虑的是“成功”的概率,且各次试验相互 独立,就可利用与二项分布有关的统计检验。虽然许多分布较之二项分布更实用, 但二项分布简单明了,况且其他概率分布的使用和计算逻辑与之相同。所以要理 解统计检验以及它所涉及的许多新概念,人们几乎都乐意从二项分布的讨论入 1.二项分布的数学形式 从掷硬币的试验入手。假定二项试验由重复抛掷n次硬币组成,已知硬币 面朝上(成功)的概率是p,面朝下(失败)的概率是q(显然有q=1-p)。这样, 对试验结果而言,成功的次数(即硬币面朝上的次数)X是一个离散型随机变量 它的可能取值是0,1,2,3,…,n。而对X的一个具体取值x而言,根据乘法 规则,我们立刻可以就试验结果计算出一种特定排列方式(先x次面朝上,而后 n-x次面朝下)实现的概率,即 ppppqqgg-pxqn-x
第七章 假设检验 推论统计有两个基本内容:①假设检验;②参数估计。有了概率和概率分布 的知识,接下来我们要逐步掌握统计检验的一般步骤。既然按照数学规则得到的 概率都不能用经验方法准确求得,于是,理论概率和经验得到的频率之间肯定存 在某种差别,这就引出了实践检验理论的问题。 随机变量的取值状态不同,其概率分布的形式也就不同。本章我们不仅要引 出二项分布和正态分布这两个著名的概率分布,并且要将它们与抽样调查联系起 来,以领会统计检验,并逐步拓宽其应用面。 第一节 二项分布 二项分布是从著名的贝努里试验中推导而来。所谓贝努里试验,是指只有两 种可能结果的随机试验。在实际问题中,有许多随机现象只包含两个结果,如男 与女,是与非,生与死,同意与不同意,赞成与反对等等。通常,我们把其中比 较关注那个结果称为“成功”,另一个结果则称为“失败”。每当情况如同贝努里 试验,是在相同的条件下重复 n 次,考虑的是“成功”的概率,且各次试验相互 独立,就可利用与二项分布有关的统计检验。虽然许多分布较之二项分布更实用, 但二项分布简单明了,况且其他概率分布的使用和计算逻辑与之相同。所以要理 解统计检验以及它所涉及的许多新概念,人们几乎都乐意从二项分布的讨论入 手。 1. 二项分布的数学形式 从掷硬币的试验入手。假定二项试验由重复抛掷 n 次硬币组成,已知硬币 面朝上(成功)的概率是 p,面朝下(失败)的概率是 q (显然有 q=1―p)。这样, 对试验结果而言,成功的次数(即硬币面朝上的次数)X 是一个离散型随机变量, 它的可能取值是 0,1,2,3,…,n。而对 X 的一个具体取值 x 而言,根据乘法 规则,我们立刻可以就试验结果计算出一种特定排列方式(先 x 次面朝上,而后 n―x 次面朝下)实现的概率,即 ppp…pqqq…q=pxqn-x
由于正确解决概率问题,光考虑乘法规则是不够的,还要考虑加法规则,于 是就x次成功和(n-x)次失败这个宏观结果而言所包含的所有排列的方式数, 用符号表示 这样,我们就得到了二项试验中随机变量X的概率分布,即 P( 2.二项分布讨论 ①二项分布为离散型随机变量的分布。每当试验做的是在相同的条件下 n次重复的伯努利试验时,随机变量X共有n+1个取值。二项分布可以用分 布律(见上表)和折线图(见右图)来表示。 ②当P=0.5时二项分布的图形是对称的。 PCr-x)d 0.25 o.2 0.5 g1o1214 3 E(X)=H=np, D(X)=0 2= npq ④二项分布受p和n变化的影响,只要确定了p和n,成功次 数Ⅹ的分布也随之确定。因此,二项分布还可简写作B(x;n,p) ⑤二项分布的概率值除了根据公式直接进行计算外,还可查表求得。 二项分布表的编制方法有两种:一种依据概率分布律P(x)编制(见附表2) 另一种依据分布函数F(x)编制(见附表3)。 (x)=P(X≥x)=∑B(X;n,p)
由于正确解决概率问题,光考虑乘法规则是不够的,还要考虑加法规则,于 是就 x 次成功和(n―x)次失败这个宏观结果而言所包含的所有排列的方式数, 用符号表示 这样,我们就得到了二项试验中随机变量 X 的概率分布,即 2. 二项分布讨论 ① 二项分布为离散型随机变量的分布。每当试验做的是在相同的条件下 n 次重复的伯努利试验时,随机变量 X 共有 n+1 个取值。二项分布可以用分 布律(见上表)和折线图(见右图)来表示。 ②当 P=0.5 时二项分布的图形是对称的。 ③ E(X)=μ=np, D(X)= σ2= npq ④ 二项分布受 p 和 n 变化的影响,只要确定了 p 和 n,成功次 数 X 的分布也随之确定。因此,二项分布还可简写作 B(x; n,p)。 ⑤二项分布的概率值除了根据公式直接进行计算外,还可查表求得。 二项分布表的编制方法有两种:一种依据概率分布律 P(x) 编制(见附表 2); 另一种依据分布函数 F(x) 编制(见附表 3)。 !( )! ! x n x n C x n − = x x n x P X x Cn p q − ( = ) = = = n x F(x) P(X x) B(X;n, p)
[例]某特定社区人口的10%是少数民族,现随机抽取6人,问其中恰好2 人是少数民族的概率是多少? [解]解法一:根据(7.3)式直接计算 P(X=2)=C6p'q =0.0984 214!(10)(10 解法二:根据附表2中纵列n=6和横行p=0.1所对应ⅹ值,可直 接查得B(x:6,0.1)的概率值 B(2;6,0.1)=0.0984 解法三:根据附表3求得 B(2;6,0.1)=F(2)-F(3) 0.1143-0.0159=0.0984 第二节统计检验的基本步骤 二项分布是用数学或演绎推理的方法求得的一种理论分布。认识到概率 分布是先验的理论分布这一点很重要,因为我们不禁要问,既然试验或抽样 调査的结果仅与随机变量可能取值中的一个相联系,那么实际试验或样本调 查对结果的概率分布及前提假设有没有一个检验的问题?具体来讲,对于一 枚硬币被重复抛掷8次的二项试验,经验告诉我们,一共有9种可能的结果, 而且实现这些结果的机会是大不相同的。研究者实际上从来不用经验的方法 求得概率分布,因为通常我们只对一项试验进行一次或几次,抽取样本也是 个或至多不过几个。既然二项分布是按照数学规则得到的,那么对这9种 结果的可能性我们应该作出何种评价呢?如果实际试验(或抽样)得到的结 果偏巧就是先验概率预示的最不可能出现的结果,那么我们是认定纯属巧 合,还是开始对用数学或演绎推理方法求得的概率以及理想试验的种种前提 假设产生怀疑?更准确地说,在一枚硬币被重复抛掷8次的这个二项试验中, 究竟出现什么结果时,我们应该对二项分布及其前提假设产生怀疑呢?是不 是只要不是得到4次成功4次失败这个最大可能性结果就开始怀疑,还是仅
[例] 某特定社区人口的 10%是少数民族,现随机抽取 6 人,问其中恰好 2 人是少数民族的概率是多少? [解] 解法一:根据(7.3)式直接计算 解法二:根据附表 2 中纵列 n=6 和横行 p=0.1 所对应 x 值,可直 接查得 B(x;6,0.1)的概率值 B (2;6,0.1)=0.0984 解法三:根据附表 3 求得 B (2;6,0.1)=F(2) ―F(3 ) = 0.1143―0.0159=0.0984 第二节 统计检验的基本步骤 二项分布是用数学或演绎推理的方法求得的一种理论分布。认识到概率 分布是先验的理论分布这一点很重要,因为我们不禁要问,既然试验或抽样 调查的结果仅与随机变量可能取值中的一个相联系,那么实际试验或样本调 查对结果的概率分布及前提假设有没有一个检验的问题?具体来讲,对于一 枚硬币被重复抛掷 8 次的二项试验,经验告诉我们,一共有 9 种可能的结果, 而且实现这些结果的机会是大不相同的。研究者实际上从来不用经验的方法 求得概率分布,因为通常我们只对一项试验进行一次或几次,抽取样本也是 一个或至多不过几个。既然二项分布是按照数学规则得到的,那么对这 9 种 结果的可能性我们应该作出何种评价呢?如果实际试验(或抽样)得到的结 果偏巧就是先验概率预示的最不可能出现的结果,那么我们是认定纯属巧 合,还是开始对用数学或演绎推理方法求得的概率以及理想试验的种种前提 假设产生怀疑?更准确地说,在一枚硬币被重复抛掷 8 次的这个二项试验中, 究竟出现什么结果时,我们应该对二项分布及其前提假设产生怀疑呢?是不 是只要不是得到 4 次成功 4 次失败这个最大可能性结果就开始怀疑,还是仅 0.0984 10 9 10 1 2!4! 6! ( 2) 2 4 2 2 4 6 = P X = = C p q =
当出现8次成功或一次也不成功这两个极端情况时才产生怀疑呢?这就是统 计检验的核心问题 统计检验是指先建立一个关于总体情况的假设,继而抽取一个随机样 本,然后以样本的统计量或者统计性质来检定假设。 大数定理表明:就大量观察而言,事件的发生具有一定的规律性。 根据概率的大小,人们处理的态度和方式很不一样。 在日常生活中,人们往往习惯于把概率很小的事件,当作一次观察中是 极不可能看到的事件。例如,人们出门做事就有可能遇到不测事故,但却很 少人因此而不敢出门。原因是:小概率事件极不可能发生。 统计检验的依据是小概率原理:一是认为小概率事件在一次观察中是极 少出现的;二是如果在一次观察中出现了小概率事件,那么应该否定原有事 件具有小概率的说法或者假设 所有统计检验所包含的步骤: (1)建立假设 (2)求抽样分布 (3)选择显著性水平和否定域 (4)计算检验统计量 (5)判定 1.建立假设 统计检验是将抽样结果和抽样分布相对照而作出判断的工作。取得抽样结 果,依据描述性统计的方法就足够了。抽样分布则不然,它无法从资料中得到 非利用概率论不可。而不对待概括的总体和使用的抽样程序做某种必要的假设, 这项工作将无法进行。比如通过掷硬币的实验得到二项分布,必须假设:①样本 是随机的,试验中各次抛掷相互独立:②硬币是无偏的(或称是诚实的),即p q=0.5。概括地说,必须首先就研究总体和抽样方案都做出假设,再加上概率论, 我们就可以对各种可能结果做具体的概率陈述了。 2.求抽样分布 在做了必要的假设之后,我们就能用数学推理过程来求抽样分布了。比如在 这一章开头,在硬币重复抛掷n次的理想实验中,我们计算了成功次数为x的宏
当出现 8 次成功或一次也不成功这两个极端情况时才产生怀疑呢?这就是统 计检验的核心问题。 统计检验是指先建立一个关于总体情况的假设,继而抽取一个随机样 本,然后以样本的统计量或者统计性质来检定假设。 大数定理表明:就大量观察而言,事件的发生具有一定的规律性。 根据概率的大小,人们处理的态度和方式很不一样。 在日常生活中,人们往往习惯于把概率很小的事件,当作一次观察中是 极不可能看到的事件。例如,人们出门做事就有可能遇到不测事故,但却很 少人因此而不敢出门。原因是:小概率事件极不可能发生。 统计检验的依据是小概率原理:一是认为小概率事件在一次观察中是极 少出现的;二是如果在一次观察中出现了小概率事件,那么应该否定原有事 件具有小概率的说法或者假设。 所有统计检验所包含的步骤: (1)建立假设 (2)求抽样分布 (3)选择显著性水平和否定域 (4)计算检验统计量 (5)判定 1.建立假设 统计检验是将抽样结果和抽样分布相对照而作出判断的工作。取得抽样结 果,依据描述性统计的方法就足够了。抽样分布则不然,它无法从资料中得到, 非利用概率论不可。而不对待概括的总体和使用的抽样程序做某种必要的假设, 这项工作将无法进行。比如通过掷硬币的实验得到二项分布,必须假设:①样本 是随机的,试验中各次抛掷相互独立;②硬币是无偏的(或称是诚实的),即 p= q=0.5。概括地说,必须首先就研究总体和抽样方案都做出假设,再加上概率论, 我们就可以对各种可能结果做具体的概率陈述了。 2.求抽样分布 在做了必要的假设之后,我们就能用数学推理过程来求抽样分布了。比如在 这一章开头,在硬币重复抛掷 n 次的理想实验中,我们计算了成功次数为 x 的宏
观结果所具有的概率,得到二项分布。如果前提假设变动了,还可以求出其他形 式的概率分布,如正态分布、泊松分布、卡方分布等等,它们都有特定的方程式。 由于数学上已经取得的成果,实际上统计工作者要做的这项工作往往并不是真的 去求抽样分布的数学形式,而是根据具体需要,确定特定问题的统计检验应该采 用哪种分布的现成的数学用表。 3.选择显著性水平和否定域 (1)否定域 在统计检验中,那些不大可能的结果称为否定域。如果这类结果真的发生了, 我们将否定假设:反之就不否定假设 (2)零假设与备择假设 在统计检验中,通常把被检验的那个假设称为零假设(用符号H表示),并 用它和其他备择假设(用符号H1表示)相对比 (3)两类错误及其关系 在统计检验中,无论是拒绝或者接受原假设,都不可能做到百分之百的正确, 都有一定的错误。第一类错误是,零假设H实际上是正确的,却被否定了。第 二类错误则是,HO实际上是错的,却没有被否定。 遗憾的是,不管我们如何选择否定域,都不可能完全避免第一类错误和第二 类错误,也不可能同时把犯两类错误的危险压缩到最小。对任何一个给定的检验 而言,第一类错误的危险越小,第二类错误的概率就越大;反之亦然。一般来讲, 不可能具体估计出第二类错误的概率值。第一类错误则不然,犯第一类错误的概 率是否定域内各种结果的概率之和。 (4)显著性水平a 被我们事先选定的可以犯第一类错误的概率,叫做检验的显著性水平(用α 表示),它决定了否定域的大小。因此,有人也把第一类错误称之α错误。相应 地第二类错误被人称为错误。在原假设成立的条件下,统计检验中所规定的小概 率标准一般取为α=0.05或α=0.01 由α所决定的否定域与接受域之间的分界值被称为临界值,如Z。。如果抽 样分布是连续的,否定域可以建立在想要建立的任何水平上,否定域的大小可以 和显著性水平的要求一致起来(后面的正态检验就如此)
观结果所具有的概率,得到二项分布。如果前提假设变动了,还可以求出其他形 式的概率分布,如正态分布、泊松分布、卡方分布等等,它们都有特定的方程式。 由于数学上已经取得的成果,实际上统计工作者要做的这项工作往往并不是真的 去求抽样分布的数学形式,而是根据具体需要,确定特定问题的统计检验应该采 用哪种分布的现成的数学用表。 3.选择显著性水平和否定域 (1)否定域 在统计检验中,那些不大可能的结果称为否定域。如果这类结果真的发生了, 我们将否定假设;反之就不否定假设。 (2)零假设与备择假设 在统计检验中,通常把被检验的那个假设称为零假设(用符号 H0 表示),并 用它和其他备择假设(用符号 H1 表示)相对比。 (3)两类错误及其关系 在统计检验中,无论是拒绝或者接受原假设,都不可能做到百分之百的正确, 都有一定的错误。第一类错误是,零假设 H0 实际上是正确的,却被否定了。第 二类错误则是,H0 实际上是错的,却没有被否定。 遗憾的是,不管我们如何选择否定域,都不可能完全避免第一类错误和第二 类错误,也不可能同时把犯两类错误的危险压缩到最小。对任何一个给定的检验 而言,第一类错误的危险越小,第二类错误的概率就越大;反之亦然。一般来讲, 不可能具体估计出第二类错误的概率值。第一类错误则不然,犯第一类错误的概 率是否定域内各种结果的概率之和。 (4)显著性水平α 被我们事先选定的可以犯第一类错误的概率,叫做检验的显著性水平(用α 表示),它决定了否定域的大小。因此,有人也把第一类错误称之α错误。相应 地第二类错误被人称为错误。在原假设成立的条件下,统计检验中所规定的小概 率标准一般取为α=0.05 或α=0.01。 由α所决定的否定域与接受域之间的分界值被称为临界值,如 Z a。如果抽 样分布是连续的,否定域可以建立在想要建立的任何水平上,否定域的大小可以 和显著性水平的要求一致起来(后面的正态检验就如此)
如果抽样分布是非连续的,就要用累计概率的方法找出一组构成否定域的结果 (5)双侧检验和单侧检验 根据否定域位置的不同,可以将假设检验分为双侧检验和单侧检验。 在统计中,可以事先能预测偏差方向,因而可以把否定域集中到抽样分布更 合适的一端的检验,被称为单侧检验。 在统计中,必须把否定域分配到抽样分布的两端的检验,被称为双侧检验。 在同样显著性水平的条件下,单侧检验比双侧检验更合适。因为否定域 被集中到抽样分布更合适的一侧,这样在犯第一类错误的危险不变的情况 下,减少了犯第二类错误的危险。 奈曼一皮尔逊( Neyman- Pearson)提出了一个原则“在控制犯第一类 错误的概率不超过指定值α的条件下,尽量使犯第二类错误β小”按这种 法则做出的检验称为“显著性检验”,α称为显著性水平或检验水平。 [例]若想通过抛掷10次硬币的实验来检验这个硬币无偏的零假设, 通过双侧检验0.10显著性水平,请指出否定域。如果单侧检验(p0.4)
如果抽样分布是非连续的,就要用累计概率的方法找出一组构成否定域的结果。 (5)双侧检验和单侧检验 根据否定域位置的不同,可以将假设检验分为双侧检验和单侧检验。 在统计中,可以事先能预测偏差方向,因而可以把否定域集中到抽样分布更 合适的一端的检验,被称为单侧检验。 在统计中,必须把否定域分配到抽样分布的两端的检验,被称为双侧检验。 在同样显著性水平的条件下,单侧检验比双侧检验更合适。因为否定域 被集中到抽样分布更合适的一侧,这样在犯第一类错误的危险不变的情况 下,减少了犯第二类错误的危险。 奈曼—皮尔逊 (Neyman—Pearson)提出了一个原则 “在控制犯第一类 错误的概率不超过指定值α的条件下, 尽量使犯第二类错误 β小”按这种 法则做出的检验称为“显著性检验”,α称为显著性水平或检验水平。 [例] 若想通过抛掷 10 次硬币的实验来检验这个硬币无偏的零假设, 通过双侧检验 0.10 显著性水平,请指出否定域。如果单侧检验(p0.4)
二 正态分布 如果说二项分布是离散型随机变量最具典型意义的概率分布,那么连 续型随机变量最具典型意义的概率分布就是正态分布了。一般地讲,若影响 某一变量的随机因素很多,而每个因素所起的作用不太大且相互独立,则这 个变量服从正态分布。更为重要的是,不论总体是否服从正态分布,只要样 本容量n足够大,样本平均数的抽样分布就趋于正态分布。 正态分布是最重要的概率分布:(1)许多自然现象和社会现象,都可用 正态分布加以叙述;(2)当样本足够大时,都可用正态近似法解决变量的概 率分布问题;(3)许多统计量的抽样分布呈正态分布。 1正态分布的数学形式 PP(X=x) 正态分布性质: (1)正态曲线以x=μ呈钟型对称 均值=中位数=众数 (2)在x=μ处,概率密度最大;当区间离 μ越远,x落在这个区间的概率越小 (3)正态曲线的外形由σ值确定。对于固定的σ值,不同均值μ的正态曲线 的外形完全相同,差别只在于曲线在横轴方向上整体平移了一个位置 (4)对于固定的μ值,改变σ值,σ值越小,正态曲线越陡峭;σ值越大, 正态曲线越低平 (总之,正态分布曲线的位置是由μ决定的,而正态分布曲线的“高、矮 胖、瘦”由σ决定的。) (5)E(X)=μ D(X)=02
第三节 正态分布 如果说二项分布是离散型随机变量最具典型意义的概率分布,那么连 续型随机变量最具典型意义的概率分布就是正态分布了。一般地讲,若影响 某一变量的随机因素很多,而每个因素所起的作用不太大且相互独立,则这 个变量服从正态分布。更为重要的是,不论总体是否服从正态分布,只要样 本容量 n 足够大,样本平均数的抽样分布就趋于正态分布。 正态分布是最重要的概率分布:(1)许多自然现象和社会现象,都可用 正态分布加以叙述;(2)当样本足够大时,都可用正态近似法解决变量的概 率分布问题;(3)许多统计量的抽样分布呈正态分布。 1.正态分布的数学形式 正态分布性质: (1)正态曲线以 x=μ呈钟型对称 均值=中位数=众数 (2)在 x=μ处,概率密度最大;当区间离 μ越远,x 落在这个区间的概率越小。 (3)正态曲线的外形由σ值确定。对于固定的σ值,不同均值μ的正态曲线 的外形完全相同,差别只在于曲线在横轴方向上整体平移了一个位置 。 (4)对于固定的μ值,改变σ值,σ值越小,正态曲线越陡峭;σ值越大, 正态曲线越低平。 (总之,正态分布曲线的位置是由μ决定的,而正态分布曲线的“高、矮、 胖、瘦”由σ决定的。) (5)E(X)= μ D(X)= σ2 2 2 ( ) / 2 2 1 ( ) − − = = x X x e
图7.3具有相同标准差而均值不同的正态曲线之比较 N 图24具有相同均值面标准差不同的正态曲线之比较 2.标准正态分布 Z分数(标准正态变量) 用Z分数表达的标准正态分布,其概率密度为 3.正态曲线下的面积 P(x1≤X≤x2)=o(x)x 但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为此须计算出 现成的数值表供使用者查找。由于正态曲线的优良性质,这项工作可以卓有 成效地完成:①经过X的标准分 ,可以将任何正态分布N(μ, 02)转换成标准正态分布N(0,1);②运用分布函数的定义,并利用正态曲 线的对称性,通过下式(分布函数)可以计算编制出正态分布表(见附4)
2. 标准正态分布 Z 分数(标准正态变量) 用 Z 分数表达的标准正态分布,其概率密度为 3. 正态曲线下的面积 但积分毕竟太麻烦了,更何况许多人对积分运算不熟悉,为此须计算出 现成的数值表供使用者查找。由于正态曲线的优良性质,这项工作可以卓有 成效地完成:①经过 X 的标准分 ,可以将任何正态分布 N(μ, σ2)转换成标准正态分布 N(0,1);②运用分布函数的定义,并利用正态曲 线的对称性,通过下式(分布函数)可以计算编制出正态分布表(见附 4)。 − = X Z / 2 2 2 1 ( ) Z Z e − = = 2 1 ( ) ( ) 1 2 x x P x X x x dx − = X Z − = X Z
采用标准正态变量表达正态分布,使标准差得到了进一步阐明。我们 看到,标准差是计算总体单位分布及其标志值变异范围的主要依据,下图说 明了这一点 9546% 6826 -20-0+0+20 图7,6正态曲线下的面积 (1)变量值在【μ-0,μ+0】之间的概率为0.6826 (2)变量值在【μ-20,μ+20】之间的概率为0.9546 (3)变量值在【μ-30,μ+3σ】之间的概率为0.9973 总之,决定任意两点间的面积都完全是可能的。比如向均值两侧移1.96 个标准差,曲线下方便包含了大约95%的面积;如移动2.58个标准差,则 面积几乎是99%。附录4已编制了关于Z和标准正态曲线所含面积之间关系 的精确数值表,即Z从0到+∞变化,相应区间含的面积从0变至0.5 [例]设随机变量X服从正态分布N(168,122),试求P(X≤143)。 4、二项分布的正态近似法 通过前面的讨论,我们已经知道二项分布受成功事件概率p和重复次数n 两个参数的影响,只要确定了p和n,二项分布也随之确定了。但是,二项分 布的应用价值实际上受到了n的很大限制。也就是说,只有当n较小时,我们才 能比较方便地计算二项分布。所幸的是,二项分布是以正态分布为极限的。所以 当n很大时,只要p或q不近于零,我们就可以用正态近似来解决二项分布的计 算问题。即以np=μ、npq=σ2,将B(x;n,p)视为N(anp,npq)进行计 算。在社会统计中,当n≥30,np、nq均不小于5时,对二项分布作正态近 似是可靠的
采用标准正态变量表达正态分布,使标准差得到了进一步阐明。我们 看到,标准差是计算总体单位分布及其标志值变异范围的主要依据,下图说 明了这一点。 (1)变量值在【 μ-σ, μ+σ 】之间的概率为 0.6826。 (2)变量值在【 μ-2σ, μ+2σ 】之间的概率为 0.9546。 (3)变量值在【 μ-3σ, μ+3σ 】之间的概率为 0.9973。 总之,决定任意两点间的面积都完全是可能的。比如向均值两侧移 1.96 个标准差,曲线下方便包含了大约 95%的面积;如移动 2.58 个标准差,则 面积几乎是 99%。附录 4 已编制了关于 Z 和标准正态曲线所含面积之间关系 的精确数值表,即 Z 从 0 到+∞变化,相应区间含的面积从 0 变至 0.5。 [例] 设随机变量 X 服从正态分布 N(168,12² ),试求 P(X≤143)。 4、二项分布的正态近似法 通过前面的讨论,我们已经知道二项分布受成功事件概率 p 和重复次数 n 两个参数的影响,只要确定了 p 和 n,二项分布也随之确定了。 但是,二项分 布的应用价值实际上受到了 n 的很大限制。也就是说,只有当 n 较小时,我们才 能比较方便地计算二项分布。所幸的是,二项分布是以正态分布为极限的。所以 当 n 很大时,只要 p 或 q 不近于零,我们就可以用正态近似来解决二项分布的计 算问题。即以 n p=μ、n p q=σ2,将 B(x;n,p)视为 N(n p,n p q)进行计 算。在社会统计中,当 n ≥30,n p、n q 均不小于 5 时,对二项分布作正态近 似是可靠的
第四节中心极限定理 旦统计的学习进入到推论统计,我们就必须同时与三种不同的分布概念打 交道,即总体分布、样本分布、抽样分布。为了不产生混淆,视分布不同,将统 计指标的符号加以区别是完全必要的。对那些反映标志值集中趋势和离中趋势的 综合指标,尤其对均值和标准差(或方差) 抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样 分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分 布 在一个总体中可以产生无数个样本,所以样本统计量(比如均值)必定 是随机变量。这样就提出一个问题:如果样本统计量作为随机变量,它的概率 分布是什么样呢? [解]已知μ=168,0=12 143168 208 z是负值,表示X的取值处于均值左边。由于曲线完全对称,所以使用正态 分布表时可以忽略z的正负号。查表可知,正态曲线在均值与z=2.08之间所 含面积是0.4812。由于总面积的一半是0.5,因P(X≤143)可以由下面计算求得 P(X≤143)=0.5-P(0≤Z≤2.08) 0.5-0.4812 1.88% 这说明,X的取值小于或等于143的概率大约是2%。由于即将讨论的正态 检验几乎都要涉及概率分布的尾端,所以此例说明的是一个非常普遍的问题。 1.中心极限定理 我们知道,概率论中用来阐明大量随机现象平均结果的稳定性的定理,是著 名的大数定理。其具体内容是:频率稳定于概率,平均值稳定于期望值。但是, 大量随机现象的稳定性不仅表现在平均结果上,同时也表现在分布上,这就是中 心极限定理所要阐明的内容。显然,推论统计需要有一座能够架通抽样调査和抽
第四节 中心极限定理 一旦统计的学习进入到推论统计,我们就必须同时与三种不同的分布概念打 交道,即总体分布、样本分布、抽样分布。为了不产生混淆,视分布不同,将统 计指标的符号加以区别是完全必要的。对那些反映标志值集中趋势和离中趋势的 综合指标,尤其对均值和标准差(或方差)。 抽样分布特指样本统计量作为随机变量的概率分布。用数学语言来说,抽样 分布是运用数理统计的方法,把具体概率赋予样本的所有可能结果的一种理论分 布。 在一个总体中可以产生无数个样本,所以样本统计量(比如均值 )必定 是随机变量。 这样就提出一个问题:如果样本统计量作为随机变量,它的概率 分布是什么样呢? [解] 已知μ=168,σ=12 z 是负值,表示 X 的取值处于均值左边。由于曲线完全对称,所以使用正态 分布表时可以忽略 z 的正负号。查表可知,正态曲线在均值与 z=2.08 之间所 含面积是 0.4812。由于总面积的一半是 0.5,因 P(X≤143)可以由下面计算求得 P(X≤143)=0.5―P(0≤Z≤2.08) =0.5―0.4812 =1.88% 这说明,X 的取值小于或等于 143 的概率大约是 2%。由于即将讨论的正态 检验几乎都要涉及概率分布的尾端,所以此例说明的是一个非常普遍的问题。 1.中心极限定理 我们知道,概率论中用来阐明大量随机现象平均结果的稳定性的定理,是著 名的大数定理。其具体内容是:频率稳定于概率,平均值稳定于期望值。但是, 大量随机现象的稳定性不仅表现在平均结果上,同时也表现在分布上,这就是中 心极限定理所要阐明的内容。显然,推论统计需要有一座能够架通抽样调查和抽 2.08 12 143 168 = − − = − = x z