目录 第七章假设检验 1 7.1基本概念和问题的提法. 1 71.1零假设,对立假设,两类错误,拒绝域,显著性水平,功效..... 1 71.2 原假设的提法 7.1.3检验统计量的选取及假设检验的步骤 7.2重要参数检验 6 7.2.1一样本正态总体均值和方差的检验 6 7.22两样本正态总体的情形....... 10 7.2.3成对数据 12 7.2.40-1分布中未知参数p的假设检验 13 7.2.5置信区间和假设检验之间的关系 14 7.3拟合优度检验 15 7.3.1离散总体情形 1 7.3.2 列联表的独立性和齐一性检验 17 7.3.3 连续总体情形。······· 19
目录 第七章 假设检验 1 7.1 基本概念和问题的提法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 7.1.1 零假设, 对立假设, 两类错误, 拒绝域, 显著性水平, 功效 . . . . . . . . . . . . 1 7.1.2 原假设的提法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 7.1.3 检验统计量的选取及假设检验的步骤 . . . . . . . . . . . . . . . . . . . . . . 4 7.2 重要参数检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 7.2.1 一样本正态总体均值和方差的检验 . . . . . . . . . . . . . . . . . . . . . . . 6 7.2.2 两样本正态总体的情形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 7.2.3 成对数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 7.2.4 0-1 分布中未知参数 p 的假设检验 . . . . . . . . . . . . . . . . . . . . . . . 13 7.2.5 置信区间和假设检验之间的关系 . . . . . . . . . . . . . . . . . . . . . . . . 14 7.3 拟合优度检验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 7.3.1 离散总体情形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 7.3.2 列联表的独立性和齐一性检验 . . . . . . . . . . . . . . . . . . . . . . . . . . 17 7.3.3 连续总体情形 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 i
第七章 假设检验 教学目的: 1)理解假设检验的一些基本概念:零假设、对立假设、两类错误、拒绝域、显著性水平、功效, 2)学会将实际问题转化成假设检验问题来处理 3)一样本和两样本正态总体均值和方差的假设检验. 4)0-1分布参数的假设检验 5)拟合优度检验、列联表的独立性和齐一性检验, 7.1基本概念和问题的提法 7.1.1零假设,对立假设,两类错误,拒绝域,显著性水平,功效 在参数估计问题中,常常在抽样前先对未知总体作一些假定.例如假定总体X服从正态分布, 假定某个正态总体的方差为一个已知值等等.在数理统计中,关于总体分布的概率性质的假定称为 (统计)假设.抽样前所作出的假设是否与实际符合,可以用样本所提供的信息来检查,检查的方法 与过程称为(统计)检验.假设检验问题就是研究如何根据抽样后获得的样本来检验抽样前所作出 的假设.首先,由一个例子引出一些基本概念。 例7.1.1.某厂产品出厂检验规定:某批产品次品率p不超过4%才能出厂。现从某批产品10000件 中任意抽查12件发现4件次品,问该批产品能否出厂?若抽得结果是1件次品呢? 解:若以表示此批产品的次品率,则问该批产品能否出厂等价于即要检验次品率是否不超 过4%。我们假设“p≤4%”,并记Y为12件中的次品数,由于总产品数很大,故可以认为Y~ B(12,p),此时当p≤0.04时, PV=4到=(()p9<(2)004096=0.00914
第七章 假设检验 教学目的: 1) 理解假设检验的一些基本概念: 零假设、对立假设、两类错误、拒绝域、显著性水平、功效. 2) 学会将实际问题转化成假设检验问题来处理. 3) 一样本和两样本正态总体均值和方差的假设检验. 4) 0-1 分布参数的假设检验. 5) 拟合优度检验、列联表的独立性和齐一性检验. 7.1 基本概念和问题的提法 7.1.1 零假设, 对立假设, 两类错误, 拒绝域, 显著性水平, 功效 在参数估计问题中, 常常在抽样前先对未知总体作一些假定. 例如假定总体 X 服从正态分布, 假定某个正态总体的方差为一个已知值等等. 在数理统计中, 关于总体分布的概率性质的假定称为 (统计) 假设. 抽样前所作出的假设是否与实际符合, 可以用样本所提供的信息来检查, 检查的方法 与过程称为 (统计) 检验. 假设检验问题就是研究如何根据抽样后获得的样本来检验抽样前所作出 的假设. 首先, 由一个例子引出一些基本概念. 例 7.1.1. 某厂产品出厂检验规定:某批产品次品率p不超过4%才能出厂。现从某批产品10000件 中任意抽查12件发现4件次品,问该批产品能否出厂?若抽得结果是1件次品呢? 解: 若以p表示此批产品的次品率,则问该批产品能否出厂等价于即要检验次品率p是否不超 过4%。我们假设“p ≤ 4%”,并记Y 为12件中的次品数,由于总产品数很大,故可以认为Y ∼ B(12, p),此时当p ≤ 0.04时, P(Y = 4) = 12 4 p 4 q 8 < 12 4 0.044 0.968 = 0.000914 1
这是一个小概率事件,即当p≤0.04时,12件产品中有4件是次品的概率不到1/1000,这样的事件 在一次试验中几乎是不可能发生的,但确实发生了(我们观察到了4件次品),因此更倾向于怀疑假 设“p≤0.04”的正确性,即认为它不成立。而由于 PY=≤()p4os6P=03 即此时当假设“p≤0.04”成立时,“12个产品中有一个次品”这一事件的概率最大为0.306,这个 事件不是小概率事件。因此我们没有足够的证据支持原假设不成立这一说法。 例71.2.某饮料厂在自动流水线上罐装饮料.在正常生产情况下,每瓶饮料的容量(单位:毫升) X服从正态分布N(⑤00,10)(由以往的经验得知).经过一段时间之后,有人觉得每瓶饮料的平均 容量减小到490,于是抽取了9瓶样品,称得它们的平均值为元=492毫升.试问此断言是否正 确?即问平均每瓶饮料的容量仍是500毫升还是变成490毫升?假定标准差10毫升不变 在这个问题中,设经过一段时间后罐装饮料容量X的平均值为4,则由题意可设X~N(μ,102), 记x1,·,xg为取自这个正态总体X的一组样本观测值,则元=∑9=1:=492.我们需要在“饮 料平均容量为500毫升”与“饮料平均容量为490毫升”之间作判断,即在“μ=500”和“μ=490”之 间作判断.数理统计中,把它们看成两个假设.习惯上,称前者为原假设或零假设,记作Ho;后者 称为备择假设或对立假设,记作H1或Ha.所谓检验 H0:4=500←分H1:4=490. 就是要根据样本判断究竞是“Ho成立”还是“H1成立”.断言“Ho成立”称为接受Ho;断言“H1成 立”称为拒绝Ho 下面讨论如何检验上述假设,即给定一个接受或者拒绝零假设的准则.设从总体中抽取一个样 本X1,··,X,我们可以用极大似然估计T=了(称之为检验统计量)来估计山.由于该估计值接 近μ(尤其是当样本量较大时),故当T的绝对值小的时候有利于H1而不利于Ho,此时应该拒绝 Ho.我们可以事先取定一个常数T,称之为临界值,当T的取值小于该临界值时拒绝H,即样本 满足 W={及<T} 中时拒绝Ho,称W为拒绝域.即样本的取值落在拒绝域中,就拒绝Ho,否则不能拒绝之.一个拒 绝域就对应于一个检验方法.现在的问题是T应该取多大?这涉及到两类错误. 2
这是一个小概率事件,即当p ≤ 0.04时,12件产品中有4件是次品的概率不到1/1000,这样的事件 在一次试验中几乎是不可能发生的,但确实发生了(我们观察到了4件次品), 因此更倾向于怀疑假 设“p ≤ 0.04”的正确性,即认为它不成立。而由于 P(Y = 1) ≤ 12 1 0.041 0.9612 = 0.306 即此时当假设“p ≤ 0.04”成立时,“12个产品中有一个次品”这一事件的概率最大为0.306,这个 事件不是小概率事件。因此我们没有足够的证据支持原假设不成立这一说法。 例 7.1.2. 某饮料厂在自动流水线上罐装饮料. 在正常生产情况下, 每瓶饮料的容量 (单位: 毫升) X 服从正态分布 N(500, 102 ) (由以往的经验得知). 经过一段时间之后, 有人觉得每瓶饮料的平均 容量减小到 490, 于是抽取了 9 瓶样品, 称得它们的平均值为 x¯ = 492 毫升. 试问此断言是否正 确? 即问平均每瓶饮料的容量仍是 500 毫升还是变成 490 毫升? 假定标准差 10 毫升不变. 在这个问题中, 设经过一段时间后罐装饮料容量 X 的平均值为 µ, 则由题意可设 X ∼ N(µ, 102 ). 记 x1, · · · , x9 为取自这个正态总体 X 的一组样本观测值, 则 x¯ = 1 9 P9 i=1 xi = 492. 我们需要在“饮 料平均容量为 500 毫升”与“饮料平均容量为 490 毫升”之间作判断, 即在“µ = 500”和“µ = 490”之 间作判断. 数理统计中, 把它们看成两个假设. 习惯上, 称前者为原假设或零假设, 记作 H0; 后者 称为备择假设或对立假设, 记作 H1 或 Ha. 所谓检验 H0 : µ = 500 ↔ H1 : µ = 490. 就是要根据样本判断究竟是“H0成立”还是“H1成立”. 断言“H0成立”称为接受 H0; 断言“H1成 立”称为拒绝 H0. 下面讨论如何检验上述假设, 即给定一个接受或者拒绝零假设的准则. 设从总体中抽取一个样 本 X1, · · · , Xn, 我们可以用极大似然估计 T = X¯ (称之为检验统计量) 来估计 µ. 由于该估计值接 近 µ (尤其是当样本量较大时), 故当 T 的绝对值小的时候有利于 H1 而不利于 H0, 此时应该拒绝 H0. 我们可以事先取定一个常数 τ , 称之为临界值, 当 T 的取值小于该临界值时拒绝 H0, 即样本 满足 W = {X < τ ¯ } 中时拒绝 H0, 称 W 为拒绝域. 即样本的取值落在拒绝域中, 就拒绝 H0, 否则不能拒绝之. 一个拒 绝域就对应于一个检验方法. 现在的问题是 τ 应该取多大? 这涉及到两类错误. 2
事实 Ho成立 H1成立 决策 接受Ho 不犯错 第Ⅱ类错误 拒绝H0 第I类错误 不犯错 称“实际上Ho成立但是它被拒绝”这个错误为第I类错误(弃真),而“实际上H0不成立但是它 被接受”这样一类错误为第Ⅱ类错误(存伪).由于我们的方法是基于观测数据,而观测数据是带 有随机误差的,故难免在做出决策的时候犯错,我们能做的是控制犯错的概率.一个理想的检验应 该使这两类错误的概率都小,但是在实际问题中不可能使这两类错误一致地小:要让犯第I类错误 的概率小,应该让T小,而要让犯第Ⅱ类错误的概率小,则T不能太小.解决这个矛盾的一个方 法是在控制虹类错误的基础上,尽量少犯第Ⅱ类错误(在下一小节中我们讨论如何设定假设时会 提到,应该将受保护对象设为零假设,故犯第I类错误的严重性更大,因此必须尽量避免犯第I类 错误).因此,这种在只限制第一类错误的原则下的检验方法,就称为“显著性检验”(Significance Tst)。具体地,选定一个小的常数α,取T使得犯第I类错误的概率,即T小于T的概率小于a. 称α为显著性水平.理想情况下,T取得恰好满足PHo(TT},则称T为临界值.如果零假设成立但拒绝了零假设,则称犯了第I类错 误,如果对立假设成立但接受零假设,则称犯了第IⅡ类错误.如对任意的0∈日o,犯第I类错误的 概率P(T(X1,·,X)∈A)小于或等于某个正的常数a),则称a为显著性水平.显然显著性水 平不是唯一的,事实上,如果α是一个显著性水平,则任意大于α的数都是显著性水平.实际中通 常采用显著性水平最小的那一个.一个检验对应于一个拒绝域,称()=P(Ho被拒绝)为检验 的功效函数.如果检验的显著性水平为a,则当0∈O0时,B(0)≤a.而当0∈⊙1时,我们希望功 效值越大越好(这样犯第Ⅱ类错误的概率1一()就越小),所以功效可以作为评价一个检验优劣 的准则。 3
❍❍❍❍❍❍ 决策 ❍ 事实 H0 成立 H1 成立 接受 H0 不犯错 第 II 类错误 拒绝 H0 第 I 类错误 不犯错 称“实际上 H0 成立但是它被拒绝”这个错误为第 I 类错误 (弃真) , 而“实际上 H0 不成立但是它 被接受”这样一类错误为 第 II 类错误 (存伪). 由于我们的方法是基于观测数据, 而观测数据是带 有随机误差的, 故难免在做出决策的时候犯错, 我们能做的是控制犯错的概率. 一个理想的检验应 该使这两类错误的概率都小, 但是在实际问题中不可能使这两类错误一致地小: 要让犯第 I 类错误 的概率小, 应该让 τ 小, 而要让犯第 II 类错误的概率小, 则 τ 不能太小. 解决这个矛盾的一个方 法是在控制I类错误的基础上, 尽量少犯第 II 类错误 (在下一小节中我们讨论如何设定假设时会 提到, 应该将受保护对象设为零假设, 故犯第 I 类错误的严重性更大, 因此必须尽量避免犯第 I 类 错误).因此,这种在只限制第一类错误的原则下的检验方法,就称为“显著性检验”(Significance Test)。具体地, 选定一个小的常数 α, 取 τ 使得犯第 I 类错误的概率, 即 T 小于 τ 的概率小于 α. 称 α 为显著性水平. 理想情况下, τ 取得恰好满足 PH0 (T τ}, 则称 τ 为 临界值. 如果零假设成立但拒绝了零假设, 则称犯了第 I 类错 误, 如果对立假设成立但接受零假设, 则称犯了第 II 类错误. 如对任意的 θ ∈ Θ0, 犯第 I 类错误的 概率 Pθ(T(X1, · · · , Xn) ∈ A) 小于或等于某个正的常数 α), 则称 α 为显著性水平. 显然显著性水 平不是唯一的, 事实上, 如果 α 是一个显著性水平, 则任意大于 α 的数都是显著性水平. 实际中通 常采用显著性水平最小的那一个. 一个检验 对应于一个拒绝域, 称 β(θ) = Pθ (H0 被拒绝) 为检验 的功效函数. 如果检验的显著性水平为 α, 则当 θ ∈ Θ0 时, β(θ) ≤ α. 而当 θ ∈ Θ1 时, 我们希望功 效值越大越好 (这样犯第 II 类错误的概率 1 − β(θ) 就越小), 所以功效可以作为评价一个检验优劣 的准则. 3
7.1.2原假设的提法 在有时候需要自己判断如何提假设检验问题.在建立原假设时有两个原则。 原则一:将受保护的对象置为零假设.如我国按照以前的司法制度,公安机关抓到嫌疑犯后, 很多情况下要犯人自己证明无罪(有罪推断),这对嫌疑犯很不利,从而容易导致冤案.现在的司法 制度则总假定嫌疑犯是无罪的,要司法部门证明其有罪(无罪推断),这样做大大地有利于保护公民 的利益,如果要将真正的嫌疑犯绳之以法,则司法部门必须有充分的证据,这样做可以有效保护公 民的权益,对司法部门要求也变高了.又比如药厂生产出一种新药,在上市前要通过食品与药品监 管局的检验.显然使用药品的病人是应该受保护的对象,这时应该设定一个有利于病人的命题作为 零假设,这个命题就是“新药不比安慰剂效果好”,以尽量避免病人用无效甚至有副作用的新药.当 然,对立假设就是“新药比安慰剂效果好'.将检验的显著性水平α设定得较小,以保证零假设不被 轻易推翻.在实际问题中,如果根据某个合理的检验方法发现零假设被推翻,则有充分的理由认为 零假设不成立而对立假设成立,这是因为万一零假设成立而被误据的概率不会超过α;另一方面, 如果发现零假设未被拒绝,并不表明有充分理由接受零假设,而是因为零假设被保护得较严密以至 于未被拒绝 原则二:如果你希望“证明”某个命题,就取相反结论或者其中一部分作为零假设(类似于反 证法).这种提法往往是在两个假设命题中不太清楚哪个应受保护,此时可以借用司法制度里的“谁 主张,谁举证”,即若想用统计方法向人“证明”一个命题,则将那个命题置为对立假设.注意这里的 证明不是数学上的严格证明,而是允许犯错的一种统计推断方法.用统计方法证明一个命题不是一 件容易的事情,所以如果没有足够把握,人们应该避免用统计方法去证明一个命题 上述两原则是统一的:一般不应该让受保护对象去证明一个命题. 7.1.3检验统计量的选取及假设检验的步骤 通过解答例7.1.1来说明假设检验的步骤, 例7.1.3.例7.1.1续)能否在显著性水平0.05下认为饮料的平均容量确实减少到490毫升? 解:基于统计量京,我们采用“标准化”过的检验统计量(减均值再除以标准差) 1=V(-500) 10 以使该统计量服从标准正态分布,检验的拒绝域仍取形如{T<},我们控制犯第I类错误的概 率等于a即 P(T1<Tl0=500)=a. 4
7.1.2 原假设的提法 在有时候需要自己判断如何提假设检验问题. 在建立原假设时有两个原则。 原则一: 将受保护的对象置为零假设. 如我国按照以前的司法制度, 公安机关抓到嫌疑犯后, 很多情况下要犯人自己证明无罪 (有罪推断) , 这对嫌疑犯很不利, 从而容易导致冤案. 现在的司法 制度则总假定嫌疑犯是无罪的, 要司法部门证明其有罪 (无罪推断), 这样做大大地有利于保护公民 的利益, 如果要将真正的嫌疑犯绳之以法, 则司法部门必须有充分的证据, 这样做可以有效保护公 民的权益, 对司法部门要求也变高了. 又比如药厂生产出一种新药, 在上市前要通过食品与药品监 管局的检验. 显然使用药品的病人是应该受保护的对象, 这时应该设定一个有利于病人的命题作为 零假设, 这个命题就是“新药不比安慰剂效果好”, 以尽量避免病人用无效甚至有副作用的新药. 当 然, 对立假设就是“新药比安慰剂效果好’. 将检验的显著性水平 α 设定得较小, 以保证零假设不被 轻易推翻. 在实际问题中, 如果根据某个合理的检验方法发现零假设被推翻, 则有充分的理由认为 零假设不成立而对立假设成立, 这是因为万一零假设成立而被误据的概率不会超过 α; 另一方面, 如果发现零假设未被拒绝, 并不表明有充分理由接受零假设, 而是因为零假设被保护得较严密以至 于未被拒绝. 原则二: 如果你希望“证明”某个命题, 就取相反结论或者其中一部分作为零假设 (类似于反 证法). 这种提法往往是在两个假设命题中不太清楚哪个应受保护, 此时可以借用司法制度里的“谁 主张, 谁举证”, 即若想用统计方法向人“证明” 一个命题, 则将那个命题置为对立假设. 注意这里的 证明不是数学上的严格证明, 而是允许犯错的一种统计推断方法. 用统计方法证明一个命题不是一 件容易的事情, 所以如果没有足够把握, 人们应该避免用统计方法去证明一个命题. 上述两原则是统一的: 一般不应该让受保护对象去证明一个命题. 7.1.3 检验统计量的选取及假设检验的步骤 通过解答例7.1.1来说明假设检验的步骤. 例 7.1.3. (例7.1.1续) 能否在显著性水平 0.05 下认为饮料的平均容量确实减少到 490 毫升? 解: 基于统计量 X¯, 我们采用“标准化”过的检验统计量 (减均值再除以标准差) T1 = √ n(X¯ − 500) 10 以使该统计量服从标准正态分布, 检验的拒绝域仍取形如 {T1 < τ1}, 我们控制犯第 I 类错误的概 率等于 α, 即 P(T1 < τ1|θ = 500) = α. 4
由于0=500时T1服从标准正态分布,易知上面关于T的方程的解为T1=-ua,其中ue等于标 准正态分布的上c分位数,即检验的拒绝域为 {T1o或者H0:0≤%分H1:0>00 (4)H0:0=0%台H1:0<0o或者H0:0≥0%+H1:0<00 称(1)为简单假设,(2)为双侧假设因为对立假设是双侧的,(3)和(4)为单侧假设因为对立假 设是单侧的.这里强调对立假设的原因是检验方法(对应于一个拒绝域)只跟对立假设有关 下面我们给出检验上述假设的一般步骤,它的基本思想是:一个好的点估计应该是一个优良检 验的的主要依据,设定显著性水平为α. 第1步:求出未知参数0的一个较优的点估计0=(X1,·,Xn),如极大似然估计. 第2步:以0为基础,寻找一个检验统计量 T=t(X1,…,Xn) 且使得当0=o时,T的分布已知(如N(0,1),tn,Fm.n),从而容易通过查表或计算得到这 个分布的分位数,用以作为检验的临界值: 第3步:以检验统计量T为基础,根据对立假设H1的实际意义寻找适当形状的拒绝域,它是关 于T的一个或两个不等式),其中包含一个或两个临界值: 第4步:当零假设成立时,犯第I类错误的概率小于或等于给定的显著性水平α,这给出一个关于 临界值的方程,解出临界值,它(们)等于T的分位数,这样即确定了检验的拒绝域: 第5步:如果给出样本观测值,则可算出检验统计量的样本观测值,如落在拒绝域中则可拒绝零假 设,否则不能 5
由于 θ = 500 时 T1 服从标准正态分布, 易知上面关于 τ1 的方程的解为 τ1 = −uα, 其中 uc 等于标 准正态分布的上 c 分位数, 即检验的拒绝域为 {T1 θ0或者H0 : θ ≤ θ0 ↔ H1 : θ > θ0 (4) H0 : θ = θ0 ↔ H1 : θ < θ0或者H0 : θ ≥ θ0 ↔ H1 : θ < θ0 称 (1) 为简单假设, (2)为双侧假设因为对立假设是双侧的, (3) 和 (4) 为单侧假设因为对立假 设是单侧的. 这里强调对立假设的原因是检验方法 (对应于一个拒绝域) 只跟对立假设有关. 下面我们给出检验上述假设的一般步骤, 它的基本思想是: 一个好的点估计应该是一个优良检 验的的主要依据, 设定显著性水平为 α. 第 1 步: 求出未知参数 θ 的一个较优的点估计 ˆθ = ˆθ(X1, · · · , Xn), 如极大似然估计. 第 2 步: 以 ˆθ 为基础, 寻找一个检验统计量 T = t(X1, · · · , Xn) 且使得当 θ = θ0 时, T 的分布已知 (如 N(0, 1), tn, Fm,n) , 从而容易通过查表或计算得到这 个分布的分位数, 用以作为检验的临界值. 第 3 步: 以检验统计量 T 为基础, 根据对立假设 H1 的实际意义, 寻找适当形状的拒绝域, 它是关 于 T 的一个或两个不等式), 其中包含一个或两个临界值. 第 4 步: 当零假设成立时, 犯第 I 类错误的概率小于或等于给定的显著性水平 α, 这给出一个关于 临界值的方程, 解出临界值, 它 (们) 等于 T 的分位数, 这样即确定了检验的拒绝域. 第 5 步: 如果给出样本观测值, 则可算出检验统计量的样本观测值, 如落在拒绝域中则可拒绝零假 设, 否则不能. 5
7.2 重要参数检验 本节介绍最基本的假设检验问题:一样本和两样本正态总体的有关均值和方差的检验,简单的 大样本检验(0-1分布参数的假设检验). 7.2.1一样本正态总体均值和方差的检验 现实中经常碰到诸如此类的问题:假设用于某用途的合格铁钉要求长度为10厘米,现有经销 商从生产厂家订购了一批这样的铁钉,为了检验该批检验产品是否合格,可以从中抽取一小部分进 行测量检验,通常铁钉的长度服从一个正态分布,这类问题属于一样本正态总体的假设检验问题. 一般地,设总体X~N(,o2),-00:X1,·,Xn是取自总体X的一个样 本.取显著性水平为α. (1)方差已知时均值的检验 先考虑双侧假设,即要检验 H0:4=0→H1:4≠40: 由于μ的极大似然估计为灭,取“标准化”后的检验统计量 U=MX,,X)=VnX二四 注意到当Ho成立时,UN(0,1),IU川应该较小,反之当U的观测值u(x1,·,xn)较大时,不 利于零假设Ho应该拒绝之.所以选拒绝域形如 UI>T). 要求显著性水平为α,即 PH(IU川>T)=a, 解得t=u2:于是检验的拒绝域为 {IU川>ua/2 即当观测值(x1,·,xn)满足不等式 VnE-四l>ae 时拒绝Ho: 6
7.2 重要参数检验 本节介绍最基本的假设检验问题: 一样本和两样本正态总体的有关均值和方差的检验, 简单的 大样本检验 (0-1 分布参数的假设检验). 7.2.1 一样本正态总体均值和方差的检验 现实中经常碰到诸如此类的问题: 假设用于某用途的合格铁钉要求长度为 10 厘米, 现有经销 商从生产厂家订购了一批这样的铁钉, 为了检验该批检验产品是否合格, 可以从中抽取一小部分进 行测量检验, 通常铁钉的长度服从一个正态分布, 这类问题属于一样本正态总体的假设检验问题. 一般地, 设总体 X ∼ N(µ, σ2 ), −∞ 0; X1, · · · , Xn 是取自总体 X 的一个样 本. 取显著性水平为 α. (1) 方差已知时均值的检验 先考虑双侧假设, 即要检验 H0 : µ = µ0 ↔ H1 : µ 6= µ0. 由于 µ 的极大似然估计为 X¯, 取“标准化”后的检验统计量 U = u(X1, · · · , Xn) = √ n X¯ − µ0 σ 注意到当 H0 成立时, U ∼ N(0, 1), |U| 应该较小, 反之当 |U| 的观测值 u(x1, · · · , xn) 较大时, 不 利于零假设 H0 应该拒绝之. 所以选拒绝域形如 {|U| > τ}. 要求显著性水平为 α, 即 PH0 (|U| > τ ) = α, 解得 τ = uα/2 . 于是检验的拒绝域为 {|U| > uα/2}. 即当观测值 (x1, · · · , xn) 满足不等式 √ n |x¯ − µ0| σ > uα/2 时拒绝 H0. 6
类似地,检验单侧假设 H0:4=0HH1:μ>0或者H0:4≤0+H1:4>0 仍然用统计量U,由于U大时不利于Ho,取拒绝域为 U>ua}. 而检验另一个单侧假设 H0:μ=0HH1:μu/2·由样本算得检验统计量的值 为u≈2.16,如显著性水平为0.01,则临界值为o.005≈2.58,跟检验统计量的值比较发现不能 拒绝零假设,即不能推翻铁钉平均长度为3厘米的假设;而如果显著性水平为0.05时,临界值为 0.025=1.96,此时可以拒绝零假设,认为铁钉平均长度不等于3厘米.这个例子说明结论可能跟显 著性水平的选择有关:显著性水平越小,零假设被保护得越好从而更不容易被拒绝 例7.2.2.对正态总体N(,σ2)(其中σ2已知)下的假设检验问题H0:4=0台H1:4卡40,如果 我们还要求“犯第二类错误的概率要小于指定的B>0”该怎么办? 7
类似地, 检验单侧假设 H0 : µ = µ0 ↔ H1 : µ > µ0 或者 H0 : µ ≤ µ0 ↔ H1 : µ > µ0 仍然用统计量 U, 由于U 大时不利于 H0, 取拒绝域为 {U > uα} . 而检验另一个单侧假设 H0 : µ = µ0 ↔ H1 : µ uα/2 . 由样本算得检验统计量的值 为 u ≈ 2.16, 如显著性水平为 0.01, 则临界值为 u0.005 ≈ 2.58, 跟检验统计量的值比较发现不能 拒绝零假设, 即不能推翻铁钉平均长度为 3 厘米的假设; 而如果显著性水平为 0.05时, 临界值为 u0.025 = 1.96, 此时可以拒绝零假设, 认为铁钉平均长度不等于 3 厘米. 这个例子说明结论可能跟显 著性水平的选择有关: 显著性水平越小, 零假设被保护得越好从而更不容易被拒绝. 例 7.2.2. 对正态总体N(µ, σ2 )(其中σ 2已知)下的假设检验问题 H0 : µ = µ0 ↔ H1 : µ 6= µ0,如果 我们还要求“犯第二类错误的概率要小于指定的β > 0”该怎么办? 7
解:根据功效函数和两类错误的定义,知道等价的要求 B6(4)≥1-B,μtn-1(a/2)}. 此检验称为t检验, 类似地可以得到另外两个单侧假设的检验拒绝域,列于表7.2.1中 例7.2.3.例7.2.1续)设方差未知,则在水平0.01和0.05下能否认为铁钉平均长度为3厘米? 8
解:根据功效函数和两类错误的定义,知道等价的要求 βφ(µ) ≥ 1 − β, µ tn−1(α/2)} . 此检验称为 t 检验. 类似地可以得到另外两个单侧假设的检验拒绝域, 列于表 7.2.1中. 例 7.2.3. (例7.2.1续) 设方差未知, 则在水平 0.01 和 0.05 下能否认为铁钉平均长度为 3 厘米? 8
解:这是方差未知时关于均值4的假设检验问题, H0:μ=3+H1:4卡3 取检验统计量为T=√m(-3)/S,检验的拒绝域为T|>tm-1(a/2).由样本算得检验统计量的 值约为2.21,与显著性水平0.01对应临界值t15(0.005)≈2.95比较,不能拒绝零假设,而与显著性 水平0.05对应临界值t15(0.025)≈2.13比较,可以拒绝零假设,即在显著性水平0.01下不能拒绝 铁钉平均长度为3厘米的假定,但在显著性水平0.05下可以认为铁钉平均长度不等于3厘米,此 结论与方差已知情形一致. (3)方差的检验 考虑假设检验问题 H0:2=听分H1:o2≠. 对均值已知的情形,由σ2的极大似然估计 22 (X-)2 可以构造检验统计量 飞-G的 在历下,X2~X品X的平均值为n,而在历下,X2=号学的均值为爱n≠n,因此当X2的 值过于偏离n时应该拒绝Ho,于是拒绝域取成 {x2X品(a/2)}. 对均值未知的情形,构造检验统计量 x2=m-1052 哈 其中S2为样本方差.在H0下,X2X品-1,拒绝域取成 {x2X品-1(a/2)}. 对于单侧假设,可以类似得到检验的拒绝域,参看表72.1. 上述检验称为X2检验, 9
解: 这是方差未知时关于均值 µ 的假设检验问题, H0 : µ = 3 ↔ H1 : µ 6= 3 取检验统计量为 T = √ n(X¯ − 3)/S, 检验的拒绝域为 |T| > tn−1(α/2). 由样本算得检验统计量的 值约为 2.21, 与显著性水平 0.01 对应临界值 t15(0.005) ≈ 2.95 比较, 不能拒绝零假设, 而与显著性 水平 0.05 对应临界值 t15(0.025) ≈ 2.13 比较, 可以拒绝零假设, 即在显著性水平 0.01 下不能拒绝 铁钉平均长度为 3 厘米的假定, 但在显著性水平 0.05 下可以认为铁钉平均长度不等于 3 厘米, 此 结论与方差已知情形一致. (3) 方差的检验 考虑假设检验问题 H0 : σ 2 = σ 2 0 ↔ H1 : σ 2 6= σ 2 0 . 对均值已知的情形, 由 σ 2 的极大似然估计 σˆ 2 = 1 n Xn i=1 (Xi − µ) 2 可以构造检验统计量 χ 2 = 1 σ 2 0 Xn i=1 (Xi − µ) 2 = nσˆ 2 σ 2 0 . 在 H0 下, χ 2 ∼ χ 2 n , χ 2 的平均值为 n, 而在 H1 下, χ 2 = σ 2 σ 2 0 nσˆ 2 σ2 的均值为 σ 2 σ 2 0 n 6= n, 因此当 χ 2 的 值过于偏离 n 时应该拒绝 H0, 于是拒绝域取成 χ 2 χ2 n (α/2) . 对均值未知的情形, 构造检验统计量 χ 2 = (n − 1)S 2 σ 2 0 , 其中 S 2 为样本方差. 在 H0 下, χ 2 ∼ χ 2 n−1 , 拒绝域取成 χ 2 χ2 n−1 (α/2) . 对于单侧假设, 可以类似得到检验的拒绝域, 参看表 7.2.1. 上述检验称为 χ 2 检验. 9