第十三章检验与方差分析 我们前面已经比较系统地讨论了双样本的参数和非参数 检验的问题。现在,我们希望利用一般的方法来检验三个以 上样本的差异,检验法和方差分析法就是解决这方面问题的。 检验法可以对拟合优度和独立性等进行检验,方差分析法则 可以对多个总体均值是否相等进行检验。后者由于通过各组 样本资料之间的方差和组内方差的比较来建立服从F分布的检 验统计量,所以又称F检验。 第一节:拟合优度检验 第二节:无关联性检验 第三节:方差分析 第四节:回归方程与相关系数的检验
第十三章 检验与方差分析 我们前面已经比较系统地讨论了双样本的参数和非参数 检验的问题。现在,我们希望利用一般的方法来检验三个以 上样本的差异, 检验法和方差分析法就是解决这方面问题的。 检验法可以对拟合优度和独立性等进行检验,方差分析法则 可以对多个总体均值是否相等进行检验。后者由于通过各组 样本资料之间的方差和组内方差的比较来建立服从F分布的检 验统计量,所以又称F检验。 第一节:拟合优度检验 第二节:无关联性检验 第三节:方差分析 第四节:回归方程与相关系数的检验 χ 2 χ 2 χ 2
第一节拟合优度检验 运用Z检验、t检验等讨论假设检验的问题,一般要求总体服从正 态分布,或者在大样本条件下可以利用渐近正态分布理论来描述抽 样分布。也就是说,我们都要直接或间接地假定对象总体具有已知 的分布形式,然后对总体的未知参数进行假设检验。如果不知道总 体的分布形式,就无法运用检验法等对总体参数进行假设检验 于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样 检定总体是否具有正态或其他分布形式?拟合优度检验正是就这 问题而言的检验方法
第一节 拟合优度检验 运用Z检验、t检验等讨论假设检验的问题,一般要求总体服从正 态分布,或者在大样本条件下可以利用渐近正态分布理论来描述抽 样分布。也就是说,我们都要直接或间接地假定对象总体具有已知 的分布形式,然后对总体的未知参数进行假设检验。如果不知道总 体的分布形式,就无法运用t检验法等对总体参数进行假设检验。 于是,这里有一个前面留下来的尚未讨论的问题很重要,就是怎样 检定总体是否具有正态或其他分布形式?拟合优度检验正是就这一 问题而言的检验方法
1.问题的导出 第十一章最后一节,我们将累计频数检验用于经验分布与 理论分布的化较,实际 提供了拟合优度检验的一种方 法。x拟合优度检验与累计频数拟合优度检验相对应,在 评估从经验上得到的频数和在一组特定的理论假设下期望 到的频数之间是否存在显著差异时,是一种更普遍的检 方法。 现在我们再来看看第七章提到的著名的孟德尔豌豆试验。 现穿花,红花植髹乌自花楂株的数省,为31。但由于随 机性,观察结果与3:1理论值总有些差距。因此有必要去考 察某一大小的差距是否已构成否定3:理论的充分根据。 这正是我们所讨论的拟合优度检验的问题解决这类问题 的工真,是卡·皮尔逊在190年发表的一篇文章中引进的所 谓x2检验法
◼ 第十一章最后一节,我们将累计频数检验用于经验分布与 理论分布的比较,实际已经提供了拟合优度检验的一种方 法。 拟合优度检验与累计频数拟合优度检验相对应,在 评估从经验上得到的频数和在一组特定的理论假设下期望 得到的频数之间是否存在显著差异时,是一种更普遍的检 验方法。 ◼ 现在我们再来看看第七章提到的著名的孟德尔豌豆试验。 根据孟德尔提出的分离规律,纯种豌豆杂交后的子二代出 现分化,红花植株与白花植株的数目应为3∶1。但由于随 机性,观察结果与3∶1理论值总有些差距。因此有必要去考 察某一大小的差距是否已构成否定3∶l理论的充分根据。 这正是我们所讨论的拟合优度检验的问题。解决这类问题 的工具,是卡·皮尔逊在1900年发表的一篇文章中引进的所 谓 χ 2 检验法。 1.问题的导出 χ 2
2.拟合优度检验(比率拟合检验) 首先把问题表述成一般模式。设一总体包含c种可区别的个体。根据某种 理论或纯粹的假设,第i种个体出现的概率应为某个已知的数尸i(i=1 c),有P>0,∑P=1。这一组概率(鬥1,P3,…,Pc)就构成 了我们的理论分布。现在在该总体中随机地抽取一个容量为m的样本,发 现其中第种个体的数目为f(i=1,2,…,),并有∑/=n。我们 要据此检验理论分布。 用概率论的语言可以这样说,设对象总体中随机变量X有c种取值。当X的 取值是x;时,按零假设,其总体分布等于理论分布,即 P(x)=P1( 例如,就孟德尔的3:1理论来说,c=2,P(x1)=3/4,P(x2)=1/4。现 在从该总体中随机地抽取一个容量为n的样本,发现其中x1(i=1,2…,c 出现的次数为f1(i=1,2,…,C,并有∑=n。知道了频数也就知 道了频率,即:x出现的频率为,并有∑=1 现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设
◼ 首先把问题表述成一般模式。设一总体包含c种可区别的个体。根据某种 理论或纯粹的假设,第i种个体出现的概率应为某个已知的数Pi(i=1, 2,…,c),有Pi>0, =1。这一组概率(P1 ,P3 ,…,Pc)就构成 了我们的理论分布。现在在该总体中随机地抽取一个容量为n的样本,发 现其中第I 种个体的数目为fi (i=1,2,…,c),并有 =n。我们 要据此检验理论分布。 ◼ 用概率论的语言可以这样说,设对象总体中随机变量X有c种取值。当X的 取值是xi时,按零假设,其总体分布等于理论分布,即 P( )=Pi (i=1,2,…,c) 例如,就孟德尔的3∶1理论来说,c=2,P(x1)=3/4, P(x2)=1/4。现 在从该总体中随机地抽取一个容量为n的样本,发现其中xi(i=1,2…,c) 出现的次数为fi(i=1,2,…,c),并有 =n。知道了频数也就知 道了频率,即: 出现的频率为 ,并有 =1。 现在我们就是要据此经验分布来检验总体分布等于理论分布的零假设。 2.拟合优度检验(比率拟合检验) = c i Pi 1 = c i P i 1 = c i i f 1 = c i i f 1 i x i x n f i = c i i n f 1
拟合优度检验如何进行? 关键是确定合适的检验统计量以及该统计量所服从的概率分 布。这里不可避免地要引进某种人为因素,即人们设计出下 面这样的综合性可比指标: L=k(-B)+k:(-P2)2+…+2(-P) 其中M,R,…,k是适当选取的常数。仔细观察不难发现 L值大,意味着经验分布与理论分布偏离大;L值小,意味 着经验分布与理论分布偏离小。当在某个选定的水平上,经 验分布显著偏离理论分布,那么对象总体具有某种分布形式 的零假设便被否定
拟合优度检验如何进行? 关键是确定合适的检验统计量以及该统计量所服从的概率分 布。这里不可避免地要引进某种人为因素,即人们设计出下 面这样的综合性可比指标: 其中k1,k2,…,kc是适当选取的常数。仔细观察不难 发现 ,L值大,意味着经验分布与理论分布偏离大;L值小,意味 着经验分布与理论分布偏离小。当在某个选定的水平上,经 验分布显著偏离理论分布,那么对象总体具有某种分布形式 的零假设便被否定
L=k,( f1 )+k(-B)2+…+k(-P) 上式中的kk,…k有各种取法。皮尔逊选择的是 k,"n/P,, ka-n/P ,"., ke-n/pe 这样选择的好处是:它使前式有如下形式(已改记为通常用的记号x2) 22= -nPv)/nP,+V-n P5) /nP:. +V-n Po/nPe ∑ -f)2 式中:后为观测频数(或经验频数),f为理论频数(或期望频数),f=nP。因此上式可 形象地写为 x2=∑(观察频数-理论频数)/理论频数
结论: 用x。作为检定Ho成立的检验统计量,理论证明,当n足够大 时,该统计量服从x2分布,它是一种具有已知的并制成表的概率 分布,因此对给定的显著性水平x,可求得临界值xa与X比 较,进而作出检验结论。 显而易见,理论频数与观测频数f越接近,x统计值越小,经 验 分布与理论分布拟合程度越好。反之,爬与f差距越大,值越 大,经验分布与理论分布拟合程度越差,拟合优度检验由此得 名
结论: ◼ 用 作为检定Ho成立的检验统计量,理论证明,当n足够大 时,该统计量服从 分布,它是一种具有已知的并制成表的概率 分布,因此对给定的显著性水平α,可求得临界值 ,与 比 较,进而作出检验结论。 ◼ 显而易见,理论频数fe与观测频数fo越接近, 统计值越小,经 验 分布与理论分布拟合程度越好。反之,fe与fo差距越大, 值越 大,经验分布与理论分布拟合程度越差,拟合优度检验由此得 名。 2 o 2 o 2 2 2 o 2 o
应用举例 「例]孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后所生的子二代 豌豆中,红花对白花之比为3:1。某次种植试验的结果为;红花豌豆176株, 白花豌豆48株。试在α=0.05的显著性水平上,对孟德尔定律作拟合优度检 验。(参见下表) Gp6-(6-046-∥ 红花就豆1734168 64 0.3814 白花豌豆48145-8 64 1143 叶中 22441424 1.524
[例] 孟德尔遗传定律表明:在纯种红花豌豆与白花豌豆杂交后所生的子二代 豌豆中,红花对白花之比为3:1。某次种植试验的结果为;红花豌豆176株, 白花豌豆48株。试在α=0.05的显著性水平上,对孟德尔定律作拟合优度检 验。(参见下表) 应用举例
[解]Hn:P1 3-43 P2 H1:P1≠一,P2≠ 因a=0.05,k=c-1=1,查〃“分布表得 x2(k)=x20(0)=3.8414 故否定域为4 x≥xa=3.84 计算检验统计量,计算过程参见前表 x2∑ =1.524<3.8414 J 所以保留所,即没有充分证据否定孟德尔的3:1理论
3.正态拟合检验 例]试对下表所给男青年身高分布的数据作正态拟合检验,选取a=0.05。 间距 f 6-f)24(6-f)2/° 148-1524 0.006 0.6 0.44 0.164 0.26674 152-1564 2 0.0214 2.1 0.14 0.014 0.00484 156-160454 0.0574 7 0.494 0.08604 160-1644104 0.118 3.244 0.2746 164-1684194 0.1794 17.94 1.214 0.06764 168-1724254 0.2104 21.0 4.D 16.00 0.了6194 172-1764174 0.1864 18.6 1.6 2.56 0.13764 176-1804124 0.1254 12.54 0.54 0.25 0.020D4 180-1844 0.0644 6.4 1.44 1.96 0.30634 184-1884 0.0254 2.5 0.25 0.10004 188-19240 0.0D了 0.了 0.494 0.700D 192-196 1 0.0024 0.24 0.8 0.64 3.20043 合计 1004 1.000100.04 5.92554
3.正态拟合检验 [例] 试对下表所给男青年身高分布的数据作正态拟合检验,选取α=0.05