卡方检验
卡方检验
内容安排 卡方检验入门 配对设计两样本率比较的x检验 行列表资料的分析 确切概率法
2 内容安排 ▪ 卡方检验入门 ▪ 配对设计两样本率比较的χ 2检验 ▪ 行列表资料的分析 ▪ 确切概率法
卡方检验入门
卡方检验入门
概述 卡方检验是以卡方分布为基础的一种常用假 设检验方法,主要用于分类变量,它的基本 的无效假设是: Ho:行分类变量与列分类变量无关联 °H1:行分类变量与列分类变量有关联 =0.05 统计量x2=2 (A-7) ,其中A;是样本资料的 计数,T是在H为真的情况下的理论数(期望值)
4 概 述 ▪ 卡方检验是以卡方分布为基础的一种常用假 设检验方法,主要用于分类变量,它的基本 的无效假设是: • H0:行分类变量与列分类变量无关联 • H1:行分类变量与列分类变量有关联 • =0.05 • 统计量 ,其中Ai是样本资料的 计数,Ti是在H0为真的情况下的理论数(期望值)。 2 2 1 ( ) k i i P i i A T T = − =
卡方检验 在H为真时,实际观察数与理论数之差A-T 应该比较接近0。所以在H为真时,检验统计量 x2=∑ (A1-7) 服从自由度为k-1的卡方分布。 即:x2>x2n拒绝Ho 上述卡方检验由此派生了不同应用背景的各种问题 的检验,特別最常用的是两个样本率的检验等 因为该原理的使用范围很广,但本次课程只学习 用于推断两个分类变量是否相互关联
5 卡方检验 • 在H0为真时,实际观察数与理论数之差Ai-Ti 应该比较接近0。所以在H0为真时,检验统计量 服从自由度为k-1的卡方分布。 即: ,拒绝H0。 上述卡方检验由此派生了不同应用背景的各种问题 的检验,特别最常用的是两个样本率的检验等。 因为该原理的使用范围很广,但本次课程只学习 用于推断两个分类变量是否相互关联 2 2 P v , 2 2 1 ( ) k i i P i i A T T = − =
概述 表6,2使用含氟牙膏与一般牙膏儿童的龋患率 牙膏类型患龋齿人数未患龋齿人数调查人数龋患率(%) 含氟牙膏70(7667)13012333 200 3500 一般牙膏45(3833)556167) 45.00 合计 115 185 300 38.33 一更一般地,可将上述表格记为表63的一般形式,称之为四格表( fourfold table)o因为表 中a、b、c和d四个格子的数据是基本的,其余数据均可从这四个数据派生出来。 6
6 概 述 表 6.2 使用含氟牙膏与一般牙膏儿童的龋患率 牙膏类型 患龋齿人数 未患龋齿人数 调查人数 龋患率(%) 含氟牙膏 70(76.67) 130(123.33) 200 35.00 一般牙膏 45(38.33) 55(61.67) 100 45.00 合计 115 185 300 38.33 更一般地,可将上述表格记为表 6.3 的一般形式,称之为四格表(fourfold table)。因为表 中 a、b、c 和 d 四个格子的数据是基本的,其余数据均可从这四个数据派生出来
方法原理 理论频数 基于H成立,两样本所在总体无差别的前提下计 算出各单元格的理论频数来 RCSRnC 牙膏类型患龋齿人数未患龋齿人数调查人数龋患率(%) 含氟牙膏 700667) 130(123.3) 200 35.00 般牙膏 45(3833) 55(6167) 100 45.00 合计 115 185 300 38.33 7
7 方法原理 ▪ 理论频数 • 基于H0成立,两样本所在总体无差别的前提下计 算出各单元格的理论频数来 牙膏类型 患龋齿人数 未患龋齿人数 调查人数 龋患率(%) 含氟牙膏 70(76.67) 130(123.33) 200 35.00 一般牙膏 45(38.33) 55(61.67) 100 45.00 合计 115 185 300 38.33 n n n T R C RC =
方法原理 残差 设A代表某个类别的观察频数,E代表基于HO计 算出的期望频数,A与E之差被称为残差 残差可以表示某一个类别观察值和理论值的 偏离程度,但残差有正有负,相加后会彼此 抵消,总和仍然为0。为此可以将残差平方后 求和,以表示样本总的偏离无效假设的程度
8 方法原理 ▪ 残差 • 设A代表某个类别的观察频数,E代表基于H0计 算出的期望频数,A与E之差被称为残差 ▪ 残差可以表示某一个类别观察值和理论值的 偏离程度,但残差有正有负,相加后会彼此 抵消,总和仍然为0。为此可以将残差平方后 求和,以表示样本总的偏离无效假设的程度
方法原理 另一方面,残差大小是一个相对的概念,相 对于期望频数为10时,20的残差非常大;可 相对于期望频数为1000时20就很小了。因此 又将残差平方除以期望频数再求和,以标准 化观察频数与期望频数的差别。 这就是我们所说的卡方统计量,在1900年由英国 统计学家 Pearson首次提出,其公式为: (A1-E E ∑
9 方法原理 ▪ 另一方面,残差大小是一个相对的概念,相 对于期望频数为10时,20的残差非常大;可 相对于期望频数为1000时20就很小了。因此 又将残差平方除以期望频数再求和,以标准 化观察频数与期望频数的差别。 • 这就是我们所说的卡方统计量,在1900年由英国 统计学家Pearson首次提出,其公式为: 2 2 2 1 1 ( ) ( ) k k i i i i i i i i A E A np E np = = − − = =
方法原理 从卡方的计算公式可见,当观察频数与期望 频数完全一致时,卡方值为0 观察频数与期望频数越接近,两者之间的差 异越小,卡方值越小 反之,观察频数与期望频数差别越大,两者 之间的差异越大,卡方值越大。 当然,卡方值的大小也和自由度有关 10
10 方法原理 ▪ 从卡方的计算公式可见,当观察频数与期望 频数完全一致时,卡方值为0; ▪ 观察频数与期望频数越接近,两者之间的差 异越小,卡方值越小; ▪ 反之,观察频数与期望频数差别越大,两者 之间的差异越大,卡方值越大。 ▪ 当然,卡方值的大小也和自由度有关