第9章分类数据分析 授课教师:刘俊娟
授课教师:刘俊娟 第 9 章 分类数据分析
第9章分类数据分析 9.1分类数据与x2统计量 9.2拟合优度检验 9.3列联分析:独立性检验 9.4列联分析中应注意的问题
第 9 章 分类数据分析 ◼ 9.1 分类数据与c 2统计量 ◼ 9.2 拟合优度检验 ◼ 9.3 列联分析:独立性检验 ◼ 9.4 列联分析中应注意的问题 2
学习目标 1.理解分类数据与x2统计量 2掌握拟合优度检验及其应用 3掌握独立性检验及其应用 4掌握测度列联表中的相关性
学习目标 ◼ 1.理解分类数据与c 2 统计量 ◼ 2.掌握拟合优度检验及其应用 ◼ 3.掌握独立性检验及其应用 ◼ 4.掌握测度列联表中的相关性 3
91分类数据与列联表 9.1.1分类数据 9.1.2x2统计量
9.1 分类数据与列联表 ◼ 9.1.1 分类数据 ◼ 9.1.2 c 2统计量 4
91.1分类数据 分类变量的结果表现为类别 口例如:性别(男,女) 2各类别用符号或数字代码来■分类数据是在汇总数据的基础上 进行分析的,数据汇总的结果表 3.使用分类或顺序尺度 现为频数。 口你吸烟吗? ■分类数据的结果是频数,x2检 ●1是;2.否 验是对分类数据的频数进行分析 口你赞成还是反对这一改革方的统计方法。 ●1赞成;2.反对 4.对分类数据的描述和分析通常使用列联表 可使用x检验
9.1.1 分类数据 1. 分类变量的结果表现为类别 例如:性别 (男, 女) 2. 各类别用符号或数字代码来测度 3. 使用分类或顺序尺度 你吸烟吗? ⚫ 1.是;2.否 你赞成还是反对这一改革方案? ⚫ 1.赞成;2.反对 4. 对分类数据的描述和分析通常使用列联表 可使用 c检验 5 ◼ 分类数据是在汇总数据的基础上 进行分析的,数据汇总的结果表 现为频数。 ◼ 分类数据的结果是频数, c检 验是对分类数据的频数进行分析 的统计方法
9.1.2x2统计量 1.用于检验分类变量拟合优度,测定两个分类变量 之间的相关程度。 计算公式为 x g 期望值频数 观察值频数
9.1.2 c 统计量 − = e o e f f f 2 2 ( ) c 1. 用于检验分类变量拟合优度,测定两个分类变量 之间的相关程度。 2. 计算公式为 6 观察值频数 期望值频数
9.1.2x2统计量 分布与自由度的关系(回顾 特征:①x20,因为它是对平方结果的汇总;②x2 统计量的分布与自由度有关;③x2统计量描述了观 0.45 察值与期望值的接近程度。两者越接近,即fGf的 0,40 0.351d=1 绝对值越小,计算出的x2值就越小;反之,f的 绝对值越大,计算出的x2值也越大 0.30 而x2检验正是通过对x2的计算结果与x2分布中的临 0.25 界值进行比较,做出是否拒绝原假设的统计决策。 0.20 df=5 x2>x2临界值,拒绝H0 0.15 df=10 x2<x2临界值,不拒绝H0 0.10 0.05 0.00 10 30
9.1.2 c 统计量 ◼ 分布与自由度的关系(回顾) 7 ◼ 特征:①c ≥0,因为它是对平方结果的汇总;②c 统计量的分布与自由度有关;③ c 统计量描述了观 察值与期望值的接近程度。两者越接近,即 f0 -f1 的 绝对值越小,计算出的c 值就越小;反之, f0 -f1 的 绝对值越大,计算出的c 值也越大。 ◼ 而c 检验正是通过对c 的计算结果与c 分布中的临 界值进行比较,做出是否拒绝原假设的统计决策。 c > c α临界值,拒绝H0 c <c α临界值,不拒绝H0
9.2拟合优度检验例题分析) 【例】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞 沉没。当时船上共有共2208人,其中男性1738人,女性 470人。海难发生后,幸存者为718人,其中男性374人, 女性344人,以的显著性水平检验存活状况与性别是否有 关。(a=0.1)
9.2 拟合优度检验(例题分析) ◼ 【例】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞 沉没。当时船上共有共2208人,其中男性1738人,女性 470人。海难发生后,幸存者为718人,其中男性374人, 女性344人,以的显著性水平检验存活状况与性别是否有 关。 ( =0.1) 8
9.2拟合优度检验例题分析) 解:要回答观察频数与期望频数是否一致,检验如下假设: Ho:观察频数与期望频数-致 H1:观察频数与期望频数不一致 计算表 步骤一 步骤二 步骤三 f f o -fe (f6-f)2(f0-f)2/ 374 565 191 36481 64.6 344 153 191 36481 238.4 步骤四 ∑ f-r =303
9.2 拟合优度检验(例题分析) ◼ 解:要回答观察频数与期望频数是否一致,检验如下假设: ◼ H0:观察频数与期望频数一致 ◼ H1:观察频数与期望频数不一致 9
9.2拟合优度检验例题分析) 自由度的计算为af=R-1,R为分类变量类型的个数 在本例中,分类变量是性别,有男女两个类别,故R=2,于 是自由度a21=1,经查分布表,x2(01)(1)=2.706,因 为x2远大于x201,故拒绝H,说明存活状况与性别显著相关。 10
9.2 拟合优度检验(例题分析) ◼ 自由度的计算为df=R-1,R 为分类变量类型的个数。 ◼ 在本例中,分类变量是性别,有男女两个类别,故R=2,于 是自由度df=2-1=1,经查分布表, c (0.1)(1)=2.706,因 为c 远大于c 0.1,故拒绝H0,说明存活状况与性别显著相关。 10