@ 卡方检验 第十讲 口捡验两个变量间的变互分析的方法 卡方检验与交互分析 变量间独立性拉验 口拟合优度 交互分析 合优度的卡方x2检验 口是食的调查研究中最常用的方油之 口拟合优度:研究观测播与原假设报合/数的看度 口用于研究网个变量之间是相互教立还是有在种关联性 口合分析雨个定变量的关系 高调量等级的变量 假设验的形式: 观调次期次 H儿宣对六种节目没有偏好 =300名儿盒 (f。f 目次郎期改f 知知知知到 鲁(6-f)1 (观测频次-期望频次)2 期望频次 x2-∑(
1 Journalism & Communication School 新闻传播学院 主讲教师:沈浩 北京广播学院新闻传播学院 副教授 北京广播学院调查统计研究所 副所长 卡方检验与交互分析 第十讲 新闻传播学院 2 卡方检验 检验两个变量间的交互分析的方法 变量间独立性检验 拟合优度 新闻传播学院 3 交互分析 是传统的调查研究中最常用的方法之一 用于研究两个变量之间是相互独立还是存在某种关联性 适合于分析两个定类变量的关系 如果降低测量级别也可分析较高测量等级的变量 新闻传播学院 4 拟合优度的卡方 X2 检验 卡方x2检验 观测频次— 期望频次 拟合优度:研究观测数据与原假设拟合/一致的程度 假设检验的形式: 新闻传播学院 5 节目 观测频次 f0 期望频次 fe 1 85 50 2 80 50 3 55 50 4 10 50 5 40 50 6 30 50 H0:儿童对六种节目没有偏好 ∑ − = e e f f f 2 2 0 ( ) χ e f − f 0 2 0 ( )e f − f e e ( f f ) / f 2 0 − N=300名儿童 1 2 3 4 新闻传播学院 6 ∑ − = e e f f f 2 2 0 ( ) χ = ∑ 期望频次 观测频次 期望频次 2 2 ( - ) χ
拟合优度的卡方值计算公式 卡方检验的步骤 口陈述原假设H f。 口计算卡方值 自由度d=k-1 口求得卡方值的概值 X2卡方是一个随机变量,随样本的不同而波动 口接受原假设或拒绝原假设 查卡方表值P<005→拒绝或接受H 交互分析 中“及 用于两个变量间独立性检验的卡方检验 独立性检验的卡方值计算公式 立性 ∑∑ (foe) 自由度d=(c-1)(r-1)
2 新闻传播学院 7 拟合优度的卡方值计算公式 ∑ − = e e f f f 2 2 0 ( ) Chi-Square χ 自由度 df = k-1 K=分组数 X2 卡方是一个随机变量,随样本的不同而波动 查卡方表概值P<0.05 Æ拒绝或接受H0 新闻传播学院 8 卡方检验的步骤 陈述原假设H0 计算卡方值 求得卡方值的概值 接受原假设或拒绝原假设 新闻传播学院 9 交互分析 A1 性别 * A3 文化程度 Crosstabulation 19 109 132 82 342 23.1 112.7 134.9 71.2 342.0 5.6% 31.9% 38.6% 24.0% 100.0% 38.8% 45.6% 46.2% 54.3% 47.2% 30 130 154 69 383 25.9 126.3 151.1 79.8 383.0 7.8% 33.9% 40.2% 18.0% 100.0% 61.2% 54.4% 53.8% 45.7% 52.8% 49 239 286 151 725 49.0 239.0 286.0 151.0 725.0 6.8% 33.0% 39.4% 20.8% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% Count Expected Count % within A1 性别 % within A3 文化程度 Count Expected Count % within A1 性别 % within A3 文化程度 Count Expected Count % within A1 性别 % within A3 文化程度 1 男 2 女 A1 性 别 Total 1 小学或以 下 2 初中或中 技 3 高中或中 专 4 大专及以 上 A3 文化程度 Total 新闻传播学院 10 NA7 月平均收入 * A3 文化程度 Crosstabulation 37 160 112 41 350 23.7 115.2 138.0 73.1 350.0 10.6% 45.7% 32.0% 11.7% 100.0% 75.5% 67.2% 39.3% 27.2% 48.4% 10 63 116 71 260 17.6 85.6 102.5 54.3 260.0 3.8% 24.2% 44.6% 27.3% 100.0% 20.4% 26.5% 40.7% 47.0% 36.0% 2 15 57 39 113 7.7 37.2 44.5 23.6 113.0 1.8% 13.3% 50.4% 34.5% 100.0% 4.1% 6.3% 20.0% 25.8% 15.6% 49 238 285 151 723 49.0 238.0 285.0 151.0 723.0 6.8% 32.9% 39.4% 20.9% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% Count Expected Count % within NA7 月平均收入 % within A3 文化程度 Count Expected Count % within NA7 月平均收入 % within A3 文化程度 Count Expected Count % within NA7 月平均收入 % within A3 文化程度 Count Expected Count % within NA7 月平均收入 % within A3 文化程度 1.00 500元以下 2.00 501-1000元 3.00 1000元以上 NA7 月平均 收入 Total 1 小学或以 下 2 初中或中 技 3 高中或中 专 4 大专及以 上 A3 文化程度 Total 新闻传播学院 11 用于两个变量间独立性检验的卡方检验 独立性检验—— 两个变量之间是相互独立还是存在某种关联性。 Chi-Square Tests 4.823a 3 .185 4.833 3 .184 3.850 1 .050 725 Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Value df Asymp. Sig. (2-sided) 0 cells (.0%) have expected count less than 5. The minimum expected count is 23.11. a. Chi-Square Tests 90.957a 6 .000 95.396 6 .000 80.898 1 .000 723 Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Value df Asymp. Sig. (2-sided) 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.66. a. 新闻传播学院 12 独立性检验的卡方值计算公式 ∑ ∑ − = e e f f f 2 2 0 ( ) χ 期望频次 观测频次 Chi-Square 自由度 df = (c-1)(r-1)
卡方检验的局限性 一般性原则 1、卡方值隴变量分类的不同而改变 只要有数量型的变量出现,就应该采用 2、样本含量不能太小,也不宜宣太大 可以揭露他们的数量性质的统计分析工具 3、列联豪中期望飘次小于5的单元不能超过20% (例如:两个样本的t检验、方差分析、回 4、对于量型的变量卡方验无法示其败量性质 归等)来分析。X检验更适用于定类变量。 一个实际应用案例新产品名称的测试 拟定中的新产晶名称网其它个拟的名称一起试 问兽中的问如下 是形成品脑念的亡,为新产品起一个好的名字是非常孤的 下面我将出一名调 好的名字至少应滴足下列两个条件 您判新下它们最康什么商品的名?〔出示卡片,只选一项) 1.2水圳4最&晶息空调 2.名宇应使清费膏有最换近正确产品的 这些名称最能使您产生什么觉?《出示卡片,只逸一项 7.蒲息 名称X、产品联银Y和感觉Z的对应豪一 瓣对于一个18x8的列联,用下空才能完地对其冖(100,個 是,可能有0%的对皮豪的惯量刚好保在二交同,从实用角,用〓维 玉来背看需望改天山绿中美魄方浪花 空间解是可以签受的,也晶于加 在试中有三个名义变XYZ们可以筒单地将 在二个变量,构造一个新的二能格, 温
3 新闻传播学院 13 卡方检验的局限性 1、卡方值随变量分类的不同而改变 2、样本含量不能太小,也不宜太大 用列联系数C来修正 3、列联表中期望频次小于5的单元不能超过20% 4、对于数量型的变量,卡方检验无法揭示其数量性质 新闻传播学院 14 一般性原则 只要有数量型的变量出现,就应该采用 可以揭露他们的数量性质的统计分析工具 (例如:两个样本的t检验、方差分析、回 归等)来分析。X2检验更适用于定类变量。 新闻传播学院 15 一个实际应用案例——新产品名称的测试 1. 名字应该使消费者联想到正确的产品。 2. 名字应该使消费者有最接近正确产品的感觉。 对新产品来说,产品名称是消费者认识和识别该产品的核心要素, 是形成品牌概念的基础。为新产品起一个好的名字是非常重要的, 好的名字至少应该满足下列两个条件: 新闻传播学院 16 下面我将列出一些名词: 请您判断一下它们最象什么商品的名称?(出示卡片,只选一项) 拟定中的新产品名称“波澜”同其它7个模拟的名称一起测试。 问卷中的问题如下: 1. 清爽 2. 甘甜 3. 欢快 4. 纯净 5. 安闲 6. 个性 7. 兴奋 8. 高档 9. 其它 1. 雪糕 2. 纯水 3. 碳酸饮料 4. 果汁饮料 5. 保健食品 6. 空调 7. 洗衣机 8. 毛毯 9. 其它 这些名称最能使您产生什么感觉?(出示卡片,只选一项) 新闻传播学院 17 玉泉 雪源 春溪 期望 波澜 天山绿 中美纯 雪浪花 雪糕 50 442 27 21 14 50 20 258 纯水 508 110 272 51 83 88 605 79 碳酸饮料 55 68 93 36 71 47 37 77 果汁饮料 109 95 149 41 36 125 43 65 保健食品 34 29 45 302 37 135 42 18 空调 11 28 112 146 113 39 20 31 洗衣机 20 12 54 64 365 13 8 210 毛毯 2 4 17 36 29 272 9 35 清爽 368 322 167 53 57 129 149 170 甘甜 237 237 142 41 34 95 119 116 欢快 19 25 185 105 123 44 22 193 纯净 142 140 128 47 38 123 330 68 安闲 16 16 106 166 81 164 21 36 个性 2 14 9 72 94 41 37 42 兴奋 4 11 10 78 248 35 17 81 高档 3 5 19 107 63 126 63 49 16×8 的列联表 名称 X、产品联想 Y 和感觉 Z 的对应表----频数 新闻传播学院 18 对于一个16×8的列联表,用7-维空间才能完满地对其进行解释(100%),但 是,可能有70%的对应表的惯量刚好保留在二维空间,从实用角度讲,用二维 空间解释是可以接受的,也更易于理解。 在品牌测试中,有三个名义变量X,Y,Z,我们可以简单地将第三个变量Z附加 在第二个变量Y上,构造一个新的二维表格, X Y Z
对应分折可以果用两科方法处理上面的格 ()在分新过翻中,变量乙作为个新的 Y Z (2)对皮分只Y,z同加行童(2) (1) 这变量z的各美只是空同中的陷加点,井不影 空的属性,包 种情况着有8和8列如限是亮金机的没有显着做美 解、分雄度方向 园此,任侧贡大于143%前鄣认角是的、不省的,应包括 在的空中 这X=称,Y=}品,z=,其中Y,一个新的变量 E 玉泉 含清爽 果汁饮料 毛毯保健食品 第二种情况的行、列变量类得分(可解释777%) 第一种情况中的行、列变量类得分(可解释617%) 洗衣机 选衣机 雪花 ■波澜 玉泉 纯净 中美纯 ■ 保健食品 保健食品 毛往 32的行、列变量类得分(可解释77.7%,处置2 行、列变量类得分(可解释63.5%
4 新闻传播学院 19 对应分析可以采用两种方法处理上面的表格: (1)在分析过程中,将变量Y和Z作为一个新的行变量(处置1); (2)对应分析只基于变量X和Y,而将变量Z作为附加行变量(处置2), 这意味着变量Z的各类只是空间中的附加点,并不影响二维空间的属性,包 括行、列得分,维度,坐标轴和方向。 这里X=名称,Y=产品,Z=感觉,其中Y+Z=形象,作为一个新的变量。 新闻传播学院 20 X Y X Z 两种情况都有8行和8列,如果数据是完全随机的没有显著的依赖关 系,则从每个轴抽取的平均惯量应该能解释总惯量的100/(8-1)=14.3%, 因此,任何贡献大于14.3%的轴都被认为是重要的、不宜省略的,应该包括 在解的空间中。 (1) (2) Z Y x (3_1) Z Y x (3_2) 新闻传播学院 21 -1.5 -1 -0.5 0 0.5 1 1.5 2 -1.5 -1 -0.5 0 0.5 1 1.5 雪源 雪浪花 波澜 期望 天山绿 中美纯 玉泉 春溪 雪糕 洗衣机 空调 碳酸饮料 毛毯 保健食品 纯水 果汁饮料 第一种情况中的行、列变量类得分(可解释61.7%) 新闻传播学院 22 -1.5 -1 -0.5 0 0.5 1 1.5 -1.5 -1 -0.5 0 0.5 1 1.5 2 玉泉 雪浪花 波澜 期望 天山绿 中美纯 雪源 春溪I 清爽 甘甜 兴奋 欢快 个性 纯净 安闲 高档 第二种情况的行、列变量类得分(可解释77.7%) 新闻传播学院 23 -1.5 -1 -0.5 0 0.5 1 1.5 2 -1.5 -1 -0.5 0 0.5 1 1.5 雪糕 雪源 清爽 甘甜 雪浪花 洗衣机 兴奋 波澜 欢快 个性 空调 碳酸饮料 期望 毛毯 保健食品 天山绿 中美纯 纯水 纯净 玉泉 果汁饮料 春溪 安闲 高档 3-1 行、列变量类得分(可解释63.5%,处置1) 新闻传播学院 24 -2 -1.5 -1 -0.5 0 0.5 1 1.5 2 -1.5 -1 -0.5 0 0.5 1 1.5 2 雪糕 雪源 清爽 甘甜 雪浪花 洗衣机 兴奋 波澜 欢快 个性 空调 碳酸饮料 期望 毛毯 保健食品 天山绿 中美纯 纯水 纯净 玉泉 果汁饮料 春溪I 安闲 高档 3-2 的行、列变量类得分(可解释77.7%,处置2)
惯量比例( Proportion of Inertia) 1000 卡方( Chi square)·312225概率值( Significance p)=.00 5
5 新闻传播学院 25 表5:对应分析过程的最终汇总统计量 1 .572 .328 .594 .594 2 .318 .101 .183 .777 3 .267 .071 .129 .906 4 .210 .044 .080 .986 5 .077 .006 .011 .997 6 .038 .001 .003 .999 7 .018 .000 .001 .1.000 Total .552 1.000 1.000 维度 (Dimension) 奇异值 (Singular Value) 惯量 (Inertia) 惯量比例(Proportion of Inertia) 比例 累计比例 卡方(Chi Square) = 3312.225 概率值(Significance p)=.000