2016/5/8 什么是分类数据 第6章分类数据关联分析 ·美数据贸行微入是备整雾 间是否存在相关。 得儿后木学装时韩 本章内容 问题:两个分类变量有关系吗?如何度量? 不良习惯 健康 得肺病没有肺病 得肺病没有肺病 吸烟900 吸烟040 不吸烟00 不吸烟4020 ♪海肺病吸烟=? P叫得肺病不吸细= 6.111!列联表和检验 独立性检验 B1B,B,总和 假设检验问题: BBB总和 Ay nut mz.mum. ,ln2·h,ne H。:p=PP 总和12…n Ar trt Bra ..nrs tr 构透统计量: 总和1格2…n m=∑y,i=1,2…一,表示各行之和 西=立小=12表示各列之和 -g2-ggg兰父→x2 n--2 当尤取大值,或者即值很小的时候,拒绝零假设。 中人转大穿车 中人是大学保布 1
2016/5/8 1 第6章 分类数据关联分析 中国人民大学统计学院 什么是分类数据 统计数据的一种。指反映事物类别的数据。如 人按性别分为男、女两类。 分类数据(categorical data)是离散数据(discrete data)。分类属性具有有限个(但可能很多)不同 值,值之间无序。 例子: 200例肿瘤患者中A指标阳性100例,阴性 100例;B指标阳性50例,阴性150例。AB都是分 类变量。有AB同时阳性的患者20例,想看AB之 间是否存在相关。 中国人民大学统计学院 本章内容 Mantel-Haenszel检验 McNemar检验 明德主楼1019王星 wangxingscy@gmail.com 82500167 中国人民大学统计学院 90 0 90 吸烟 0 不吸烟 得肺病 没有肺病 80 40 20 吸烟 40 不吸烟 得肺病 没有肺病 P(得肺病|吸烟)=? P(得肺病|不吸烟)=? 2 3 问题:两个分类变量有关系吗?如何度量? 不良习惯 ------------ 健康 中国人民大学统计学院 6.1 r s 列联表和 2 检验 中国人民大学统计学院 独立性检验 2 假设检验问题: 当 取大值,或者p-值很小的时候,拒绝零假设。 2 2 (r 1)(s 1) 2 构造统计量: H0 pij pi. p. j : . n n n e i j ij . . . i j ij ij i j ij ij ij n e n e n e , .. 2 , 2 2 ( ) ( )
2016/5/8 交叉分析 例6.1 酸 生 明德主楼1019 民大学流时 解答 6.2齐性检验例6.2 c山-rwt话t with Yatea'Cat1 aulty correctia0 师程对类用的关生卡是香一快 V1=1,一元月。:风:=…-%=到行瓜:等式不全成立 e大 齐性检验 齐性检验 生2,对好的告计是 0:/o 民品…B总和 假设检验问 =l,rH。:Pa==B=R付H,:等式不全相等 构透统计量: -3-3%- 期…L元 在零假没下近似有:父→X 检验方法和独立性检验相同 。s 2
2016/5/8 2 明德主楼1019 中国人民大学统计学院 交叉分析 性 别 可 以 接受 的 数 码相 机 的 价格 Crosstabulation 31 115 85 64 21 316 9.8% 36.4% 26.9% 20.3% 6.6% 100.0% 11.2% 39.7% 47.5% 83.1% 44.7% 36.4% 3.6% 13.2% 9.8% 7.4% 2.4% 36.4% 245 175 94 13 26 553 44.3% 31.6% 17.0% 2.4% 4.7% 100.0% 88.8% 60.3% 52.5% 16.9% 55.3% 63.6% 28.2% 20.1% 10.8% 1.5% 3.0% 63.6% 276 290 179 77 47 869 31.8% 33.4% 20.6% 8.9% 5.4% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 31.8% 33.4% 20.6% 8.9% 5.4% 100.0% Count % within 性 别 % within 可以接受的 数码相机的价格 % of Total Count % within 性 别 % within 可以接受的 数码相机的价格 % of Total Count % within 性 别 % within 可以接受的 数码相机的价格 % of Total 男 女 性 别 Total 1000元以下 1001-2000元 2001-3000 3000-6000 6001以 上 可以接受的数码相机的价格 Total Chi-Square Tests 160.399a 4 .000 173.531 4 .000 113.234 1 .000 869 Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases Value df Asymp. Sig. (2-sided) 0 cells (.0%) have expected count less than 5. The minimum expected count is 17.09. a. 注意: 1. 交叉列联表中的期望数<5的格点数 不超过20%,方可进行Chi square检验。 2.只有当交叉列联检验通过,才可认 为行变量和列变量存在关系,否则只能视 为独立。 中国人民大学统计学院 例6.1 中国人民大学统计学院 解答 C=0.1294459 中国人民大学统计学院 6.2 齐性检验 例6.2 中国人民大学统计学院 齐性检验 • H0 : pi 1= pi 2 = …=pi . • 在H0 之下,对pi. 最好的估计是 pi. = ni./n • 对交叉列联表的每个单元格而 言,我们希望测量观测频数和 期望频数的差异: (nij - n.jpi .) • 将上面的结果平方再标准化得 到统计量 2 calc. • 注意到Eij = pi . n.j = (ni .)(n.j )/n 这个形式和独立性检验的形式 是一致的。 ^ ^ ^ ^ 中国人民大学统计学院 2 齐性检验 假设检验问题: 构造统计量: 2 2 在零假设下近似有: (r 1)(s 1) 检验方法和独立性检验相同。 i j ij ij i j ij ij ij n e n e n e Q , .. 2 , 2 ( ) ( ) .. . . . n n n e i j ij i 1,...,r, H0 : pi1 ... pir pi. H1 :等式不全相等
2016/5/8 Riddle of Jane Austen -0 chisa 中1球大 6.3 Fisher精确检验 检验fisher..test 22列胜去 B 品总和 A.h 、务格千的的大烤 当大样木时可用因我 在A、B独立时: P,}= n!P(m)= ninlmalnanal 例6.3 6.4 Mantel-Haensze检验 存话424 之间常常有不 54.47.3 q3506.df1,p-ae-006718 中现大保时
2016/5/8 3 中国人民大学统计学院 解答 讨论题: 多样本检验和X^2检 验相似之处和区别 中国人民大学统计学院 Riddle of Jane Austen Word Sense Emma SanditonI SanditonI Sbility a 147 186 101 83 an 25 26 11 29 this 32 39 15 15 that 94 105 37 22 with 59 74 28 43 without 18 10 10 4 chisq.test(Jane) Pearson's Chi-squared test data: Jane X-squared = 45.5775, df = 15, pvalue = 6.205e-05 中国人民大学统计学院 6.3Fisher精确检验 总和 n.1 n.. n2. n12 n1. B1 B2 总和 A1 A2 2*2列联表 在A、B独立时: n22 n.2 n11 n21 ! ! ! ! ! ! ! ! ! { } .. 11 12 21 22 1. .1 2. .2 n n n n n n n n n P nij .1 21 2. 11 1. 11 .. ( ) n n n n n n P n 中国人民大学统计学院 检验fisher.test 任何一个格子中的的数目都不会过大或者过小,如果过 大过者过小就可以考虑拒绝零假设,因而我们考虑 就 可以了。当大样本时,可以采用近似正态分布进行检验, 即: 11 n (0,1) ( ) 1. 2. .1 .2 .. 11 22 12 21 N n n n n n n n n n Z 中国人民大学统计学院 例6.3 中国人民大学统计学院 6.4 Mantel-Haenszel检验 42 54 47 33 20 14 17 25 A B 存活 死亡 UU=matrix(c(42,54,47,33),2) > chisq.test(UU) Pearson's Chi-squared test with Yates' continuity correction data: UU X-squared = 3.3506, df = 1, p-value = 0.06718 A B 存活 死亡 A B 存活 死亡 22 30 30 8 当组与组之间常常有不 同的背景,而这些背景 因子很可能会影响到组 与组之间结果存在差异
2016/5/8 申侧认绝大李海计学海 Simps0n悖论(女惠.卖s盖支虹第法+) 辛普在悖论(S 这两个学有性别视 论,即在某个 配对设计两样本率比较 的检验(mcnemar.test) 方法原理 方法原理 例6,9用A、B两种方法检查已确诊的乳腺癌患 首140名 ”蕊裂折思路。最终可整理曲如前所列的配对 一合计 23。 24 4
2016/5/8 4 中国人民大学统计学院 中国人民大学统计学院 chisq.test(matrix(c(97,150,97,150),2,2)) Pearson's Chi-squared test data: matrix(c(97, 150, 97, 150), 2, 2) X-squared = 0, df = 1, p-value = 1 > 中国人民大学统计学院 Simpson悖论(女>男|商,女>男|法,女?男|法+商) 辛普森悖论(Simpson‘s Paradox) 亦有人译为辛普森诡论,为英国 统计学家E.H.辛普森E.H.Simpson 于1951年提出的悖论,即在某个 条件下的两组数据,分别讨论时 都会满足某种性质,可是一旦合 并考虑,却可能导致相反的结论。 例题:一所美国高校的两个 学院,分别是法学院和商学 院,新学期招生。人们怀疑 这两个学院有性别歧视。 法学院 商学院 申请性别 法学院 商学院 女 男 录取率 配对设计两样本率比较 的χ 2检验(mcnemar.test) 中国人民大学统计学院 23 方法原理 例6.9 用A、B两种方法检查已确诊的乳腺癌患 者140名,A法检出91名(65%),B法检出77名 (55%),A、B两法一致的检出56名(40%),问哪 种方法阳性检出率更高? B法 A法 + - 合 计 + 56 (a) 35 (b) 91 - 21 (c) 28 (d) 49 合 计 77 63 140 中国人民大学统计学院 24 方法原理 显然,本例对同一个个体有两次不同的测量, 从设计的角度上讲可以被理解为自身配对设计 按照配对设计的思路进行分析,则首先应当求 出各对的差值,然后考察样本中差值的分布是 否按照H0假设的情况对称分布 按此分析思路,最终可整理出如前所列的配对 四格表
2016/5/8 方法原理 方法原理 ·注意 一素角提士西种检验方法的结论相同,对间题的解 根据得b、c两格的理论数均为五=T=(b+c2. 对应的配对检验统计量为: 线年0时,需用确切概率法进行检轮, 或进是 注意事项 配对四格表资料的检馨业e 制,雨种直液学检融结果比粒 甲法门 乙法 计 + r.cvI 2大 序和分布的识别 ▣从 >e80,10,3,10,22 rsomChi-squeredtetwihYhatecontinuiyeorecti 会生活不了 kd-2817,d-1.pac=aw959 陕序是主动的 McNemaschu1,df 1 p-value
2016/5/8 5 中国人民大学统计学院 25 方法原理 注意 – 主对角线上两种检验方法的结论相同,对问题的解 答不会有任何贡献 – 另两个单元格才代表了检验方法间的差异 假设检验步骤如下: – H0:两法总体阳性检出率无差别,即B = C – H1:两法总体阳性检出率有差别,即B C 中国人民大学统计学院 26 方法原理 mcci 56 35 21 28 根据H0得b、c两格的理论数均为Tb = Tc = (b+c)/2, 对应的配对检验统计量为: , 1 ( ) 2 2 b c b c 一般在 b + c 4 0 , 不 需 作 连 续 性 校 正 , 计算得 10.76, 1 10 31 (10 31) 2 2 配对四格表资料的 检验 2 McNemar检验(McNemar's test) 中国人民大学统计学院 > ex=matrix(c(80,10,31,10),2,2) > chisq.test(ex) Pearson's Chi-squared test with Yates' continuity correction data: ex X-squared = 2.8817, df = 1, p-value = 0.08959 > mcnemar.test(ex) McNemar's Chi-squared test with continuity correction data: ex McNemar's chi-squared = 9.7561, df = 1, p-value = 0.001787 中国人民大学统计学院 序和分布的识别 从一般意义上,社会生活不能没有秩序; – 公务卡购票 – 安检 – 登机 – 享受飞翔的自由 稳定与秩序的辨别: – 稳定是被动的,秩序是主动的; – 稳定是静态的,秩序是动态的; – 稳定是不主张激活的,秩序则是与活力兼容的
2016/5/8 秩序是什么? 卧 ·回想一个随机变量的秩是怎样定义的? 例子 9=r/(n+1) g=∫p(x)dx ·如果数据的分布不知道怎么办? 商件委登器体有泽器分类实猛男-个度量是 ■一个随机变量的秩是怎样定义的? 鹅盟要务等的比例是否相同。各不的组是香存在 申倒认地其海时学海 维性大学准时细 6.6 Ridit检验 顺序强度计算步骤 各限序计表 o. 处理之时的比 8 人表示不同比较组,列向量B为颗序尺度变量。假 设B<L<B,0,表示对应格子的啊应频数。 假设检验句题: 名的里0古0,的收配花第位氧有由华分 H。:A山,A,之间没有强指顺序H:至少一对A,A 两组检验 及标准计算公 ■检验问题: R=2 -w②w H:对照组的原=0.5 表3 0 和标准计表 Rdit值R及标准 95183 960 530.70709 330 1664,621054.7661 =025袋 6
2016/5/8 6 中国人民大学统计学院 秩序是什么? 回想一个随机变量的秩是怎样定义的? 秩是独立随机变量向量的一个特征,与样本量n有关 – 秩与分布分位数的对应关系: 如果数据的分布不知道怎么办? 一个随机变量的秩是怎样定义的? m q q p x dx q r n ( ) /( 1) 中国人民大学统计学院 问题:A和B两组病人 治疗效果是否相同 两分类数据, 其中一个分类变量是分类变量;另一个变量是 顺序变量;称为单向有序分组数据 关心的问题:各等级的比例是否相同,各不同的组是否存在 整体的优劣之分 中国人民大学统计学院 6.6 Ridit检验 行向量A表示不同比较组,列向量B为顺序尺度变量,假 设 , 表示对应格子的响应频数。 假设检验问题: B B 1 s L Oij H : A , ,A H : A 0 1 r 1 j L 之间没有强弱顺序 至少一对A i 中国人民大学统计学院 顺序强度计算步骤 k 中国人民大学统计学院 两组检验 中国人民大学统计学院 O.jR.j O.jR.j O.jR.j O.j O.jR.j O.jR.j 2 表3: Ridit均值和标准差计算表
2016/5/8 Ridit得分定义 。对照组半值的行分法行加权半均 组各频致与剂 到头季胶鹏芳瘦:户A小事么 R9x0114+51x050921x0890+13x093.0624 与=∑时+j=2,8 其中 6x00☑ ==2…, 在实际计算中用样本告计 计算实例 多组检验 山:…,,之间没有强弱顺序 一H,:至少存在一对L,A。使得人≠A,成这 =) ww:)/) 根据计算的R构造检验统计最: 当大样本时,T值接近于1。从面检验统计量简化为: 可考虑拒绝零假设近似的置信区间瓦士1/30 大 例6.4
2016/5/8 7 中国人民大学统计学院 中医 中国人民大学统计学院 Ridit得分定义 假设顺序类别B中第j类的边缘分布是 , j=1,…,s,那么 第j类的顺序强度(Ridit得分)定义如下: 其中 在实际计算中用样本估计 . j p. 中国人民大学统计学院 计算实例 ori=c(20,30,25,44,24,26,16,18) ori1=ori/2 orisum=sum(ori) ori3=c(0,ori) ori4=cumsum(ori3)[1:length(ori)] ori5=(ori1+ori4)/orisum ori6=ori*ori5 ori6 now1=c(4,8,3,4,1,0,0,0) sumnow=sum(now1) sum(now1*ori5)/sum(now1) cor(now1,ori) now2=c(0,1,1,4,7,8,3,15) sumnow=sum(now2) sum(now2*ori5)/sum(now2) cor(now2,ori) now3=floor(ori*4) #now3=c(0,1,1,4,7,8,3,15) sumnow=sum(now3) sum(now3*ori5)/sum(now3) 中国人民大学统计学院 多组检验 2 (k 1) 中国人民大学统计学院 例6.4 中国人民大学统计学院
2016/5/8 解答 本章要求 蓝盖检彩成及后油症疗效继果的 194a152130 120797 s 。了解对数线性模型和卡方检验的异同: 网 。熟练应用R中的相关命令学习如上方法, 计0260 自自自自自 中圆人提大学时学隔
2016/5/8 8 中国人民大学统计学院 解 答 194 0.145 28.130 134 0.416 55.774 182 0.737 134.11 28 0.964 26.992 1 0.998 0.998 0 0.999 0 246.10 0.4564367 +0.02 中国人民大学统计学院 本章要求 掌握分类数据的独立性研究方法; 区分分类数据的独立性和齐性检验的异同; 掌握Fisher检验与卡方检验的应用条件的异同; 了解Ridit方法和应用; 了解对数线性模型和卡方检验的异同; 熟练应用R中的相关命令学习如上方法