分类数据的组间比较 分类数据的分析对象是归属于某 类的观测的频数
分类数据的组间比较 分类数据的分析对象是归属于某一 类的观测的频数
分类数据的表现形式 频数 频数表 交叉频数表 cross-tabulation 百分构成 近视眼非近视眼合计 有序还是无序 男 a b n 1+ 女 C n2+ 计n +1 +2
分类数据的表现形式 ◼ 频数 ◼ 频数表 ◼ 交叉频数表cross-tabulation ◼ 百分构成 ◼ 有序还是无序 近视眼 非近视眼 合计 男 a b n1+ 女 c d n2+ 合计 n+1 n+2 n
二项分布 n人中B型血人数x的概率分布 0.5 1.60E-01 兀=0.08 1.40E-01 0.4 兀=0.08 1.20E-01 0.3 1.00E-01 8.00E-02 0.2 6.00E-02 4.00E-02 0.1 2.00E-02 0.00E+00 0123456789 024681012141618 10人中B型血人数x的概率分布图 100人中B型血人数x的概率分布图 Pr(x) (I-T)-x u=n o=nz(1-z)
二项分布 n人中B型血人数x的概率分布 10人中B型血人数x的概率分布图 100人中B型血人数x的概率分布图 0 0.1 0.2 0.3 0.4 0.5 0 1 2 3 4 5 6 7 8 9 0.00E+00 2.00E-02 4.00E-02 6.00E-02 8.00E-02 1.00E-01 1.20E-01 1.40E-01 1.60E-01 0 2 4 6 8 10 12 14 16 18 ( ) ( − ) = = ( − ) − = − 1 1 ! ! ! Pr( ) n n x n x n x x n x =0.08 =0.08
单个样本百分构成的分析 百分构成:p=Xn 点估计p→>兀 正态近似的应用条件 np>5和n(1p)>5:同样的,X5和nX>5 P=T, SE(p)=pl-p) 区间估计(正态近似法) ■假设检验 直接法 正态近似法x=1-x/-1 SE(p)
单个样本百分构成的分析 ◼ 百分构成:p=x/n ◼ 点估计 p→ ◼ 正态近似的应用条件 np>5 和 n(1-p) >5;同样的,x>5 和 n-x>5 ◼ 区间估计(正态近似法) ◼ 假设检验 ◼ 直接法 ◼ 正态近似法 p =,SE(p) = p(1− p) n SE(p) p z 2n 1 − − =
回顾一符号检验 Sign test 如果样本观测值与参考值在平均上没有差别的话,那么小于参考值 和大于参考值的观测数应大致相等,即:任一观测值在参考值左 边或右边的概率相等,均为1/2 利用2项分布n=1p=x=2,x=9 利用正态近似理论值=mp=11×=5.5 SE(x)=√mp(-p)=√1l××=1658 x-np 9-5 2 2.11 1.658 连续性校正:x=my 5 1.81 1.658
回顾—符号检验Sign test 如果样本观测值与参考值在平均上没有差别的话,那么小于参考值 和大于参考值的观测数应大致相等,即:任一观测值在参考值左 边或右边的概率相等,均为1/2 ( ) ( ) ( ) ( ) 1.81 1.658 9 5.5 1 : 2.11 1.658 9 5.5 1 1 11 1.658 11 5.5 2 11, ; 2, 9 2 1 2 1 2 1 2 1 2 1 2 1 = − − = − − − = = − = − − = = − = = = = = = = = = np p x np z np p x np z SE x np p np n p x x 连续性校正 利用正态近似 理论值 利用 项分布
两个独立样本的百分构成的比较 点估计p1p2→>兀1m2 ■区间估计(正态近似法) SE(P-P,)=Var(pi)+ var(p:)=V2H p(-P)⊥P2(1-P2) SE(P,-P2 )=√2+0=√(-+) 存活死亡合计 假设检验(正态近似法)单纯57b84 联合39d47 se(p-p 「合计n+1n+2131
两个独立样本的百分构成的比较 ◼ 点估计 p1 -p2→1 -2 ◼ 区间估计(正态近似法) ◼ 假设检验(正态近似法) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 2 1 2 1 2 1 2 2 2 2 1 1 1 ˆ ˆ(1 ˆ)( ) var var 1 1 ˆ 1 ˆ ˆ 1 ˆ 1 2 1 1 1 2 1 2 n n x x n n n p p n p p n p p n p p p SE p p p p SE p p p p + + − − − − = − = + = − + − = + = + ( ) ( ) 1 2 1 1 2 1 1 2 1 2 SE p p p p z n n c − − − + = 存活 死亡 合计 单纯 57 b 84 联合 39 d 47 合计 n+1 n+2 131
配对样本百分构成的分析 es No 同一个体有两次观测 a 1+ No C 2+ 合计n+1 2 ■区间估计(正态近似法) +b a+c 2 n se =1√/b+c
配对样本百分构成的分析 ◼ 区间估计(正态近似法) Yes No 合计 Yes a b n1+ No c d n2+ 合计 n+1 n+2 n 同一个体有两次观测 ( ) n b c n n b c n a c n a b SE p p b c p p 2 1 ( ) 1 2 1 2 − + + − − = + − − = − =
配对样本百分构成的分析(续) ■假设检验(正态近似法) 在无效假设的前提下:SE(p1-P2)=++0=b+c b SE(P,-P2 6+c 基于2项分布考虑的假设检验 在无效假设的前提下:b+C中b或C的频数服从2项分布 直接法:p=05 正态近似法:s(0)=m-D)=(b+)×=+ b b MCNemar's test z SE 6+c
配对样本百分构成的分析(续) ◼ 假设检验(正态近似法) 在无效假设的前提下: ◼ 基于2项分布考虑的假设检验 在无效假设的前提下:b+c中b或c的频数服从2项分布 直接法:p=0.5 正态近似法: SE(p p ) b c n b c b c n − = + + = + + + 1 2 2 1 1 2 0 ( ) ( ) b c b c SE p p p p z n n c + − − = − − − + = 1 1 2 1 1 2 1 1 2 1 2 ( ) ( ) ( ) ( ) ( ) b c b c SE b b z b c SE b np p b c b c + − = − = + = − = + = + 2 2 1 2 1 2 1 McNemar’s test
a和d是否真的被忽略? YsNo合计 YsNo合计 Yes 10 15 Yes 51 15 No 6 2+ No 6 33 2+ 计 n n 36 n 105 p1=(0+15)36=0.694 p=(51+15)/105=0629 0+6)/36=0444 P2=(51+6)105=0543 P1-P2=0.250 P1-p2=0.086 SE B1-2/3621-92/36 SE(p1-P2)=而V21-92/105 0.1203 =0.0428 95%C:0251.96×0.1203 95%C/:0.086平1.96×0.0428 即:0.014~0486 即:0.002~0.170
a和d是否真的被忽略? Yes No 合计 Yes 10 15 n1+ No 6 5 n2+ 合计 n+1 n+2 36 Yes No 合计 Yes 51 15 n1+ No 6 33 n2+ 合计 n+1 n+2 105 ( ) ( ) ( ) : 0.014 ~ 0.486 95% : 0.25 1.96 0.1203 0.1203 21 9 36 0.250 10 6 36 0.444 10 15 36 0.694 2 36 1 1 2 1 2 2 1 即 = − = − − = = + = = + = CI SE p p p p p p ( ) ( ) ( ) : 0.002 ~ 0.170 95% : 0.086 1.96 0.0428 0.0428 21 9 105 0.086 51 6 105 0.543 51 15 105 0.629 2 105 1 1 2 1 2 2 1 即 = − = − − = = + = = + = CI SE p p p p p p
行×列表的分析 水平1 水平C合计 组1 n n n 组R n R+ 计 n n n 行x列表又称RxC表、列联表 分析前要考虑的问题 1.水平数 2.水平之间是否有序 3.要回答问题的性质
行列表的分析 生存 死亡 合计 组1 a b n1+ 组2 c d n2+ 合计 n+1 n+2 n 水平1 水平C 合计 组1 n11 n1C n1+ nij 组R nR1 nRC nR+ 合计 n+1 n+C n 行列表又称RC表、列联表 分析前要考虑的问题: 1. 水平数 2. 水平之间是否有序 3. 要回答问题的性质