2016/5/8 多总体的统计检验 多总体检验问愿: H=L=(x)=x+0,=,Lk 第4章多总体的统计检验 水平戒处夏 本章内容 多样本检验和两样本检验之间的差异 coizien 空 方差分析 几个术语 里置的他查分折中处于自 分析纳果是由一个方整分析表示 来省壁华药 ·佛有装据旁凳实验分组 「爱器 201658 201658 1
2016/5/8 1 第4章 多总体的统计检验 中国人民大学统计学院 2016-5-8 【 例 】确定超市的位置和竞争者的数量对销售额是否有 显著影响,获得的年销售额数据(单位:万元)如下表 因素 水平或处理 样本数据 多总体的统计检验 多总体检验问题: H : F F H : F (x) F(x ),i 1, ,k 0 1 k 1 i i L L 中国人民大学统计学院 本章内容 中国人民大学统计学院 多样本检验和两样本检验之间的差异 用分布做两两的比较,则需要做多次比较。 这样做不仅程序繁琐,而且每次检验犯第Ι 类错误的概率都会影响到整体的检验显著 性,作多次检验会使犯第Ι类错误的概率相 应地增加,所有检验完成时,犯第Ι类错误 的概率会大于每个检验的显著性水平。同 时,随着检验的次数的增加,偶然因素导 致差别的可能性也会增加 2016/5/8 中国人民大学统计学院 方差分析(analysis of variance,ANOVA)是分析定性 自变量对因变量影响的一种方法。 自变量是定性变量,也称为因子或协变量(covariate) 分析结果是由一个方差分析表表示的。 原理为:因变量的值随着自变量的不同取值而变化。将 这些变化按照自变量进行分解,使得每个自变量都包含 一份贡献,不能分解的部分是随机误差的贡献。 将各自变量的贡献和随机误差的贡献进行比较(F检验), 判断该自变量的不同水平是否对因变量的变化有显著贡 献。输出就是F-值和检验的一些p-值。 方差分析 2016/5/8 中国人民大学统计学院 几个术语 因子 在分析中处于自 变量的位置. 水平 在一个自变量中 的不同条件或数值. 总方差 不考虑实验分组, 所有数据的方差
2016/5/8 组间方差 ·泰差往斯晚因是辐助我钢分析方差是因误 2016/58 2016/58 方差分析的几种类型 方差分析的基本假定 出位“音争者数”对销售额的影 数子,器意 州空:控超中抢置不同是百是到销5期的一个重要变量 组路程松宝给素是指李格 with ren 因素各水平的 L20658 单因素方差分析举例 单因素方差分析的数据结构 产行一 ·购风:四种方才法类吾不周? 值)水平A, 因素A) 水平A2 水平A 促筑方法 15i2193.4 288 2 1253 185g 1357 1535 198.6 均值人-1536均值-1524地C-1物,7户 均准0-22,7 016W5/8 201653 2
2016/5/8 2 2016/5/8 中国人民大学统计学院 组间方差 (Between-Groups Variance) 组内方差(Within-Groups Variance) 2016/5/8 中国人民大学统计学院 方差分析的作用是帮助我们分析方差是因误 差产生的还是因处理产生的 中国人民大学统计学院 2016-5-8 方差分析的几种类型 1. 分析“超市位置”和“竞争者数量”对销售额的影响 2. 如果只分析超市位置或只分析竞争者数量一个因素对销售 额的影响,则称为单因素方差分析(one-way analysis of variance) 3. 如果只分析超市位置和竞争者数量两个因素对销售额的单 独影响,但不考虑它们对销售额的交互效应(interaction), 则称为只考虑主效应(main effect)的双因素方差分析,或称 为无重复双因素分析(two-factor without replication) 4. 如果除了考虑超市位置和竞争者数量两个因素对销售额的 单独影响外,还考虑二者对销售额的交互效应,则称为考 虑交互效应的双因素方差分析,或称为可重复双因素分析 (two-factor with replication) 中国人民大学统计学院 2016-5-8 方差分析的基本假定 1. 正态性(normality)。每个总体都应服从正态分布,即对于 因素的每一个水平,其观测值是来自正态分布总体的简单 随机样本 – 例如,检验超市位置不同是否是影响到销售额的一个重要变量 ,要求每个位置超市的销售额必须服从正态分布 – 检验总体是否服从正态分布的方法有很多,包括对样本数据作 直方图、茎叶图、箱线图、正态概率图做描述性判断,也可以 进行非参数检验等 2. 方差齐性(homogeneity variance)。各个总体的方差必须相同 ,对于分类变量的个水平,有1 2=2 2=…=k 2 – 例如, 要求不同位置超市的销售额的方差都相同 3. 独立性(independence)。每个样本数据是来自因素各水平的 独立样本 2016/5/8 中国人民大学统计学院 单因素方差分析举例 比较数据, n=19类产品, 销售只与促销方式有关,用 p=4种不同的广告方法进行一段时间后看销售是否受 到广告的影响而不同? 问题: 四种方法是否不同? 促销方法 A B C D 133.8 151.2 193.4 225.8 125.3 149.0 185.3 224.6 143.1 162.7 182.8 220.4 128.9 143.8 188.5 212.3 135.7 153.5 198.6 均值A= 133.36 均值B= 152.04 均值C=189.72 均值D= 220.78 2016/5/8 中国人民大学统计学院 单因素方差分析的数据结构 观察值 ( j ) 因素(A) i 水平A1 水平A2 … 水平Ak 1 2 : : n x11 x21 … xk1 x12 x22 … xk2 : : : : : : : : x1n1 x2n2 … xknk
2016/5/8 单因素方差分析举例 四种方法的围 :四种才是吾不周? 四种方法的均值图 促师方法 8i24 90 24.4 1438 135.7 153.5 198.6 2016W58 申量认绝太李海学海 201658 线性模型: 公式:总平方和=姐间平方和+姐内平方和 y=4,+6g,i=1,,p,j=1,,n SS7=SSB+5E=2n0,-+20,- 。广义性9ene解为 美中,SST有自由度-,SSB有自由度P- SSE有自由度-P,在正烧分有的很设下,如 假设: 果春姐增量均值相普(零假设),则 yy2,y、N(4,o2),1=1, F=MSB SSB/(p-1) 检验:H0:山…= MSE SSE /(n-p) 有自由度为p-1和p的F分有. 2016/5/8 2016/5/8 方分析表: (比较一元总体的)ANOVA 此 /p-1) 这厘n为观测戴目p为水平戴,F满是 PF)=a这是自由皮为p-1和np的尺 2016W5/8 布的来 3
2016/5/8 3 2016/5/8 中国人民大学统计学院 单因素方差分析举例 比较数据, n=19类产品, 用p=4种不同的广告方法 进行一段时间后看销售是否受到促销方式不同的 影响? 问题: 四种方法是否不同? 促销方法 A B C D 133.8 151.2 193.4 225.8 125.3 149.0 185.3 224.6 143.1 162.7 182.8 220.4 128.9 143.8 188.5 212.3 135.7 153.5 198.6 2016/5/8 中国人民大学统计学院 N = 5 5 5 4 fodder A B C D WEIGHT 240 220 200 180 160 140 120 100 8 四种方法的箱图 四种方法的均值图 fodder A B C D Mean of WEIGHT 240 220 200 180 160 140 120 2016/5/8 中国人民大学统计学院 假设: 检验: H0 : m1=…=mp 线性模型: , 1,..., , 1,..., ij i ij i y i p j n m 广义线性模型(general linear model),可被理解为: “任何个体得分是总体均值、处理 效应和随机误差影响的总和。” y i y i y in N i i p i , ,..., ~ ( , ), 1,..., 2 1 2 m 2016/5/8 中国人民大学统计学院 公式:总平方和=组间平方和+组内平方和 2 2 1 1 1 ( ) ( ) i p p n i ij i i i i j SST SSB SSE n y y y y 其中, SST 有自由度 n-1, SSB有自由度 p-1, SSE 有自由度 n-p,在正态分布的假设下, 如 果各组增重均值相等(零假设), 则 有自由度为 p-1 和n-p 的F 分布. /( 1) /( ) MSB SSB p F MSE SSE n p 2016/5/8 中国人民大学统计学院 2016/5/8 中国人民大学统计学院 (比较一元总体的) ANOVA 方差分析表: Sum of Squares(平方和) Df 自由 度 Mean Square(均方) F Sig. Between Groups(处理) SSB P-1 MSB=SSB/(p-1) F= MSB/MSE P(F>F a ) Within Groups (误差) SSE n-p MSE=SSE/(n-p) Total(总和) SST n-1 这里n 为观测值数目p 为水平数,Fa满足 P(F>Fa)=a.这是自由度为p-1和n-p的F- 分布的概率
2016/5/8 Kruskal--Wallis单因素方差分析 检验方法 计算第组的样本平均秩, 对秩照方差分析原理:得到Knska-Ws的H统计量 全随机设计粒形 H。s9T.E, “a+工/-a+) 密露被被况不,版似服从店当之的时候 教鎏7王鹭水平 对比其中每两组差异 对比其中每两组差异的时候,用D(1964年提出用: d元-瓦,/sE 其中 SE-c(1.1 受图+分折+男 01658 IR.-Ru cVsD47-167-210m1615s846 4
2016/5/8 4 中国人民大学统计学院 Kruskal-Wallis单因素方差分析 基本原理:类似处理两个样本相关性位置检验的W-M-W 方法类似,将多个样本混合起来求秩,如果遇到打结的情 况,采用平均秩,然后再按样本组求秩和。 中国人民大学统计学院 检验方法 计算第j组的样本平均秩: 对秩仿照方差分析原理:得到Kruskal-Wallis的H统计量: 在零假设情况下,H近似服从 ,当 的时候 拒绝零假设。 2 (k 1) 2 H a ,(k 1) j n i ij j j j n R n R R j . 1 . 2016/5/8 中国人民大学统计学院 wangxingscy@gmail.com 教育年限在17年以上的工资水平 差别大吗?硕士=博士吗? RECODE 定义筛选变量 SELECT 选择分析数据 ANALYSIS 单因素方差分析 Kruskal- Wallis 非参数检验确认差异 GRAPH 箱线图观察差异 变异源 平方和 自由度 均方 F值 P值 处理 619712167 2 309856083 2.8185 0.07732 误差 2968265250 27 109935750 — — 合计 3587977417 29 — — — 自由度 卡方检验统计量值 P值 2 11.6989 0.002881 中国人民大学统计学院 对比其中每两组差异 对比其中每两组差异的时候,用Dunn(1964)年提出用: 其中 如果 那么表示i和j两组之间存在差异, , 为标准正态分布分位数。 * ij 1 | d | Z a * a a / k(k 1) Z dij | R.i R. j | / SE i j n n n n SE 1 1 12 ( 1) 中国人民大学统计学院 中国人民大学统计学院
2016/5/8 计分标自6到 ”世g,+ 被来->一,能交从,是hn 申银能大装立 联大学福时 区组设计数据回顾 Friedman秩方差分析 ·在额解组的费据中,总的变化可以分解 假设检验问题: 一处理造成的不同 H:0-L -0.:H:3.jcLL.k.0-0 区组之间的变化 ·遵果时代表处理的样本的鞋 样本1样本2 样本越 区组6…■ 在同一区组内,计算样本的铁,并求出: R,=∑R,J=1-k 瓦 -1) var(Ri) 样木1样本2 样椒 A-∑,R,/k=+1b 区细 R Ra 区2R R, R ar(R)=∑t1arR=b 秩和 R Re 5
2016/5/8 5 中国人民大学统计学院 中国人民大学统计学院 中国人民大学统计学院 区组设计数据回顾 在有区组的数据中,总的变化可以分解 到以下几个方面: – 处理造成的不同 – 区组内的变化 – 区组之间的变化 当有区组存在时, 代表处理的样本的独 立性就不存在了. 中国人民大学统计学院 Friedman秩方差分析 b1 x b2 x bk x 11 x 12 x 1k x 21 x 22 x 2k x 样本1 样本2 … 样本k 区组1 … 区组2 … … … … … … 区组b … bk x b1 x b2 x 完全随机区组设计表 假设检验问题: H : : H : i, j 1, ,k, 0 1 k 1 i j L L 中国人民大学统计学院 R11 R12 R1k R21 R22 R2k Rb1 Rb2 Rbk Rg1 Rg2 Rgk 样本1 样本2 … 样本k 区组1 … 区组2 … … … … … … 区组b … 秩和 … 在同一区组内,计算样本的秩,并求出: b R R j j . R R j k . b i j ij , 1,..., 1 . 中国人民大学统计学院
2016/5/8 检验统计量 例5.5 利用普通类似方差分析构造统计量: 0=可之-w+n 表10解委对西名时物的诉分粒指表 0品c六 上表中括号作数国为可位评委品尝四种来后所单计分的我。 似 中限水统大海时格☐ Q- Tollander-Wolfe两处理 比较检验 例5.6 当用F D.R-R,l/SE 6
2016/5/8 6 中国人民大学统计学院 检验统计量 利用普通类似方差分析构造统计量: 在零假设成立下 ,如果 偏大,那么就考虑拒绝 原价设。如果存在打结的情况,则可采用修正公式计算。 2 Q~ (k 1) Q 3 ( 1) ( 1) 12 2 . R b k bk k Q j ( 1) , 1 2 , 3 bk k C C Q Q ij i j ij 中国人民大学统计学院 例5.5 中国人民大学统计学院 中国人民大学统计学院 中国人民大学统计学院 Hollander-Wolfe两处理 比较检验 当用Friedman秩方差分析,检验出认为处理之间表现出 差异的时候,那么可以进一步研究处理两两之间是否存 在差异。Hollander-Wolfe检验公式: 其中 ,在打结的情况下可使用修正的公 式。当 时认为两个处理之间存在差异,其 中 , 是显著性水平。 SE bk(k 1) / 6 * ij 1 | D | Z a * a a / k(k 1) a Dij | R.i R. j | / SE 中国人民大学统计学院 例5.6
2016/5/8 Cochran检验 想设法井型层影灭空样数时 Emg=∑n= 0,ef0, 处理 =w N 度银大装立石 一=走代入上式 检验 a》-∑n扣-克 =-喝) Va() CochranQ检验统计量: 背山)武代人区四式得舆信计为 -2 2j-1,-2 a}=)m,k-/传-) 在大样本配下,则为近似正吉分右,取, Q近似眼从分布。当0值偏大时考虑拒绝零假设。 表,家主时三种机喜爱与什数 4 1
2016/5/8 7 中国人民大学统计学院 Cochran检验 检验原理以及计算: 当完全区组设计,并且观测只是二元定性数据时, Cochran Q检验方法进行处理。数据形式见下表。其中 O {0,1} ij 中国人民大学统计学院 中国人民大学统计学院 中国人民大学统计学院 检验 假设检验问题: H : k H : k 0 1 个总体分布相同 个总体分布不同 Cochran Q检验统计量: Q近似服从 分布,当Q值偏大时,考虑拒绝零假设。 2 (k 1) 中国人民大学统计学院 榨 汁 机 中国人民大学统计学院
2016/5/8 Durbin2不完全区组分析 BIB设计 原理 以上介细的完全随机区组设计要求样一个处都出现在每一个区组中 可能存在处理常多, 但在实际阿宽中,不一定能保证每一个区组能有对应的样本出现。此 1每个处理在月一区组中最多出观一次: 2.区组标本量为:小于区组个数k: .每个处理出在同多的,个以组中, 不的临。人 4每个处理相遇的区组数一样 ab之★成r≥1如是t=kP=我题为光全风设时 中限统大海时海 当H成立时, 餐黄ER,=∑∑=型 D-∑1[R-] 根容易看出BB设计的均衡性暖,这里(依.么,点)=(4,4,332) =哥∑,民-k=+1 例5.9 解答 括号内的数为各区组内旋处度测值大小分配的我 8
2016/5/8 8 中国人民大学统计学院 Durbin不完全区组分析 原理: 可能存在处理非常多,但是每个区组中允许的样本量 有限的时候,每一个区组中不可能包含所有的处理,比如 重要的均衡不完全区组BIB设计。Durbin检验便是针对这种 问题。 表示第j个处理第i个区组中的观测值, Rij 为在第i个区组 中第j个处理的秩,计算: Xij R R j b i j ij , 1,..., . 中国人民大学统计学院 BIB设计 每个处理相遇的区组数一样 中国人民大学统计学院 中国人民大学统计学院 当H0成立时, 构造统计量: 当D值较大的时候,可以考虑拒绝零假设,认为处理之间存在 差异。在零假设成立时,大样本情况下,D近似服从分 布 打结的时候,只要长度不大,对结果影响不太大。 2 (k 1) 中国人民大学统计学院 例5.9 中国人民大学统计学院 解答
2016/5/8 本章要求 。掌Kruskal-Wall单因素方差分析的基本原园 。热练R中对如上方法的运 用和相应的数据变换 。 影司 中圆人提大手时学海
2016/5/8 9 中国人民大学统计学院 本章要求 掌握Kruskal-Wallis单因素方差分析的基本原理 掌握完全随机区组设计下Friedman的基本原理 掌握完全随机设计下两处理之间的比较 掌握完全随机区组设计下两两处理之间的比较* 掌握BIB设计下Durbin比较 了解调整秩的概念及用法* 熟练R中对如上方法的运用和相应的数据变换