@ 本次课程主要内容 课程介绍 第八讲 社会研究方法方法论 研究方法 假设检验 统计分析方法 调查研究的应用领域 数据处理 参考资料 本章内容 端统计分类 统计方法 假设检验 样本均值的双侧检验 描述统计 推断统计 ●均值的单尾检验 ●比例的检验 信区间 估计未知的总体参数 一、推断过程 估计总体参数 样本统计量 始值,泰知 方差 差异 μz
1 Journalism & Communication School 新闻传播学院 假设检验 第八讲 主讲教师:沈浩 北京广播学院新闻传播学院 副教授 北京广播学院调查统计研究所 副所长 新闻传播学院 2 本次课程主要内容 z 课程介绍 z 社会研究方法——方法论 z 研究方法 z 统计分析方法 z 调查研究的应用领域 z 数据处理 z 课程安排 z 参考资料 新闻传播学院 3 本章内容 z 推断过程 z 假设检验 z 样本均值的双侧检验 z 均值的单尾检验 z 比例的Z检验 新闻传播学院 4 统计分类 统计方法 描述统计 推断统计 置信区间 假设检验 新闻传播学院 5 估计未知的总体参数 估计总体参数 样本统计量 均值 µ ⎯x 比例 p p ^ 方差 σ 2 s2 差异 µ1 - µ2 ⎯x1 -⎯x2 新闻传播学院 6 一、推断过程 均值, µ, 未知 总体 ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺
推断过程 舞一、推断过程 机本 机評本 炮值,表如 位于42到58之间 的可能性是95% 趣味思考 舞二、假设检验 ●认知度的事后测试的结果高于事前测试的 喜体 结果,是认知度真的提高了 顾客满意度从3个月前的92%提高到 94%,是否是值得庆祝吗 ●评价得分真的比高吗? 二、假设检验 二、假设检验 年舞是45 年备是5
2 新闻传播学院 7 一、推断过程 均值, µ, 未知 总休 随机样本 均值 ⎯X = 50 样本 ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ 新闻传播学院 8 均值 位于 42 到 58之间 的可能性是95%. 一、推断过程 均值, µ, 未知 总体 随机样本 均值 ⎯X = 50 样本 ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ 新闻传播学院 9 趣味思考 z 认知度的事后测试的结果高于事前测试的 结果,是认知度真的提高了吗? z 顾客满意度从3个月前的92%提高到 94%,是否是值得庆祝吗? z 评价得分真的比高吗? 新闻传播学院 10 二、假设检验 总体 ☺ ☺ ☺ ☺ ☺ ☺ ☺ 新闻传播学院 11 二、假设检验 总体 我认为总体平均 年龄是45 ☺ ☺ ☺ ☺ ☺ ☺ ☺ 新闻传播学院 12 二、假设检验 总体 我认为总体平 均年龄是50 均值 ⎯X = 20 随机样本 ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺
假设检验 什么是假设 映·关于总体参微的假定 平均成为3.5分!1 着鸡 参歌是总体均值,方 差,比例 在分析以前必须陈述 9xa28 什么是假设检验 常用类型及其有关的检验统计量 统计上的假设 总体声明(假定) 总体参教 关于总体参的假定作出回谷的统计方法 一个总件的均值 是关于总体的某个主张或申明 一个总体的百分比(比事 -》2,Δ-鼻 两个仲百分比(比事 多个融体的均值 l-阜2-34 可以通过抽取随机样本进行捡 多个总体的百北比(比率) 利用正态分布进行假设检验的方法 利用置信区间进行假设检验 1:100到 知道总体标准为165着认为总体服从 1.置信区间 问:是否可以认为全体考生平均能答对80 2.单侧概率值—P值 H=X±1 3.双侧概率值—P值 构造丑信度为95%前信区网 4.经典的假设检验 H=76±1.96x._16±4.57 √50
3 新闻传播学院 13 二、假设检验 总体 我认为总体平均 年龄是50 均值 ⎯X = 20 拒绝假设 不精确. 拒绝假设 不精确. 随机样本 ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ ☺ 新闻传播学院 14 什么是假设 z 关于总体参数的假定 z 参数是总体均值,方 差,比例 z 在分析以前必须陈述 我相信这个班的 平均成绩为 3.5分!! 新闻传播学院 15 统计上的假设: 关于总体参数的假定作出回答的统计方法。 是关于总体的某个主张或申明 可以通过抽取随机样本进行检验 什么是假设检验 新闻传播学院 16 常用类型及其有关的检验统计量 总体声明(假定) 总体参数 两个总体的均值 两个总体的百分比(比率) 多个总体的均值 多个总体的百分比(比率) 一个总体的百分比(比率) 一个总体的均值 检验统计量 μ1=μ2,Δ=μ1-μ2=0 π1=π2,Δ=π1-π2=0 μ1=μ2=μ3=μ4 π1=π2=π3=π4 π=0,π=0.50 μ=0,μ=100 假设检验方法 新闻传播学院 17 1. 置信区间 2. 单侧概率值——P值 3. 双侧概率值——P值 4. 经典的假设检验 利用正态分布进行假设检验的方法 新闻传播学院 18 利用置信区间进行假设检验 例1:100到考题,抽查n=50人,平均答对76道题,经验 知道总体标准差为16.5。若认为总体服从正态分布 问:是否可以认为全体考生平均能答对80道题? n X σ µ = ± 1.96 构造置信度为95% 的置信区间 76 4.57 50 16 .5 µ = 76 ± 1.96 × = ±
例2:某地居民一年前有58%的人对社区环境夜示满意, 闻例6-1:男、女职工每天收看电视的时间长度,随机抽取 年后的环境是否有所改善?抽样调查157人,其中110 人表示满意 晚问:是否该社区对环境更加满意的比例还是58%? 假设1:△=u1-u2-0 假设2:△=u1-u2=30 造信度为95%的量信区间 r=p±1.96,/P(-p) 构改信度为%5帕道信区离 △=(114-91)±2.101(9.85) A≈23±21 丌=0.70±1.96× (1-0.70) =0.70±0.07 157 △=(2 利用置信区间进行假设检验 传统方法 我们首先败予所要检验的总体金撒一个假定数值, 置信区间是可以接受的假设的集合 然后才开始抽样,继而进行叔设验 该假设是在一个95%的置信水平下被检验的 原假设:事先予假定数值的假设,用H示 拉验是在5%的错误水平下进行的。 捡验:如果H薯在95%僧区间之外,则接受H 如果存在差异:在5%的错误水平下统计上是可以分辨 零假设往往是人们在检验中有意想否定的 假设,要加以保护的一所以是无假设 显着性检验:存在整异,传统上说在5%显着性水平下在 利用置信区间进行假设检验的步骤: 统计上是显着的,也叫对H作显着性验 無1.陈述原假设H 2.计算单侧的或双侧的置信度为1a的置慎区间 a=5%=005—显着性水平 3.如果H亮在此区间之外,则拒绝H a=1%,5%10%显着性水平 4.如果H在此区闻之内,或能确切地说,不能拒绝H。 1-a=99%95%90%置信水平《偏 5.得出结论 在a的错误水平下,异是统计上可以(不可以)分辨 显着性水平釣低,f情度越高 统计上的显着性—现实生活中的要性 在a的显着性水平下,差异是统计上显着的(或不显着
4 新闻传播学院 19 例2:某地居民一年前有58%的人对社区环境表示满意, 一年后的环境是否有所改善?抽样调查157人,其中110 人表示满意。 问:是否该社区对环境更加满意的比例还是58%? n p p p (1 ) 1.96 − π = ± 构造置信度为95% 的置信区间 0.70 0.072 157 0.70(1 0.70) 0.70 1.96 = ± − π = ± × 新闻传播学院 20 例6-1:男、女职工每天收看电视的时间长度,随机抽取 男、女职工各10名。 假设1:Δ=u1-u2=0 假设2:Δ=u1-u2=30 23 21 (114 91 ) 2 .101 (9 .85 ) 1 1 ( ) 1 2 1 2 0 .025 ∆ ≈ ± ∆ = − ± ∆ = − ± + n n X X t S p Δ=(2,44) 构造置信度为95% 的置信区间 新闻传播学院 21 利用置信区间进行假设检验 置信区间是可以接受的假设的集合 • 该假设是在一个95%的置信水平下被检验的。 • 检验是在5%的错误水平下进行的。 如果存在差异:在5%的错误水平下统计上是可以分辨的。 新闻传播学院 22 传统方法: 我们首先赋予所要检验的总体参数一个假定数值, 然后才开始抽样,继而进行假设检验。 原假设:事先赋予假定数值的假设,用H0 表示 也称为零假设、虚无假设。 检验:如果H0落在95%置信区间之外,则接受H0 如果H0落在95%置信区间之内,则拒绝H0 零假设往往是人们在检验中有意想否定的 假设,要加以保护的 ——所以是虚无假设。 新闻传播学院 23 显著性检验:存在差异,传统上说在5%显著性水平下在 统计上是显著的,也叫对H0作显著性检验。 α=5%=0.05 =5%=0.05 ——显著性水平 统计上的显著性——现实生活中的重要性 α= 1%, 5%, 10% 显著性水平 1- α= 99%,95%,90% 置信水平(置信度) 显著性水平约低,置信度越高 新闻传播学院 24 利用置信区间进行假设检验的步骤: 1. 陈述原假设H0 ; 2. 计算单侧的或双侧的置信度为1—α的置信区间; 3. 如果H0落在此区间之外,则拒绝H0; 4. 如果H0落在此区间之内,或能确切地说,不能拒绝H0 ; 5. 得出结论: 在α的错误水平下,差异是统计上可以(不可以)分辨 的;或者: 在α的显著性水平下,差异是统计上显著的(或不显著 的)
利用概值作假设检验 闻率值氰:用撮对原假设的支持翟度来描述H 量儐区间选行设检验存在问凰 侵设Hp=1400备屠设H〉1400 485-1400 175% Px≥1485=P(Z>243)=0.0075=0.7% 2.43 备则假设 利用z、t统计量求概值 Z检验 Hl:u=以 H1:μp>以2 n 比率检验 单侧概值 利用t统计量求概值 抵值=P〔如果H为真,禅本统计量大到至 估计值一原假设的值 概值=P(X≥X0) (估计值的)标准误差(的估计值 概值=P(如果H0为真,样本统计量小到至 少和实际测值那么小) t=估计值标准误差 概值=P(X≤X0)
5 新闻传播学院 25 利用概值作假设检验 置信区间进行假设检验存在问题。 H0 X (1) X (2) (3) (4) H0 H0 H0 X X 新闻传播学院 26 概率值(概值):用数据对原假设的支持程度来描述H0 例:传统种子,平均亩产量μ=1400斤,标准差σ=350斤 新品种后,抽取n=100亩的样本,平均亩产量X=1485斤 原假设 H0:μ=1400 备则假设H1: μ〉1400 解: ( 1485) ( 2.43) 0.0075 0.75% 35 100 350 2.43 35 1485 1400 ≥ = > = = = = = = − = − = P X P Z n SE SE X Z σ µ P=0.75% 0.95 1485 1400 0 2.43 X 新闻传播学院 27 H0:μ= μ0 H1:μ> μ0 H0:μ= μ0 H1:μ μ2 H0:μ1= μ2 H1: μ1< μ2 H0:μ1= μ2 H1: μ1= μ2 原假设 备则假设 p=p0 新闻传播学院 28 利用Z、 t 统计量求概值 n X Z σ − µ 0 = S n X t − µ0 = Z检验 T检验 n P Z (1 ) 0 0 0 π π π − − = 比率检验 新闻传播学院 29 概值=P(如果H0为真,样本统计量大到至 少和实际观测值那么大) 概值=P(如果H0为真,样本统计量小到至 少和实际观测值那么小) 单侧概值 ( ) 概值 = P X ≥ X 0 ( ) 概值 = P X ≤ X 0 新闻传播学院 30 利用 t 统计量求概值 t =估计值/标准误差 (估计值的 )标准误差 (的估计值 ) 估计值 −原假设的值 t =
利用双侧概率值进行假设检验 经典的假设检验 “不同于·、”不相等”、”更好哦了 第一步陈述原假设, 禅本大小及检 x 二步:定原似为高,一加分布及 确定拒绝H的临界,即临界值Xc x-N(, g0)eX-A- N(o, 1) 如果现到值拒区内 P(2|>2)=0.0455 否,接受原假设 P(|z|>3)=0.007 界1457 经典的假设检验(概值) 计算机采用的方法 确立和解决一个假设检验问题可以有以下几步 1根问立原假设H和备则假设H1 2确定一个晶性水平a,它是量稀有性"的一个标。 一般况a=0.051 选择合通的验用能计量(2T汁量),并有样本乳 新值p=m7s 测值计算能计量的项测管和量测果极靖值的p值 Hl:1400 开=457 如果值p<a,则拒绝原假设 如果值p≤a,则款更原假设 第类错误与第类错误 关于经典检验的讨论 在样本量不变时,a和β是相互制约的 接受H0拒H0 匚H0为真正确决彙第I类错误 H0不「第Ⅱ类误正确决策
6 新闻传播学院 31 利用双侧概率值进行假设检验 “不同于”、”不相等”、”更好或更差” 双侧概值 3 ) 0 .0027 ( 2 ) 0 .0455 ~ ( , ) ~ ( 0 ,1 ) 0 2 0 > = > = − ⇔ P Z P Z N n X n X N ( σ σ µ µ 新闻传播学院 32 经典的假设检验 第一步:陈述原假设, 设定样本大小及检验的错误水平α 第二步:假定原假设为真,根据抽样分布及α, 确定拒绝H0的临界域,即临界值Xc 第三步:抽取样本 如果观测值落在拒绝区域内, 则拒绝原假设; 否则,接受原假设 拒绝H0 检验的错误 水平α=5% H0: 1400 临界值Xc=1457 新闻传播学院 33 经典的假设检验(概值) ——计算机采用的方法 确立和解决一个假设检验问题可以有以下几步: 1。根据问题确立原假设H0和备则假设H1; 2。确定一个显著性水平α,它是衡量“稀有性”的一个标准。 一般情况α =0.05; 3。选择合适的检验用统计量(Z或T统计量),并有样本观 测值计算统计量的观测值和衡量观测结果极端值的p值; 4。比较p和α作判断 如果概值p<α,则拒绝原假设; 如果概值p≤α,则接受原假设 新闻传播学院 34 拒绝H0 检验的错误 水平α=5% H0: 1400 临界值Xc=1457 观测值=1485 概值p=0.075 新闻传播学院 35 第Ⅰ类错误与第Ⅱ类错误 拒绝H0 α H0 β H1 H0不真 第Ⅱ类错误 正确决策 H0为真 正确决策 第Ⅰ类错误 接受H0 拒绝H0 新闻传播学院 36 在样本量不变时,α和β是相互制约的 关于经典检验的讨论 在α保持不变时,增大样本量可以减小β
般的原则是尽量减少第一类错误一保护原假设 检验的错误水平a的设量 参考“事前的僧念 H不真第Ⅱ类情误正确决策 证是不轻局拒绝服假设 氯假设:被告是无聊的备逸便设:被告是有单的 2、考虑“作出决策错误后可能造成的损失 被管有暴系工带误□正 考成两神误的相对代价 假设检验步骤 基本思维 晚1从峡计方面除述闻题 2.从计方面陈述问愿的另一方面必须相互排斥 减个位西系 3.选各设 此,《祖他原 有或<or2这曲符号 假餐=50. 4.陈述罩设 总是否不同于3? 暴宾际上是晶 显著性水平 拒绝区域(双尾检验) 1如果零假设成立,详细说明样本统计量的 合市 Level of Confidence 不可能值 叫样本分布的拒绝区域 2它是一个概率 1 3用表示(apha) 4开始时由使用者选出 些典型值是01,05,10 砚容悍命说什量
7 新闻传播学院 37 被告有罪 第Ⅱ类错误 正确决策 被告无罪 正确决策 第Ⅰ类错误 认定无罪 认定有罪 H0不真 第Ⅱ类错误 正确决策 H0为真 正确决策 第Ⅰ类错误 接受H0 拒绝H0 原假设:被告是无罪的 备选假设:被告是有罪的 放走了一 个坏人 放走了一 个坏人; 冤枉了一 个好人 一般的原则是尽量减少第一类错误——保护原假设 新闻传播学院 38 检验的错误水平α的设置 1、参考“事前的信念” 2、考虑“作出决策错误后可能造成的损失” 考虑两种错误的相对代价 一般说来,没有充分的证据是不轻易拒绝原假设 的,所以α都设置得比较小 新闻传播学院 39 假设检验步骤 步骤 1. 从统计方面陈述问题 2. 从统计方面陈述问题的另一方面必须相互排斥 3. 选择备择假设 有 ≠, 这些符号 4. 陈述原假设 例子 总体均值是否不同于3? 1. µ = 3 2. µ ≠ 3 3. H0: µ = 3 4. H1: µ ≠ 3 新闻传播学院 40 基本思维 样本分布 从这个值里面不 可能得出均值 ...如果这实际上是总体 均值 因此,我们拒绝原 假设 µ = 50. 2020 H00 新闻传播学院 41 显著性水平 1.如果零假设成立,详细说明样本统计量的 不可能值 • 叫样本分布的拒绝区域 2.它是一个概率 3.用 α表示 (alpha) (alpha) 4.开始时由使用者选出 • 一些典型值是 .01, .05, .10 新闻传播学院 42 拒绝区域 (双尾检验) 抽样分布 1 - α Level of Confidence 所观察的样本统计量
拒绝区域(单尾检验) 拒绝区域(单尾检验) 置信早 Level of Confidence Critical V 个m Ho Sample Statistic 黄混的上量 α和β存在相反果票 α和β春在帽反吴系 a a和阝高在相反吴集“参验步 陈健H 你减少西者骨! 陈健H1 收剖 计算检验计量 作幽就计映策 钱n 群检脸方碱 8
8 新闻传播学院 43 拒绝区域 (单尾检验) Ho Critical Value Value α Sample Statistic Rejection Region Nonrejection Region 抽样分布 1 - α 置信水平 所观察的样本统计量 新闻传播学院 44 拒绝区域(单尾检验) Ho Critical Value Value α Sample Statistic Rejection Region Nonrejection Region 抽样分布 1 - α Level of Confidence 所观察的样本统计量 新闻传播学院 45 α 和 β 存在相反关系 α β 新闻传播学院 46 α 和 β 存在相反关系 α β 新闻传播学院 47 α 和 β 存在相反关系 α β 你不能同时减少两者错误! 新闻传播学院 48 H0 检验步骤 ¾ 建立临界值 ¾ 收集数据 ¾ 计算检验统计量 ¾ 作出统计决策 ¾ 描述决策 ¾ 陈述 H0 ¾ 陈述 H1 ¾ 选择 α ¾ 选择 n ¾ 选择检验方法
三、均值的双尾z检验(大样本) 均值的双尾Z检验例子 1假定 样本容量至少30(≥30) ·平均每盒是否有386克麦 片?随便抽取36盒,其 如果总体标准差未知,使用样本标准差 X=372.5.标准差为25 2备选假设有符号≠ 克.量信度为95% 3Z检验统计量 均值的双尾Z检验方法 「均值的双尾z检验方法 检针 验觉针量 μ≠368 临界值 临界值 碘 给鲁 均值的双尾Z检验方法 篇均值的双尾z检验方法 Ho:u=368 Ho:H=368 检脸针量 Ha:u≠368 n=36 临界值 临界值
9 新闻传播学院 49 三、均值的双尾 Z检验(大样本) 1.假定 • 样本容量至少 30 (n ≥ 30) • 如果总体标准差未知,使用样本标准差 2.备选假设有符号 ≠ 3.Z检验统计量 Z X X n x x = − = µ − σ µ σ 新闻传播学院 50 均值的双尾 Z检验例子 • 平均每盒是否有386克麦 片? 随便抽取36盒,其 ⎯X = 372.5. 标准差为 25 克. 置信度为 95%. 368 gm. 368 gm. 新闻传播学院 51 均值的双尾 Z检验方法 • H0: • Ha: α = • n = • 临界值 检验统计量 决策 结论 新闻传播学院 52 均值的双尾 Z检验方法 • H0: µ = 368 • Ha: µ ≠ 368 α = • n = • 临界值 检验统计量 决策 结论 新闻传播学院 53 均值的双尾 Z检验方法 • H0: µ = 368 • Ha: µ ≠ 368 α = .05 • n = 36 • 临界值 检验统计量 决策 结论 新闻传播学院 54 均值的双尾 Z检验方法 • H0: µ = 368 • Ha: µ ≠ 368 α = .05 • n = 36 • 临界值 检验统计量 决策 结论 :
均值的双尾Z检验方法 闻均值的双尾z检验方法 ·H:μ=368 脸就什量 Ha:μ≠368 z=x-H3725-368+180 a=.052z=x-3725=368+180 36 36 临界值 临界值 Do not reject at a=. 05 端均值的双尾z检验方法 四、均值的单尾z检验方法(大样本) 检就针量 1假定 Ha:u≠368 =.05 z=x-=3725-368=+180 样本容量至少30(≥30) 如果总体标准差未知,使用样本标准差 n=36 临界值 Ha 2备选假设有符号≠ 3乙-检验统计量 当α=.05时,不绝 是368 奥双尾z检验的P值例子 1如果H为真,则获得检验统计量的概率 晚·平均每盒是否有386克麦片? 比实际值更极端 随便抽取36盒,其X 2叫做观察值的显著性水平 725.标准差为25克.显 最小的aH可以被拒绝 著性水平为.05找出P值 3用于作出拒绝决策 如果P值大于a不拒绝H 如果P值小于a拒绝H 368gm
10 新闻传播学院 55 均值的双尾 Z检验方法 • H0: µ = 368 • Ha: µ ≠ 368 α = .05 • n = 36 • 临界值 检验统计量 决策 结论 Z X n = − = − = + µ σ 372 5 368 15 36 180 . . 新闻传播学院 56 均值的双尾 Z检验方法 • H0: µ = 368 • Ha: µ ≠ 368 α = .05 • n = 36 • 临界值 检验统计量 决策 结论 Do not reject at Do not reject at α = .05 Z X n = − = − = + µ σ 372 5 368 15 36 180 . . 新闻传播学院 57 均值的双尾 Z检验方法 • H0: µ = 368 • Ha: µ ≠ 368 α = .05 • n = 36 • 临界值 检验统计量 决策 结论 当 α = .05时,不拒绝 没有证据表明均值 不是 368 Z X n = − = − = + µ σ 372 5 368 15 36 180 . . 新闻传播学院 58 四、均值的单尾 Z检验方法(大样本) 1.假定 • 样本容量至少 30 (n ≥ 30) • 如果总体标准差未知,使用样本标准差 2.备选假设有符号 ≠ 3.Z-检验统计量 Z X X n x x = − = µ − σ µ σ 新闻传播学院 59 p-值 1.如果 H0 为真,则获得检验统计量的概率 比实际值更极端 2.叫做观察值的显著性水平 • 最小的 α H0 可以被拒绝 3.用于作出拒绝决策 • 如果P值 大于 α, 不拒绝 H0 • 如果P值小于 α, 拒绝 H0 新闻传播学院 60 双尾Z检验的P值例子 • 平均每盒是否有386克麦片? 随便抽取36盒,其⎯X = 372.5. 标准差为 25克. 显 著性水平为 .05.找出P值 368 gm. 368 gm