☆个案教学 趣味统计紫例(六) ●中国人民大学副校长袁卫 的平均次数,可通过已知频率计算: 抽样调查的诀窍 4=0(0.50)+1(0.20)+2(0.20)+3(0.10) =0.00 由平由话的费及很高,以及税人住宰和公惠 即每个成年人每周平均吃0.9次快餐。有了这个数 不能随便干扰,用电话进行市场调查和民意测验已 成为抽样调查的 值就可以算出该城市一周平均要准备200000×0.9 一种重要方式。已知某个城市有 000(份)快餐 需要说 明的是,这个目 标总体的 成年 在其市场调查公司要对这些成年 常 未知的 进行在 固中吃快餐次数的电话调查。假定 均值是我们抽样调查要估计 数值 这里为了说明抽样调查估计量的特点假定 我们已知如下信息 答调查的子总体均值计算方法同上,只是改变频常 表1目标总体和回答调查的子总体 的数值, 4m-0(0.76)+1(0.12)+2(0.08)+3(0.04) =0.40 N 显然,若用这种电话调查方法其子总体均值只有 0 100000 0,50 38000 a.76 0.40次,比真实的目标总体比值0.90次低了0.50 1 4000C 0.20 6000 0.12 次,实际上,原因是简单的,即吃快餐较多的上班族 2 4000 0.20 4000 0.08 在 家的人多为很 20000 0.10 2000 0.04 合计 200000 1.0 50001.00 接下来让我们分: 表1中表示过去的 一周中在外边吃快餐的次 表1的比率,大约有50个电话做了回答。若用回答 数分别为0,1,2,3,即一周最多吃3次快餐。目标 的数据计算出吃快餐次数的均值反,此时用反估计 体是该市20万成年人过去一周吃快餐的次数分配 :的偏差是多少?按照估计量偏差的计算公式,即 这个分布通常是未知的,是我们通过抽样调查要行 偏差=估计量的数学期望一待估的真实参数 计的,回答调查的子总体通常也是未知的,它是用电 =E()-u 话在白天进行调查能够回答调查的子总体。通过比 较目标总体和回答调查的子总体的分布,我们不难 看出:白天向住宅打电话进行调查,大约只有1/4的 -0.5 成年人在家,并且在家的人(多为家庭主妇)多是不 我们注意到随机样本的容量大小在这里并没有 吃快餐的人。显然,若采取这种调查方式,在这种情 影响估计量数学期望的变化,但它会影响到估计量 况下其抽样推断的结果是有问题的。 均方误差(MSE)的大小, 首先我们来看看这两个总体的均值。目标总体 最后,我们来看看估计量的偏差和方差对均方 的均值,即该城市全部20万成年人每周在外吃快餐 误差的影响,均方误差(Mean Squared Error,MSE) 。43 1994-2010 China Academie Joural Electronic Publishing House.All rights reserved.http://www.enki.net
☆个案教学 趣味 统 计 素 例 六 中 国人 民大 学副 校 长 哀 卫 抽样 调查 的诀窍 由于 电话 的普 及 率很 高 , 以 及 私 人 住宅 和 公寓 不能随便干扰 , 用 电话进 行 市场调 查和 民意测验 已 成为抽样 调 查 的 一 种 重 要 方 式 。 已 知 某个 城 市有 成年 人 , 现 在某市场调查公 司要 对这 些 成年 人进行在过 去一周 中吃快餐次数的 电话调查 。 假定 我们 已知如下 信息 表 目标总体和回 答调查的子总体 一周中吃 目 标 总 体 回答调查的子 总体 快餐次数 人 数 频率 人数 频 率 合计 表 中 表示过 去的一 周中在 外边 吃快餐的次 数分别为 。 , , , , 即 一 周最 多吃 次快餐 。 目标总 体是该市 万 成年 人过去一 周吃快餐的次数分配 这个分 布通 常是未 知的 , 是我 们通过抽样调 查要估 计的 。 回答调查的子总体通 常也是未知的 , 它是用 电 话在 白天进行调查 能够 回 答调查的子 总体 。 通过 比 较 目标总体和 回答调查 的子 总体 的分 布 , 我们不难 看出 白天 向住宅打 电话进 行调查 , 大约 只有 的 成年人 在家 , 并且 在家 的 人 多 为家庭 主 妇 多是 不 吃快餐的人 。 显 然 , 若采取这种调查方式 , 在这 种情 况下其抽样推断的结果是有 问题的 。 首先我们来看看这 两 个 总体的均值 。 目标总体 的均值 , 即该城市全 部 万成年人 每周在外吃快餐 的平均次数 , 可通过 已 知频率计算 拌 · · · 十 二 即每个成年人每周平均 吃 。 次快餐 。 有 了这个 数 值就可以算出该城市一 周平均要 准备 一 份 快餐 。 需要说 明的是 , 这个 目标总体的 均值是我们抽样调查要估计 的数值 , 通常是未知的 。 这里为了说 明抽样调查估计量 的特点假定 已知 。 回 答调查 的子 总 体均值计算方法 同上 , 只是 改变频率 的数值 。 拌 · · · 显 然 , 若 用这 种 电话 调 查 方 法 其 子 总 体 均 值 只 有 次 , 比 真 实 的 目标总体 比值 次低 了 次 。 实际上 , 原因是简单的 , 即吃快餐较多的上班族 白天并不在家 , 而 白天 电话调查 时在家 的人 多为很 少 吃快餐的家庭 主妇 。 接下来让 我们分 析一 下若从这 万个成年 人 的 电话 中随机抽 出 个 电话号码进 行调查 , 按 照 表 的比率 , 大约有 个 电话做 了 回答 。 若用 回答 的数据计算 出吃快餐次数的均值 豆 , 此时用 豆 估计 拌 的偏差是 多少 按照 估计量偏差的计算公式 , 即 偏差 估计量 的数学期望 一 待估的真实参数 一 拌 拜 一 拜 一 一 我们注意 到 随机样本的容量大 小在这里并没有 影 响估计量 数学 期望 的变化 , 但它 会影 响到 估计量 均 方误差 的大小 。 最 后 , 我们来看看估计 量 的偏 差和 方差 对均方 误差 的影响 。 均方误差 匆 , 。
☆个案教学 是估计量V和真实参效日离差平方的数学期望,即 的律议.即只随机调春20个成年人,但试20个人的 MSEE(V-0) 回答必须得到,换句话说,白天打电话若不在家,就 在上式中引入实际估计量反的数学期塑E(原)就 上再打,直到有人回答为止。这时的估计量方差 有, 为 MSE =ECR-E(R)+E(R)-] 表3目标总体估计量方禁计算表 =E[R-E(R)P+E[E(R)- +2E[反-E()][E(R)-] x P(x)xP(x) (x-)(x-)2(x-)p(x) =V.()+(w-)+0 00.50 0 -0.900.81 0.405 1020 a.20 0.10 0.01 a.02 即MSE等于估计量的方差加上估计量偏差的平 0.20 04 1.10 1.21 0.242 30.100.30 2.10 4.41 0.441 方。现将200个电话调查的数据代入上式,计算用 50个回答的估计量R估计总体均值的MSE. 合计1.004=0.90 2=1.09 表2回答调查子总体估计量方差计算表 xP(x)xP(x)(x-g)(x一m2(x一)P(x) =1090.055 0a.78 0 -0.4 0.16 0.1216 一样本 10.120.12 0.6 036 0.0A33 中击的,估计量的数学期塑就是总 而展差项为0 20.080.16 1.6 2.56 0.2048 -V)+(偏差〉 30.04 0.12 26 0.270 ■0.055+( 合计1.00m-0.40 t-0.64 =0.055 比较调查公司的两种改进精度方法的MSE,不 估计量反的方差为: 难看出,后一种只调查20个成年人但直到打通为止 V.(R) .61=0.013 的方式的MSE要小得多.而前一种扩大样本容量 的调查方式收效甚微,原因是:由于估计量偏差要经 这样,估计量 过平方,因而偏差对MSE的影响是巨大的。估计量 偏差的大小反映了估计量准不准的间题,是我们进 MSE=+(偏差) 行抽样调查惟断中首先要考虑的问题:估计量方差 013+0.25 的大小反映的是估计量精不精的同题,是进行抽样 0.2 调查推断中选准估计量基础上要考虑的重要何题」】 为了减少估计量的MSE.调查公司准备将电话 显然,估计量准不准或是否无偏估计量的间题,通常 调查的样本容量扩大5倍,增加到1000个成人,这 是第1位的 在准的基础上估计量的误差(差异花 时的MSE会怎样呢 围)尽量 些是第2位的 这个例子 告诉我 如果仍然在白天调查,在1000个成年人中大 安际市场 调查.民意测验 会有1/4(250人)会回答.样本容量的变化只会对估 随机出的 计量的方差产生影响,即 查中的 MSE=+(偏差) =06+0.25 提下,要根据调查目的要求,根据经费的多少以及时 间的要求等条件设计出较高精度(即较小估计量方 =0.253 差)的调查方案,这样才能较好地完成调查任务 这种增加样本容量的改进方式虽然可以降低MSE (责任编辑马士龙 但效果并不明显。调查公司提出了另一种改进精度 44 1994-2010 China Academie Journal Electronic Publishing House.All rights reserved.http://www.enki.net
☆个案教 学 是估计量 和真实参数 离差 平方 的数学期望 , 即 一 一 在 上 式 中引入 实 际 估计 量 豆 的数 学 期 望 豆 就 有 一 豆一 豆 十 豆 一 拌 豆一 豆 仁 豆 一 拌 〕 豆一 豆 皿 豆 一 产 。 拌 一 拼 的建议 , 即只随机调查 个成年人 , 但这 个人 的 回答必须得到 。 换句话说 , 白天打 电话若不在家 , 就 晚上 再打 , 直 到 有人 回 答 为止 。 这 时的估计量方差 为 表 目标总体估计 方差计算表 丝 二 了 一 “ , 即 等于 估 计 量 的方 差 加 上 估计 量 偏 差 的 平 方 。 现将 个 电话调 查 的数据 代入 上 式 , 计 算 用 个 回答的估计量 豆 估计总体均值 拼 的 。 表 回 答调查子总体估计 量方差计孩表 一 拌 一 拼 一 拼 一 合计 · 严 一 一 口 一 拜 一 尸 一 拜 一 合计 拌 魂。 一 一 。最 、 , 二 、 口 压八 少 — 一 一二二丁一 一 勺匕 乙 估计量 页 的方差 为 一 由于抽 出的 个成年人 都做 了回答 , 因而这一样本 是从 目标总体 中抽 出的 , 估计 量 的数学期望就 是 总 体待估参数 产 , 因而偏差项为 。 ‘ 偏差 ’ 一 比较调查公司的两种改进精度方法 的 , 不 难看出 , 后 一种只调查 个成年人 但直到 打通 为止 的方式 的 要 小得 多 。 而 前 一 种扩大样本 容量 的调 查方式收 效甚微 。 原 因是 由于 估计量偏 差要 经 过 平方 , 因而偏 差 对 的影 响是 巨大的 。 估计量 偏 差 的大 小 反 映 了估计量 准 不 准 的 问 题 , 是 我 们进 行抽 样调 查推断 中首先要考虑 的 问 题 估计量方 差 的大 小反 映 的是 估计量精 不 精 的 问题 , 是 进 行抽 样 调 查推断 中选准 估计量 基 础 上 要 考 虑 的重要 问题 。 显 然 , 估计量准不 准或是否无偏 估计量的问题 , 通 常 是第 位 的 。 在 准 的基础 上 估计量 的误差 差 异 范 围 尽量 小一些 是 第 位的 。 这个例子告诉我们 , 在 实际 市场调查 、 民意测验或其他抽样调查 中 , 首先要 考虑 你的样本是 否是从 目标总体 中随机抽 出 的 , 这 就要特别小心调查 中的不 回 答 问题 接 下来 , 在保证 样本是 目标总体的随机样本 即保证无偏估计 的前 提 下 , 要根据调查 目的要求 , 根据经 费的多 少以 及 时 间的要 求等条件设 计 出较 高精度 即较 小 估计 量方 差 的调查方案 , 这样才能较好地 完成调查任务 。 责任编辑 马士龙 一川 。 一 一嵘 估计量 的偏差 一 一 一 一 。 。 已 经 得 到 , 这样 , 估计量 的均方误 差就很 容易算 出 了 。 一 普 偏 差 一 十 为了减少估计量 的 , 调查 公 司准 备将 电话 调 查的样本容量扩 大 倍 , 增 加 到 个成 人 , 这 时的 会 怎样呢 如果仍然在 白天 调查 , 在 。个成年 人 中大 约 会有 人 会 回答 。 样本容量 的变化 只 会对 估 计量 的方差 产生影 响 , 即 一 普 偏 差 考琶要愁 ’ 这种增 加样本容量的改进 方式 虽 然 可以 降低 , 但效果并不 明显 。 调查 公司提 出 了另 一 种改进精度