社会研究方法 第7讲:社会统计2 Fudan University
Fudan University 社会研究方法 第7讲:社会统计2
统计分析: 描述统计指的是描述数据的方法。 推论统计则帮助研究者根据观察数据得出结论,通过对样本的研究进而推论总体。 图表描述 形图,饼图,矩形图, 线形图,箱线图 单变量 集中和离散 趋势的测量 描述统计 (整理和分析 探索数据) 双变量 交互分类表(列联表) 相关分析简单线性回归 统计分析 控制变量,虚假关系,连续反应 多变量 互动关系,多因关系,直接间接 影响关系,多元线性回归 参数值估计 推论统计 假设检验 Fudan University
Fudan University 统计分析: 描述统计指的是描述数据的方法。 推论统计则帮助研究者根据观察数据得出结论,通过对样本的研究进而推论总体。 2 统计分析 描述统计 (整理和分析 探索数据) 推论统计 图表描述 单变量 双变量 多变量 参数值估计 假设检验 条形图,饼图,矩形图, 线形图,箱线图 集中和离散 趋势的测量 交互分类表(列联表) 相关分析 ,简单线性回归 控制变量,虚假关系,连续反应, 互动关系,多因关系,直接间接 影响关系,多元线性回归
(三)多变量3.1统计控制 如果两个变量间有相关,并不能说自变量影响了因变量。研究 者还必须去除其他的替代解释,那些会是假设关系变成虚假不 实的解释。在非实验研究中,研究者通过统计方法对其他的替 代解释进行控制。通过控制变量( control variable来测量可 能的替代解释,然后再用多变量表和统计来检査控制变量,协 助它决定某个双变量的关系是否为虚假,也能显示各自变量对 因变量影响的相对大小。 引进控制变量的方法有两个:三变量百分比表和多元回归分析 Fudan University
Fudan University (三)多变量 3.1 统计控制 ⚫ 如果两个变量间有相关,并不能说自变量影响了因变量。研究 者还必须去除其他的替代解释,那些会是假设关系变成虚假不 实的解释。在非实验研究中,研究者通过统计方法对其他的替 代解释进行控制。通过控制变量(control variable)来测量可 能的替代解释,然后再用多变量表和统计来检查控制变量,协 助它决定某个双变量的关系是否为虚假,也能显示各自变量对 因变量影响的相对大小。 ⚫ 引进控制变量的方法有两个:三变量百分比表和多元回归分析 3
如何制作三变量表 表2.7不同年龄/性别去年参观博物馆/艺术馆双向表 应答者 年龄组 性别 18-2930-3940-4950+ 总计 男性 去年 是 人数 66 65 68 245 是否参观 占该年龄组百分数38.0%41.8%46.1%31.2%38.4% 过博物馆否 人数 92 76 393 或艺术馆 占该年龄组百分数 62.0% 58.2%53.9%68.8%61.6% 总计 人数 121 158 141 218 638 占该年龄组百分数100.0%100.0%1 100.0%100.0% 女性 去年 是 人数 73 115 357 是否参观 占该年龄组百分数46.5%45.8%49.1%34.2%42.0% 过博物馆否 人数 221 493 或艺术馆 占该年龄组百分数53.5%54.2%50.9%65.8%58.0% 总计 人数 57 192 165 336 850 占该年龄组百分数100.0%100.0%100.0%100.0%100.0% Fudan University
Fudan University 如何制作三变量表 4
阅读三变量表的系统:详析范式( (elaboration paradigm) 详析范式实例摘要 模式名称 比较偏表与原始双变量表后看出的模式 复制 分表与双变量表中出现相同的关系 特定 协变关系只出现在某个分表之中 诠释 双变量关系在分表中大为减弱甚或消失(控制变量形成干预) 解释双变量关系在分表中大为减弱甚或消失(控制变量出现在原来的自变量之 前) 抑制变量没有双变量关系,关系只出现在分表中 Fudan University
Fudan University 阅读三变量表的系统:详析范式(elaboration paradigm) 5
制模式 双变量表 偏表 控制=低 控制一高 低 高 低 高 低 高 低 85% 15 % 低 84 1% 16% 86% 14% 高 15% 85% 高 16% 84% 14% 86% 诠释或辨明模式 双变量表 偏表 控制=低 控制=高 低 高 低 高 低 高 低 85% 15% 低 45% % 55% 45% 高 15% 85% 高 5% 15% 55% 标明模式 双变量表 偏表 控制一低 控制=高 低 高 低 高 低 低 85% 85% 低 95% 5% 50% 50% 高 15% 15% 5% 95% 50% 50% 抑制模式 双变量表 偏表 控制=低 控制=高 低 低 高 低 高 低 54% 46% 低 84% 16% 14% 86% 高 46% 54% 16% 86% 14%
Fudan University 6
多元回归 Multiple regression analysis 什么是二元回归 假设我们有以下数据:父亲的受教育年限(fedu)和受访者的 受教育年限(edu) fedu edu 1210 123456789 6848 408394366 10 1011 Fudan University
Fudan University 多元回归Multiple regression analysis ⚫ 什么是二元回归 ⚫ 假设我们有以下数据:父亲的受教育年限(fedu)和受访者的 受教育年限(edu): 7 10. 10 11 9. 8 6 8. 4 6 7. 8 13 6. 6 4 5. 6 9 4. 13 13 3. 4 8 2. 12 10 1. 2 4 fedu edu
如果我们在二维空间里画幅图来表示这两个变量,它们之间的关系就会呈 现出来。在下图一我们就会发现,父亲的受教育年限长,受访者的受教育 年限也会长。在这种情况下,我们说父亲的受教育年限和受访者的受教育 年限呈正相关关系( positively correlated father' s edu Fudan University graph twoway scatter edu fedu
Fudan University ⚫ 如果我们在二维空间里画幅图来表示这两个变量,它们之间的关系就会呈 现出来。在下图一我们就会发现,父亲的受教育年限长,受访者的受教育 年限也会长。在这种情况下,我们说父亲的受教育年限和受访者的受教育 年限呈正相关关系(positively correlated). 8 4 6 8 10 12 14 respondent's edu 0 5 10 15 father's edu graph twoway scatter edu fedu
尽管能看出父亲的受教育年限和受访者的受教育年限呈正相关 关系,但我们还想从两个方面来量化此关系。 其一,我们希望用一种方法来描述父亲的受教育年限与 受访者的受教育年限之间的关系特征。即,如果某人父 亲的受教育年限变化(自变量)一个单位(一年),那 么我们会预期他本人的受教育年限(因变量)平均会发 生多大的变化?假如知道他父亲的受教育年限,那么我 们对他本人的受教育年限又会做何种预期或预测? 其二,我们希望用一种方法来描述受访者的受教育年限 与父亲的受教育年限之间的相关强度。依据父亲的受教 育年限来预测受访者的受教育年限,我们能得到一个准 确的预测值还是只能得到一个近似值呢? Fudan University 9
Fudan University ⚫ 尽管能看出父亲的受教育年限和受访者的受教育年限呈正相关 关系,但我们还想从两个方面来量化此关系。 – 其一,我们希望用一种方法来描述父亲的受教育年限与 受访者的受教育年限之间的关系特征。 即,如果某人父 亲的受教育年限变化(自变量)一个单位(一年),那 么我们会预期他本人的受教育年限(因变量)平均会发 生多大的变化?假如知道他父亲的受教育年限,那么我 们对他本人的受教育年限又会做何种预期或预测? – 其二,我们希望用一种方法来描述受访者的受教育年限 与父亲的受教育年限之间的相关强度。 依据父亲的受教 育年限来预测受访者的受教育年限,我们能得到一个准 确的预测值还是只能得到一个近似值呢? 9
描述两个变量关系特征的最简单且常见的方法是在散点图中画 出一条通过这些点并最好的概括了两个变量之间平均关系的直 线,直线可以用一个方程来表示:Y=a+bX 图二给出了我们关于受访者受教育年限Y和父亲受教育年限X 例子的系数a和b该图对应的方程可表示为:Y=3,38+0687K 这里,3.38是截距,即那些父亲根本没有受过教育的受访者的 期望受教育年限。0.687是斜率,即父亲受教育年限每增加 年,受访者受教育年限的期望增加值。根据这个方程,我们预 测父亲受过10年教育的受访者将会有1025年的受教育年限, 因为338+10*0.687=1025类似的,我们预测受过大学教育的 人的子女的受教育年限比只受过高中教育的人的子女的受教育 年限平均多2.75年,因为068716-12)=275在给定自变量取 值的情况下估计因变量的值被称为对方程求值。 Fudan University 10
Fudan University ⚫ 描述两个变量关系特征的最简单且常见的方法是在散点图中画 出一条通过这些点并最好的概括了两个变量之间平均关系的直 线,直线可以用一个方程来表示: ⚫ 图二给出了我们关于受访者受教育年限Y和父亲受教育年限X 例子的系数a和b.该图对应的方程可表示为: ⚫ 这里,3.38是截距,即那些父亲根本没有受过教育的受访者的 期望受教育年限。0.687是斜率,即父亲受教育年限每增加一 年,受访者受教育年限的期望增加值。根据这个方程,我们预 测父亲受过10年教育的受访者将会有10.25年的受教育年限, 因为3.38+10*0.687=10.25.类似的,我们预测受过大学教育的 人的子女的受教育年限比只受过高中教育的人的子女的受教育 年限平均多2.75年,因为0.687*(16-12)=2.75.在给定自变量取 值的情况下估计因变量的值被称为对方程求值。 10