直线回归
1 直线回归
直线回归 举例说明回归背景问题 通过该例导出直线回归的意义 简述正态分布的性质 由此导出直线回归分析对资料的要求 简述直线回归的回归系数检验 直线回归的预测值及其95%可信区间 标准曲线制作中的直线回归问题 直线回归分析小结 思考题
2 直线回归 • 举例说明回归背景问题 • 通过该例导出直线回归的意义 • 简述正态分布的性质 • 由此导出直线回归分析对资料的要求 • 简述直线回归的回归系数检验 • 直线回归的预测值及其95%可信区间 • 标准曲线制作中的直线回归问题 • 直线回归分析小结 • 思考题
直线回归掌握的要点 直线回归方程总体)是描述什么? 直线回归分析对资料有什么要求? 直线回归分析的具体基本步骤是什么? 在直线回归中,Y是否一定为随机变量? 在直线回归中,X是否一定为随机变量? 在直线回归中,预测值Y的意义是什么? 在直线回归中,回归系数b的意义是什么?
3 直线回归掌握的要点 • 直线回归方程(总体)是描述什么? • 直线回归分析对资料有什么要求? • 直线回归分析的具体基本步骤是什么? • 在直线回归中,Y是否一定为随机变量? • 在直线回归中,X是否一定为随机变量? • 在直线回归中,预测值 的意义是什么? • 在直线回归中,回归系数b的意义是什么? Y ˆ
举例 例为了研究3岁至8岁男孩人群平均身高 (cm)与年龄(year)的规律,在某地区在3 岁至8岁男孩中随机抽样,共分6个年龄 层抽样:3岁,4岁,…,8岁,每个层抽 3名男孩,共抽18名男孩。资料如下: 年龄x333444|555 身高Y92.5979610096.5101106104107 年龄X66677 888 身高Y115.5116110126118|118122129124
4 举例 • 例 为了研究3岁至8岁男孩人群平均身高 (cm)与年龄(year)的规律,在某地区在3 岁至8岁男孩中随机抽样,共分6个年龄 层抽样:3岁,4岁,…,8岁,每个层抽 3名男孩,共抽18名男孩。资料如下: 年 龄X 3 3 3 4 4 4 5 5 5 身高Y 92.5 9 7 9 6 100 96.5 101 106 104 107 年 龄X 6 6 6 7 7 7 8 8 8 身高Y 115.5 116 110 126 118 118 122 129 124
本例的研究目的和实现方法 1.研究目的:了解年龄与儿童人群的平均身高 对应关系。 2.方法1:可以做普查,得到每个年龄组所有儿 童的身高,并且计算每个年龄组的儿童人群 的平均身高 3.方法2:作抽样调查,本例就是通过按年龄组 分层抽样调查,获得样本后用回归分析的方 法得到每个年龄组儿童人群的平均身高估计 值和相应的统计推断
5 本例的研究目的和实现方法 1. 研究目的:了解年龄与儿童人群的平均身高 对应关系。 2. 方法1:可以做普查,得到每个年龄组所有儿 童的身高,并且计算每个年龄组的儿童人群 的平均身高。 3. 方法2:作抽样调查,本例就是通过按年龄组 分层抽样调查,获得样本后用回归分析的方 法得到每个年龄组儿童人群的平均身高估计 值和相应的统计推断
儿童身高的分布特征 般而言,儿童身高满足 1.同一年龄x的儿童身高y近似服从正态分 布,因此对于每个年龄x,均有一个身高 y的总体均数pyx。 2.不同年龄x的儿童身高分别近似服从对应 不同身高总体均数x的正态分布 3.身高的总体均数yx是年龄x的一个函数
6 儿童身高的分布特征 • 一般而言,儿童身高满足 1. 同一年龄x的儿童身高y近似服从正态分 布,因此对于每个年龄x,均有一个身高 y的总体均数 。 2. 不同年龄x的儿童身高分别近似服从对应 不同身高总体均数 的正态分布。 3. 身高的总体均数 是年龄x的一个函数 Y X| Y X| Y X|
画散点图考查身高与年龄的分布关系 130 120 110 100 678 Y的离散程度与X没有关系,并且散点呈直线带
7 画散点图考查身高与年龄的分布关系 y x 3 4 5 6 7 8 90 100 110 120 130 Y的离散程度与X没有关系,并且散点呈直线带
画散点图考查身高总体均数与年龄的关系 年龄组的身高样本均数与年龄的散点图 平均身高 125 115 105 年龄
8 画散点图考查身高总体均数与年龄的关系 • 年龄组的身高样本均数与年龄的散点图
由散点图确定身高总体均数与年龄 可能是直线关系 年龄组的身高样本均数与年龄的散点图显 示年龄组的身高样本均数与年龄几乎在 条直线上,略有些偏离直线的点可以理解 为样本均数的抽样误差所致,因此可以假 定固定年龄的身高总体均数x与年龄x 的关系可能是直线关系,即假定: Plx =a+ Bx
9 由散点图确定身高总体均数与年龄 可能是直线关系 • 年龄组的身高样本均数与年龄的散点图显 示年龄组的身高样本均数与年龄几乎在一 条直线上,略有些偏离直线的点可以理解 为样本均数的抽样误差所致,因此可以假 定固定年龄的身高总体均数 与年龄x 的关系可能是直线关系,即假定: Y x| = + x Y x|
回归方程 并且称上述直线方程为(总体)回归方程。 回归方程中α,β为未知参数,需要用样本资料通 过拟合曲线后得到其估计值,并分别记为a和b, 相应得到样本估计的回归方程 Y=a+bx 通常称Y为Y的预测值,其意义为固定x,Y的总 体均数n的估计值
10 回归方程 • 并且称上述直线方程为(总体)回归方程。 • 回归方程中,为未知参数,需要用样本资料通 过拟合曲线后得到其估计值,并分别记为a和b, 相应得到样本估计的回归方程 • 通常称 为Y的预测值,其意义为固定x,Y的总 体均数 的估计值。 Y a bx ˆ = + Y ˆ Y x|