直线回归
直线回归
直线回归 今举例说明回归背景问题 今通过例子导出直线回归的意义 心简述正态分布的性质 今由此导出直线回归分析对资料的要求 今简述直线回归的回归系数检验 今直线回归的预测值及其95%可信区间 令标准曲线制作中的直线回归问题 今直线回归分析小结 今思考题
直线回归 ❖ 举例说明回归背景问题 ❖ 通过例子导出直线回归的意义 ❖ 简述正态分布的性质 ❖ 由此导出直线回归分析对资料的要求 ❖ 简述直线回归的回归系数检验 ❖ 直线回归的预测值及其95%可信区间 ❖ 标准曲线制作中的直线回归问题 ❖ 直线回归分析小结 ❖ 思考题
直线回归掌握的要点 直线回归方程(总体)是描述什么? 直线回归分析对资料有什么要求? 心直线回归分析的具体基本步骤是什么? 在直线回归中,Y是否一定为随机变量? 在直线回归中,X是否一定为随机变量? 心在直线回归中,预测值y的意义是什么? 今在直线回归中,回归系数b的意义是什么?
直线回归掌握的要点 ❖直线回归方程(总体)是描述什么? ❖直线回归分析对资料有什么要求? ❖直线回归分析的具体基本步骤是什么? ❖在直线回归中,Y是否一定为随机变量? ❖在直线回归中,X是否一定为随机变量? ❖在直线回归中,预测值 的意义是什么? ❖在直线回归中,回归系数b的意义是什么? Y ˆ
举例 今例为了研究3岁至8岁男孩人群平均身高(cm) 与年龄(year)的规律,在某地区在3岁至8岁男 孩中随机抽样,共分6个年龄层抽样:3岁,4 岁,…,8岁,每个层抽3名男孩,共抽18名男 孩。资料如下 年龄X333444555 身高Y92.5979610096.5101106104107 年龄X666777888 身高Y|115.5116110126|118118122129124
举例 ❖例 为了研究3岁至8岁男孩人群平均身高(cm) 与年龄(year)的规律,在某地区在3岁至8岁男 孩中随机抽样,共分6个年龄层抽样:3岁,4 岁,… ,8岁,每个层抽3名男孩,共抽18名男 孩。资料如下: 年 龄X 3 3 3 4 4 4 5 5 5 身高Y 92.5 9 7 9 6 100 96.5 101 106 104 107 年 龄X 6 6 6 7 7 7 8 8 8 身高Y 115.5 116 110 126 118 118 122 129 124
本例的研究目的和实现方法 1.研究目的:了解年龄与儿童人群的平均身高对 应关系。 2.方法1:可以做普查,得到每个年龄组所有儿童 的身高,并且计算每个年龄组的儿童人群的平 均身高。 3.方法2:作抽样调查,本例就是通过按年龄组分 层抽样调查,获得样本后用回归分析的方法得 到每个年龄组儿童人群的平均身高估计值和相 应的统计推断
本例的研究目的和实现方法 1. 研究目的:了解年龄与儿童人群的平均身高对 应关系。 2. 方法1:可以做普查,得到每个年龄组所有儿童 的身高,并且计算每个年龄组的儿童人群的平 均身高。 3. 方法2:作抽样调查,本例就是通过按年龄组分 层抽样调查,获得样本后用回归分析的方法得 到每个年龄组儿童人群的平均身高估计值和相 应的统计推断
儿童身高的分布特征 般而言,儿童身高满足 1.同一年龄x的儿童身高y近似服从正态分布,因 此对于每个年龄x,均有一个身高y的总体均 数 2.不同年龄x的儿童身高分别近似服从对应不同 身高总体均数的正态分布。 3.身高的总体均数四是年龄x的一个函数
儿童身高的分布特征 一般而言,儿童身高满足 1. 同一年龄x的儿童身高y近似服从正态分布,因 此对于每个年龄x,均有一个身高y的总体均 数 。 2. 不同年龄x的儿童身高分别近似服从对应不同 身高总体均数 的正态分布。 3. 身高的总体均数 是年龄x的一个函数 Y X| Y X| Y X|
画散点图考查身高与年龄的分布关系 13 120 110 100 X Y的离散程度与X没有关系,并且散点呈直线带
画散点图考查身高与年龄的分布关系 y x 3 4 5 6 7 8 90 100 110 120 130 Y的离散程度与X没有关系,并且散点呈直线带
画散点图考查身高总体均数与年龄的关系 年龄组的身高样本均数与年龄的散点图 平均身高 115 105 年龄
画散点图考查身高总体均数与年龄的关系 年龄组的身高样本均数与年龄的散点图
由散点图确定身高总体均数与年龄 可能是直线关系 今年龄组的身高样本均数与年龄的散点图显示年龄 组的身高样本均数与年龄几乎在一条直线上,略 有些偏离直线的点可以理解为样本均数的抽样误 差所致,因此可以假定固定年龄的身高总体均数 与年龄x的关系可能是直线关系,即假定 YIx=a+ Bx 并且称上述直线方程为(总体)回归方程
由散点图确定身高总体均数与年龄 可能是直线关系 ❖年龄组的身高样本均数与年龄的散点图显示年龄 组的身高样本均数与年龄几乎在一条直线上,略 有些偏离直线的点可以理解为样本均数的抽样误 差所致,因此可以假定固定年龄的身高总体均数 与年龄x的关系可能是直线关系,即假定: 并且称上述直线方程为(总体)回归方程。 Y x| = + x Y x|
回归方程 回归方程中α,β为未知参数,需要用样本资料通 过拟合曲线后得到其估计值,并分别记为a和b, 相应得到样本估计的回归方程 Y=atb 今通常称为Y的预测值,其意义为固定x,Y的 总体均数的估计值
回归方程 ❖回归方程中,为未知参数,需要用样本资料通 过拟合曲线后得到其估计值,并分别记为a和b, 相应得到样本估计的回归方程 ❖通常称 为Y的预测值,其意义为固定x,Y的 总体均数 的估计值。 Y a bx ˆ = + Y ˆ Y x|