安徽医科大学：《卫生统计学 public health statistics》课程教学资源（PPT课件讲稿）第十二章简单的回归分析

团购合买资源类别：文库，文档格式：PPT，文档页数：34，文件大小：789.5KB

第十二章简单回归分析前面介绍了两变量间关联性分析，本章与下一章我们将进一步的介绍观察数据中变量间的数量依存性的回归关系。第一节{ 简单直线回归

第十二章简单回归分析前面介绍了两变量间关联性分析，本章与下一章我们将进一步的介绍观察数据中变量间的数量依存性的回归关系。第一节简单直线回归

直线回归的概念及其统计描述在上一章中，对15名健康人疑血浓度 (Y)与凝血时间(X)数据计算相关系数定量猫述了变量间关联性的强弱程度与方向。为直观地说明直线▣归的概念，我们以以上一章中对15名健康人凝血浓度与凝血时间数据为例，来探讨两变量间依存变化关系反应变量(Y)与自变量(X)的简单线性模 simple linear regression model 可表达为 Y=a+BX:+8

一、直线回归的概念及其统计描述在上一章中，对15名健康人凝血浓度（Y）与凝血时间（X）数据计算相关系数，定量描述了变量间关联性的强弱程度与方向。为直观地说明直线回归的概念，我们以以上一章中对15名健康人凝血浓度与凝血时间数据为例，来探讨两变量间依存变化关系。反应变量（Y）与自变量（X）的简单线性模型（simple linear regression model）可表达为： Yi Xi i = +  +

表12·115名健康成人凝血时间与凝血酶浓度测量值受试者号 12345 6 8 910111213 14 15 X 1.11.21.0 0.91.2 1.10.9 0.61.0 0.9 1.1 09 1.1 1.0 0.7 1413 151513 14161714 161516141517 在通常情况下，研究者只能获取一定数量的样本数据，用该样本数据建立的有关Y 与X变化的线性方程称为回归方程 (regression equation)嘢x

表12－1 15名健康成人凝血时间与凝血酶浓度测量值在通常情况下，研究者只能获取一定数量的样本数据，用该样本数据建立的有关Y 与X变化的线性方程称为回归方程（regression equation)即：受试者号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 X 1.1 1.2 1.0 0.9 1.2 1.1 0.9 0.6 1.0 0.9 1.1 0.9 1.1 1.0 0.7 Y 14 13 15 15 13 14 16 17 14 16 15 16 14 15 17 Y ˆ = a +bX

在描述两变量的关系时，一般把两个变量中能精确容易测量的作自变量，不易测量作为因变量：即用易测量的数据X估计不易测量的另一数据。如年龄估算小儿体重等。在描述凝血时间与凝血浓度的依存关系中，将凝血酶浓度作为自变量(X)，凝血时间作为应变量(Y)。由图12-1可见，凝血时间随凝血酶浓度增大而减少且呈直线趋势，但并非15点恰好全部都在一直线上。两变量数量间虽然存在一定关系，但不是十分确定的。这与两变量间严格对应的函数关系不同，称为直线回归 (Linear regression)。直线回归是回归分析中最基本、最简单的一种，故又称简单simple regression)

在描述两变量的关系时，一般把两个变量中能精确容易测量的作自变量，不易测量作为因变量。即用易测量的数据X估计不易测量的另一数据。如年龄估算小儿体重等。在描述凝血时间与凝血浓度的依存关系中，将凝血酶浓度作为自变量（ X ），凝血时间作为应变量（Y）。由图12－1可见，凝血时间随凝血酶浓度增大而减少且呈直线趋势，但并非15点恰好全部都在一直线上。两变量数量间虽然存在一定关系，但不是十分确定的。这与两变量间严格对应的函数关系不同，称为直线回归（Linear regression)。直线回归是回归分析中最基本、最简单的一种，故又称简单simple regression)

凝血时间（秒） 09 18 17 16 15 14 13 12 .5 .6 .7 .8.9 1.0 1.1 1.2 1.3 凝血酶浓度（毫升）图 12-1 凝血浓度与凝血时间的散点分布

图 12－1 凝血浓度与凝血时间的散点分布凝血酶浓度（毫升） .5 .6 .7 .8 .9 1.0 1.1 1.2 1.3 凝血时间（秒） 20 19 18 17 16 15 14 13 12

二、回归模型的前提假设线性回归模型的前提条件是：线性 (linear)、独立(independent),正态 (normal),等方差(equal variance) 1、线性是指反应变量Y的总体平均值与自变量X呈线性关系。 2、独立是指任意两观察值互相独立 3、正态性假定是指线性模型的误差项ε服从正态分布， 4、等方差是指在自变量X取值范围内，不论X取什么值，Y都具有相同的方差：

二、回归模型的前提假设线性回归模型的前提条件是：线性（linear)、独立(independent)，正态 (normal)，等方差(equal variance) 1、线性是指反应变量Y的总体平均值与自变量X呈线性关系。 2、独立是指任意两观察值互相独立。 3、正态性假定是指线性模型的误差项i服从正态分布。 4、等方差是指在自变量X取值范围内，不论X取什么值，Y都具有相同的方差

X X2 X Xa X 图12-2 回归模型前提假设示意图

三、回归参数的估计一)回归参数估计的最小二乘原则参数α与一般只能通过样本数据来估计。当X取值为X时，Y的平均值的估计应为a+bX而实际观察值为Y。两者之差称为残差(residual),即，=y,-(a+bX,) 当a与b取不同值时获取不同的候选直线如能求a与b的适宜值，能使所有实测值到这条直线的上纵向距离的平方和为最小则称这一对a和b为与β的最小二乘估计 least estimation,LES)

三、回归参数的估计一）回归参数估计的最小二乘原则参数与一般只能通过样本数据来估计。当X取值为Xi时，Y的平均值的估计应为a+bXi ,而实际观察值为Yi。两者之差称为残差（residual)，即当a与b取不同值时获取不同的候选直线，如能求a与b的适宜值，能使所有实测值到这条直线的上纵向距离的平方和为最小，则称这一对a和b为与的最小二乘估计（least estimation,LES)。 i y ˆ ( ) i Yi a bXi e = − +

二)回归参数的估计方法=α+bX a为Y轴上的截距；b为斜率，表示X每改变一个单位，Y的变化的值，称为回归系数；表示在X值处Y的总体均数估计值。为求a和b两系数，根据数学上的最小二乘法原理，可导出a和b的算式如下： 6=∑K-Y-) Σ- a=Y-bX 。-∑x-收-)=∑r-ΣxΣ Σx-y=xx-②x

二）回归参数的估计方法 a为Y轴上的截距；b为斜率，表示X每改变一个单位，Y的变化的值，称为回归系数；表示在X值处Y的总体均数估计值。为求a和b两系数，根据数学上的最小二乘法原理，可导出a和b的算式如下：

1.由原始数据及散点图的初步分析，本例呈直线趋势，故作下列计算 2.求 ∑X∑r∑X∑∑Y ∑X=14.7,∑Y=224,∑X2=14.81 ∑r2=3368,∑7=216.5。 3.计算X、Y的均数，及离均差平方和xX yy与离均差积和xw。 1-zx-对=x区y-1481 4.72 =0.404 n 15

1.由原始数据及散点图的初步分析，本例呈直线趋势，故作下列计算。 2.求 3.计算X、Y的均数，及离均差平方和lXY、 lyy与离均差积和lXY

点击下载完整版文档（PPT格式）

共34页，可试读12页，点击继续阅读 ↓↓

点击下载（PPT格式）

浏览记录