第七章怎样让医院的服务更好一回归分析 在实际中,经常会遇到这样的问题:一个变量(或 多个变量)是以怎样的规律影响另一个变量的? 回归分析就是用统计数据寻求变量间关系的近似 表达式的一种方法,并利用所得表达式进行统计描述、 分析和推断,解决预测、控制和优化问题。 §7—1问题提出 某医院的管理部门希望了解病人对医院服务工作 的满意程度Y和病人的年龄ⅹ1、病情的严重程度ⅹ2、 忧虑程度X3之间的关系。 现有如下23例统计数据,其中x1x2,x3,y分别 表示第i个病人的年龄、病情的严重程度、忧虑程度 对医院服务的满意度。 i12345 212223 x.,5036404128 94443 5146484443 525850 3232.3221.81.8……2.32.923 y14857667089 这些病人对医院服务的评价是否真实可信?是 否年龄偏大的、病情严重的病人对医院服务不满意? §7-2如何定量分析病人与医院之间关系 关系分类:确定性关系;不确定性关系(相关关系)。 在不确定性关系中:处于主动地位的因素称为自 变量(或称解释变量),如本题x,x2,x3’通常用Ⅹ 表示解释变量:处于被动地位的因素(受ⅹ的取值影 响)称为因变量,如本题y,通常用Y表示因变量。 用x12x2,x3分别表示病人的年龄、病情的严重程 度、忧虑程度这三个解释变量,用Y表示满意度,回 归分析的数学模型为 =f(x1,x2,x3)+E (71)式 G 其中,称f(x1,x2,x3)为理论回归函数,称E为偏差 导致偏差存在的原因很多,如对Y的数据采集有误差,除 了x1,x2,x3外还有别的影响因素没考虑到,等等。通常,偏 差满足均值为0的正态分布 回归分析处理不确定性关系的基本思想是:有了 表达式f(x1,x2,x),就可以从数量上掌握x1,x2,x与Y 之间复杂关系的大趋势,进而利用这种趋势来研究回 归模型的预测问题和控制问题
第七章 怎样让医院的服务更好----回归分析 在实际中,经常会遇到这样的问题:一个变量(或 多个变量)是以怎样的规律影响另一个变量的? 回归分析就是用统计数据寻求变量间关系的近似 表达式的一种方法,并利用所得表达式进行统计描述、 分析和推断,解决预测、控制和优化问题。 §7—1 问题提出 某医院的管理部门希望了解病人对医院服务工作 的满意程度 Y 和病人的年龄 X1、病情的严重程度 X2、 忧虑程度 X3 之间的关系。 现有如下 23 例统计数据,其中 i i i i x , x , x , y 1 2 3 分别 表示第 i 个病人的年龄、病情的严重程度、忧虑程度、 对医院服务的满意度。 --------------------------------------------------------------------- i 1 2 3 4 5 …… 21 22 23 i1 x 50 36 40 41 28 …… 29 44 43 i2 x 51 46 48 44 43 …… 52 58 50 i3 x 2.3 2.3 2.2 1.8 1.8 …… 2.3 2.9 2.3 i y 48 57 66 70 89 …… 77 52 60 --------------------------------------------------------------------- 这些病人对医院服务的评价是否真实可信? 是 否年龄偏大的、病情严重的病人对医院服务不满意? §7—2 如何定量分析病人与医院之间关系 关系分类:确定性关系;不确定性关系(相关关系)。 在不确定性关系中:处于主动地位的因素称为自 变量(或称解释变量),如本题 1 2 3 , , i i i x x x ,通常用 X 表示解释变量;处于被动地位的因素(受 X 的取值影 响)称为因变量,如本题 i y ,通常用 Y 表示因变量。 用 1 2 3 x , x , x 分别表示病人的年龄、病情的严重程 度、忧虑程度这三个解释变量,用 Y 表示满意度,回 归分析的数学模型为 = + ~ (0, ). ( , , ) , 2 1 2 3 N Y f x x x (7.1)式 其中,称 ( , , ) 1 2 3 f x x x 为理论回归函数,称 为偏差。 导致偏差存在的原因很多,如对 Y 的数据采集有误差,除 了 1 2 3 x , x , x 外还有别的影响因素没考虑到,等等。通常,偏 差满足均值为 0 的正态分布。 回归分析处理不确定性关系的基本思想是:有了 表达式 ( , , ) 1 2 3 f x x x ,就可以从数量上掌握 1 2 3 x , x , x 与 Y 之间复杂关系的大趋势,进而利用这种趋势来研究回 归模型的预测问题和控制问题
在模型(71)式中,若特别假设Y与x12x2,x3是线性 函数关系,则(71)式可写成 Y=(Bo+*+B2*2+B,x3)+e, E-N(0a2) (72)式 称为线性回归模型,其中B2=0,2,3为待定参数,需 要用统计数据来确定。 回归分析的任务是:用统计数据来估计理论回归 函数∫(x12x2,x),并讨论与此有关的种种统计推断问 题,需要解决的基本问题是: (1)如何根据抽样信息确定回归函数类型及其参数 的估计量 (2)如何判断Y与x,x2,x3间的关系是否密切; (3)变量x1,x2,x是否都对指标Y影响显著 (4)如何应用回归分析进行预测或控制。 §7-3回归分析 7.3.1线性回归模型 基本假设:(1)自变量x,x2,x与因变量Y构 成线性关系;(2)偏差ε服从正态分布,期望0 根据此假设,写出线性回归模型: Y=+x+Bx2+…+月n E-N(O, 02) (73)式 特别,若只有一个自变量,则称为一元线性回归模型 Y=B+Bx+或写成y~N(B+Bx).(74)式 E~N(0,a2) 1.如何确定回归系数B,=0,12,,m 根据统计数据(x1,x2,xmy)=1,2,,n,用最 小二乘法确定回归系数B,=0,12,…,m 将数据代入(73)式得 y=Bo+B+B,r2++Bm xim +E, i=1, 2, 其中,E~N(022).Cov(E,)=0V≠j 建立优化目标 min O(B0,B1,Bm)=∑62=∑(A0+Bx1+…+ Bnx-y)2 最优解记为,B,,Bn,算法如下推导过程略
在模型(7.1)式中,若特别假设 Y 与 1 2 3 x , x , x 是线性 函数关系,则(7.1)式可写成 = + + + + ~ (0, ). ( ) , 2 0 1 1 2 2 3 3 N Y x x x (7.2)式 称为线性回归模型,其中 i ,i = 0,1,2,3 为待定参数,需 要用统计数据来确定。 回归分析的任务是:用统计数据来估计理论回归 函数 ( , , ) 1 2 3 f x x x ,并讨论与此有关的种种统计推断问 题,需要解决的基本问题是: (1)如何根据抽样信息确定回归函数类型及其参数 的估计量; (2)如何判断 Y 与 1 2 3 x , x , x 间的关系是否密切; (3)变量 1 2 3 x , x , x 是否都对指标 Y 影响显著; (4)如何应用回归分析进行预测或控制。 §7—3 回归分析 7.3.1 线性回归模型 基本假设:(1)自变量 m x , x ,..., x 1 2 与因变量 Y 构 成线性关系;(2)偏差 服从正态分布,期望 0 . 根据此假设,写出线性回归模型: = + + + + + ~ (0, ). ... , 2 0 1 1 2 2 N Y x x xm m (7.3)式 特别,若只有一个自变量,则称为一元线性回归模型: = + + ~ (0, ). , 2 0 1 N Y x 或写成 ~ ( , ) . 2 Y N 0 + 1 x (7.4)式 1.如何确定回归系数 i ,i = 0,1,2,...,m 根据统计数据 (xi1 , xi2 ,..., xim, yi ), i =1,2,...,n ,用最 小二乘法确定回归系数 i ,i = 0,1,2,...,m : 将数据代入(7.3)式得 ~ (0, ), ( , ) 0, . ... , 1,2,..., , 2 0 1 1 2 2 N Cov i j y x x x i n i i j i i i m im i = = + + + + + = 其中, 建立优化目标: min ( , ,..., ) ( ... ) . 1 2 0 1 1 1 2 0 1 = = = = + + + − n i i m i m i n i m i Q x x y 最优解记为 m ˆ ,..., ˆ , ˆ 0 1 ,算法如下(推导过程略):
方程组XYB=XY X B=(rxr'xTr 命令:(Xx)1(XY 得到回归方程:j=B+Bx+…+Bx 2.回归模型的检验 (1)F检验法 SE=∑(y-j),SR=∑(一, SSE/(n-m-1 查“F一分布”表中F(m,n-m-1)的数值,若F大 于此数,则认为Y与x1x2,xn之间存在显著的线性 回归关系。(疑问:j,a是什么?猜:平均值,显著性指标) (2)相关系数r的评价 ∑ (x-x)(y1-y) (x-x)2∑(y-y)2 若接近1,则表明Y与x,x2…,xm之间的线性关系显 著;若接近0,则表明Y与x,x2…,xm之间无线性关 系,可能是非线性关系,也可能是随机因素起主要作 p值检验 P=PF>FB都 为0) 若概率p接近0,则认为Y与x1,x2…,xn之间有线性关 系 3.回归系数的检验,最优回归方程的确定 共有m个自变量x,x2,…,xmn,还需逐个检验每个x 对Y的影响程度。 T= B, /vc Cn是(Xx)的主对角线 SSE/n-m-1) 若团接近0,则表明x对Y的影响程度很小,可以从 回归模型中剔除x
( ) ( ) \ ( ) ˆ ˆ , , 1 ... ... 1 ... 1 ... 1 2 1 1 21 2 11 1 X X X Y X X X Y X X X Y y y y Y x x x x x x X T T T T T T n nm n m m 命令: 方程组 − = = = = 得到回归方程: . ˆ ... ˆ ˆ ˆ 0 1 1 m m y = + x + + x 2.回归模型的检验 (1) F 检验法 = = − n i i i SSE y y 1 2 ( ˆ ) , = = − n i i SSR y y 1 2 ( ˆ ) , . /( 1) / − − = SSE n m SSR m F 查“F—分布”表中 ( , 1) F1− m n − m − 的数值,若 F 大 于此数,则认为 Y 与 m x , x ,..., x 1 2 之间存在显著的线性 回归关系。(疑问: y, 是什么? 猜:平均值,显著性指标) (2)相关系数 r 的评价 = = = − − − − = n i i n i i n i i i x x y y x x y y r 1 2 1 2 1 ( ) ( ) ( )( ) 若 r 接近 1,则表明 Y 与 m x , x ,..., x 1 2 之间的线性关系显 著;若 r 接近 0,则表明 Y 与 m x , x ,..., x 1 2 之间无线性关 系,可能是非线性关系,也可能是随机因素起主要作 用。 (3) p 值检验 ( 0) p = P F F0 i都为 若概率 p 接近 0,则认为 Y 与 m x , x ,..., x 1 2 之间有线性关 系。 3.回归系数的检验,最优回归方程的确定 共有m个自变量 m x , x ,..., x 1 2 ,还需逐个检验每个 i x 对 Y 的影响程度。 /( 1) / ˆ − − = SSE n m c T i ii i , ii c 是 1 ( ) − X X T 的主对角线 若 Ti 接近 0,则表明 i x 对 Y 的影响程度很小,可以从 回归模型中剔除 . i x
4.回归模型的应用 两个应用:(1)预测;(2)控制。 现在简介“预测的基本原理 再采集新数据(x01x2,xm),代入模型所得的最 优回归方程算出j,这就是关于因变量Y的估计值。 73.2非线性回归模型 Y=f(x,,x,,,x m) E~N(0,2) 函数∫(x1x2…,xn)为非线性函数形式。此时,对模型 进行统计分析较为困难。若已知函数形式(如:指数 函数、分式函数等),则只需确定参数即可,可用 Matlab 做数据拟合
4.回归模型的应用 两个应用:(1)预测;(2)控制。 现在简介“预测的基本原理”: 再采集新数据 ( , ,..., ) 01 02 0m x x x ,代入模型所得的最 优回归方程算出 0 y ˆ ,这就是关于因变量 Y 的估计值。 7.3.2 非线性回归模型 = + ~ (0, ). ( , ,..., ) , 2 1 2 N Y f x x xm 函数 ( , ,..., ) 1 2 m f x x x 为非线性函数形式。此时,对模型 进行统计分析较为困难。若已知函数形式(如:指数 函数、分式函数等),则只需确定参数即可,可用 Matlab 做数据拟合