§7-4病人对医院的评价如何(建模、求解) 前面§7-4包含了“问题分析” 1.模型假设 (1)病人的三项指标年龄、病情严重程度、忧虑程 度作为回归模型的自变量 (2)病人对医院服务工作的满意程度作为回归模型 的因变量; (3)自变量x1,x2,x3与因变量Y之间具有显著的线 性关系; (4)实际观测值与估计值之间的偏差之均值为0、 方差为σ2,实际观测值的统计规律为正态分布。 2.模型建立 根据假设,可直接给出线性回归模型 ∫Y=A+Bx+Bx2+Bx+6 l6-N(O,0 3.模型求解 用 Matlab软件计算,程序(syp96m)内容如下 clear x0=[50,36,40,41,2849,42,45,52,29,29,43,38,345336,33 29,33,55,2944,43 51,46,48,44,43,54,50,48,62,50,48,53,55,51,5449,56464 9,51,52,58,50 2.3,23,2.2,1.8,1.8,2.9,2.2,2.4,2.9,2.1,2.4,2.4,2.2,2.3,2.2,2 02.5,1.9,2.1,24,23,2.9,23 y0=48,57,66,70,89,36,46,54,26,7,8967,47,51,5766,79 8860,49,77,52,60] lones(23, 1),x0;y=yo, alpha=0.05 Lb, bint, r, rint, stats=regress(y, x, alpha) 说明:x0是自变量数据,y0是因变量数据 x是矩阵,列数是自变量个数m再加1,行数 是采集数据的样本个数n,第一列都是1;y必须是列 向量 alpha就是a,是人为给定的一个数据,通常介 于1%至10%,简称为置信度 用 Matlab做线性回归计算的命令格式是 b, bint r rint. stats}= regress(列向量矩阵,置信度) 执行结果如下: 162. -0.6659 -8.6130
§7—4 病人对医院的评价如何(建模、求解) 前面§7—4 包含了“问题分析”。 1.模型假设 (1)病人的三项指标年龄、病情严重程度、忧虑程 度作为回归模型的自变量; (2)病人对医院服务工作的满意程度作为回归模型 的因变量; (3)自变量 1 2 3 x , x , x 与因变量 Y 之间具有显著的线 性关系; (4)实际观测值与估计值之间的偏差之均值为 0、 方差为 2 ,实际观测值的统计规律为正态分布。 2.模型建立 根据假设,可直接给出线性回归模型: = + + + + ~ (0, ). , 2 0 1 1 2 2 3 3 N Y x x x 3.模型求解 用 Matlab 软件计算,程序(syp96.m)内容如下: clear x0=[50,36,40,41,28,49,42,45,52,29,29,43,38,34,53,36,33, 29,33,55,29,44,43 51,46,48,44,43,54,50,48,62,50,48,53,55,51,54,49,56,46,4 9,51,52,58,50 2.3,2.3,2.2,1.8,1.8,2.9,2.2,2.4,2.9,2.1,2.4,2.4,2.2,2.3,2.2,2 .0,2.5,1.9,2.1,2.4,2.3,2.9,2.3]; y0=[48,57,66,70,89,36,46,54,26,77,89,67,47,51,57,66,79, 88,60,49,77,52,60]; x=[ones(23,1),x0'];y=y0';alpha=0.05; [b,bint,r,rint,stats]=regress(y,x,alpha) 说明:x0 是自变量数据,y0 是因变量数据; x 是矩阵,列数是自变量个数 m 再加 1,行数 是采集数据的样本个数 n,第一列都是 1;y 必须是列 向量; alpha 就是 ,是人为给定的一个数据,通常介 于 1%至 10%,简称为置信度; 用 Matlab 做线性回归计算的命令格式是 [b,bint,r,rint,stats]=regress(列向量,矩阵,置信度) 执行结果如下: b = 162.8759 -1.2103 -0.6659 -8.6130
bint 10892682168250 1.8413-0.5794 -2.3843 10525 -34.2343170082 -0.5888 -11.8628 2.4490 -6.6336 13.7986 1.7768 7.6754 0.6060 13.8581 12.1321 -14.3103 -169539 13.1785 -3.4490 14.8879 7.2197 -12.2187 7.3241 2.2730 -21.1751199974 -30.864271386 -18.853223.7511 17.783920.8848 -15486623.7874 511.3323 34.14486.5476 21870118.3165 -25265699147 -19941921.1538 -4.113931.8301 -8.5005327646 -32.40013.7794 36.561126532 -24.3283174303 -3.368133.1439 12.9548273943 32.59038.1530 11742426.3905 -16565623.8864 -13.1113250681 -19.159123.7052
bint = 108.9268 216.8250 -1.8413 -0.5794 -2.3843 1.0525 -34.2343 17.0082 r = -0.5888 -11.8628 2.4490 1.5504 4.1504 -6.6336 -13.7986 -1.7768 -7.6754 0.6060 13.8581 12.1321 -14.3103 -16.9539 13.1785 -3.4490 14.8879 7.2197 -12.2187 7.3241 3.6604 5.9784 2.2730 rint = -21.1751 19.9974 -30.8642 7.1386 -18.8532 23.7511 -17.7839 20.8848 -15.4866 23.7874 -24.5995 11.3323 -34.1448 6.5476 -21.8701 18.3165 -25.2656 9.9147 -19.9419 21.1538 -4.1139 31.8301 -8.5005 32.7646 -32.4001 3.7794 -36.5611 2.6532 -3.9704 30.3274 -24.3283 17.4303 -3.3681 33.1439 -12.9548 27.3943 -32.5903 8.1530 -11.7424 26.3905 -16.5656 23.8864 -13.1113 25.0681 -19.1591 23.7052
stats 0.672713.01450.0001 说明:b是参数估计值: r可用来估计方差:2=r+(n-m-1) stats的三个数分别是 相关系数r的平方,方差,p值。 4.结果分析 (1)参数B,i=0,1,2,3,以及方差a2的估计值 Bn,B1,,月3分别是 162.8759,-1.2103,-0.6659,-86130 在程序最后加一句:fc=*r(23-3-)可得方差 的估计值为fc=105.8729 (2)模型检验 (a)F检验法:F= SSR/m=130145 SSE/n-m-1) 另外,查“F-分布”表 F-a(m,n-m-1)=F95(3,19)=3.13 因为130145明显大于3.13,所以认为Y与x,x2x3之 间存在显著的线性回归关系。 (b)相关系数r的评价 06727,H=0.8202 通常,当相关系数r大于0.8时,就认为Y与x1,x2,x3有 较强的线性关系 (c)p值检验 p=00001,远远小于置信数a的取值005,这也 表明Y与x1,x2,x线性关系显著 以上三种检验法,都得到Y与x,x2,x线性关系显 著,说明本模型基本反映了病人对医院评价的真实关 系。 (3)残差分析 得到回归模型之后,需进一步考察模型对所给数 据的适用性。 对于第个样本,残差为e1=y- (a)残差向量的正态性图形检验 前面 Matlab计算输出结果中的r、rnt分别代表残 差向量、残差向量的区间估计,继续下命令
stats = 0.6727 13.0145 0.0001 说明:b 是参数估计值; r 可用来估计方差: '* /( 1) 2 = r r n − m − stats 的三个数分别是: 相关系数 r 的平方,方差, p 值。 4.结果分析 (1)参数 i ,i = 0,1,2,3 ,以及方差 2 的估计值 0 1 3 ˆ ,..., ˆ , ˆ 分别是: 162.8759,-1.2103,-0.6659,-8.6130 在程序最后加一句:fc=r'*r/(23-3-1) 可得方差 2 的估计值为 fc =105.8729 (2)模型检验 (a)F 检验法: /( 1) / − − = SSE n m SSR m F =13.0145 另外,查“F---分布”表: F1− (m,n − m −1) = F0.95(3,19) = 3.13 因为 13.0145 明显大于 3.13,所以认为 Y 与 1 2 3 x , x , x 之 间存在显著的线性回归关系。 (b)相关系数 r 的评价 0.6727, 0.8202 . 2 r = r = 通常,当相关系数 r 大于 0.8 时,就认为 Y 与 1 2 3 x , x , x 有 较强的线性关系。 (c) p 值检验 p=0.0001,远远小于置信数 的取值 0.05,这也 表明 Y 与 1 2 3 x , x , x 线性关系显著。 以上三种检验法,都得到 Y 与 1 2 3 x , x , x 线性关系显 著,说明本模型基本反映了病人对医院评价的真实关 系。 (3)残差分析 得到回归模型之后,需进一步考察模型对所给数 据的适用性。 对于第 i 个样本,残差为 i i i e = y − y ˆ (a)残差向量的正态性图形检验 前面 Matlab 计算输出结果中的 r、rint 分别代表残 差向量、残差向量的区间估计,继续下命令
complot(r) 可得如下“残差向量的正态性图形检验” 0.10 理论上已经有结论:若图中的“+”分布在一条直线上 则残差就服从正态分布。 (b)残差图分析 以残差为纵坐标,以“与残差有关的任意一个量” 为横坐标,得到的散点图,称为残差图。通常,横坐 标可选择为:(1)样本点的序号;(2)根据模型算出 的近似值;(3)某个自变量的值 利用残差图,可以对奇异点进行分析,可以直观 检验误差的等方差性、是否应该增加或减少模型中的 自变量、等项目。 例如1:时序残差图,命令为: coplon(rint 好的模型的“时序残差图”应该是以横轴y=0为中心 的带状区域。若有个别偏离很远,则该样本点是奇异 点,剔除它。此图无奇异点。 例如2:其它类型的残差图 读书p99倒5行-P1015行。 画P100页图74(a):以根据模型算出的近似值为 横坐标。注意到近似值等于自变量乘参数向量,所以 Matlab 命令为 plot((x*b), r, * 画P100页图74(b):以第一个自变量为横坐标。 Matlab 命令为plot(xO(1,)r2+)
normplot(r) 可得如下“残差向量的正态性图形检验”: 理论上已经有结论:若图中的“+”分布在一条直线上, 则残差就服从正态分布。 (b)残差图分析 以残差为纵坐标,以“与残差有关的任意一个量” 为横坐标,得到的散点图,称为残差图。通常,横坐 标可选择为:(1)样本点的序号;(2)根据模型算出 的近似值 i y ˆ ;(3)某个自变量的值。 利用残差图,可以对奇异点进行分析,可以直观 检验误差的等方差性、是否应该增加或减少模型中的 自变量、等项目。 例如 1:时序残差图,命令为:rcoplot(r,rint) 好的模型的“时序残差图”应该是以横轴 y=0 为中心 的带状区域。若有个别偏离很远,则该样本点是奇异 点,剔除它。此图无奇异点。 例如 2:其它类型的残差图 读书 P99 倒 5 行------P1015 行。 画 P100 页图 7.4(a):以根据模型算出的近似值 i y ˆ 为 横坐标。注意到 近似值等于自变量乘参数向量,所以 Matlab 命令为 plot((x*b)',r,'*') 画 P100 页图 7.4(b):以第一个自变量为横坐标。Matlab 命令为 plot(x0(1,:),r,'+')
画Pl00页图74(c)、(d)的Mtab命令为是什么? 若散点图呈现“带状区域”,就表明模型对所给数 据是适用的。若有极个别点例外,则可以认为该点是 奇异点,剔除它。 本题中:全部23个散点基本集中在一个方形区域内,故 模型对所给数据适用,无奇异点。 (4)最优回归方程的选取 stepwise(x, y, [2, 3, 4],0.1) 5)回归模型的应用
画 P100 页图 7.4(c)、(d)的 Matlab 命令为是什么? 若散点图呈现“带状区域”,就表明模型对所给数 据是适用的。若有极个别点例外,则可以认为该点是 奇异点,剔除它。 本题中:全部 23 个散点基本集中在一个方形区域内,故 模型对所给数据适用,无奇异点。 (4)最优回归方程的选取 stepwise(x,y,[2,3,4],0.1) (5)回归模型的应用