多重回归与相关 Multiple regression and Multiple correlation
多重回归与相关 Multiple regression and Multiple correlation
●用回归方程定量地刻划出一个因变量Y与 多个百变量X1,X2.之间的线性依存关 系,称为多重线性回归。其中自变量可 以是随机变动的,也可以是人为选定的, 而因变量是随机变量。 ●若所有变量都是随机的,还可做多重相 关来描述因变量与一组自变量之间的线 性关系;用偏相关( partial correlation) 描述因变量和一个自变量在扣除其他自 变量影响之后的线性相关
用回归方程定量地刻划出一个因变量Y与 多个自变量X1,X2…之间的线性依存关 系,称为多重线性回归。其中自变量可 以是随机变动的,也可以是人为选定的, 而因变量是随机变量。 若所有变量都是随机的,还可做多重相 关来描述因变量与一组自变量之间的线 性关系;用偏相关(partial correlation) 描述因变量和一个自变量在扣除其他自 变量影响之后的线性相关
设有一个因变量y和多个自变量x1x2,m 以及由n个个体组成的随机样本 (x1x2 xm,Y,=1,2,,n,在一定的假 设条件下将简单线性回归推广为 =+BX+B2X2+…+BmXm 阝相当于简单回归中的,β为偏回归系 数,反映了当其他自变量对因变量的影响 固定时,第个自变量x每改变一个单位后 因变量的平均变化 y=bo+h1x1+2x2+……+bnxm
设有一个因变量y和多个自变量x1 ,x2 ,…,xm 以及由n个个体组成的随机样本 (xi1,xi2…xim,Yi ),i=1,2,…,n ,在一定的假 设条件下将简单线性回归推广为 β 0相当于简单回归中的α ,β i为偏回归系 数,反映了当其他自变量对因变量的影响 固定时,第i个自变量xi每改变一个单位后 因变量的平均变化 y = b + b x + b x + + bm xm 0 1 1 2 2 Y = + X + X + + m Xm ... 0 1 1 2 2
线性回归模型的假设条件 1线性(ine)自变量和因变量之间 的关系有线性趋势 2独立( independence)总体中的个 体之间相互独立 e3正态( normal)给定一组x值后, 相应的y值服从正态分布 ●4.等方差( (equal variance)各x值变动 时,相应的y有相同的变异度
线性回归模型的假设条件 1.线性(line) 自变量和因变量之间 的关系有线性趋势 2.独立(independence) 总体中的个 体之间相互独立 3.正态(normal) 给定一组x值后, 相应的y值服从正态分布 4. 等方差(equal variance) 各x值变动 时,相应的y有相同的变异度
多重回归方程的建立 用最小二乘法寻找适宜的系数 bo,b1,b2b,使得误差(残差平方 和最小。 ∑(y-y) ●计算复杂,一般需借助计算机完成
多重回归方程的建立 用最小二乘法寻找适宜的系数 b0 ,b1 ,b2…bm,使得误差(残差)平方 和最小。 计算复杂,一般需借助计算机完成 = − n i yi yi 1 2 ( )
例211 表211给出了某医院19701989年历年门 诊人次X,病床利用率X2,病床周转次 数X3和住院人数Y的结果。试建立由X1 X2,X3预测Y的线性回归方程
例21.1 表21.1给出了某医院1970-1989年历年门 诊人次X1,病床利用率X2,病床周转次 数X3和住院人数Y的结果。试建立由X1, X2,X3预测Y的线性回归方程
Coefficients Standardi ze Unstan dardized Coefficie Coefficients nts Model Std. error Be ta (Constant) 848.944 3128.707 1.550 诊人数 55.886 18.001 478 3.105 病床利用率 21.930 39.813 病床周转次数 19.047 3.303 004 a. De pendent variable:住院人数 y=-4848.994+55886x1+21930x2 +319.047x3
Co effi cie ntsa -4848.944 3128.707 -1.550 .141 55.886 18.001 .478 3.105 .007 21.930 39.813 .087 .551 .589 319.047 96.593 .484 3.303 .004 (Constant) 门诊人数 病床利用率 病床周转次数 Model 1 B Std. Error Unstandardized Coefficients Beta Standardi zed Coefficie nts t Sig. a. Dependent Variable: 住院人数3 1 2 319.047 4848.994 55.886 21.930 x y x x + = − + +
多重回归的方差分析 用于回答总的来说回归方程是否成立 HG;阝阝2=.甲Rn=0 H1:β12….n不全为0 ∑(-=(-yP+∑- V=V同+v 误差 ◆v总=n-1,回=m,w误差=n(m+1) sS/v ms F /v Ms 剩
多重回归的方差分析 用于回答总的来说回归方程是否成立 H0 : β1=β2= …=βm=0 H1 : β1 ,β2 ,…,βm不全为0 ⧫总=回+误差 ⧫总=n-1, 回=m, 误差=n-(m+1) ( − ) = ( − ) + ( − ) 2 2 2 Y Y Y ˆ Y Y Y ˆ
ANOVA Model quare df ean Square Regres sion 27066405 39022135.049 15.256 Residual9461836.7 16591364.791 Total 36528242 a. Predictors:( onstant),病床周转次数,门诊人数,病床利用率 b. Dependent variable:住院人数 ●该回归方程成立
该回归方程成立 AN OVAb 27066405 3 9022135.049 15.256 .000a 9461836.7 16 591364.791 36528242 19 Regression Residual Total Model 1 Sum of Squares df Mean Square F Sig. a. Predictors: (Constant), 病床周转次数, 门诊人数, 病床利用率 b. Dependent Variable: 住院人数
各个偏回归系数的假设检验 ●回归方程有统计学意义并不说明每一个 偏回归系数都有意义 H:β=0,H1:β1≠0 F=1.2,.m 可见病床利用率对住院人数的影响无统 计学意义 u
各个偏回归系数的假设检验 回归方程有统计学意义并不说明每一个 偏回归系数都有意义 H0: βi=0 , H1: βi ≠ 0 i=1,2,…,m 可见病床利用率对住院人数的影响无统 计学意义 , 1 0 = − = bi i i s b t