第十七章多因素回归分析的 Stata实现 本章使用的 Stata命令 多因素回归 regress depvar [ indepvars 逐步回归 Logistic回归 ogistic depvar indepvars [ weight] 生存时间数据设定 stset timevar [weight][ failure(failvarl= numlist Cox回归 stcox [varlist] 例17-4某研究者为了研究某种避孕药对人体血糖的影响,分别在正在使 用这种避孕药的人群、6个月前曾经使用过这种避孕药的人群、从未使用过避孕 药的人群中各随机抽取6人。考虑到血糖可能与年龄有关,所以该研究者不仅测 定了这18位对象的血糖,而且也记录了这18位对象的年龄,具体资料见表17 4。请根据研究问题作统计分析 表17-4三种避孕药使用情况下的年龄(X,岁)与血糖水平(Y,mg%) 现服药者 曾服药者 从未服药者 120 126 26 130 126 131 125 35 本研究的问题是比较三种用药情况下的血糖平均水平是否不同,因此首先考 虑以下总体均数的情况。 解: Stata数据如下: 122 124 125 127 0 132 111100000 31 134
第十七章 多因素回归分析的 Stata 实现 本章使用的 Stata 命令: 多因素回归 regress depvar [indepvars] 逐步回归 stepwise [, options ] : command Logistic 回归 logistic depvar indepvars [weight] 生存时间数据设定 stset timevar [weight] [, failure(failvar[==numlist])] Cox 回归 stcox [varlist] 例 17-4 某研究者为了研究某种避孕药对人体血糖的影响,分别在正在使 用这种避孕药的人群、6 个月前曾经使用过这种避孕药的人群、从未使用过避孕 药的人群中各随机抽取 6 人。考虑到血糖可能与年龄有关,所以该研究者不仅测 定了这 18 位对象的血糖,而且也记录了这 18 位对象的年龄,具体资料见表 17 -4。请根据研究问题作统计分析。 表 17-4 三种避孕药使用情况下的年龄( X ,岁)与血糖水平( Y ,mg%) 现服药者 曾服药者 从未服药者 X Y X Y X Y 20 120 24 126 28 135 21 122 26 130 32 137 23 124 27 132 34 138 23 126 29 131 35 137 24 125 29 134 35 139 24 127 30 136 37 144 本研究的问题是比较三种用药情况下的血糖平均水平是否不同,因此首先考 虑以下总体均数的情况。 解:Stata 数据如下: x y g1 g2 20 120 0 1 21 122 0 1 23 124 0 1 23 126 0 1 24 125 0 1 24 127 0 1 24 126 1 0 26 130 1 0 27 132 1 0 29 131 1 0 29 134 1 0
135 00000 0000000 144 Stata命令如下 结果 Source SS df MS Number of obs 18 F(3,14)=83.88 Model717.6845573239.228186 Prob>F=0.0000 Residual|39.9265537142.85189609 =0.9473 Ad j r-se quare= Tota1757.611111744.5653595 =1.6888 Coef. Std. Err t p>t [95% Conf. Interval] x|1.067797.17951275.950.00 68278011.452813 0.773 g2|-2.5875712.202234-1.170.260-7.3108932.135752 cons 102.56216.05306716.940.000 89.57961115.5447 g1代表曾服药者和未服药者的比较,p=0773,说明曾服药者和未服药者血 糖平均水平没有差别。g2代表现服药者和未服药者的比较,p=0.260,说明现服 药者和未服药者血糖平均水平没有差别 接着比较曾服药者和现服药者: gl=g 结果 F(1,14)=2 Prob>F=0.1252 P=0.1252,曾服药者和现服药者血糖平均水平没有差别
30 136 1 0 28 135 0 0 32 137 0 0 34 138 0 0 35 137 0 0 35 139 0 0 37 144 0 0 Stata 命令如下: reg y x g1 g2 结果: Source | SS df MS Number of obs = 18 -------------+------------------------------ F( 3, 14) = 83.88 Model | 717.684557 3 239.228186 Prob > F = 0.0000 Residual | 39.9265537 14 2.85189669 R-squared = 0.9473 -------------+------------------------------ Adj R-squared = 0.9360 Total | 757.611111 17 44.5653595 Root MSE = 1.6888 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- x | 1.067797 .1795127 5.95 0.000 .6827801 1.452813 g1 | -.4265537 1.452834 -0.29 0.773 -3.542572 2.689465 g2 | -2.587571 2.202234 -1.17 0.260 -7.310893 2.135752 _cons | 102.5621 6.053067 16.94 0.000 89.57961 115.5447 ------------------------------------------------------------------------------ g1 代表曾服药者和未服药者的比较,p=0.773,说明曾服药者和未服药者血 糖平均水平没有差别。g2 代表现服药者和未服药者的比较,p=0.260,说明现服 药者和未服药者血糖平均水平没有差别。 接着比较曾服药者和现服药者: test g1= g2 结果: ( 1) g1 - g2 = 0 F( 1, 14) = 2.66 Prob > F = 0.1252 P=0.1252,曾服药者和现服药者血糖平均水平没有差别
例17-5为了研究影响肥胖者瘦素( Leptin)的主要危险因素,某研究者调 査了某医院肥胖门诊的500名肥胖就诊者的瘦素、年龄、体重指数、总胆固醇、 甘油三酯、是否患糖尿病、是否患髙血压、饮食、运动、服药情况等,并用逐步 线性回归模型分析影响瘦素的主要因素。为了简化问题,仅取自变量为年龄(Ⅺ, 岁)、体重指数(Y,kg/m2)、总胆固醇(X3,mmoⅥL)、是否患糖尿病(X4,患糖 尿病为1,不患糖尿病为0)和是否患高血压(Xs,患高血压为1,不患高血压 为0),应变量为瘦素(,ng/ml)。为了说明的方便,这里仅从500名肥胖就诊 者中随机取30例,具体数据如表17-11所示,试用逐步线性回归分析寻找主要 的影响因素。 表17-11例175的数据 YXI X2 X3 X4 6331.014.10010.43929.06.8018.56029.513.0019.1 4327.78.5 15.30010.45828.814.2109.4 5127.61.8119.343 7.3008.23428.15.51 5730.712.9101.1|63 15.5008.43228.94.5005.1 4927.98.8007.14928.910.1006.56027912.4119.7 829.56.2016.74428.78.6008.95530.712.81110.3 5728.511.6018.6392836.8005.65230.79.91110.3 3426.85.3003.0|5430.511.3019.45126.910.9009.1 11.2 9113.8 6229.514.7101.45428.312.8008.16030.312.91111.8 Stata数据如下: 14.1 10.4 51 27.6 l1.8 9,3 30.7 l1.1 27 8.8 0 26.8 34296招 29.514.7 000001000 000 l1.4 31.1
例 17-5 为了研究影响肥胖者瘦素(Leptin)的主要危险因素,某研究者调 查了某医院肥胖门诊的 500 名肥胖就诊者的瘦素、年龄、体重指数、总胆固醇、 甘油三酯、是否患糖尿病、是否患高血压、饮食、运动、服药情况等,并用逐步 线性回归模型分析影响瘦素的主要因素。为了简化问题,仅取自变量为年龄(X1, 岁)、体重指数(X2,kg/m2 )、总胆固醇(X3,mmol/L)、是否患糖尿病(X4,患糖 尿病为 1,不患糖尿病为 0)和是否患高血压(X5,患高血压为 1,不患高血压 为 0),应变量为瘦素(Y,ng/ml)。为了说明的方便,这里仅从 500 名肥胖就诊 者中随机取 30 例,具体数据如表 17-11 所示,试用逐步线性回归分析寻找主要 的影响因素。 表 17-11 例 17-5 的数据 X1 X2 X3 X4 X 5 Y X1 X2 X3 X4 X 5 Y X1 X2 X3 X4 X 5 Y 63 31.0 14.1 0 0 10.4 39 29.0 6.8 0 1 8.5 60 29.5 13.0 0 1 9.1 43 27.7 8.5 1 0 6.5 66 31.1 15.3 0 0 10.4 58 28.8 14.2 1 0 9.4 51 27.6 11.8 1 1 9.3 43 29.5 7.3 0 0 8.2 34 28.1 5.5 1 1 5.3 57 30.7 12.9 1 0 11.1 63 29.7 15.5 0 0 8.4 32 28.9 4.5 0 0 5.1 49 27.9 8.8 0 0 7.1 49 28.9 10.1 0 0 6.5 60 27.9 12.4 1 1 9.7 38 29.5 6.2 0 1 6.7 44 28.7 8.6 0 0 8.9 55 30.7 12.8 1 1 10.3 57 28.5 11.6 0 1 8.6 39 28.3 6.8 0 0 5.6 52 30.7 9.9 1 1 10.3 34 26.8 5.3 0 0 3.0 54 30.5 11.3 0 1 9.4 51 26.9 10.9 0 0 9.1 44 29.3 9.0 0 0 6.9 53 29.1 11.2 0 0 7.1 30 25.8 4.9 1 1 3.8 62 29.5 14.7 1 0 11.4 54 28.3 12.8 0 0 8.1 60 30.3 12.9 1 1 11.8 Stata 数据如下: X1 X2 X3 X4 X5 Y 63 31 14.1 0 0 10.4 43 27.7 8.5 1 0 6.5 51 27.6 11.8 1 1 9.3 57 30.7 12.9 1 0 11.1 49 27.9 8.8 0 0 7.1 38 29.5 6.2 0 1 6.7 57 28.5 11.6 0 1 8.6 34 26.8 5.3 0 0 3 44 29.3 9 0 0 6.9 62 29.5 14.7 1 0 11.4 39 29 6.8 0 1 8.5 66 31.1 15.3 0 0 10.4 43 29.5 7.3 0 0 8.2
79735 10.1 0 39 器0 8.6 000.0 611234 8 0010 58 9.4 32 35819977 12.4 0111 9,9 10.3 26.9 10.9 4.9 11 Stata命令 stepwise, pr(0. 15): reg y xl x2 X3 x4 X5 结果 begin with full model p=0.7123>0.1500 removIng x3 p=0.3424>=0.1500 removing x5 Source df MS Number of obs 35.37 Model11.195479338.0651597 Prob 0.0000 Residual27.9845204261.07632771l Adj r-squared =0.7805 Total 142.179999294.9027586 Root mse =1.0375 Coef. Std. Err t It [95% Conf. Interval 348869,02308935.840.000 0874261.1823477 5445848179519 3.030.005 1755789135916 cons|-14.678884.653129-3.150.004-24.24352-5.114233 最后的回归方程为y=-14679+0.135X1+0.545X2+1045X4
63 29.7 15.5 0 0 8.4 49 28.9 10.1 0 0 6.5 44 28.7 8.6 0 0 8.9 39 28.3 6.8 0 0 5.6 54 30.5 11.3 0 1 9.4 53 29.1 11.2 0 0 7.1 54 28.3 12.8 0 0 8.1 60 29.5 13 0 1 9.1 58 28.8 14.2 1 0 9.4 34 28.1 5.5 1 1 5.3 32 28.9 4.5 0 0 5.1 60 27.9 12.4 1 1 9.7 55 30.7 12.8 1 1 10.3 52 30.7 9.9 1 1 10.3 51 26.9 10.9 0 0 9.1 30 25.8 4.9 1 1 3.8 60 30.3 12.9 1 1 11.8 Stata 命令: stepwise, pr(0.15): reg y x1 x2 x3 x4 x5 结果: begin with full model p = 0.7123 >= 0.1500 removing x3 p = 0.3424 >= 0.1500 removing x5 Source | SS df MS Number of obs = 30 -------------+------------------------------ F( 3, 26) = 35.37 Model | 114.195479 3 38.0651597 Prob > F = 0.0000 Residual | 27.9845204 26 1.07632771 R-squared = 0.8032 -------------+------------------------------ Adj R-squared = 0.7805 Total | 142.179999 29 4.9027586 Root MSE = 1.0375 ------------------------------------------------------------------------------ y | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- x1 | .1348869 .0230893 5.84 0.000 .0874261 .1823477 x2 | .5445848 .1795191 3.03 0.005 .175578 .9135916 x4 | 1.044741 .3981586 2.62 0.014 .2263143 1.863168 _cons | -14.67888 4.653129 -3.15 0.004 -24.24352 -5.114233 ------------------------------------------------------------------------------ 最后的回归方程为 1 2 4 ˆ Y X X X = − + + + 14.679 0.135 0.545 1.045
可以认为年龄Ⅺ,体重指数羟2和患糖尿病X是影响瘦素的主要因素,年龄 Ⅺ增大1岁,估计瘦素平均升高0.135ng/ml:体重指数增大1个单位,估计瘦 素平均升高0.545ng/ml:患糖尿病患者的瘦素比非糖尿病患者平均升高1.O45 g/ml,这些自变量均有统计学意义。 例17-6为了研究荨麻疹史(1为有,0为无)及性别(1为男,0为女)是 否对慢性气管炎(1为病例,0为对照)有影响,某病例对照硏究的硏究结果见 表17-13所示,试用 logistic回归进行统计分析 表17-13慢性气管炎的影响因素 荨麻疹史x1性别X2慢性气管炎Y频数∫ 0 0011 0 153 0 138 0 0 0 Stata数据为 0 053 0 8 0 Stata命令为: logistic y xl x2 [weight=f 结果为: Logistic regression Prob> chi2 0.0116 Log likelihood =-380. 93403 Pseudo r2 =0.0116 y I Odds Ratio Std.Err. z P>z [95% Conf. Interval
可以认为年龄 X1,体重指数 X2 和患糖尿病 X4 是影响瘦素的主要因素,年龄 X1 增大 1 岁,估计瘦素平均升高 0.135 ng/ml;体重指数增大 1 个单位,估计瘦 素平均升高 0.545 ng/ml;患糖尿病患者的瘦素比非糖尿病患者平均升高 1.045 ng/ml,这些自变量均有统计学意义。 例 17-6 为了研究荨麻疹史(1 为有,0 为无)及性别(1 为男,0 为女)是 否对慢性气管炎(1 为病例,0 为对照)有影响,某病例对照研究的研究结果见 表 17-13 所示,试用 logistic 回归进行统计分析。 表 17-13 慢性气管炎的影响因素 荨麻疹史 X1 性别 X2 慢性气管炎 Y 频数 f 0 0 0 99 0 0 1 90 0 1 0 153 0 1 1 138 1 0 0 11 1 0 1 20 1 1 0 15 1 1 1 30 Stata 数据为: x1 x2 y f 0 0 0 99 0 0 1 90 0 1 0 153 0 1 1 138 1 0 0 11 1 0 1 20 1 1 0 15 1 1 1 30 Stata 命令为: logistic y x1 x2 [weight=f] 结果为: Logistic regression Number of obs = 556 LR chi2(2) = 8.91 Prob > chi2 = 0.0116 Log likelihood = -380.93403 Pseudo R2 = 0.0116 ------------------------------------------------------------------------------ y | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
1|2.1256554948482.920.0041.2807343.528016 1.005203.17577220.030.976.71352781.41611 说明性别不是慢性气管炎的危险因素,而荨麻疹史是慢性气管炎的危险因 素,OR=2.125。 例17-7某研究者对经某医院手术治疗的30例癌症患者进行了为期 年的临床随访观察,收集了每一患者的性别(X1=1为男性,Ⅺ1=0为女性)、年龄 (,岁)、从癌症确诊日期到手术日期的等候时间(X,月)、从癌症确诊到研 究结束的时间(即生存时间t,月),采用变量Y指示研究结束时每一手术患者的 生存情况(F=1为死亡,Y=0为截尾)。具体数据见表17-16所示。试分析性别、 年龄、手术等待时间是否为死亡的危险因素 表17-1630例癌症患者手术后生存时间分析 No I Y XI X2 X3 No I Y XI X2 X3 No t Y XI X2 X3 610 2311311058102 1611568 7 0672112411053922191 123456789 8106316134400568232211 624291 0489 12105910168 ll11 1810 91815116222285601555 2010588191211 16295811506 102610567201411 15306001573 Stata数据为 Y 63 16 lI 66 10 5 15 0 65 15 0 58
-------------+---------------------------------------------------------------- x1 | 2.125665 .5494848 2.92 0.004 1.280734 3.528016 x2 | 1.005203 .1757722 0.03 0.976 .7135278 1.41611 ------------------------------------------------------------------------------ 说明性别不是慢性气管炎的危险因素,而荨麻疹史是慢性气管炎的危险因 素,OR=2.125。 例 17-7 某研究者对经某医院手术治疗的 30 例癌症患者进行了为期 5 年的临床随访观察,收集了每一患者的性别(X1=1 为男性,X1=0 为女性)、年龄 (X2,岁)、从癌症确诊日期到手术日期的等候时间(X3,月)、从癌症确诊到研 究结束的时间(即生存时间 t,月),采用变量 Y 指示研究结束时每一手术患者的 生存情况(Y=1 为死亡,Y=0 为截尾)。具体数据见表 17-16 所示。试分析性别、 年龄、手术等待时间是否为死亡的危险因素。 表 17-16 30 例癌症患者手术后生存时间分析 No t Y X1 X2 X3 No t Y X1 X2 X3 No t Y X1 X2 X3 1 6 1 0 66 23 11 31 1 0 58 10 21 16 1 1 56 8 2 7 1 0 67 21 12 41 1 0 53 9 22 19 1 1 58 9 3 8 1 0 63 16 13 44 0 0 56 8 23 22 1 1 54 10 4 11 1 0 66 10 14 54 1 1 52 6 24 29 1 1 60 7 5 15 1 0 65 15 15 59 1 0 48 9 25 35 1 1 55 7 6 12 1 0 59 10 16 8 1 1 66 19 26 44 1 1 55 6 7 15 1 0 62 12 17 10 1 1 65 18 27 45 1 1 51 8 8 18 1 0 64 9 18 15 1 1 62 22 28 56 0 1 55 5 9 20 1 0 58 8 19 12 1 1 64 16 29 58 1 1 50 6 10 26 1 0 56 7 20 14 1 1 55 15 30 60 0 1 57 3 Stata 数据为: No t Y X1 X2 X3 1 6 1 0 66 23 2 7 1 0 67 21 3 8 1 0 63 16 4 11 1 0 66 10 5 15 1 0 65 15 6 12 1 0 59 10 7 15 1 0 62 12 8 18 1 0 64 9 9 20 1 0 58 8
7 4 23456789 000010 555546 986 59 9 10 I8 62 12 64 684 23 29 1111 56 2118917768563 匚306001 Stata命令为 stset t, failure (y=1) stcox xI x2 X3 结果 Cox regression - Breslow method for ties No. of sub jects Number of obs No. of failure 27 Time at risk 810 LR chi2(3) 39.31 Log likelihood =-51 89934 Prob> chi2 0.0000 t Haz. Ratio Std. Err. Z Iz| [95% Conf. Interval] 7110148.2887604-0.840.401 1.576058 1.2410780816566 3.280.001 1.4119 11.24563207135033.830.0001 1.393628 性别(p=0.401)不是死亡的危险因素,年龄(p=001)、手术等待时间(p<0001)是死亡的危险 因素
10 26 1 0 56 7 11 31 1 0 58 10 12 41 1 0 53 9 13 44 0 0 56 8 14 54 1 1 52 6 15 59 1 0 48 9 16 8 1 1 66 19 17 10 1 1 65 18 18 15 1 1 62 22 19 12 1 1 64 16 20 14 1 1 55 15 21 16 1 1 56 8 22 19 1 1 58 9 23 22 1 1 54 10 24 29 1 1 60 7 25 35 1 1 55 7 26 44 1 1 55 6 27 45 1 1 51 8 28 56 0 1 55 5 29 58 1 1 50 6 30 60 0 1 57 3 Stata 命令为: stset t,failure( y=1) stcox x1 x2 x3 结果: Cox regression -- Breslow method for ties No. of subjects = 30 Number of obs = 30 No. of failures = 27 Time at risk = 810 LR chi2(3) = 39.31 Log likelihood = -51.89934 Prob > chi2 = 0.0000 ------------------------------------------------------------------------------ _t | Haz. Ratio Std. Err. z P>|z| [95% Conf. Interval] -------------+---------------------------------------------------------------- x1 | .7110148 .2887604 -0.84 0.401 .3207636 1.576058 x2 | 1.241078 .0816566 3.28 0.001 1.090924 1.4119 x3 | 1.245632 .0713503 3.83 0.000 1.113352 1.393628 ------------------------------------------------------------------------------ 性别(p=0.401)不是死亡的危险因素,年龄(p=0.001)、手术等待时间(p<0.001)是死亡的危险 因素