第十四章活着一- Surviva1菜单详解(下) (医学统计之星:董伟) Cox Regression过程 上面给大家介绍的是两种生存分析方法,但它们只能研究一至两个因素对生 存时间的影响,当对生存时间的影响因素有多个时,它们就无能为力了,下面我 给大家介绍 Cox Regression过程,这是一种专门用于生存时间的多变量分析的 统计方法 Cox Regression过程主要用于: 1、用以描述多个变量对生存时间的影响。此时可控制一个或几个因素,考 察其他因素对生存时间的影响,及各因素之间的交互作用 例13.340名肺癌患者的生存资料(详见胡克震主编的《医学随访统计方法》 1993,77页) 生存时间状态生活能力评分年龄诊断到研究时间鳞癌小细胞癌腺癌疗法症类别 411 60 118 注:原数据库是用亚变量定义肺癌分类:0,0,0为其它癌;1,0,0为鳞癌; 0,1,0为小细胞癌;0,0,1为腺癌。表中的最后一个变量是我加上去的癌症 类别,1为鳞癌;2为小细胞癌;3为腺癌:4为其它癌。实践表明结果与用亚变 量计算一样 13.3.1 界面说明
第十四章 活着--Survival 菜单详解(下) (医学统计之星:董伟) Cox Regression 过程 上面给大家介绍的是两种生存分析方法,但它们只能研究一至两个因素对生 存时间的影响,当对生存时间的影响因素有多个时,它们就无能为力了,下面我 给大家介绍 Cox Regression 过程,这是一种专门用于生存时间的多变量分析的 统计方法。 Cox Regression 过程主要用于: 1、 用以描述多个变量对生存时间的影响。此时可控制一个或几个因素,考 察其他因素对生存时间的影响,及各因素之间的交互作用。 例 13.3 40 名肺癌患者的生存资料(详见胡克震主编的《医学随访统计方法》 1993,77 页) 生存时间状态生活能力评分年龄诊断到研究时间鳞癌小细胞癌腺癌疗法癌症类别 411 1 70 64 5 1 0 0 1 1.00 126 1 60 63 9 1 0 0 1 1.00 118 1 70 65 11 1 0 0 1 1.00 注:原数据库是用亚变量定义肺癌分类:0,0,0 为其它癌;1,0,0 为鳞癌; 0,1,0 为小细胞癌;0,0,1 为腺癌。表中的最后一个变量是我加上去的癌症 类别,1 为鳞癌;2 为小细胞癌;3 为腺癌;4 为其它癌。实践表明结果与用亚变 量计算一样。 13.3.1 界面说明
OK t survival time(day) Itime 诊断到研宄时间(月) Paste 秒磷癌k Status: 小细胞瘤國5 status(1) Reset 腺癌6 秒疗法 Detine Event. Cancel Previous Block 1 of 1 Help Covariates Categorical.… Plots Method:Enter Save... Strata: Options. 图9 Cox回归主对话框 【Time】框、【 Status】框前文已经介绍过了,这里我就不再废话唠叨的了。 Block l of1右边的Next钮被激活。这个按钮用于确定不同自变量进入回归方 程的方法,详见 Method框的内容。用同一种方法进入回归方程的自变量在同 个 Covariates框内。 【 Covariates】框 选入自/协变量,即选入你认为可能对生存时间有影响的变量。 【 Method】框 选择自变量进入Cox回归方程的方法,SPSS提供下面几种方法: Enter: Covariates框内的全部变量均进入回归模型, · Forward: Conditiona1:基于条件参数估计的向前法。 Forward:LR:基于偏最大似然估计的向前法。 Forward:Wald:基于Wald统计量的向前法。 Backward: Conditional:基于条件参数估计的后退法。 · Backward:LR:基于偏最大似然估计的后退法 · Backward:Wald:基于wald统计量的后退法。 【 Strata】框 定义分层因素,将生存时间按分层因素分别进行Cox回归
图 9 Cox 回归主对话框 【Time】框、【Status】框前文已经介绍过了,这里我就不再废话唠叨的了。 Block 1 of 1 右边的 Next 钮被激活。这个按钮用于确定不同自变量进入回归方 程的方法,详见 Method 框的内容。用同一种方法进入回归方程的自变量在同一 个 Covariates 框内。 【Covariates】框 选入自/协变量,即选入你认为可能对生存时间有影响的变量。 【Method】框 选择自变量进入 Cox 回归方程的方法,SPSS 提供下面几种方法: • Enter: Covariates 框内的全部变量均进入回归模型。 • Forward: Conditional: 基于条件参数估计的向前法。 • Forward: LR: 基于偏最大似然估计的向前法。 • Forward: Wald: 基于 Wald 统计量的向前法。 • Backward: Conditional: 基于条件参数估计的后退法。 • Backward: LR: 基于偏最大似然估计的后退法。 • Backward: Wald: 基于 Wald 统计量的后退法。 【Strata】框 定义分层因素,将生存时间按分层因素分别进行 Cox 回归
【 Categorical】选项 用于告诉系统, Covariates框内的变量中哪些是分类变量或字符型变量。系 统默认字符型变量为分类变量,数字型变量为连续型变量。 选入自变量后, categorical钮被激活。按 categorical钮,进入确定分类 变量的对话框。见图10。 Cox Regressio e上1e Categorical Covariate Covariates: Categorical Covariates Continue x8(Indicator 2 Cancel Help Change Contrast Contrast:Indicator Change Reference Category: Last First 图10确定分类变量对话框 左边的 Covariates框中列出了刚刚被选取的自变量,将分类变量选入 Categorical Covariates框中。此时 Change Contrast框被激活,请你选择比 较方法,即计算参数OR/β的方法。当选入分类变量后, Change Contrast框被 激活,此时可选择比较方法。SPSS提供下面几种比较方法 · Indicator:指示对比。用于指定某一分类变量的基线,即参照水平。这 样计算出来的参数OR/βi是以该变量的第一个或最后一个水平为基准水 P(取决于下面的 reference category中你选择的是last还是 first)。 在这里SPSS自动创建亚变量,对照水平在对比分类矩阵中用0行代表。 在这里我再多说两句,如本例中的肿瘤类型,若规定鳞癌为1,小细胞癌 为2,腺癌为3,其它癌为4。若选 indicator及last,则以其它癌为参照, 计算出来的0R及Bi是以其它癌为基准,即其它癌的OR为1,其他计算 出来的OR值是与其它癌相比的结果。 Simple:差别对比。可计算该分类变量的各水平与参照水平相比的OR值。 参照水平自己当然就不用跟自己相比了。对于本例来说, Simple与 Indicator选项是一样的,前提是下面的 Reference Category中你所选 择的同是last(或 first)
【Categorical】选项 用于告诉系统,Covariates 框内的变量中哪些是分类变量或字符型变量。系 统默认字符型变量为分类变量,数字型变量为连续型变量。 选入自变量后,categorical 钮被激活。按 categorical 钮,进入确定分类 变量的对话框。见图 10。 图 10 确定分类变量对话框 左边的 Covariates 框中列出了刚刚被选取的自变量,将分类变量选入 Categorical Covariates 框中。此时 Change Contrast 框被激活,请你选择比 较方法,即计算参数 OR/βi的方法。当选入分类变量后,Change Contrast 框被 激活,此时可选择比较方法。SPSS 提供下面几种比较方法。 • Indicator:指示对比。用于指定某一分类变量的基线,即参照水平。这 样计算出来的参数 OR/βi 是以该变量的第一个或最后一个水平为基准水 平(取决于下面的 reference category 中你选择的是 last 还是 first)。 在这里 SPSS 自动创建亚变量,对照水平在对比分类矩阵中用 0 行代表。 在这里我再多说两句,如本例中的肿瘤类型,若规定鳞癌为 1,小细胞癌 为 2,腺癌为 3,其它癌为 4。若选 indicator 及 last,则以其它癌为参照, 计算出来的 OR 及βi 是以其它癌为基准,即其它癌的 OR 为 1,其他计算 出来的 OR 值是与其它癌相比的结果。 • Simple:差别对比。可计算该分类变量的各水平与参照水平相比的 OR 值。 参照水平自己当然就不用跟自己相比了。对于本例来说,Simple 与 Indicator 选项是一样的,前提是下面的 Reference Category 中你所选 择的同是 last(或 first)
Difference:差别对比。分类变量欲比较水平与其前面的各水平平均值进 行比较,当然也不包括第一水平。与 Helmert法相反,因此也叫反 Helmert 法。如3水平与1、2水平的平均值相比,下同。 Helmert:赫尔默特对比。分类变量欲比较水平与其后面各水平平均值 进行比较,当然不包括最后一个水平 Repeated:重复对比。分类变量的各水平与其前面相邻的水平相比较 (第一水平除外) Polynomial:多项式对比。仅用于数字型的分类变量。无效假设是假设 各水平是等距离的(可以是线性的关系,也可以是立方、四次方的关系) 例如年龄每增加10岁,死亡风险的增加值是一样的,但实际情况常常与 此相反,如在20岁与60岁年龄段,年龄都增加10岁,所增加的死亡风 险肯定是不一样的,具体情况需根据各人的研究课题,专业而定。 Deviation:离差对比。除了所规定的参照水平外,其余每个水平均与 总体水平相比 Reference category:如果你选择了 Deviation, Simple,或 Indicator 三个选项,就必须选择 First或Last作为参照水平。 完成上述选择后,击 change钮,确认选择。 D你若对上面写的一段不感兴趣的话,可跳过去,直接用系统默认的选项。 【 Plots】选项 Cox Regression: Plots Plot T Continue v Survival M Hazard M Log minus log One minus survival ance Covariate Values Plotted at: Help ×1Mean Separate Lines for x2(Mean) X3(Mean X7(Mean x8(Cat)(Mean Change value C Mean C value 图11 Cox回归统计图对话框 y Survival:累积生存函数曲线
• Difference:差别对比。分类变量欲比较水平与其前面的各水平平均值进 行比较,当然也不包括第一水平。与 Helmert 法相反,因此也叫反 Helmert 法。如 3 水平与 1、2 水平的平均值相比,下同。 • Helmert:赫尔默特对比。分类变量欲比较水平与其后面各水平平均值 进行比较,当然不包括最后一个水平。 • Repeated:重复对比。分类变量的各水平与其前面相邻的水平相比较 (第一水平除外)。 • Polynomial:多项式对比。仅用于数字型的分类变量。无效假设是假设 各水平是等距离的(可以是线性的关系,也可以是立方、四次方的关系)。 例如年龄每增加 10 岁,死亡风险的增加值是一样的,但实际情况常常与 此相反,如在 20 岁与 60 岁年龄段,年龄都增加 10 岁,所增加的死亡风 险肯定是不一样的,具体情况需根据各人的研究课题,专业而定。 • Deviation:离差对比。除了所规定的参照水平外,其余每个水平均与 总体水平相比。 • Reference category:如果你选择了 Deviation, Simple, 或 Indicator 三个选项,就必须选择 First 或 Last 作为参照水平。 完成上述选择后,击 change 钮,确认选择。 你若对上面写的一段不感兴趣的话,可跳过去,直接用系统默认的选项。 【Plots】选项 图 11 Cox 回归统计图对话框 Survival:累积生存函数曲线
Hazard:累积风险函数曲线 卩 Log minus log:对数累积生存函数乘以-1后再取对数。 One minus survival:生存函数被1减后的曲线。 Change Value:系统默认用各变量的均数进行作图,但对字符型变量如 癌症类型取均值则没有实际意义。若用分类变量的其它水平进行作图,则 选定该变量,此时 Change Value钮被激活,按 Value钮,在其右边的框 内输入你所想要用于作图的值。击 Change。 Separate Line for:输入分类变量的名称,此时可以用分类变量的不 同水平进行作图,对于本例则可作出不同癌症的曲线。此分类变量必须包 括在前面的自变量框中。 【Save】存为新变量 Co Regression: Save Her Variables Survival Diagnostics Continue 厂 Hazard function 厂 Standard error Partial residuals Cancel 厂 Log minus log 厂 DfBeta[s Help 图12 Cox回归存为新变量对话框 生存函数 问 Function:累积生存函数估计值 Standard error:累积生存函数估计值的标准误。 Log minus log:对数累积生存函数乘以-1后再取对数。 Diagnostics:回归诊断。 Hazard function Cox- Snell:残差。 Partial residual:偏残差。 Dfbeta(s):剔除某一观察单位后的回归系数变化量。 X*Beta:线性预测得分 【 Options】选项 击 Options按钮,弹出选项对话框
Hazard:累积风险函数曲线。 Log minus log:对数累积生存函数乘以-1 后再取对数。 One minus survival:生存函数被 1 减后的曲线。 • Change Value:系统默认用各变量的均数进行作图,但对字符型变量如 癌症类型取均值则没有实际意义。若用分类变量的其它水平进行作图,则 选定该变量,此时 Change Value 钮被激活,按 Value 钮,在其右边的框 内输入你所想要用于作图的值。击 Change。 • Separate Line for:输入分类变量的名称,此时可以用分类变量的不 同水平进行作图,对于本例则可作出不同癌症的曲线。此分类变量必须包 括在前面的自变量框中。 【Save】存为新变量 图 12 Cox 回归存为新变量对话框 ⚫ Survival:生存函数。 Function:累积生存函数估计值。 Standard error:累积生存函数估计值的标准误。 Log minus log:对数累积生存函数乘以-1 后再取对数。 ⚫ Diagnostics:回归诊断。 Hazard function Cox-Snell:残差。 Partial residual:偏残差。 Dfbeta(s):剔除某一观察单位后的回归系数变化量。 X*Beta:线性预测得分。 【Options】选项 击 Options 按钮,弹出选项对话框
Model statistics Probability for Stepwise Continue v CI for exp(B):95- Entry:1.05 Removal:10 Cancel v Correlation of estimates Maximum Iterations: Display model information Help G At each step Display baseline function C At last step 图13Cox回归选项对话框 Model statistics:模型统计量 CI for exp(B)95%:相对危险度的可信区间。系统默认95%可信区间 Correlation of estimates:回归系数的相关阵。 Display model:输出模型方式 At each step:输出每一步的模型。系统默认。 At last step:输出最后一步的模型。 Probability for Stepwise:模型保留变量的显著性水平 卩 Entry:系统默认选入变量为P≤0.05 卩 Removal:系统默认剔除变量为P>0.10。 阝 Maximum iterations:最大迭代次数,系统默认20次。 冋 Display baseline function:输出风险基准函数以及基于各协变量均值 的生存函数与风险函数。 操作如下: 1. Analyze==>Survival ==>Cox regression Time框:选入 survival time 3. Status框:选入 status;击 define events钮,在 single value框右 边的空格中输入1 4. Covariate框:选入x1,x2,x3,x7,x8 Categorical列表框:选入x8 Plots列表框 Plot Type:选 survival; Separate Line for:选入x8; 7. Option列表框: ● Model statistics 问选 CI for exp(B):输出回归系数β的95%可信区间 选 Correlation of estimate:输出自变量的相关矩阵。 单击OK钮
图 13 Cox 回归选项对话框 ⚫ Model Statistics:模型统计量。 CI for exp(ß) 95%:相对危险度的可信区间。系统默认 95%可信区间。 Correlation of estimates:回归系数的相关阵。 ⚫ Display model:输出模型方式。 ⚫ At each step:输出每一步的模型。系统默认。 ⚫ At last step:输出最后一步的模型。 ⚫ Probability for Stepwise:模型保留变量的显著性水平。 Entry:系统默认选入变量为 P≤0.05。 Removal:系统默认剔除变量为 P>0.10。 Maximum Iterations:最大迭代次数,系统默认 20 次。 Display baseline function:输出风险基准函数以及基于各协变量均值 的生存函数与风险函数。 操作如下: 1. Analyze==>Survival ==>Cox regression 2. Time 框:选入 survival time 3. Status 框:选入 status;击 define events 钮,在 single value 框右 边的空格中输入 1; 4. Covariate 框:选入 x1,x2,x3,x7,x8; 5. Categorical 列表框:选入 x8; 6. Plots 列表框: ⚫ Plot Type:选 survival; ⚫ Separate Line for:选入 x8; 7. Option 列表框: ⚫ Model Statistics: 选 CI for exp(ß):输出回归系数 ß 的 95%可信区间。 选 Correlation of estimate:输出自变量的相关矩阵。 单击 OK 钮
13.3.2结果解释: Cox Regression Percent Cases dropped Cases with missing vales Cases with non-positive tim encored cases before the a stratum a. Dependent Variable: survival time(day) 上表输出总例数、删失例数、失访例数。 Categorical variable Codings, b Freqency (1) 1=怒 2=小细胞癌 3=脉癌 a Indicator parameter Coding 输出各种癌症的频数及系统所赋的亚变量ⅹ81、x82、x83值,当癌症类型是 鳞癌时,ⅹ81取值为1,其它亚变量取值为0,依此类推。 Block O: Beginning Blo Omnibus Tests of model coeficients .2 Log Likelihood
13.3.2 结果解释: Cox Regression 上表输出总例数、删失例数、失访例数。 输出各种癌症的频数及系统所赋的亚变量 x81、x82、x83 值,当癌症类型是 鳞癌时,x81 取值为 1,其它亚变量取值为 0,依此类推。 Block 0: Beginning Block
模型拟合迭代过程,可不管它。 Block1: Method= Enter Omnibus Tests of Model Coefficient Overall(score) Change From Previous Stet Change From Previous blo Likelihood Chi-square u-squ a Beginning Block Number 0, itial Log Likelihood fimction-2 Log likelihood:-20480 6. Begirming Block Number 1.Method:Erter 描述模型参数(常数项除外)是否全为0,本例,x=30.120,自由度U=7 P=0.000。说明β1不全为0 Variables in the Equation 95%CI for Exp(B 18635 -012 021 1029 l001 78 X7 2844 对回归方程各参数的估计,B即B值;SE,标准误;Wald,Wald卡方;df 自由度:sig,自由度;exp(B),OR值;95% i for EXp(B),OR值的95%可信区 间 Correlation Matrix of regression Coeficients 0? 自变量的相关矩阵。本例,X1与X2的相关系数是0.072,其它依此类推
模型拟合迭代过程,可不管它。 Block1: Method = Enter 描述模型参数(常数项除外)是否全为 0,本例,χ2 =30.120,自由度υ=7, P=0.000。说明βI不全为 0。 对回归方程各参数的估计,B 即 ß 值;SE,标准误;Wald,Wald 卡方;df, 自由度;sig,自由度;exp(B),OR 值;95%Ci for EXP(B),OR 值的 95%可信区 间。 自变量的相关矩阵。本例,X1 与 X2 的相关系数是 0.072,其它依此类推
Covariate Means and Pattern values Mean 56.500 56.500 56.500 56500 56575 56.575 56.575 56.575 15650 15650 15650 15650 1475 1475 1475 1475 1000 1000 X8(3 输出自变量的均数及其在不同模式下的取值,因X1,X2,X3,X7四个变量没 有生成亚变量,故在此输出它们的均数 Survival function at mean of covariat survival time(day) 输出在各自变量的均值水平时的累积生存函数曲线
输出自变量的均数及其在不同模式下的取值,因 X1,X2,X3,X7 四个变量没 有生成亚变量,故在此输出它们的均数。 输出在各自变量的均值水平时的累积生存函数曲线
Survival Function for patterns 1 1.0 癌症类型 其他癌 0小细胞癌 200 200 40060080010001200 survival time(day) 输出各种癌症的累积生存函数曲线。 §134Coxw/ Time-Dep Cov过程 Coxw/Time- Dep cov过程应用于: 1.在建立Cox回归方程时,风险比例可能会随时间变化而变化,即有些危 险因素作用的强度随时间而变化,这样的资料是不适合前面所讲的一般的Cox 回归模型的。此时,就应改为时间依存协变量模型,也称为非比例风险模型。你 可把所怀疑的那个协变量及时间变量T定义成时间依存协变量(多个协变量时 就必须用编程来做了),常用的方法是把它们简单地进行相乘,然后通过对时间 依存协变量系数的显著性检验来判断比例风险是否合理。 2.用到Coxw/Time- Dep cov过程的另一种情况是:有些变量虽然在不同 的时间点取不同的值但与时间并非系统地相关,在这种情况下,需用逻辑表达式 定义一个分段时间依存协变量,逻辑表达式取值1时为真,取0时为假。用一系 列的逻辑表达式,你可以从一系列观测记录中建立自己的时间依存变量。例如 对病人血压每周观察一次,共观察4次,(变量名为BP1至BP4)。时间依存协 变量可以这样定义:(T=1&T= &T<3)*BP3+(3&T<4)*BP4(&表示“逻辑与”,即一般编 程语言中的“AND”)。请注意括号中的值只能有一个取1,而其它的值只能取0, 也就是说,这个函数意味着当时间小于一周时(此时第一个括号内取值为1,而 其它括号内取值为0)使用BP1的值,大于一周而小于两周时使用BP2的值,依 次类推
输出各种癌症的累积生存函数曲线。 §13.4 Cox w/Time-Dep Cov 过程 Cox w/Time-Dep Cov 过程应用于: 1. 在建立 Cox 回归方程时,风险比例可能会随时间变化而变化,即有些危 险因素作用的强度随时间而变化,这样的资料是不适合前面所讲的一般的 Cox 回归模型的。此时,就应改为时间依存协变量模型,也称为非比例风险模型。你 可把所怀疑的那个协变量及时间变量T_定义成时间依存协变量(多个协变量时 就必须用编程来做了),常用的方法是把它们简单地进行相乘,然后通过对时间 依存协变量系数的显著性检验来判断比例风险是否合理。 2. 用到 Cox w/Time-Dep Cov 过程的另一种情况是:有些变量虽然在不同 的时间点取不同的值但与时间并非系统地相关,在这种情况下,需用逻辑表达式 定义一个分段时间依存协变量,逻辑表达式取值 1 时为真,取 0 时为假。用一系 列的逻辑表达式,你可以从一系列观测记录中建立自己的时间依存变量。例如: 对病人血压每周观察一次,共观察 4 次,(变量名为 BP1 至 BP4)。时间依存协 变量可以这样定义:(T_ = 1 & T_ = 2 & T_ = 3 & T_ < 4) * BP4(&表示“逻辑与”,即一般编 程语言中的“AND”)。请注意括号中的值只能有一个取 1,而其它的值只能取 0, 也就是说,这个函数意味着当时间小于一周时(此时第一个括号内取值为 1,而 其它括号内取值为 0)使用 BP1 的值,大于一周而小于两周时使用 BP2 的值,依 次类推