第十三章活着一- Surviva1莱单详解(上) (医学统计之星:董伟) 对于急性病的疗效考核,一般可以用治愈率、病死率等指标来评价,但对于 肿瘤、结核及其他慢性疾病,其预后不是短期内所能明确判断的,这时可以对病 人进行长期随访,统计一定期限后的生存和死亡情况以判断疗效,这就是生存分 析 生存分析是用于以处理生存时间( survival time)为反应变量、含有删失数 据一类资料的统计方法。所谓生存时间,狭义地讲是从某个标准时点起至死亡止, 即患者的存活时间。例如,患有某病的病人从发病到死亡或从确诊到死亡所经历 的时间。广义地说,“死亡”可定义为某研究目的“结果”的发生,如宫内节育 器的失落,疾病的痊愈,女孩月经初潮的到来等(生存分析中往往统指各“死亡” 为失效)。此类资料的生存时间变量多不符从正态分布,且常含有删失值,故不 适于用传统的数据分析方法如t检验或线性回归进行分析。根据不同的研究目的 和资料类型,可采用不同的分析方法,如寿命表、 Kaplan- Meier法、Cox回归模 型等分析方法进行分析。而这正是下面我将要给大家介绍的主要内容 “喂,你在这里说的都是些什么呀?又是删失、又是Cox的,搞的我一头雾 水。”那位给我提意见了。 列位看官切莫着急,且听在下慢漫道来。 所谓删失值,就是因各种原因对随访对象的随访可能失访或终检( censoring), 如研究对象由于其他原因死亡、研究者与病人失去了联系及直到对资料作总结时 随访对象还活着但尚未发生所规定的事件。这种数据就叫做删失值,也叫做截尾 数据。能处理截尾数据是生存分析的一个优点 Cox回归是一种多变量的生存分析方法。这是本世纪60~70年代发展起来的、 应用于生存资料分析的比例分险模型( the proportional hazard model)。1972 年,英国统计学家D.R.Cox的研究工作使得比例分险模型的理论和实用性更大地 推进了一步。因此许多统计学者就把它称为Cox比例风险或Cox回归。 §13.1 Life Tables过程 Life Tables过程用于 1、制作寿命表。 、绘制各种曲线如生存函数、风险函数曲线等
第十三章 活着--Survival 菜单详解(上) (医学统计之星:董伟) 对于急性病的疗效考核,一般可以用治愈率、病死率等指标来评价,但对于 肿瘤、结核及其他慢性疾病,其预后不是短期内所能明确判断的,这时可以对病 人进行长期随访,统计一定期限后的生存和死亡情况以判断疗效,这就是生存分 析。 生存分析是用于以处理生存时间(survival time)为反应变量、含有删失数 据一类资料的统计方法。所谓生存时间,狭义地讲是从某个标准时点起至死亡止, 即患者的存活时间。例如,患有某病的病人从发病到死亡或从确诊到死亡所经历 的时间。广义地说,“死亡”可定义为某研究目的“结果”的发生,如宫内节育 器的失落,疾病的痊愈,女孩月经初潮的到来等(生存分析中往往统指各“死亡” 为失效)。此类资料的生存时间变量多不符从正态分布,且常含有删失值,故不 适于用传统的数据分析方法如 t 检验或线性回归进行分析。根据不同的研究目的 和资料类型,可采用不同的分析方法,如寿命表、Kaplan-Meier 法、Cox 回归模 型等分析方法进行分析。而这正是下面我将要给大家介绍的主要内容。 “喂,你在这里说的都是些什么呀?又是删失、又是 Cox 的,搞的我一头雾 水。”那位给我提意见了。 列位看官切莫着急,且听在下慢漫道来。 所谓删失值,就是因各种原因对随访对象的随访可能失访或终检(censoring), 如研究对象由于其他原因死亡、研究者与病人失去了联系及直到对资料作总结时 随访对象还活着但尚未发生所规定的事件。这种数据就叫做删失值,也叫做截尾 数据。能处理截尾数据是生存分析的一个优点。 Cox 回归是一种多变量的生存分析方法。这是本世纪 60~70 年代发展起来的、 应用于生存资料分析的比例分险模型(the proportional hazard model)。1972 年,英国统计学家 D.R.Cox 的研究工作使得比例分险模型的理论和实用性更大地 推进了一步。因此许多统计学者就把它称为 Cox 比例风险或 Cox 回归。 §13.1 Life Tables 过程 Life Tables 过程用于: 1、 制作寿命表。 2、 绘制各种曲线如生存函数、风险函数曲线等
3、对某一研究因素不同水平的生存时间分布进行比较,控制另一因素后对 研究因素不同水平的生存时间分布进行比较,包括从总体上比较和不同水平之间 进行两两比较 例13.1某临床试验对20名第Ⅲ或第Ⅳ期黑色素瘤患者进行随访硏究,截至 研究期结束,记录的生存资料见表1。试计算100周生存率 28156240+264292308+392420584+720+ 7.282487.2+944+97.2+106.0+114.8+1172+140.0+168.0 注:数据后跟符号“+”表示该数据为删失数据。 13.1.1 界面说明 Time OK e survival timefweek] itimel Display Time Intervals Paste 0 through 200 by 20 Reset Status. Cancel status[ll Help Define Event By Factor: Define Range. Options 图 寿命表主对话框 【Time】框 选入生存时间变量 【 Display time Intervals】框 欲输出生存时间范围及组距
3、 对某一研究因素不同水平的生存时间分布进行比较,控制另一因素后对 研究因素不同水平的生存时间分布进行比较,包括从总体上比较和不同水平之间 进行两两比较。 例 13.1 某临床试验对 20 名第Ⅲ或第Ⅳ期黑色素瘤患者进行随访研究,截至 研究期结束,记录的生存资料见表 1。试计算 100 周生存率。 12.8 15.6 24.0+ 26.4 29.2 30.8+ 39.2 42.0 58.4+ 72.0+ 77.2 82.4 87.2+ 94.4+ 97.2+ 106.0+ 114.8+ 117.2+ 140.0+ 168.0+ 注:数据后跟符号“+”表示该数据为删失数据。 13.1.1 界面说明 图 1 寿命表主对话框 【Time】框 选入生存时间变量。 【Display Time Intervals】框 欲输出生存时间范围及组距
在by前面的框内填入生存时间上限,本例填入200(此区间必须包括生存时 间的最大值);在by后面的框内填入生存时间的组距,本例填入20,以保证结 果列出“100-”的组段。 【 Status】框 选入生存状态变量,并定义终结事件的标记值。 选入变量“ Status”后,【 Define event】钮被激活变黑,击该按钮,弹出 定义终结事件标记值的对话框(图1)。对二分类变量,一般以死亡、复发、恶 化等表示终结事件。本例以死亡为终结事件,其标记值为1,故在 Single value 框内填入1。击 Continue钮。若生存状态变量取值为一连续型变量,如反应变 量为收缩压,则在下面的 Range of values框中输入140 through400,此处上 限输入400是我随便输入的一个上限,目的是为了定义高血压患者,实际上恐怕 没有人的血压能达到400,这样才能保证包括所有的高血压病例,具体情况具体 分析。 Life Tables:Define Event for Status Variable Value(s) Indicating Event Has Occurred C ontinue le value: Cancel C Range of values through Help 图2定义终结事件标记值的对话框 【 Factor】框 定义第1层因素,即分组因素 【 By Factor】框 定义第2层因素,即分层因素。 Options】选项 击 Options按钮,弹出选项对话框。(图3)
在 by 前面的框内填入生存时间上限,本例填入 200(此区间必须包括生存时 间的最大值);在 by 后面的框内填入生存时间的组距,本例填入 20,以保证结 果列出“100-”的组段。 【Status】框 选入生存状态变量,并定义终结事件的标记值。 选入变量“Status”后,【Define Event】钮被激活变黑,击该按钮,弹出 定义终结事件标记值的对话框(图 1)。对二分类变量,一般以死亡、复发、恶 化等表示终结事件。本例以死亡为终结事件,其标记值为 1,故在 Single value 框内填入 1。击 Continue 钮。若生存状态变量取值为一连续型变量,如反应变 量为收缩压,则在下面的 Range of values 框中输入 140 through 400,此处上 限输入 400 是我随便输入的一个上限,目的是为了定义高血压患者,实际上恐怕 没有人的血压能达到 400,这样才能保证包括所有的高血压病例,具体情况具体 分析。 图 2 定义终结事件标记值的对话框 【Factor】框 定义第 1 层因素,即分组因素。 【By Factor】框 定义第 2 层因素,即分层因素。 【Options】选项 击 Options 按钮,弹出选项对话框。(图 3)
V Life table(s) Continue C ance 厂 Survival 厂 Log survival 厂 Hazard ens Help One minus survival Compare Levels of First Factor C overall C Pairwise 图3寿命表选项对话框 问 Life table(s):输出寿命表,系统默认。 Plot:统计图 y Survival:累积生存函数曲线。 Hazard:累积风险函数散点图。 卩 One minus survival:生存函数被1减后的曲线。 Log survival:对数累积生存函数曲线 v Density:密度函数散点图。 Compare Levels of First Factor:对第1层因素不同水平的比较,即主对 话框(图1)中的 factor框中所选入的因素。 None:不做比较。系统默认。 1l1:整体比较。 Pairwise:两两比较 本例因没有分组因素,故 Compare Levels of First Factor选项均不可选 13.1.2 结果解释
图 3 寿命表选项对话框 Life Table(s):输出寿命表,系统默认。 Plot:统计图。 Survival:累积生存函数曲线。 Hazard:累积风险函数散点图。 One minus survival:生存函数被 1 减后的曲线。 Log survival:对数累积生存函数曲线。 Density:密度函数散点图。 Compare Levels of First Factor:对第 1 层因素不同水平的比较,即主对 话框(图 1)中的 factor 框中所选入的因素。 None:不做比较。系统默认。 Overall:整体比较。 Pairwise:两两比较。 本例因没有分组因素,故 Compare Levels of First Factor 选项均不可选。 13.1.2 结果解释
1、寿命表 This subfile contains 20 observations Life Table Survival variable TImE survival time(week) 说明:20例观察单位,生存变量为"ime",变量标签为" survival time(wek)” NumberNumberNumber number Cumul Intrvl Entrng Drawn expos of PropnPropn propn proba- Start this during to Termnl Termi- Sur- Surv bility Hazard Time IntrvlIntrvl Risk Events nating viving at End Densty rate 020.0 020.02.0.1000.9000.9000,0050.0053 20.018.02.017.03.0,1765,8235,7412.0079.0097 40.013.01.012.51.0,0800,9200,6819,0030.0042 60.011.0 1.010.51.0,0952,9048,6169,0032.0050 80.09.03.07.51.0.1333.8667.5347.0041.007 100.05.03.03.5 0.00001.0000.5347,0000.0000 120.02.0 02.0 0.00001.0000.5347.0000,0000 140.02.01.01.50.00001.0000.5347.0000.0000 160.01.01 0.00001.0000.5347.0000.0000 The median survival time for these data is 160. 00+ Intrvl Cumul Proba- Se of Start Sur- bility Hazard Time viving Densty Rate 0.0671.00340037 0056 40.0,1081.0029.0042 60.0.1157.003 0050 80.0.1261.0039.0071 100.0.1261.0000,0000 120.0.1261.0000,0000 140.0.1261.0000,0000 160.0.12610000.0000 Intrvl start Time:生存时间的组段下限 Number entrng this Intrvl:进入该组段的观察例数。 Number Drawn During Intrval:该组段的删失例数。 Number Exposed to Risk:暴露于危险因素的例数,即有效观察例数 Number of termnl events:终结事件的例数,即死亡例数。 Propn Terminating:终结事件比例,即死亡比例 Propn Surviving 生存比例
1、 寿命表 This subfile contains: 20 observations Life Table Survival Variable TIME survival time(week) 说明:20 例观察单位,生存变量为“Time”,变量标签为“survival time(week)” Number Number Number Number Cumul Intrvl Entrng Wdrawn Exposd O f Propn Propn Propn Proba - Start this During to Termnl Termi- Sur- Surv bility Hazard Time Intrvl Intrvl Risk Events nating viving at End Densty Rate ------ ------ ------ ------ ------ ------ ------ ------ ------ ------ .0 20.0 .0 20.0 2.0 .1000 .9000 .9000 .0050 .0053 20.0 18.0 2.0 17.0 3.0 .1765 .8235 .7412 .0079 .0097 40.0 13.0 1.0 12.5 1.0 .0800 .9200 .6819 .0030 .0042 60.0 11.0 1.0 10.5 1.0 .0952 .9048 .6169 .0032 .0050 80.0 9.0 3.0 7.5 1.0 .1333 .8667 .5347 .0041 .0071 100.0 5.0 3.0 3.5 .0 .0000 1.0000 .5347 .0000 .0000 120.0 2.0 .0 2.0 .0 .0000 1.0000 .5347 .0000 .0000 140.0 2.0 1.0 1.5 .0 .0000 1.0000 .5347 .0000 .0000 160.0 1.0 1.0 .5 .0 .0000 1.0000 .5347 .0000 .0000 The median survival time for these data is 160.00+ SE of SE of Intrvl Cumul Proba- SE of Start Sur- bility Hazard Time viving Densty Rate ------- ------ ------ ------ .0 .0671 .0034 .0037 20.0 .0999 .0042 .0056 40.0 .1081 .0029 .0042 60.0 .1157 .0031 .0050 80.0 .1261 .0039 .0071 100.0 .1261 .0000 .0000 120.0 .1261 .0000 .0000 140.0 .1261 .0000 .0000 160.0 .1261 .0000 .0000 • Intrvl Start Time:生存时间的组段下限。 • Number Entrng this Intrvl:进入该组段的观察例数。 • Number Wdrawn During Intrval:该组段的删失例数。 • Number Exposed to Risk:暴露于危险因素的例数,即有效观察例数。 • Number of Termnl Events:终结事件的例数,即死亡例数。 • Propn Terminating:终结事件比例,即死亡比例。 • Propn Surviving:生存比例
Cumul Propn Surv at End:至本组段上限的累积生存率。 Probability Densty:概率密度。 Hazard Rate:风险率 SE of Cumul Surviving:累积生存率的标准误 SE of Probability Densty:概率密度的标准误。 Se of Hazard Rate:风险率的标准误 The median survival time for these data is60.00+:本例的中位 生存时间为“160.00+”,从下图的累积生存函数曲线看,曲线与生存率 等于0.5的横线不相交,故中位生存时间无法估计。 本例的100周生存率为53.47% 2、累积生存函数曲线:图4。 val time (meek 图4 累积生存函数曲线 §13.2 Kaplan- Meier过程 Kaplan- Meier法用于: 1、估计某研究因素不同水平的中位生存时间。 2、比较该研究因素不同水平的生存时间有无差异 3、控制一分层因素后对研究因素不同水平的生存时间比较(此时将按分层 因素的不同水平对研究因素对生存时间的影响分别进行分析)。怎么样,有点拗 口吧? 例13.23种疗法治疗66例白血病患者的缓解时间(天) A疗法
• Cumul Propn Surv at End:至本组段上限的累积生存率。 • Probability Densty:概率密度。 • Hazard Rate:风险率。 • SE of Cumul Surviving:累积生存率的标准误。 • SE of Probability Densty:概率密度的标准误。 • SE of Hazard Rate:风险率的标准误。 • The median survival time for these data is 160.00+:本例的中位 生存时间为“160.00+”,从下图的累积生存函数曲线看,曲线与生存率 等于 0.5 的横线不相交,故中位生存时间无法估计。 •本例的 100 周生存率为 53.47%。 2、累积生存函数曲线:图 4。 图 4 累积生存函数曲线 §13.2 Kaplan-Meier 过程 Kaplan-Meier 法用于: 1、估计某研究因素不同水平的中位生存时间。 2、 比较该研究因素不同水平的生存时间有无差异。 3、 控制一分层因素后对研究因素不同水平的生存时间比较(此时将按分层 因素的不同水平对研究因素对生存时间的影响分别进行分析)。怎么样,有点拗 口吧? 例 13.2 3 种疗法治疗 66 例白血病患者的缓解时间(天) A 疗法
,9,10,11,12,13,28,28,28,29,31,32,37,41,41,57,62,74,100,139,20+,258+,269, 疗法 10.10.1214.2048707599103121691952201619017+245+ C疗法 810,1,23252828,31.31,40.4889,124,14312+,159+190+,196+,197+205+,219 注:数据后跟符号“+”表示该数据为删失数据。 13.2.1 界面说明 w remission time(days)[tim B Define Event Cancel Acor: Help Strata Label Cases by Compare Factor avc.e Options. 图5 Kaplan- Meier法主对话框 【Time】框 选入生存时间变量。 【 Status】框 选入生存状态变量。 【 Factor】框 选入分组变量 【 Strata】框 选入分层变量
4,5,9,10,11,12,13,28,28,28,29,31,32,37,41,41,57,62,74,100,139,20+,258+,269, B 疗法 8,10,10,12,14,20,48,70,75,99,103,162,169,195,220,161+,199+,217+,245+ C 疗法 8,10,11,23,25,28,28,31,31,40,48,89,124,143,12+,159+,190+,196+,197+,205+,219+ 注:数据后跟符号“+”表示该数据为删失数据。 13.2.1 界面说明 图 5 Kaplan-Meier 法主对话框 【Time】框 选入生存时间变量。 【Status】框 选入生存状态变量。 【Factor】框 选入分组变量。 【Strata】框 选入分层变量
【 Lables cases】框 给个体标记 【 Compare Factor】选项 击 Compare Factor按钮,弹出选项对话框。(图6) Kaplan-Heier: Compare Factor Levels Test Statistics Continue Log rank厂 Breslow 厂 Tarone-Ware Cancel r Linear trend for factor levels Help F Pooled over strata c Pairwise over strata C For each stratum Pairwise for each stratum 图 分组因素水平间比较对话框 Test statistics:检验统计量 og rank:检验生存分布是否相同,各时间点权重一样。 Breslow:检验生存分布是否相同,以各时间点的观察例数为权重 Tarone-Ware:检验生存分布是否相同,以各时间点的观察例数的平方根 为权重。 Linear trend for factor levels:分组因素水平间的线性趋势检验。 Pooled over strata:水平间的整体比较。系统默认。 For each stratum:按分层变量,对每一层进行分组因素各水平 间的整体比较 Pairwise over strata:分组因素各水平间的两两比较。 Pairwise for each stratum:按分层变量,对每一层进行分组 因素各水平间的两两比较 【Save】选项 击Save按钮,弹出 Save New variables(保存新变量)对话框(图7)
【Lables Cases】框 给个体标记。 【Compare Factor】选项 击 Compare Factor 按钮,弹出选项对话框。(图 6) 图 6 分组因素水平间比较对话框 ⚫ Test Statistics:检验统计量。 Log rank:检验生存分布是否相同,各时间点权重一样。 Breslow:检验生存分布是否相同,以各时间点的观察例数为权重。 Tarone-Ware:检验生存分布是否相同,以各时间点的观察例数的平方根 为权重。 Linear trend for factor levels:分组因素水平间的线性趋势检验。 Pooled over strata:水平间的整体比较。系统默认。 For each stratum:按分层变量,对每一层进行分组因素各水平 间的整体比较。 Pairwise over strata:分组因素各水平间的两两比较。 Pairwise for each stratum:按分层变量,对每一层进行分组 因素各水平间的两两比较。 【Save】 选项 击 Save 按钮,弹出 Save New Variables(保存新变量)对话框(图 7)
厂 Survi\ Continue Standard error of survival Cancel 厂 Hazard 厂 Cumulative events Help 图7 保存新变量对话框 Survival:累积生存率估计 Standard error of survival:累积生存率估计的标准误。 Hazard:累积风险函数估计 卩 Cumulative events:终结事件的累积频数。在各水平内,按生存时间和 生存状态排序。 【 Options】选项 击 Options按钮,弹出选项对话框(图8) Statistics Continue 厂 Survival table(s) Mean and median survival Cancel 厂 Quarti Help Plots 厂S 厂 ne minus survival 厂 Hazard 厂 Log survival 图8 K-M法选项对话框 Statistics:统计量。 Survival table(s):生存分析表
图 7 保存新变量对话框 Survival:累积生存率估计。 Standard error of survival:累积生存率估计的标准误。 Hazard:累积风险函数估计。 Cumulative events:终结事件的累积频数。在各水平内,按生存时间和 生存状态排序。 【Options】选项 击 Options 按钮,弹出选项对话框(图 8)。 图 8 K-M 法选项对话框 ⚫ Statistics:统计量。 Survival table(s):生存分析表
Mean and median survival:平均生存时间和中位生存时间及其标准误 和可信区间。 Quartiles:生存时间的第25百分位数、中位生存时间、第75百分位数。 ●Plot:统计图。 Survival:累积生存函数曲线。 One minus survival:生存函数被1减后的曲线。 Hazard:累积风险函数散点图, Log survival:对数累积生存函数曲线。 操作如下 1. Analyze==>Survival ==>Life tables ime框:选入 remission ti 3. Status框:选入 status;击 define events钮,在 single value框右边的空格中 输入1 4. Factor框:选入 group 5. Compare factors列表框: Test Statistics:选择 Log rank、 Breslow、 Tarone-Ware Linear trend for factor levels: it Pooled over strata EX Pairwise over strata 0 ption列表框 Statistics:选 Survival table(s)、 Mean and median、 Survival Plots 单击0K钮 13.2.2结果说明 1、生存分析表 Survival analysis for TIME emission time(days 对生存时间变量Time进行分析,其变量标签是 remission time(days)。 Factor group=A疗法 Stat Cumulative Standard Cumulative Number Survival Error Events Remaining 恶化 9600 0392
Mean and median survival:平均生存时间和中位生存时间及其标准误 和可信区间。 Quartiles:生存时间的第 25 百分位数、中位生存时间、第 75 百分位数。 ⚫ Plot:统计图。 Survival:累积生存函数曲线。 One minus survival:生存函数被 1 减后的曲线。 Hazard:累积风险函数散点图。 Log survival:对数累积生存函数曲线。 操作如下: 1. Analyze==>Survival ==>Life Tables 2. Time 框:选入 remission time 3. Status 框:选入 status;击 define events 钮,在 single value 框右边的空格中 输入 1 4. Factor 框:选入 group; 5. Compare factors 列表框: ⚫ Test Statistics:选择 Log rank、Breslow、Tarone-Ware ⚫ Linear trend for factor levels:选 Pooled over strata 或 Pairwise over strata 6. Option 列表框: ⚫ Statistics: 选 Survival table(s)、Mean and median、Survival ⚫ Plots: 选 Survival 单击 OK 钮 13.2.2 结果说明 1、生存分析表 Survival Analysis for TIME remission time(days) 对生存时间变量 Time 进行分析,其变量标签是 remission time(days)。 Factor GROUP = A 疗法 Time Status Cumulative Standard Cumulative Number Survival Error Events Remaining 4 恶化 .9600 .0392 1 24