协和医学杂志 Medical Joumal of Peking Union Medical College Hospital 临床研究与循证医学 诊断试验准确性研究设计及临床应用 张丽帆12,3,刘晓清12,3 中国医学科学院北京协和医学院北京协和医院感染内科2临床流行病学教研室,北京100730 国际临床流行病学网临床流行病学单位,北京100730 通信作者:刘晓清电话:010-6155087,Emal:liuxi(@pumch.cn 摘要】新的诊断方法在临床开展之前,必须经由严格设计的诊断试验准确性研究进行评价。诊断试验准确性研究 设计包括应用PCOs(P: Patient;l: Intervention;C: Comparison;O: Outcome;S: Study design)原则构建研究问题 确定诊断金标准、选择具有代表性的研究对象、估算样本量、同步盲法比较诊断试验与金标准结果、确立最佳截点值、 评价诊断准确性以及遵循诊断准确性研究报告规范进行论文报告8个方面。诊断试验的准确性指标包括灵敏度、特异 度、预测值和似然比。其中,诊断试验的似然比可帮助医生从验前概率获得验后概率。当医疗环境与硏究环境相似、收 治患者符合硏究入组标准时,应用诊断试验研究的似然比有助于对目标疾病进行诊断与鉴别诊断。 【关键词】诊断试验;研究设计;临床应用 【中图分类号】R-1【文献标志码】A【文章编号】1674-9081(2020)01-06-06 DOl:10.3969/j-isn.16749081.20190276 Study Design and Clinical Practice of Diagnostic Accucary Test ZHANG Li-fan.2.3, LIU Xiao-qing.2. Department of Infectious Diseases, Department of Clinical Epidemiology, Peking Union Medical College Hospital Chinese Academy of Medical Sciences Peking Union Medical College, Beijing 100730, China Clinical Epideniology Unit, International Clinical Epidemiology Network, Beijing 100730, China Correspondingauthor:LIUXiao-qingTel86-10-69155087,E-mail:liuxq@pumch.cn Abstract] New diagnostic methods must be evaluated by rigorously designed diagnostic accuracy studies before clinical implementation. Designing a diagnostic accuracy study includes 8 procedures: constructing the research question with the PICOS (P: Patient: I: Intervention; C: Comparison: O: Outcome; S: Study design) framework, identifying an appropriate gold standard, choosing a representative patient sample, estima ng the sample size, interpreting results of diagnostic tests and the gold standard blind to the other, setting up the optimal threshold, evaluating the diagnostic accuracy, and finally drafting a report according to the stand ards for reporting diagnostic accuracy. The accuracy of diagnostic tests includes sensitivity, specificity, predic tive value(Pv), and likelihood ratio(LR). The LR estimated by diagnostic tests can move clinicians from the pretest probability to a posttest probability. If the clinical setting is similar to that of the study and the pater meets all eligibility criteria of the study, the LR may facilitate the diagnostic process in clinical practice Key words] diagnostic test; study design; clinical practice Med J PUMCH,2020,11(1):96-101 基金项目:北京协和医学院青年教师培养项目(2014g0742);北京协和医学院研究生教育教学改革项目(10023201609 利益冲突:无 anuary, 2020
协 和 医 学 杂 志 Medical Journal of Peking Union Medical College Hospital 96 Januaryꎬ 2020 基金项目: 北京协和医学院青年教师培养项目 (2014zlgc0742)ꎻ 北京协和医学院研究生教育教学改革项目 (10023201600109) 利益冲突: 无 临床研究与循证医学 诊断试验准确性研究设计及临床应用 张丽帆1ꎬ2ꎬ3 ꎬ 刘晓清1ꎬ2ꎬ3 中国医学科学院 北京协和医学院 北京协和医院 1 感染内科 2 临床流行病学教研室ꎬ 北京 100730 3 国际临床流行病学网临床流行病学单位ꎬ 北京 100730 通信作者: 刘晓清 电话: 010 ̄69155087ꎬ E ̄mail: liuxq@ pumch.cn 【摘要】 新的诊断方法在临床开展之前ꎬ 必须经由严格设计的诊断试验准确性研究进行评价ꎮ 诊断试验准确性研究 设计包括应用 PICOS (P: Patientꎻ I: Interventionꎻ C: Comparisonꎻ O: Outcomeꎻ S: Study design) 原则构建研究问题、 确定诊断金标准、 选择具有代表性的研究对象、 估算样本量、 同步盲法比较诊断试验与金标准结果、 确立最佳截点值、 评价诊断准确性以及遵循诊断准确性研究报告规范进行论文报告 8 个方面ꎮ 诊断试验的准确性指标包括灵敏度、 特异 度、 预测值和似然比ꎮ 其中ꎬ 诊断试验的似然比可帮助医生从验前概率获得验后概率ꎮ 当医疗环境与研究环境相似、 收 治患者符合研究入组标准时ꎬ 应用诊断试验研究的似然比有助于对目标疾病进行诊断与鉴别诊断ꎮ 【关键词】 诊断试验ꎻ 研究设计ꎻ 临床应用 【中图分类号】 R ̄ 1 【文献标志码】 A 【文章编号】 1674 ̄9081(2020)01 ̄0096 ̄06 DOI: 10 3969 / j issn 1674 ̄9081 20190276 Study Design and Clinical Practice of Diagnostic Accucary Test ZHANG Li ̄fan 1ꎬ2ꎬ3 ꎬ LIU Xiao ̄qing 1ꎬ2ꎬ3 1Department of Infectious Diseasesꎬ 2Department of Clinical Epidemiologyꎬ Peking Union Medical College Hospitalꎬ Chinese Academy of Medical Sciences & Peking Union Medical Collegeꎬ Beijing 100730ꎬ China 3Clinical Epideniology Unitꎬ International Clinical Epidemiology Networkꎬ Beijing 100730ꎬ China Corresponding author: LIU Xiao ̄qing Tel: 86 ̄10 ̄69155087ꎬ E ̄mail: liuxq@ pumch.cn 【Abstract】 New diagnostic methods must be evaluated by rigorously designed diagnostic accuracy studies before clinical implementation. Designing a diagnostic accuracy study includes 8 procedures: constructing the research question with the PICOS ( P: Patientꎻ I: Interventionꎻ C: Comparisonꎻ O: Outcomeꎻ S: Study design) frameworkꎬ identifying an appropriate gold standardꎬ choosing a representative patient sampleꎬ estima ̄ ting the sample sizeꎬ interpreting results of diagnostic tests and the gold standard blind to the otherꎬ setting up the optimal thresholdꎬ evaluating the diagnostic accuracyꎬ and finally drafting a report according to the stand ̄ ards for reporting diagnostic accuracy. The accuracy of diagnostic tests includes sensitivityꎬ specificityꎬ predic ̄ tive value (PV)ꎬ and likelihood ratio (LR). The LR estimated by diagnostic tests can move clinicians from the pretest probability to a posttest probability. If the clinical setting is similar to that of the study and the patient meets all eligibility criteria of the studyꎬ the LR may facilitate the diagnostic process in clinical practice. 【Key words】 diagnostic testꎻ study designꎻ clinical practice Med J PUMCHꎬ 2020ꎬ11(1):96-101
诊断试验准确性研究设计及临床应用 准确及时地诊断,是有效治疗的前提。诊断试验因而评价其临床应用价值时,应采用横断面或队列研 可为疾病正确诊断及鉴别诊断提供重要证据。广义的究设计,同期纳入疑诊某病的连续病例或按比例抽样 诊断试验涉及以下内容:(1)临床资料,如病史、的随机样本(图1)。相对于横断面或队列研究设计, 症状、体征;(2)实验室检査,如生化、免疫学、病例对照研究易于开展,成本较低,其结果可提示我 病原学、病理学检査等;(3)影像学检査,如ⅹ线、们该诊断试验是否值得进一步研究,避免造成资源 超声、CT、MRI等;(4)特殊器械检查,如心电图、浪费。 内镜等。 1.2确定诊断金标准 随着医学技术的发展,新的诊断方法不断涌现。 诊断金标准亦称标准诊断,是指目前临床医学界 理想的诊断方法除具备精确性和准确性之外,还应快公认的最为准确可靠的诊断方法,其确立应结合临床 速、简便、安全、经济。任何新的诊断方法在临床开具体情况。常用的金标准包括:(1)实验室检查、 展之前,必须经由科学设计的诊断试验准确性研究进细菌培养(病原学诊断)等;(2)手术探查、组织 行严格评价。此外,如何解读诊断试验准确性研究的活检、尸体解剖(病理学诊断)等;(3)特殊影像 结果,并应用于疾病的辅助诊断,亦是临床医生关注诊断;(4)公认的综合诊断标准,如系统性红斑狼 的问题。本文将介绍如何进行诊断试验准确性研究设疮等;(5)长期随访的肯定诊断,如慢性胰腺炎等; 计,以及在临床实践中如何合理应用诊断试验准确性6)权威医疗机构颁布的诊断标准,如重症急性呼 研究证据。 吸综合征诊断标准等。 应用金标准的目的是将疑诊某病的患者准确地区 1诊断试验准确性研究设计 分为“有病”或“无病”,在同期同条件下进行待评 价的诊断试验检测,并与金标准比较,评价诊断试验 1.1构建研究问题 的准确性。 诊断试验准确性研究的问题来源于临床,其结果 需注意的是,临床研究中的金标准仅是目前 也将应用于临床,为临床实践提供证据。在提出临床“公认”的,随着对疾病的认识和医疗技术的发展 问题时,可采用PCOS(P: Patient;I: Intervention;也可能随之变化。此外,金标准不可包括待评价 C: Comparison;O: Outcome;S: Study design)原则的诊断试验,否则可增加金标准与诊断试验的一致 将其转化为科学问题。诊断试验准确性研究中,P为性,导致加和偏倚( incorporation bias)n。 疑诊某病的患者;I为待评价的诊断试验;C为诊断1.3选择研究对象 金标准;O为诊断准确性评价,包括灵敏度、特异 诊断试验的价值在于能否在具有相似临床表现的 度、预测值( predictive value,PV)2和似然比疑诊患者中,正确识别出目标疾病患者。临床诊疗过 likelihood ratio, LR )(3) 程中,医生所接诊的患者可能包含目标疾病的各种类 诊断试验准确性研究初期,可采用病例对照研究型,如不同病情严重程度(轻、中、重)、不同病程 设计,以确诊某病的患者作为病例组,排除某病的患阶段(早、中、晚)、不同症状和体征(典型、不典 者作为对照组4。值得注意的是,Meta分析显示,型)、是否经过治疗、有无并发症等。而需要与之鉴 病例对照研究设计可能高估诊断试验的准确性,别的患者,往往具有相似的临床特征,易与目标疾病 A|金标准确诊某病的患者 病例组) 待评价的诊断试验 评价诊断准确性 排除某病的患者 (对照组) 确诊某病的患者 疑诊某病的患者 待评价的 标准诊断 诊断试验 评价诊断准确性 排除某病的患者 图1诊断试验准确性研究设计模式图 A.病例对照研究设计;B.横断面或队列研究设计 VoL. 11 No. 1 97
诊断试验准确性研究设计及临床应用 Vol 11 No 1 97 准确及时地诊断ꎬ 是有效治疗的前提ꎮ 诊断试验 可为疾病正确诊断及鉴别诊断提供重要证据ꎮ 广义的 诊断试验涉及以下内容: (1) 临床资料ꎬ 如病史、 症状、 体征ꎻ (2) 实验室检查ꎬ 如生化、 免疫学、 病原学、 病理学检查等ꎻ (3) 影像学检查ꎬ 如 X 线、 超声、 CT、 MRI 等ꎻ (4) 特殊器械检查ꎬ 如心电图、 内镜等ꎮ 随着医学技术的发展ꎬ 新的诊断方法不断涌现ꎮ 理想的诊断方法除具备精确性和准确性之外ꎬ 还应快 速、 简便、 安全、 经济ꎮ 任何新的诊断方法在临床开 展之前ꎬ 必须经由科学设计的诊断试验准确性研究进 行严格评价ꎮ 此外ꎬ 如何解读诊断试验准确性研究的 结果ꎬ 并应用于疾病的辅助诊断ꎬ 亦是临床医生关注 的问题ꎮ 本文将介绍如何进行诊断试验准确性研究设 计ꎬ 以及在临床实践中如何合理应用诊断试验准确性 研究证据ꎮ 1 诊断试验准确性研究设计 1 1 构建研究问题 诊断试验准确性研究的问题来源于临床ꎬ 其结果 也将应用于临床ꎬ 为临床实践提供证据ꎮ 在提出临床 问题时ꎬ 可采用 PICOS ( P: Patientꎻ I: Interventionꎻ C: Comparisonꎻ O: Outcomeꎻ S: Study design) 原则 将其转化为科学问题ꎮ 诊断试验准确性研究中ꎬ P 为 疑诊某病的患者ꎻ I 为待评价的诊断试验ꎻ C 为诊断 金标准ꎻ O 为诊断准确性评价ꎬ 包括灵敏度、 特异 度[1] 、 预 测 值 ( predictive valueꎬ PV) [2] 和 似 然 比 (likelihood ratioꎬ LR) [3] ꎮ 诊断试验准确性研究初期ꎬ 可采用病例对照研究 设计ꎬ 以确诊某病的患者作为病例组ꎬ 排除某病的患 者作为对照组[4] ꎮ 值得注意的是ꎬ Meta 分析显示ꎬ 病例对照研究设计可能高估诊断试验的准确性[5] ꎬ 因而评价其临床应用价值时ꎬ 应采用横断面或队列研 究设计ꎬ 同期纳入疑诊某病的连续病例或按比例抽样 的随机样本 (图 1)ꎮ 相对于横断面或队列研究设计ꎬ 病例对照研究易于开展ꎬ 成本较低ꎬ 其结果可提示我 们该诊断试验是否值得进一步研究ꎬ 避免造成资源 浪费ꎮ 1 2 确定诊断金标准 诊断金标准亦称标准诊断ꎬ 是指目前临床医学界 公认的最为准确可靠的诊断方法ꎬ 其确立应结合临床 具体情况ꎮ 常用的金标准包括: ( 1) 实验室检查、 细菌培养 (病原学诊断) 等ꎻ (2) 手术探查、 组织 活检、 尸体解剖 (病理学诊断) 等ꎻ (3) 特殊影像 诊断ꎻ (4) 公认的综合诊断标准ꎬ 如系统性红斑狼 疮等ꎻ (5) 长期随访的肯定诊断ꎬ 如慢性胰腺炎等ꎻ (6) 权威医疗机构颁布的诊断标准ꎬ 如重症急性呼 吸综合征诊断标准等ꎮ 应用金标准的目的是将疑诊某病的患者准确地区 分为 “有病” 或 “无病”ꎬ 在同期同条件下进行待评 价的诊断试验检测ꎬ 并与金标准比较ꎬ 评价诊断试验 的准确性ꎮ 需注意的是ꎬ 临床研究中的金标准仅 是 目 前 “公认” 的ꎬ 随着对疾病的认识和医疗技术的发展ꎬ 也可能随之变化[6] ꎮ 此外ꎬ 金标准不可包括待评价 的诊断试验ꎬ 否则可增加金标准与诊断试验的一致 性ꎬ 导致加和偏倚 (incorporation bias) [7] ꎮ 1 3 选择研究对象 诊断试验的价值在于能否在具有相似临床表现的 疑诊患者中ꎬ 正确识别出目标疾病患者ꎮ 临床诊疗过 程中ꎬ 医生所接诊的患者可能包含目标疾病的各种类 型ꎬ 如不同病情严重程度 (轻、 中、 重)、 不同病程 阶段 (早、 中、 晚)、 不同症状和体征 (典型、 不典 型)、 是否经过治疗、 有无并发症等ꎮ 而需要与之鉴 别的患者ꎬ 往往具有相似的临床特征ꎬ 易与目标疾病 图 1 诊断试验准确性研究设计模式图 A 病例对照研究设计ꎻ B 横断面或队列研究设计
协和医学杂志 混淆。因此,选择研究对象时,应包括上述所有情{9。例如,评价胸片诊断肺部结节的准确性,若 患者,以保证足够的代表性。当纳入患者不具有代表读片者事先看到了患者胸部CT上的结节影,可能 性时,可导致疾病谱偏倚( spectrum bias)9 会先入为主,读片更加仔细,甚至在同一部位发现 选择诊断明确的患者和健康人作为研究对象仅适之前忽略的结节影, 用于诊断试验准确性评价的初期,一方面,诊断试验1.6确立最佳截点值 识别疾病晚期或病情严重患者的效力可能优于疾病早 评价诊断试验准确性时,需将试验结果按照阳性 期或病情轻微的患者;另一方面,医生几乎无须用诊和阴性进行分类,故需要一个判断标准。许多诊断试 断试验区分健康人与已确诊的严重疾病患者。因此,验,尤其是实验室检测,其测量结果多为连续性变 如果选择严重疾病患者和健康人作为研究对象构成病量。对于连续性变量,需要选择区分正常与异常的截 例对照研究设计,会高估诊断试验的准确性。在点值(cut- off point),即界值。诊断试验中确定最佳 临床工作中,纳入连续疾病谱的患者对获得准确的灵截点值的方法包括:(1)均数±标准差法:当测量值 敏度和特异度估计极其重要,而这一点非常容易被研为正态分布时,双侧正常值范围常用“均数±1.%6标 究者忽略。 准差”界定;单侧则用“均数+1.64标准差”或 研究对象纳入和排除标准的确定应结合临床实“均数-1.64标准差”界定。(2)百分位数法:当测 际,根据构建的研究问题定义目标总体的主要特征,量值为偏态分布或分布类型尚不能确定时,双侧正常 注意外推性的同时兼顾可行性。 值范围常用“P2s~P95”界定;单侧用“Ps”或 1.4估算样本量 “P5”界定。(3)ROC曲线法:诊断试验的结果为连 诊断试验准确性研究样本量的大小与下列参数有续性变量时,依照不同截点值可分别计算出灵敏度和 关:(1)显著性水平α,α值越小,所需样本量越特异度,以诊断试验的灵敏度为纵坐标、以1-特异 大。α通常取0.05;(2)容许误差δ,δ值越小,所度为横坐标,绘制成连续曲线,即为ROC曲线(图 需样本量越大,δ通常取0.05~0.10;(3)灵敏度或2)。ROC曲线上最靠近左上方的点对应的截点值即 特异度的估计值,用灵敏度的估计值计算病例组样本为最佳截点值。ROC曲线下面积反映了诊断试验的 量,用特异度的估计值计算对照组样本量。 准确性,取值范围在0.5~1.0。ROC曲线越向左上 样本量的计算公式:n=UP(1 偏,曲线下面积越大,该诊断试验的准确性越高。因 公式中U。为正态分布中累积概率为α/2时的此,除可用于确立截点值外,ROC曲线还可比较两 U值(Uas=1.960,Ua=2.576),δ为容许误个或以上独立诊断试验的准确性,如图2中诊断试验 差,P为灵敏度或特异度的估计值。此外,诊断试1的准确性优于诊断试验2。ROC曲线简单、直观, 验样本量还可通过LR、受试者工作特征( recelver是确定诊断试验截点值较为常用的方法。(4)结合 operator characteristic,ROC)曲线下面积等参数进专业实际进行临床判断:按照大量临床观察或系列追 行估算[112l 踪观察某些致病因素对健康损害的阈值,作为诊断正 1.5同步盲法比较诊断试验与金标准结果 常水平的界值 进行诊断试验准确性研究时,所有研究对象均 应接受金标准诊断和待评价试验检测,与金标准的 结果应在同样的病例中获得,且尽可能同步进行 如果二者间隔时间过长,则病例的状态可能会发生 改变。此外应使用盲法独立评价诊断试验与金标准 的结果,以预防偏倚、先入为主以及检验以外的其 他信息对判断的影响。诊断试验准确性研究的盲法 是指待评价诊断试验的结果判断者不应知道金标准 试验1 结果,即不应知道研究对象是“有病”还是“无 试验2 病”;金标准结果判断者不应知道待评价诊断试验 00.20.40,60.81.0 的结果。研究显示,未使用盲法可能高估准确 1-特异度 性。此外,为避免测量偏倚,诊断试验与金标 图2受试者工作特征曲线 准的判断者应对其他临床信息或检测结果不知 8 January, 2020
协 和 医 学 杂 志 98 Januaryꎬ 2020 混淆[8] ꎮ 因此ꎬ 选择研究对象时ꎬ 应包括上述所有 患者ꎬ 以保证足够的代表性ꎮ 当纳入患者不具有代表 性时ꎬ 可导致疾病谱偏倚 (spectrum bias) [9] ꎮ 选择诊断明确的患者和健康人作为研究对象仅适 用于诊断试验准确性评价的初期ꎬ 一方面ꎬ 诊断试验 识别疾病晚期或病情严重患者的效力可能优于疾病早 期或病情轻微的患者ꎻ 另一方面ꎬ 医生几乎无须用诊 断试验区分健康人与已确诊的严重疾病患者ꎮ 因此ꎬ 如果选择严重疾病患者和健康人作为研究对象构成病 例对照研究设计ꎬ 会高估诊断试验的准确性[10] ꎮ 在 临床工作中ꎬ 纳入连续疾病谱的患者对获得准确的灵 敏度和特异度估计极其重要ꎬ 而这一点非常容易被研 究者忽略ꎮ 研究对象纳入和排除标准的确定应结合临床实 际ꎬ 根据构建的研究问题定义目标总体的主要特征ꎬ 注意外推性的同时兼顾可行性ꎮ 1 4 估算样本量 诊断试验准确性研究样本量的大小与下列参数有 关: (1) 显著性水平 αꎬ α 值越小ꎬ 所需样本量越 大ꎮ α 通常取 0 05ꎻ (2) 容许误差 δꎬ δ 值越小ꎬ 所 需样本量越大ꎬ δ 通常取 0 05~ 0 10ꎻ (3) 灵敏度或 特异度的估计值ꎬ 用灵敏度的估计值计算病例组样本 量ꎬ 用特异度的估计值计算对照组样本量ꎮ 样本量的计算公式: n =Uα 2 P (1-P) / δ 2 公式中 Uα 为正态分布中累积概率为 α / 2 时的 U 值 ( U0 05 = 1 960ꎬ U0 01 = 2 576 ) ꎬ δ 为 容 许 误 差ꎬ P 为灵敏度或特异度的估计值ꎮ 此外ꎬ 诊断试 验样本量还可通过 LR、 受试者工作特征 ( receiver operator characteristicꎬ ROC) 曲线下面积等参数进 行估算[11 ̄12] ꎮ 1 5 同步盲法比较诊断试验与金标准结果 进行诊断试验准确性研究时ꎬ 所有研究对象均 应接受金标准诊断和待评价试验检测ꎬ 与金标准的 结果应在同样的病例中获得ꎬ 且尽可能同步进行ꎮ 如果二者间隔时间过长ꎬ 则病例的状态可能会发生 改变ꎮ 此外应使用盲法独立评价诊断试验与金标准 的结果ꎬ 以预防偏倚、 先入为主以及检验以外的其 他信息对判断的影响ꎮ 诊断试验准确性研究的盲法 是指待评价诊断试验的结果判断者不应知道金标准 结果ꎬ 即不应知道研究对象是 “ 有病” 还是 “ 无 病” ꎻ 金标准结果判断者不应知道待评价诊断试验 的结 果ꎮ 研 究 显 示ꎬ 未 使 用 盲 法 可 能 高 估 准 确 性[13] ꎮ 此外ꎬ 为避免测量偏倚ꎬ 诊断试验与金标 准的判 断 者 应 对 其 他 临 床 信 息 或 检 测 结 果 不 知 情[9] ꎮ 例如ꎬ 评价胸片诊断肺部结节的准确性ꎬ 若 读片者事先看到了患者胸部 CT 上的结节影ꎬ 可能 会先入为主ꎬ 读片更加仔细ꎬ 甚至在同一部位发现 之前忽略的结节影ꎮ 1 6 确立最佳截点值 评价诊断试验准确性时ꎬ 需将试验结果按照阳性 和阴性进行分类ꎬ 故需要一个判断标准ꎮ 许多诊断试 验ꎬ 尤其是实验室检测ꎬ 其测量结果多为连续性变 量ꎮ 对于连续性变量ꎬ 需要选择区分正常与异常的截 点值 (cut ̄off point)ꎬ 即界值ꎮ 诊断试验中确定最佳 截点值的方法包括: (1) 均数±标准差法: 当测量值 为正态分布时ꎬ 双侧正常值范围常用 “均数±1 96 标 准差” 界 定ꎻ 单 侧 则 用 “ 均 数 + 1 64 标 准 差” 或 “均数-1 64 标准差” 界定ꎮ (2) 百分位数法: 当测 量值为偏态分布或分布类型尚不能确定时ꎬ 双侧正常 值范围常用 “ P2 5 ~ P97 5 ” 界定ꎻ 单侧用 “ P95 ” 或 “P5 ” 界定ꎮ (3) ROC 曲线法: 诊断试验的结果为连 续性变量时ꎬ 依照不同截点值可分别计算出灵敏度和 特异度ꎬ 以诊断试验的灵敏度为纵坐标、 以 1-特异 度为横坐标ꎬ 绘制成连续曲线ꎬ 即为 ROC 曲线 (图 2)ꎮ ROC 曲线上最靠近左上方的点对应的截点值即 为最佳截点值ꎮ ROC 曲线下面积反映了诊断试验的 准确性ꎬ 取值范围在0 5~ 1 0ꎮ ROC 曲线越向左上 偏ꎬ 曲线下面积越大ꎬ 该诊断试验的准确性越高ꎮ 因 此ꎬ 除可用于确立截点值外ꎬ ROC 曲线还可比较两 个或以上独立诊断试验的准确性ꎬ 如图 2 中诊断试验 1 的准确性优于诊断试验 2ꎮ ROC 曲线简单、 直观ꎬ 是确定诊断试验截点值较为常用的方法ꎮ (4) 结合 专业实际进行临床判断: 按照大量临床观察或系列追 踪观察某些致病因素对健康损害的阈值ꎬ 作为诊断正 常水平的界值ꎮ 图 2 受试者工作特征曲线
诊断试验准确性研究设计及临床应用 1.7绘制四格表,评价诊断准确性 率的比值,PLR=Sen/(1-spe)=[a/(a+c)]/ 依据金标准诊断可将研究对象划分为“有病”[b(b+d)];阴性似然比( negative lr,NLR)是 或“无病”;依据待评价诊断试验的结果可将研究对假阴性率和真阴性率的比值,NLR=(1-Sen)/Spe 象划分为检测“阳性”或检测“阴性”。以金标准诊=[e/(a+e)]/[d(b+d)]。似然比利用了诊 断为列,待评价的诊断试验结果为行,可绘制四格表断试验的全部信息,不受患病率影响,可用于估计单 (表1)。 个患者的疾病概率 1.8论文报告 表1诊断试验四格表 诊断试验的结果解释应结合临床实际,结论 金标准诊断 诊断试验 合计 要客观真实。推荐遵循诊断准确性研究报告规范 Standards for Reporting of Diagnostic Accuracy, STARD) 真阳性(a)假阳性(b) 进行论文报告。 STARD于2003年发表,旨在提高诊断 假阴性(c)真阴性(d) 试验的报告质量;2015年发布了更新版本,对2003 合计 a+b+e+d 版 STARD的清单条目和流程图进行了修订增补。 a.真阳性,指金标准诊断为“有病”且诊断试验结果是“阳性”的例其中文译文和相关解读也已发表2。 数;b.假阳性,指金标准诊断为“无病”但诊断试验结果是“阳性” 性”的例数;d真阴性,指金标淮诊断为“无病”且诊断试验结果是2诊断试验结果的临床应用 “阴性”的例数 对于临床医生而言,非常重要的问题是:如何 灵敏度(以Sen表示),即真阳性率,是金标准将某项诊断试验准确性研究的结果应用于自己的患 诊断为“有病”的研究对象中,诊断试验结果是者?回答这个问题之前,需要明确两点:(1)该诊 阳性”的比例,反映了诊断试验识别疾病的能力。断试验的结果是否准确可靠?如研究问题明确、设 灵敏度只与病例组有关,Sen=a(a+c)。特异度计科学严谨、金标准和研究对象选择合理、采用盲 (以spe表示),即真阴性率,是金标准诊断为“无法、检测结果稳定可重复,则较为准确可靠。可应 病”的研究对象中,诊断试验结果是“阴性”的比用诊断试验准确性研究的质量评价工具( Quality 例,反映识别无病的能力。特异度只与对照组有关, Assessment of Diagnostic Accuracy Studies, QUADAS) pe=d(b+d)。一项汇总了23项Mea分析的研究对偏倚风险进行评估{2)。(2)该诊断试验是否 显示,诊断试验的灵敏度和特异度会随疾病患病率而适用于自己的患者?如所处的医疗环境与该诊断试 变化,特异度会随着患病率的升高而降低。灵敏验实施的环境相似,且患者符合该研究的纳入标 度和特异度是诊断试验的重要指标,但无法帮助临床准,则较为适用。 医生估计单个患者的疾病概率。 2.1由验前概率获得验后概率 PV,是应用诊断试验的结果来估计研究对象有 当医生接诊一例患者,综合病史、体格检查以及 病或无病可能性的大小。阳性预测值( positive PV,已有的化验结果会形成初步诊断,此时临床分析估计 PPⅤ)是诊断试验结果为阳性者中“有病”者所占所得的疾病概率称之为验前概率( pretest probabili 的比例,PPⅤ=a/(a+b);阴性预测值( negative ty)2],在此基础上,医生进行某项诊断试验,检测 PV,NPV)是诊断试验结果为阴性者中“无病”者结果可能会提高或降低初步诊断的可能性,此时的疾 的比例,NPⅤ=d(c+d)。预测值可用于估计疾病的病概率称之为验后概率( posttest probability)。诊断 概率,但会随患病率的变化而变化。因此,当临床医试验的LR3帮助医生从验前概率得到验后概率,IR 生面临的患者群体与已发表文献中研究对象的患病率的大小表明某个诊断试验的结果将会提高或降低目标 不同时,不可将文献中的预测值数据直接应用于自己疾病验前概率的程度。 的患者 应用LR由验前概率获得验后概率包括以下几 LR,是诊断试验的某种结果(阳性或阴性)在种方法:(1)计算法:验前比值=验前概率′(1 有病”组中出现的概率与“无病”组中岀现的概率验前概率),验后比值=验前比值ⅹ似然比,验后概 之比。是患者“有病”与“无病”概率的比值。阳率=验后比值/(1+验后比值);(2)诺模图法[21 性似然比( positive LR,PLR)是真阳性率和假阳性左栏代表验前概率,中间栏代表LR,右栏代表验 VoL. 11 No. 1 99
诊断试验准确性研究设计及临床应用 Vol 11 No 1 99 1 7 绘制四格表ꎬ 评价诊断准确性 依据金标准诊断可将研究对象划分为 “ 有病” 或 “无病”ꎻ 依据待评价诊断试验的结果可将研究对 象划分为检测 “阳性” 或检测 “阴性”ꎮ 以金标准诊 断为列ꎬ 待评价的诊断试验结果为行ꎬ 可绘制四格表 (表 1)ꎮ 表 1 诊断试验四格表 诊断试验 金标准诊断 有病 无病 合计 阳性 真阳性 (a) 假阳性 (b) a+b 阴性 假阴性 (c) 真阴性 (d) c+d 合计 a+c b+d a+b+c+d a 真阳性ꎬ 指金标准诊断为 “有病” 且诊断试验结果是 “阳性” 的例 数ꎻ b 假阳性ꎬ 指金标准诊断为 “无病” 但诊断试验结果是 “阳性” 的例数ꎻ c 假阴性ꎬ 指金标准诊断为 “有病” 但诊断试验结果是 “阴 性” 的例数ꎻ d 真阴性ꎬ 指金标准诊断为 “无病” 且诊断试验结果是 “阴性” 的例数 灵敏度 (以 Sen 表示)ꎬ 即真阳性率ꎬ 是金标准 诊断为 “ 有病” 的研究对象中ꎬ 诊断试验结果是 “阳性” 的比例ꎬ 反映了诊断试验识别疾病的能力ꎮ 灵敏度只与病例组有关ꎬ Sen = a / ( a + c)ꎮ 特异度 (以 Spe 表示)ꎬ 即真阴性率ꎬ 是金标准诊断为 “无 病” 的研究对象中ꎬ 诊断试验结果是 “阴性” 的比 例ꎬ 反映识别无病的能力ꎮ 特异度只与对照组有关ꎬ Spe = d / (b+d)ꎮ 一项汇总了 23 项 Meta 分析的研究 显示ꎬ 诊断试验的灵敏度和特异度会随疾病患病率而 变化ꎬ 特异度会随着患病率的升高而降低[14] ꎮ 灵敏 度和特异度是诊断试验的重要指标ꎬ 但无法帮助临床 医生估计单个患者的疾病概率[15] ꎮ PVꎬ 是应用诊断试验的结果来估计研究对象有 病或无病可能性的大小ꎮ 阳性预测值 ( positive PVꎬ PPV) 是诊断试验结果为阳性者中 “有病” 者所占 的比 例ꎬ PPV = a / ( a + b)ꎻ 阴 性 预 测 值 ( negative PVꎬ NPV) 是诊断试验结果为阴性者中 “无病” 者 的比例ꎬ NPV= d / (c+d)ꎮ 预测值可用于估计疾病的 概率ꎬ 但会随患病率的变化而变化ꎮ 因此ꎬ 当临床医 生面临的患者群体与已发表文献中研究对象的患病率 不同时ꎬ 不可将文献中的预测值数据直接应用于自己 的患者[15] ꎮ LRꎬ 是诊断试验的某种结果 (阳性或阴性) 在 “有病” 组中出现的概率与 “无病” 组中出现的概率 之比ꎮ 是患者 “有病” 与 “无病” 概率的比值ꎮ 阳 性似然比 ( positive LRꎬ PLR) 是真阳性率和假阳性 率的比值ꎬ PLR = Sen / (1-Spe) = [ a / ( a+c) ] / [b / (b+d) ]ꎻ 阴性似然比 ( negative LRꎬ NLR) 是 假阴性率和真阴性率的比值ꎬ NLR = (1-Sen) / Spe = [c / (a+c) ] / [ d / ( b+d) ]ꎮ 似然比利用了诊 断试验的全部信息ꎬ 不受患病率影响ꎬ 可用于估计单 个患者的疾病概率[16] ꎮ 1 8 论文报告 诊断试验 的 结 果 解 释 应 结 合 临 床 实 际ꎬ 结 论 要客观真实ꎮ 推荐遵循诊断准确性研究报告规范 (Standards for Reporting of Diagnostic Accuracyꎬ STARD) 进行论文报告ꎮ STARD 于 2003 年发表ꎬ 旨在提高诊断 试验的报告质量[17] ꎻ 2015 年发布了更新版本ꎬ 对 2003 版 STARD 的清单条目和流程图进行了修订增补[18] ꎮ 其中文译文和相关解读也已发表[19 ̄21] ꎮ 2 诊断试验结果的临床应用 对于临床医生而言ꎬ 非常重要的问题是: 如何 将某项诊断试验准确性研究的结果应用于自己的患 者? 回答这个问题之前ꎬ 需要明确两点: (1) 该诊 断试验的结果是否准确可靠? 如研究问题明确、 设 计科学严谨、 金标准和研究对象选择合理、 采用盲 法、 检测结果稳定可重复ꎬ 则较为准确可靠ꎮ 可应 用诊断试验准确 性 研 究 的 质 量 评 价 工 具 ( Quality Assessment of Diagnostic Accuracy Studiesꎬ QUADAS) 对偏倚风险进行评估[22 ̄23] ꎮ ( 2) 该诊断试验是否 适用于自己的患者? 如所处的医疗环境与该诊断试 验实施的环境相似ꎬ 且患者符合该研究的纳入标 准ꎬ 则较为适用ꎮ 2 1 由验前概率获得验后概率 当医生接诊一例患者ꎬ 综合病史、 体格检查以及 已有的化验结果会形成初步诊断ꎬ 此时临床分析估计 所得的疾病概率称之为验前概率 ( pretest probabili ̄ ty) [25] ꎬ 在此基础上ꎬ 医生进行某项诊断试验ꎬ 检测 结果可能会提高或降低初步诊断的可能性ꎬ 此时的疾 病概率称之为验后概率 ( posttest probability)ꎮ 诊断 试验的 LR [3]帮助医生从验前概率得到验后概率ꎬ LR 的大小表明某个诊断试验的结果将会提高或降低目标 疾病验前概率的程度ꎮ 应用 LR 由验前概率获得验后概率包括以下几 种方法: ( 1) 计算法: 验前比值 = 验前概率 / ( 1 - 验前概率) ꎬ 验后比值 = 验前比值×似然比ꎬ 验后概 率 = 验后比值 / (1+验后比值) ꎻ (2) 诺模图法[26] : 左栏代表验前概率ꎬ 中间栏代表 LRꎬ 右栏代表验
协和医学杂志 后概率,将验前概率和LR对应的数值连线并延长,发现。 即可得到验后概率(图3);(3)软件法:通过网 患者符合经典型不明原因发热( fever of unkno 址htp://mea.che. net/clint/templates/! calculators/lr- ongin,HUO)定义,总结临床问题:结核感染T细胞 nomogram.∞sp,输入验前概率及LR的数值,即可获检测对经典型FUO患者的诊断准确性如何?文献检 得验后概率。 索到2016年发表的一项研究——“结核感染T细胞 0.1 检测在结核高流行区对FUO病因诊断价值”{。通 过仔细阅读文献,充分评估偏倚风险,认为该研究结 果可信,且硏究场所、临床情况、硏究人群的年龄性 别等描述均与患者相符,研究结果可用于该患者。此 项研究中,未获得病原学证据的临床诊断结核病患者 结核感染T细胞检测的PIR为4.24。应用诺模图法 600000 获得诊断结核病的验后概率为81%(图3)。据此, 加用诊断性抗结核治疗,1个月后患者体温正常,无 其他不适,复查显示红细胞沉降率和C反应蛋白逐 渐降至正常。继续规范抗结核治疗,总疗程1年。最 终诊断:结核菌感染(部位未明确)。 3小结 诊断试验准确性研究遵循通用的临床研究设计理 念,如 PICOS原则构建研究问题、选择有代表性的 险前概率似然比验后概率 研究对象、估算样本量、采用盲法、依规范进行论文 图3诺模图 报告等,但也有其独特之处,如确定诊断金标准、确 将验前概率与似然比对应的数值连线并延长,即可得立最佳截点值以及计算诊断准确性参数等。在研究设 到验后概率 计过程中,应注意控制偏倚,使得研究结果准确且能 够外推。需特别注意的是,在应用IR帮助临床诊断 2.2临床场景模拟 时,除评价证据质量外,应充分评估研究结果是否适 患者女性,68岁,发热3个月,峰值体温39℃,用于接诊患者,否则可能误导诊断。 体温多波动在37~38.5℃,伴盗汗,午后及夜间为 著。伴咳嗽,干咳为主,偶有少量白色泡沫样痰。 参考文献 当地医院查红细胞沉降率为65mm/h,C反应蛋白 为13.7mg/L;胸片正常;EB病毒、巨细胞病毒、[l] Yerushalmy J. Statistical problems in assessing methods of 支原体、衣原体等相关检测无明显异常。诊断“病 medical diagnosis, with special reference to X-ray techniques 毒感染”,予以莫西沙星、感冒清热冲剂等药物治 [J. Public Health Rep, 1947, 62: 1432-1449 疗,效果不佳。2年前诊断糖尿病。父亲患陈旧性[2]eci. Predictive value of a single diagnostic test in un. 肺结核。 selected populations [J]. N Engl J Med, 1966, 274 分析患者病情:老年女性,午后低热伴盗汗,炎 171-1173 症指标升高,既往糖尿病史,父亲患陈旧性肺结核。 [3 Grimes DA, Schulz KF Refining clinical diagnosis with like- lihood ratios [J]. Lancet, 2005, 365: 1500-1505 怀疑患者为结核菌感染,但未发现明确的结核病υ。[4] Sackett DL, Haynes RB. The architecture of diagnostic 依据现有证据,估计患者患结核病的概率为50%。 search[J].BMJ,2002,324:539-541. 但仍需与其他感染、肿瘤及自身免疫性疾病相鉴别。[5] Limmer Je, Mol bw, Heisterkamp S,etal. Empirical evi- 进一步完善相关检查,结核感染T细胞检测的结果为 lence of design- related bias in studies of diagnostic tests 每百万个外周血单个核细胞中存在680个斑点形成细 ].JAMA,199,282:1061-106 胞,提示存在结核感染。除此之外,无其他阳性[6] Glasziou h, Irig L, Deeks J. When should a new test be. 100 January, 2020
协 和 医 学 杂 志 100 Januaryꎬ 2020 后概率ꎬ 将验前概率和 LR 对应的数值连线并延长ꎬ 即可得到验后概率 (图 3) ꎻ ( 3) 软件法: 通过网 址 http: / / meta cche net / clint / templates/ calculators/ lr _ nomogram aspꎬ 输入验前概率及 LR 的数值ꎬ 即可获 得验后概率ꎮ 图 3 诺模图 将验前概率与似然比对应的数值连线并延长ꎬ 即可得 到验后概率 2 2 临床场景模拟 患者女性ꎬ 68 岁ꎬ 发热 3 个月ꎬ 峰值体温39 ℃ ꎬ 体温多波动在 37 ~ 38 5 ℃ ꎬ 伴盗汗ꎬ 午后及夜间为 著ꎮ 伴咳嗽ꎬ 干咳为主ꎬ 偶有少量白色泡沫样痰ꎮ 当地医院查红细胞沉降率为 65 mm / hꎬ C 反应蛋白 为 13 7 mg / Lꎻ 胸片正常ꎻ EB 病毒、 巨细胞病毒、 支原体、 衣原体等相关检测无明显异常ꎮ 诊断 “病 毒感染” ꎬ 予以莫西沙星、 感冒清热冲剂等药物治 疗ꎬ 效果不佳ꎮ 2 年前诊断糖尿病ꎮ 父亲患陈旧性 肺结核ꎮ 分析患者病情: 老年女性ꎬ 午后低热伴盗汗ꎬ 炎 症指标升高ꎬ 既往糖尿病史ꎬ 父亲患陈旧性肺结核ꎮ 怀疑患者为结核菌感染ꎬ 但未发现明确的结核病灶ꎮ 依据现有证据ꎬ 估计患者患结核病的概率为 50%ꎮ 但仍需与其他感染、 肿瘤及自身免疫性疾病相鉴别ꎮ 进一步完善相关检查ꎬ 结核感染 T 细胞检测的结果为 每百万个外周血单个核细胞中存在 680 个斑点形成细 胞ꎬ 提示 存 在 结 核 感 染ꎮ 除 此 之 外ꎬ 无 其 他 阳 性 发现ꎮ 患者符合经典型不明原因发热 ( fever of unknown originꎬ FUO) 定义ꎬ 总结临床问题: 结核感染 T 细胞 检测对经典型 FUO 患者的诊断准确性如何? 文献检 索到 2016 年发表的一项研究——— “结核感染 T 细胞 检测在结核高流行区对 FUO 病因诊断价值” [27] ꎮ 通 过仔细阅读文献ꎬ 充分评估偏倚风险ꎬ 认为该研究结 果可信ꎬ 且研究场所、 临床情况、 研究人群的年龄性 别等描述均与患者相符ꎬ 研究结果可用于该患者ꎮ 此 项研究中ꎬ 未获得病原学证据的临床诊断结核病患者 结核感染 T 细胞检测的 PLR 为 4 24ꎮ 应用诺模图法ꎬ 获得诊断结核病的验后概率为 81% (图 3)ꎮ 据此ꎬ 加用诊断性抗结核治疗ꎬ 1 个月后患者体温正常ꎬ 无 其他不适ꎬ 复查显示红细胞沉降率和 C 反应蛋白逐 渐降至正常ꎮ 继续规范抗结核治疗ꎬ 总疗程 1 年ꎮ 最 终诊断: 结核菌感染 (部位未明确)ꎮ 3 小结 诊断试验准确性研究遵循通用的临床研究设计理 念ꎬ 如 PICOS 原则构建研究问题、 选择有代表性的 研究对象、 估算样本量、 采用盲法、 依规范进行论文 报告等ꎬ 但也有其独特之处ꎬ 如确定诊断金标准、 确 立最佳截点值以及计算诊断准确性参数等ꎮ 在研究设 计过程中ꎬ 应注意控制偏倚ꎬ 使得研究结果准确且能 够外推ꎮ 需特别注意的是ꎬ 在应用 LR 帮助临床诊断 时ꎬ 除评价证据质量外ꎬ 应充分评估研究结果是否适 用于接诊患者ꎬ 否则可能误导诊断ꎮ 参 考 文 献 [1] Yerushalmy J. Statistical problems in assessing methods of medical diagnosisꎬ with special reference to X ̄ray techniques [J]. Public Health Repꎬ 1947ꎬ 62: 1432 ̄ 1449. [2] Vecchio TJ. Predictive value of a single diagnostic test in un ̄ selected populations [ J ]. N Engl J Medꎬ 1966ꎬ 274: 1171 ̄ 1173. [3] Grimes DAꎬ Schulz KF. Refining clinical diagnosis with like ̄ lihood ratios [J]. Lancetꎬ 2005ꎬ 365: 1500 ̄ 1505. [4] Sackett DLꎬ Haynes RB. The architecture of diagnostic re ̄ search [J]. BMJꎬ 2002ꎬ 324: 539 ̄ 541. [5] Lijmer JGꎬ Mol BWꎬ Heisterkamp Sꎬ et al. Empirical evi ̄ dence of design ̄related bias in studies of diagnostic tests [J]. JAMAꎬ 1999ꎬ 282: 1061 ̄ 1066. [6] Glasziou Pꎬ Irwig Lꎬ Deeks JJ. When should a new test be ̄
诊断试验准确性研究设计及临床应用 come the current reference standard? [JJ. Ann Intern Med y: the STARD initiative [J]. BM, 2003, 326: 41-44. 2008,149:816-82 [18 Bossuyt PM, Reitsma JB, Bruns DE, et al. STARD 2015 [7] Worster A, Carpenter C. Incorporation bias in studies of di- an updated list of essential items for reporting diagnostic ac- agnostic tests: how to avoid being biased about bias [J] curacy studies [J]. BMJ, 2015, 351: h5527. CJEM,2008,10:174-17 [19]王波,詹思延如何撰写高质量的流行病学研究论文第 [8] Weiss NS Control definition in case-control studies of the ef- 三讲诊断试验准确性研究的报告规范一 STARD介绍 ficacy of screening and diagnostic testing [J]. Am J Epide. [J].中华流行病学杂志,2006,27:909-912 iol,1983,118:457-460. [20]朱一丹,李会娟,武阳丰.诊断准确性研究报告规范 [9 Whiting PF, Rutjes AW, Westwood ME, et al. A systematic ( STARD)2015介绍与解读[J].中国循证医学杂志 review classifies sources of bias and variation in diagnostic 2016.16:730-735 test accuracy studies[J]. J Clin Epidemiol,2013,66:[21]孙凤.医学研究报告规范解读[M].北京:北京大学医 学出版社,2015:1 [10] Rutjes AW, Reitsma JB, Di Nisio M, et al. Evidence of bias [22] Whiting P, Rutjes AW, Reitsma JB, et al. The development [J].C 2006,174:469-476 diagnostic accuracy included in systematic reviews [J] [11] Hajian-Tilaki K. Sample size estimation in diagnostic test BMC Med Res methodol. 2003. 3. 25 studies of biomedical informatics [J]. J Biomed Inform, [23 Whiting PF, Rutjes AW, Westwood ME, et al. QUADAS-2 014,48:193-204. a revised tool for the quality assessment of diagnostic 12 Simel DL, Samsa GP, Matchar DB. Likelihood ratios with accuracy studies [J]. Ann Intern Med, 2011, 155 confidence: sample size estimation for diagnostic test studi [J].J Clin Epidemiol, 1991, 44: 763-770 [24 Schunemann H], Oxman AD, Brozek J, et al. Grading [13 Whiting P, Rutjes AW, Reitsma JB, et al. Sources of varia- tion and bias in studies of diagnostic accuracy: a systematic nostic tests and strategies [J]. BMJ, 2008, 336 review [J]. Ann Intern Med, 2004, 140: 189-202 1106·1110 [ 14] Leeflang MM, Rutjes AW, Reitsma JB, et al. Variation of a [25] Richardson WS. Where do pretest probabilities come from? test,'s sensitivity and specificity with dis [J]. Evid Based Med, 1999, 4: 68-69 CMAJ,2013,185:E537-E544 [26] Fagan TJ Letter: Nomogram for Bayes theorem [J]. N Engl [15] Akobeng AK. Understanding diagnostic tests 1: sensitivity JMed,1975,293:257 specificity and predictive values [J]. Acta Paediatr, 2007. [27] Shi X, Zhang L, Zhang Y, et al. Utility of T-Cell Interferon- 96:338-341. gamma Release Assays for Etiological Diagnosis of Classic [16] Akobeng AK. Understanding diagnostic tests 2 Fever of Unknown Origin in a High Tuberculosis Endemic ratios, pre- and post-test probabilities and the Area-a pilot prospective cohort [J]. PLos One, 2016 clinical practice [J]. Acta Paediatr, 2007, 96:487-49 ll:e0l46879. [17] Bossuyt PM, Reitsma JB, Bruns DE, et al. Towards complete and accurate reporting of studies of diagnostic accu- (收稿日期:2019-12-11) VoL. 1 No. 1 101
诊断试验准确性研究设计及临床应用 Vol 11 No 1 101 come the current reference standard? [J]. Ann Intern Medꎬ 2008ꎬ 149: 816 ̄ 822. [7] Worster Aꎬ Carpenter C. Incorporation bias in studies of di ̄ agnostic tests: how to avoid being biased about bias [ J]. CJEMꎬ 2008ꎬ 10: 174 ̄ 175. [8] Weiss NS. Control definition in case ̄control studies of the ef ̄ ficacy of screening and diagnostic testing [J]. Am J Epide ̄ miolꎬ 1983ꎬ 118: 457 ̄ 460. [9] Whiting PFꎬ Rutjes AWꎬ Westwood MEꎬ et al. A systematic review classifies sources of bias and variation in diagnostic test accuracy studies [ J]. J Clin Epidemiolꎬ 2013ꎬ 66: 1093 ̄ 1104. [10] Rutjes AWꎬ Reitsma JBꎬ Di Nisio Mꎬ et al. Evidence of bias and variation in diagnostic accuracy studies [ J]. CMAJꎬ 2006ꎬ 174: 469 ̄ 476. [11] Hajian ̄Tilaki K. Sample size estimation in diagnostic test studies of biomedical informatics [ J]. J Biomed Informꎬ 2014ꎬ 48: 193 ̄ 204. [12] Simel DLꎬ Samsa GPꎬ Matchar DB. Likelihood ratios with confidence: sample size estimation for diagnostic test studies [J]. J Clin Epidemiolꎬ 1991ꎬ 44: 763 ̄ 770. [13] Whiting Pꎬ Rutjes AWꎬ Reitsma JBꎬ et al. Sources of varia ̄ tion and bias in studies of diagnostic accuracy: a systematic review [J]. Ann Intern Medꎬ 2004ꎬ 140: 189 ̄ 202. [14] Leeflang MMꎬ Rutjes AWꎬ Reitsma JBꎬ et al. Variation of a tests sensitivity and specificity with disease prevalence [J]. CMAJꎬ 2013ꎬ 185: E537 ̄E544. [15] Akobeng AK. Understanding diagnostic tests 1: sensitivityꎬ specificity and predictive values [J]. Acta Paediatrꎬ 2007ꎬ 96: 338 ̄ 341. [16] Akobeng AK. Understanding diagnostic tests 2: likelihood ratiosꎬ pre ̄ and post ̄test probabilities and their use in clinical practice [J]. Acta Paediatrꎬ 2007ꎬ 96: 487 ̄ 491. [17] Bossuyt PMꎬ Reitsma JBꎬ Bruns DEꎬ et al. Towards complete and accurate reporting of studies of diagnostic accu ̄ racy: the STARD initiative [J]. BMJꎬ 2003ꎬ 326: 41 ̄ 44. [18] Bossuyt PMꎬ Reitsma JBꎬ Bruns DEꎬ et al. STARD 2015: an updated list of essential items for reporting diagnostic ac ̄ curacy studies [J]. BMJꎬ 2015ꎬ 351: h5527. [19] 王波ꎬ 詹思延. 如何撰写高质量的流行病学研究论文第 三讲诊断试验准确性研究的报告规范———STARD 介绍 [J]. 中华流行病学杂志ꎬ 2006ꎬ 27: 909 ̄ 912. [20] 朱一丹ꎬ 李会娟ꎬ 武阳丰. 诊断准确性研究报告规范 (STARD) 2015 介绍与解读 [ J]. 中国循证医学杂志ꎬ 2016ꎬ 16: 730 ̄ 735. [21] 孙凤. 医学研究报告规范解读 [M]. 北京: 北京大学医 学出版社ꎬ 2015: 181 ̄ 188. [22] Whiting Pꎬ Rutjes AWꎬ Reitsma JBꎬ et al. The development of QUADAS: a tool for the quality assessment of studies of diagnostic accuracy included in systematic reviews [ J ]. BMC Med Res Methodolꎬ 2003ꎬ 3: 25. [23] Whiting PFꎬ Rutjes AWꎬ Westwood MEꎬ et al. QUADAS ̄2: a revised tool for the quality assessment of diagnostic accuracy studies [ J ]. Ann Intern Medꎬ 2011ꎬ 155: 529 ̄ 536. [24] Schunemann HJꎬ Oxman ADꎬ Brozek Jꎬ et al. Grading quality of evidence and strength of recommendations for diag ̄ nostic tests and strategies [ J ]. BMJꎬ 2008ꎬ 336: 1106 ̄ 1110. [25] Richardson WS. Where do pretest probabilities come from? [J]. Evid Based Medꎬ 1999ꎬ 4: 68 ̄ 69. [26] Fagan TJ. Letter: Nomogram for Bayes theorem [J]. N Engl J Medꎬ 1975ꎬ 293: 257. [27] Shi Xꎬ Zhang Lꎬ Zhang Yꎬ et al. Utility of T ̄Cell Interferon ̄ gamma Release Assays for Etiological Diagnosis of Classic Fever of Unknown Origin in a High Tuberculosis Endemic Area—a pilot prospective cohort [ J]. PLoS Oneꎬ 2016ꎬ 11: e0146879. (收稿日期: 2019 ̄ 12 ̄ 11)