临床研究与循证医学：诊断试验准确性研究设计及临床应用

诊断试验的准确性指标包括灵敏度、特异度、预测值和似然比。其中,诊断试验的似然比可帮助医生从验前概率获得验后概率。当医疗环境与研究环境相似、收治患者符合研究入组标准时,应用诊断试验研究的似然比有助于对目标疾病进行诊断与鉴别诊断。

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：480.2KB

协和医学杂志 Medical Joumal of Peking Union Medical College Hospital 临床研究与循证医学诊断试验准确性研究设计及临床应用张丽帆12,3,刘晓清12,3 中国医学科学院北京协和医学院北京协和医院感染内科2临床流行病学教研室,北京100730 国际临床流行病学网临床流行病学单位,北京100730 通信作者:刘晓清电话:010-6155087,Emal:liuxi(@pumch.cn 摘要】新的诊断方法在临床开展之前,必须经由严格设计的诊断试验准确性研究进行评价。诊断试验准确性研究设计包括应用PCOs(P: Patient;l: Intervention;C: Comparison;O: Outcome;S: Study design)原则构建研究问题确定诊断金标准、选择具有代表性的研究对象、估算样本量、同步盲法比较诊断试验与金标准结果、确立最佳截点值、评价诊断准确性以及遵循诊断准确性研究报告规范进行论文报告8个方面。诊断试验的准确性指标包括灵敏度、特异度、预测值和似然比。其中,诊断试验的似然比可帮助医生从验前概率获得验后概率。当医疗环境与硏究环境相似、收治患者符合硏究入组标准时,应用诊断试验研究的似然比有助于对目标疾病进行诊断与鉴别诊断。【关键词】诊断试验;研究设计;临床应用【中图分类号】R-1【文献标志码】A【文章编号】1674-9081(2020)01-06-06 DOl:10.3969/j-isn.16749081.20190276 Study Design and Clinical Practice of Diagnostic Accucary Test ZHANG Li-fan.2.3, LIU Xiao-qing.2. Department of Infectious Diseases, Department of Clinical Epidemiology, Peking Union Medical College Hospital Chinese Academy of Medical Sciences Peking Union Medical College, Beijing 100730, China Clinical Epideniology Unit, International Clinical Epidemiology Network, Beijing 100730, China Correspondingauthor:LIUXiao-qingTel86-10-69155087,E-mail:liuxq@pumch.cn Abstract] New diagnostic methods must be evaluated by rigorously designed diagnostic accuracy studies before clinical implementation. Designing a diagnostic accuracy study includes 8 procedures: constructing the research question with the PICOS (P: Patient: I: Intervention; C: Comparison: O: Outcome; S: Study design) framework, identifying an appropriate gold standard, choosing a representative patient sample, estima ng the sample size, interpreting results of diagnostic tests and the gold standard blind to the other, setting up the optimal threshold, evaluating the diagnostic accuracy, and finally drafting a report according to the stand ards for reporting diagnostic accuracy. The accuracy of diagnostic tests includes sensitivity, specificity, predic tive value(Pv), and likelihood ratio(LR). The LR estimated by diagnostic tests can move clinicians from the pretest probability to a posttest probability. If the clinical setting is similar to that of the study and the pater meets all eligibility criteria of the study, the LR may facilitate the diagnostic process in clinical practice Key words] diagnostic test; study design; clinical practice Med J PUMCH,2020,11(1):96-101 基金项目:北京协和医学院青年教师培养项目(2014g0742);北京协和医学院研究生教育教学改革项目(10023201609 利益冲突:无 anuary, 2020

协和医学杂志ＭｅｄｉｃａｌＪｏｕｒｎａｌｏｆＰｅｋｉｎｇＵｎｉｏｎＭｅｄｉｃａｌＣｏｌｌｅｇｅＨｏｓｐｉｔａｌ９６Ｊａｎｕａｒｙꎬ ２０２０基金项目: 北京协和医学院青年教师培养项目 (２０１４ｚｌｇｃ０７４２)ꎻ 北京协和医学院研究生教育教学改革项目 (１００２３２０１６００１０９) 利益冲突: 无 􀅰临床研究与循证医学􀅰 诊断试验准确性研究设计及临床应用张丽帆１ꎬ２ꎬ３ ꎬ 刘晓清１ꎬ２ꎬ３中国医学科学院北京协和医学院北京协和医院１感染内科２临床流行病学教研室ꎬ 北京１００７３０３国际临床流行病学网临床流行病学单位ꎬ 北京１００７３０通信作者: 刘晓清电话: ０１０￣６９１５５０８７ꎬ Ｅ￣ｍａｉｌ: ｌｉｕｘｑ＠ｐｕｍｃｈ.ｃｎ【摘要】新的诊断方法在临床开展之前ꎬ 必须经由严格设计的诊断试验准确性研究进行评价ꎮ 诊断试验准确性研究设计包括应用ＰＩＣＯＳ (Ｐ: Ｐａｔｉｅｎｔꎻ Ｉ: Ｉｎｔｅｒｖｅｎｔｉｏｎꎻ Ｃ: Ｃｏｍｐａｒｉｓｏｎꎻ Ｏ: Ｏｕｔｃｏｍｅꎻ Ｓ: Ｓｔｕｄｙｄｅｓｉｇｎ) 原则构建研究问题、确定诊断金标准、选择具有代表性的研究对象、估算样本量、同步盲法比较诊断试验与金标准结果、确立最佳截点值、评价诊断准确性以及遵循诊断准确性研究报告规范进行论文报告８个方面ꎮ 诊断试验的准确性指标包括灵敏度、特异度、预测值和似然比ꎮ 其中ꎬ 诊断试验的似然比可帮助医生从验前概率获得验后概率ꎮ 当医疗环境与研究环境相似、收治患者符合研究入组标准时ꎬ 应用诊断试验研究的似然比有助于对目标疾病进行诊断与鉴别诊断ꎮ 【关键词】诊断试验ꎻ 研究设计ꎻ 临床应用【中图分类号】Ｒ￣１【文献标志码】Ａ【文章编号】１６７４￣９０８１(２０２０)０１￣００９６￣０６ＤＯＩ: １０􀆰 ３９６９ / ｊ􀆰 ｉｓｓｎ􀆰 １６７４￣９０８１􀆰 ２０１９０２７６ＳｔｕｄｙＤｅｓｉｇｎａｎｄＣｌｉｎｉｃａｌＰｒａｃｔｉｃｅｏｆＤｉａｇｎｏｓｔｉｃＡｃｃｕｃａｒｙＴｅｓｔＺＨＡＮＧＬｉ￣ｆａｎ１ꎬ２ꎬ３ ꎬ ＬＩＵＸｉａｏ￣ｑｉｎｇ１ꎬ２ꎬ３１ＤｅｐａｒｔｍｅｎｔｏｆＩｎｆｅｃｔｉｏｕｓＤｉｓｅａｓｅｓꎬ ２ＤｅｐａｒｔｍｅｎｔｏｆＣｌｉｎｉｃａｌＥｐｉｄｅｍｉｏｌｏｇｙꎬ ＰｅｋｉｎｇＵｎｉｏｎＭｅｄｉｃａｌＣｏｌｌｅｇｅＨｏｓｐｉｔａｌꎬ ＣｈｉｎｅｓｅＡｃａｄｅｍｙｏｆＭｅｄｉｃａｌＳｃｉｅｎｃｅｓ＆ＰｅｋｉｎｇＵｎｉｏｎＭｅｄｉｃａｌＣｏｌｌｅｇｅꎬ Ｂｅｉｊｉｎｇ１００７３０ꎬ Ｃｈｉｎａ３ＣｌｉｎｉｃａｌＥｐｉｄｅｎｉｏｌｏｇｙＵｎｉｔꎬ ＩｎｔｅｒｎａｔｉｏｎａｌＣｌｉｎｉｃａｌＥｐｉｄｅｍｉｏｌｏｇｙＮｅｔｗｏｒｋꎬ Ｂｅｉｊｉｎｇ１００７３０ꎬ ＣｈｉｎａＣｏｒｒｅｓｐｏｎｄｉｎｇａｕｔｈｏｒ: ＬＩＵＸｉａｏ￣ｑｉｎｇＴｅｌ: ８６￣１０￣６９１５５０８７ꎬ Ｅ￣ｍａｉｌ: ｌｉｕｘｑ＠ｐｕｍｃｈ.ｃｎ【Ａｂｓｔｒａｃｔ】Ｎｅｗｄｉａｇｎｏｓｔｉｃｍｅｔｈｏｄｓｍｕｓｔｂｅｅｖａｌｕａｔｅｄｂｙｒｉｇｏｒｏｕｓｌｙｄｅｓｉｇｎｅｄｄｉａｇｎｏｓｔｉｃａｃｃｕｒａｃｙｓｔｕｄｉｅｓｂｅｆｏｒｅｃｌｉｎｉｃａｌｉｍｐｌｅｍｅｎｔａｔｉｏｎ. Ｄｅｓｉｇｎｉｎｇａｄｉａｇｎｏｓｔｉｃａｃｃｕｒａｃｙｓｔｕｄｙｉｎｃｌｕｄｅｓ８ｐｒｏｃｅｄｕｒｅｓ: ｃｏｎｓｔｒｕｃｔｉｎｇｔｈｅｒｅｓｅａｒｃｈｑｕｅｓｔｉｏｎｗｉｔｈｔｈｅＰＩＣＯＳ ( Ｐ: Ｐａｔｉｅｎｔꎻ Ｉ: Ｉｎｔｅｒｖｅｎｔｉｏｎꎻ Ｃ: Ｃｏｍｐａｒｉｓｏｎꎻ Ｏ: Ｏｕｔｃｏｍｅꎻ Ｓ: Ｓｔｕｄｙｄｅｓｉｇｎ) ｆｒａｍｅｗｏｒｋꎬ ｉｄｅｎｔｉｆｙｉｎｇａｎａｐｐｒｏｐｒｉａｔｅｇｏｌｄｓｔａｎｄａｒｄꎬ ｃｈｏｏｓｉｎｇａｒｅｐｒｅｓｅｎｔａｔｉｖｅｐａｔｉｅｎｔｓａｍｐｌｅꎬ ｅｓｔｉｍａ￣ｔｉｎｇｔｈｅｓａｍｐｌｅｓｉｚｅꎬ ｉｎｔｅｒｐｒｅｔｉｎｇｒｅｓｕｌｔｓｏｆｄｉａｇｎｏｓｔｉｃｔｅｓｔｓａｎｄｔｈｅｇｏｌｄｓｔａｎｄａｒｄｂｌｉｎｄｔｏｔｈｅｏｔｈｅｒꎬ ｓｅｔｔｉｎｇｕｐｔｈｅｏｐｔｉｍａｌｔｈｒｅｓｈｏｌｄꎬ ｅｖａｌｕａｔｉｎｇｔｈｅｄｉａｇｎｏｓｔｉｃａｃｃｕｒａｃｙꎬ ａｎｄｆｉｎａｌｌｙｄｒａｆｔｉｎｇａｒｅｐｏｒｔａｃｃｏｒｄｉｎｇｔｏｔｈｅｓｔａｎｄ￣ａｒｄｓｆｏｒｒｅｐｏｒｔｉｎｇｄｉａｇｎｏｓｔｉｃａｃｃｕｒａｃｙ. Ｔｈｅａｃｃｕｒａｃｙｏｆｄｉａｇｎｏｓｔｉｃｔｅｓｔｓｉｎｃｌｕｄｅｓｓｅｎｓｉｔｉｖｉｔｙꎬ ｓｐｅｃｉｆｉｃｉｔｙꎬ ｐｒｅｄｉｃ￣ｔｉｖｅｖａｌｕｅ (ＰＶ)ꎬ ａｎｄｌｉｋｅｌｉｈｏｏｄｒａｔｉｏ (ＬＲ). ＴｈｅＬＲｅｓｔｉｍａｔｅｄｂｙｄｉａｇｎｏｓｔｉｃｔｅｓｔｓｃａｎｍｏｖｅｃｌｉｎｉｃｉａｎｓｆｒｏｍｔｈｅｐｒｅｔｅｓｔｐｒｏｂａｂｉｌｉｔｙｔｏａｐｏｓｔｔｅｓｔｐｒｏｂａｂｉｌｉｔｙ. Ｉｆｔｈｅｃｌｉｎｉｃａｌｓｅｔｔｉｎｇｉｓｓｉｍｉｌａｒｔｏｔｈａｔｏｆｔｈｅｓｔｕｄｙａｎｄｔｈｅｐａｔｉｅｎｔｍｅｅｔｓａｌｌｅｌｉｇｉｂｉｌｉｔｙｃｒｉｔｅｒｉａｏｆｔｈｅｓｔｕｄｙꎬ ｔｈｅＬＲｍａｙｆａｃｉｌｉｔａｔｅｔｈｅｄｉａｇｎｏｓｔｉｃｐｒｏｃｅｓｓｉｎｃｌｉｎｉｃａｌｐｒａｃｔｉｃｅ. 【Ｋｅｙｗｏｒｄｓ】ｄｉａｇｎｏｓｔｉｃｔｅｓｔꎻ ｓｔｕｄｙｄｅｓｉｇｎꎻ ｃｌｉｎｉｃａｌｐｒａｃｔｉｃｅＭｅｄＪＰＵＭＣＨꎬ ２０２０ꎬ１１(１):９６－１０１

诊断试验准确性研究设计及临床应用准确及时地诊断,是有效治疗的前提。诊断试验因而评价其临床应用价值时,应采用横断面或队列研可为疾病正确诊断及鉴别诊断提供重要证据。广义的究设计,同期纳入疑诊某病的连续病例或按比例抽样诊断试验涉及以下内容:(1)临床资料,如病史、的随机样本(图1)。相对于横断面或队列研究设计, 症状、体征;(2)实验室检査,如生化、免疫学、病例对照研究易于开展,成本较低,其结果可提示我病原学、病理学检査等;(3)影像学检査,如ⅹ线、们该诊断试验是否值得进一步研究,避免造成资源超声、CT、MRI等;(4)特殊器械检查,如心电图、浪费。内镜等。 1.2确定诊断金标准随着医学技术的发展,新的诊断方法不断涌现。诊断金标准亦称标准诊断,是指目前临床医学界理想的诊断方法除具备精确性和准确性之外,还应快公认的最为准确可靠的诊断方法,其确立应结合临床速、简便、安全、经济。任何新的诊断方法在临床开具体情况。常用的金标准包括:(1)实验室检查、展之前,必须经由科学设计的诊断试验准确性研究进细菌培养(病原学诊断)等;(2)手术探查、组织行严格评价。此外,如何解读诊断试验准确性研究的活检、尸体解剖(病理学诊断)等;(3)特殊影像结果,并应用于疾病的辅助诊断,亦是临床医生关注诊断;(4)公认的综合诊断标准,如系统性红斑狼的问题。本文将介绍如何进行诊断试验准确性研究设疮等;(5)长期随访的肯定诊断,如慢性胰腺炎等; 计,以及在临床实践中如何合理应用诊断试验准确性6)权威医疗机构颁布的诊断标准,如重症急性呼研究证据。吸综合征诊断标准等。应用金标准的目的是将疑诊某病的患者准确地区 1诊断试验准确性研究设计分为“有病”或“无病”,在同期同条件下进行待评价的诊断试验检测,并与金标准比较,评价诊断试验 1.1构建研究问题的准确性。诊断试验准确性研究的问题来源于临床,其结果需注意的是,临床研究中的金标准仅是目前也将应用于临床,为临床实践提供证据。在提出临床“公认”的,随着对疾病的认识和医疗技术的发展问题时,可采用PCOS(P: Patient;I: Intervention;也可能随之变化。此外,金标准不可包括待评价 C: Comparison;O: Outcome;S: Study design)原则的诊断试验,否则可增加金标准与诊断试验的一致将其转化为科学问题。诊断试验准确性研究中,P为性,导致加和偏倚( incorporation bias)n。疑诊某病的患者;I为待评价的诊断试验;C为诊断1.3选择研究对象金标准;O为诊断准确性评价,包括灵敏度、特异诊断试验的价值在于能否在具有相似临床表现的度、预测值( predictive value,PV)2和似然比疑诊患者中,正确识别出目标疾病患者。临床诊疗过 likelihood ratio, LR )(3) 程中,医生所接诊的患者可能包含目标疾病的各种类诊断试验准确性研究初期,可采用病例对照研究型,如不同病情严重程度(轻、中、重)、不同病程设计,以确诊某病的患者作为病例组,排除某病的患阶段(早、中、晚)、不同症状和体征(典型、不典者作为对照组4。值得注意的是,Meta分析显示,型)、是否经过治疗、有无并发症等。而需要与之鉴病例对照研究设计可能高估诊断试验的准确性,别的患者,往往具有相似的临床特征,易与目标疾病 A|金标准确诊某病的患者病例组) 待评价的诊断试验评价诊断准确性排除某病的患者 (对照组) 确诊某病的患者疑诊某病的患者待评价的标准诊断诊断试验评价诊断准确性排除某病的患者图1诊断试验准确性研究设计模式图 A.病例对照研究设计;B.横断面或队列研究设计 VoL. 11 No. 1 97

诊断试验准确性研究设计及临床应用Ｖｏｌ􀆰 １１Ｎｏ􀆰 １９７准确及时地诊断ꎬ 是有效治疗的前提ꎮ 诊断试验可为疾病正确诊断及鉴别诊断提供重要证据ꎮ 广义的诊断试验涉及以下内容: (１) 临床资料ꎬ 如病史、症状、体征ꎻ (２) 实验室检查ꎬ 如生化、免疫学、病原学、病理学检查等ꎻ (３) 影像学检查ꎬ 如Ｘ线、超声、ＣＴ、ＭＲＩ等ꎻ (４) 特殊器械检查ꎬ 如心电图、内镜等ꎮ 随着医学技术的发展ꎬ 新的诊断方法不断涌现ꎮ 理想的诊断方法除具备精确性和准确性之外ꎬ 还应快速、简便、安全、经济ꎮ 任何新的诊断方法在临床开展之前ꎬ 必须经由科学设计的诊断试验准确性研究进行严格评价ꎮ 此外ꎬ 如何解读诊断试验准确性研究的结果ꎬ 并应用于疾病的辅助诊断ꎬ 亦是临床医生关注的问题ꎮ 本文将介绍如何进行诊断试验准确性研究设计ꎬ 以及在临床实践中如何合理应用诊断试验准确性研究证据ꎮ １诊断试验准确性研究设计１􀆰 １构建研究问题诊断试验准确性研究的问题来源于临床ꎬ 其结果也将应用于临床ꎬ 为临床实践提供证据ꎮ 在提出临床问题时ꎬ 可采用ＰＩＣＯＳ ( Ｐ: Ｐａｔｉｅｎｔꎻ Ｉ: Ｉｎｔｅｒｖｅｎｔｉｏｎꎻ Ｃ: Ｃｏｍｐａｒｉｓｏｎꎻ Ｏ: Ｏｕｔｃｏｍｅꎻ Ｓ: Ｓｔｕｄｙｄｅｓｉｇｎ) 原则将其转化为科学问题ꎮ 诊断试验准确性研究中ꎬ Ｐ为疑诊某病的患者ꎻ Ｉ为待评价的诊断试验ꎻ Ｃ为诊断金标准ꎻ Ｏ为诊断准确性评价ꎬ 包括灵敏度、特异度[１] 、预测值 ( ｐｒｅｄｉｃｔｉｖｅｖａｌｕｅꎬ ＰＶ) [２] 和似然比 (ｌｉｋｅｌｉｈｏｏｄｒａｔｉｏꎬ ＬＲ) [３] ꎮ 诊断试验准确性研究初期ꎬ 可采用病例对照研究设计ꎬ 以确诊某病的患者作为病例组ꎬ 排除某病的患者作为对照组[４] ꎮ 值得注意的是ꎬ Ｍｅｔａ分析显示ꎬ 病例对照研究设计可能高估诊断试验的准确性[５] ꎬ 因而评价其临床应用价值时ꎬ 应采用横断面或队列研究设计ꎬ 同期纳入疑诊某病的连续病例或按比例抽样的随机样本 (图１)ꎮ 相对于横断面或队列研究设计ꎬ 病例对照研究易于开展ꎬ 成本较低ꎬ 其结果可提示我们该诊断试验是否值得进一步研究ꎬ 避免造成资源浪费ꎮ １􀆰 ２确定诊断金标准诊断金标准亦称标准诊断ꎬ 是指目前临床医学界公认的最为准确可靠的诊断方法ꎬ 其确立应结合临床具体情况ꎮ 常用的金标准包括: ( １) 实验室检查、细菌培养 (病原学诊断) 等ꎻ (２) 手术探查、组织活检、尸体解剖 (病理学诊断) 等ꎻ (３) 特殊影像诊断ꎻ (４) 公认的综合诊断标准ꎬ 如系统性红斑狼疮等ꎻ (５) 长期随访的肯定诊断ꎬ 如慢性胰腺炎等ꎻ (６) 权威医疗机构颁布的诊断标准ꎬ 如重症急性呼吸综合征诊断标准等ꎮ 应用金标准的目的是将疑诊某病的患者准确地区分为 “有病” 或 “无病”ꎬ 在同期同条件下进行待评价的诊断试验检测ꎬ 并与金标准比较ꎬ 评价诊断试验的准确性ꎮ 需注意的是ꎬ 临床研究中的金标准仅是目前 “公认” 的ꎬ 随着对疾病的认识和医疗技术的发展ꎬ 也可能随之变化[６] ꎮ 此外ꎬ 金标准不可包括待评价的诊断试验ꎬ 否则可增加金标准与诊断试验的一致性ꎬ 导致加和偏倚 (ｉｎｃｏｒｐｏｒａｔｉｏｎｂｉａｓ) [７] ꎮ １􀆰 ３选择研究对象诊断试验的价值在于能否在具有相似临床表现的疑诊患者中ꎬ 正确识别出目标疾病患者ꎮ 临床诊疗过程中ꎬ 医生所接诊的患者可能包含目标疾病的各种类型ꎬ 如不同病情严重程度 (轻、中、重)、不同病程阶段 (早、中、晚)、不同症状和体征 (典型、不典型)、是否经过治疗、有无并发症等ꎮ 而需要与之鉴别的患者ꎬ 往往具有相似的临床特征ꎬ 易与目标疾病图１诊断试验准确性研究设计模式图Ａ􀆰 病例对照研究设计ꎻ Ｂ􀆰 横断面或队列研究设计

协和医学杂志混淆。因此,选择研究对象时,应包括上述所有情{9。例如,评价胸片诊断肺部结节的准确性,若患者,以保证足够的代表性。当纳入患者不具有代表读片者事先看到了患者胸部CT上的结节影,可能性时,可导致疾病谱偏倚( spectrum bias)9 会先入为主,读片更加仔细,甚至在同一部位发现选择诊断明确的患者和健康人作为研究对象仅适之前忽略的结节影, 用于诊断试验准确性评价的初期,一方面,诊断试验1.6确立最佳截点值识别疾病晚期或病情严重患者的效力可能优于疾病早评价诊断试验准确性时,需将试验结果按照阳性期或病情轻微的患者;另一方面,医生几乎无须用诊和阴性进行分类,故需要一个判断标准。许多诊断试断试验区分健康人与已确诊的严重疾病患者。因此,验,尤其是实验室检测,其测量结果多为连续性变如果选择严重疾病患者和健康人作为研究对象构成病量。对于连续性变量,需要选择区分正常与异常的截例对照研究设计,会高估诊断试验的准确性。在点值(cut- off point),即界值。诊断试验中确定最佳临床工作中,纳入连续疾病谱的患者对获得准确的灵截点值的方法包括:(1)均数±标准差法:当测量值敏度和特异度估计极其重要,而这一点非常容易被研为正态分布时,双侧正常值范围常用“均数±1.%6标究者忽略。准差”界定;单侧则用“均数+1.64标准差”或研究对象纳入和排除标准的确定应结合临床实“均数-1.64标准差”界定。(2)百分位数法:当测际,根据构建的研究问题定义目标总体的主要特征,量值为偏态分布或分布类型尚不能确定时,双侧正常注意外推性的同时兼顾可行性。值范围常用“P2s~P95”界定;单侧用“Ps”或 1.4估算样本量 “P5”界定。(3)ROC曲线法:诊断试验的结果为连诊断试验准确性研究样本量的大小与下列参数有续性变量时,依照不同截点值可分别计算出灵敏度和关:(1)显著性水平α,α值越小,所需样本量越特异度,以诊断试验的灵敏度为纵坐标、以1-特异大。α通常取0.05;(2)容许误差δ,δ值越小,所度为横坐标,绘制成连续曲线,即为ROC曲线(图需样本量越大,δ通常取0.05~0.10;(3)灵敏度或2)。ROC曲线上最靠近左上方的点对应的截点值即特异度的估计值,用灵敏度的估计值计算病例组样本为最佳截点值。ROC曲线下面积反映了诊断试验的量,用特异度的估计值计算对照组样本量。准确性,取值范围在0.5~1.0。ROC曲线越向左上样本量的计算公式:n=UP(1 偏,曲线下面积越大,该诊断试验的准确性越高。因公式中U。为正态分布中累积概率为α/2时的此,除可用于确立截点值外,ROC曲线还可比较两 U值(Uas=1.960,Ua=2.576),δ为容许误个或以上独立诊断试验的准确性,如图2中诊断试验差,P为灵敏度或特异度的估计值。此外,诊断试1的准确性优于诊断试验2。ROC曲线简单、直观, 验样本量还可通过LR、受试者工作特征( recelver是确定诊断试验截点值较为常用的方法。(4)结合 operator characteristic,ROC)曲线下面积等参数进专业实际进行临床判断:按照大量临床观察或系列追行估算[112l 踪观察某些致病因素对健康损害的阈值,作为诊断正 1.5同步盲法比较诊断试验与金标准结果常水平的界值进行诊断试验准确性研究时,所有研究对象均应接受金标准诊断和待评价试验检测,与金标准的结果应在同样的病例中获得,且尽可能同步进行如果二者间隔时间过长,则病例的状态可能会发生改变。此外应使用盲法独立评价诊断试验与金标准的结果,以预防偏倚、先入为主以及检验以外的其他信息对判断的影响。诊断试验准确性研究的盲法是指待评价诊断试验的结果判断者不应知道金标准试验1 结果,即不应知道研究对象是“有病”还是“无试验2 病”;金标准结果判断者不应知道待评价诊断试验 00.20.40,60.81.0 的结果。研究显示,未使用盲法可能高估准确 1-特异度性。此外,为避免测量偏倚,诊断试验与金标图2受试者工作特征曲线准的判断者应对其他临床信息或检测结果不知 8 January, 2020

协和医学杂志９８Ｊａｎｕａｒｙꎬ ２０２０混淆[８] ꎮ 因此ꎬ 选择研究对象时ꎬ 应包括上述所有患者ꎬ 以保证足够的代表性ꎮ 当纳入患者不具有代表性时ꎬ 可导致疾病谱偏倚 (ｓｐｅｃｔｒｕｍｂｉａｓ) [９] ꎮ 选择诊断明确的患者和健康人作为研究对象仅适用于诊断试验准确性评价的初期ꎬ 一方面ꎬ 诊断试验识别疾病晚期或病情严重患者的效力可能优于疾病早期或病情轻微的患者ꎻ 另一方面ꎬ 医生几乎无须用诊断试验区分健康人与已确诊的严重疾病患者ꎮ 因此ꎬ 如果选择严重疾病患者和健康人作为研究对象构成病例对照研究设计ꎬ 会高估诊断试验的准确性[１０] ꎮ 在临床工作中ꎬ 纳入连续疾病谱的患者对获得准确的灵敏度和特异度估计极其重要ꎬ 而这一点非常容易被研究者忽略ꎮ 研究对象纳入和排除标准的确定应结合临床实际ꎬ 根据构建的研究问题定义目标总体的主要特征ꎬ 注意外推性的同时兼顾可行性ꎮ １􀆰 ４估算样本量诊断试验准确性研究样本量的大小与下列参数有关: (１) 显著性水平 αꎬ α 值越小ꎬ 所需样本量越大ꎮ α 通常取０􀆰 ０５ꎻ (２) 容许误差 δꎬ δ 值越小ꎬ 所需样本量越大ꎬ δ 通常取０􀆰 ０５~ ０􀆰 １０ꎻ (３) 灵敏度或特异度的估计值ꎬ 用灵敏度的估计值计算病例组样本量ꎬ 用特异度的估计值计算对照组样本量ꎮ 样本量的计算公式: ｎ＝Ｕα ２Ｐ (１－Ｐ) / δ ２公式中Ｕα 为正态分布中累积概率为 α / ２时的Ｕ值 ( Ｕ０􀆰 ０５＝１􀆰 ９６０ꎬ Ｕ０􀆰 ０１＝２􀆰 ５７６ ) ꎬ δ 为容许误差ꎬ Ｐ为灵敏度或特异度的估计值ꎮ 此外ꎬ 诊断试验样本量还可通过ＬＲ、受试者工作特征 ( ｒｅｃｅｉｖｅｒｏｐｅｒａｔｏｒｃｈａｒａｃｔｅｒｉｓｔｉｃꎬ ＲＯＣ) 曲线下面积等参数进行估算[１１￣１２] ꎮ １􀆰 ５同步盲法比较诊断试验与金标准结果进行诊断试验准确性研究时ꎬ 所有研究对象均应接受金标准诊断和待评价试验检测ꎬ 与金标准的结果应在同样的病例中获得ꎬ 且尽可能同步进行ꎮ 如果二者间隔时间过长ꎬ 则病例的状态可能会发生改变ꎮ 此外应使用盲法独立评价诊断试验与金标准的结果ꎬ 以预防偏倚、先入为主以及检验以外的其他信息对判断的影响ꎮ 诊断试验准确性研究的盲法是指待评价诊断试验的结果判断者不应知道金标准结果ꎬ 即不应知道研究对象是 “ 有病” 还是 “ 无病” ꎻ 金标准结果判断者不应知道待评价诊断试验的结果ꎮ 研究显示ꎬ 未使用盲法可能高估准确性[１３] ꎮ 此外ꎬ 为避免测量偏倚ꎬ 诊断试验与金标准的判断者应对其他临床信息或检测结果不知情[９] ꎮ 例如ꎬ 评价胸片诊断肺部结节的准确性ꎬ 若读片者事先看到了患者胸部ＣＴ上的结节影ꎬ 可能会先入为主ꎬ 读片更加仔细ꎬ 甚至在同一部位发现之前忽略的结节影ꎮ １􀆰 ６确立最佳截点值评价诊断试验准确性时ꎬ 需将试验结果按照阳性和阴性进行分类ꎬ 故需要一个判断标准ꎮ 许多诊断试验ꎬ 尤其是实验室检测ꎬ 其测量结果多为连续性变量ꎮ 对于连续性变量ꎬ 需要选择区分正常与异常的截点值 (ｃｕｔ￣ｏｆｆｐｏｉｎｔ)ꎬ 即界值ꎮ 诊断试验中确定最佳截点值的方法包括: (１) 均数±标准差法: 当测量值为正态分布时ꎬ 双侧正常值范围常用 “均数±１􀆰 ９６标准差” 界定ꎻ 单侧则用 “ 均数＋１􀆰 ６４标准差” 或 “均数－１􀆰 ６４标准差” 界定ꎮ (２) 百分位数法: 当测量值为偏态分布或分布类型尚不能确定时ꎬ 双侧正常值范围常用 “ Ｐ２􀆰 ５ ~ Ｐ９７􀆰 ５ ” 界定ꎻ 单侧用 “ Ｐ９５ ” 或 “Ｐ５ ” 界定ꎮ (３) ＲＯＣ曲线法: 诊断试验的结果为连续性变量时ꎬ 依照不同截点值可分别计算出灵敏度和特异度ꎬ 以诊断试验的灵敏度为纵坐标、以１－特异度为横坐标ꎬ 绘制成连续曲线ꎬ 即为ＲＯＣ曲线 (图２)ꎮ ＲＯＣ曲线上最靠近左上方的点对应的截点值即为最佳截点值ꎮ ＲＯＣ曲线下面积反映了诊断试验的准确性ꎬ 取值范围在０􀆰 ５~ １􀆰 ０ꎮ ＲＯＣ曲线越向左上偏ꎬ 曲线下面积越大ꎬ 该诊断试验的准确性越高ꎮ 因此ꎬ 除可用于确立截点值外ꎬ ＲＯＣ曲线还可比较两个或以上独立诊断试验的准确性ꎬ 如图２中诊断试验１的准确性优于诊断试验２ꎮ ＲＯＣ曲线简单、直观ꎬ 是确定诊断试验截点值较为常用的方法ꎮ (４) 结合专业实际进行临床判断: 按照大量临床观察或系列追踪观察某些致病因素对健康损害的阈值ꎬ 作为诊断正常水平的界值ꎮ 图２受试者工作特征曲线

诊断试验准确性研究设计及临床应用 1.7绘制四格表,评价诊断准确性率的比值,PLR=Sen/(1-spe)=[a/(a+c)]/ 依据金标准诊断可将研究对象划分为“有病”[b(b+d)];阴性似然比( negative lr,NLR)是或“无病”;依据待评价诊断试验的结果可将研究对假阴性率和真阴性率的比值,NLR=(1-Sen)/Spe 象划分为检测“阳性”或检测“阴性”。以金标准诊=[e/(a+e)]/[d(b+d)]。似然比利用了诊断为列,待评价的诊断试验结果为行,可绘制四格表断试验的全部信息,不受患病率影响,可用于估计单 (表1)。个患者的疾病概率 1.8论文报告表1诊断试验四格表诊断试验的结果解释应结合临床实际,结论金标准诊断诊断试验合计要客观真实。推荐遵循诊断准确性研究报告规范 Standards for Reporting of Diagnostic Accuracy, STARD) 真阳性(a)假阳性(b) 进行论文报告。 STARD于2003年发表,旨在提高诊断假阴性(c)真阴性(d) 试验的报告质量;2015年发布了更新版本,对2003 合计 a+b+e+d 版 STARD的清单条目和流程图进行了修订增补。 a.真阳性,指金标准诊断为“有病”且诊断试验结果是“阳性”的例其中文译文和相关解读也已发表2。数;b.假阳性,指金标准诊断为“无病”但诊断试验结果是“阳性” 性”的例数;d真阴性,指金标淮诊断为“无病”且诊断试验结果是2诊断试验结果的临床应用 “阴性”的例数对于临床医生而言,非常重要的问题是:如何灵敏度(以Sen表示),即真阳性率,是金标准将某项诊断试验准确性研究的结果应用于自己的患诊断为“有病”的研究对象中,诊断试验结果是者?回答这个问题之前,需要明确两点:(1)该诊阳性”的比例,反映了诊断试验识别疾病的能力。断试验的结果是否准确可靠?如研究问题明确、设灵敏度只与病例组有关,Sen=a(a+c)。特异度计科学严谨、金标准和研究对象选择合理、采用盲 (以spe表示),即真阴性率,是金标准诊断为“无法、检测结果稳定可重复,则较为准确可靠。可应病”的研究对象中,诊断试验结果是“阴性”的比用诊断试验准确性研究的质量评价工具( Quality 例,反映识别无病的能力。特异度只与对照组有关, Assessment of Diagnostic Accuracy Studies, QUADAS) pe=d(b+d)。一项汇总了23项Mea分析的研究对偏倚风险进行评估{2)。(2)该诊断试验是否显示,诊断试验的灵敏度和特异度会随疾病患病率而适用于自己的患者?如所处的医疗环境与该诊断试变化,特异度会随着患病率的升高而降低。灵敏验实施的环境相似,且患者符合该研究的纳入标度和特异度是诊断试验的重要指标,但无法帮助临床准,则较为适用。医生估计单个患者的疾病概率。 2.1由验前概率获得验后概率 PV,是应用诊断试验的结果来估计研究对象有当医生接诊一例患者,综合病史、体格检查以及病或无病可能性的大小。阳性预测值( positive PV,已有的化验结果会形成初步诊断,此时临床分析估计 PPⅤ)是诊断试验结果为阳性者中“有病”者所占所得的疾病概率称之为验前概率( pretest probabili 的比例,PPⅤ=a/(a+b);阴性预测值( negative ty)2],在此基础上,医生进行某项诊断试验,检测 PV,NPV)是诊断试验结果为阴性者中“无病”者结果可能会提高或降低初步诊断的可能性,此时的疾的比例,NPⅤ=d(c+d)。预测值可用于估计疾病的病概率称之为验后概率( posttest probability)。诊断概率,但会随患病率的变化而变化。因此,当临床医试验的LR3帮助医生从验前概率得到验后概率,IR 生面临的患者群体与已发表文献中研究对象的患病率的大小表明某个诊断试验的结果将会提高或降低目标不同时,不可将文献中的预测值数据直接应用于自己疾病验前概率的程度。的患者应用LR由验前概率获得验后概率包括以下几 LR,是诊断试验的某种结果(阳性或阴性)在种方法:(1)计算法:验前比值=验前概率′(1 有病”组中出现的概率与“无病”组中岀现的概率验前概率),验后比值=验前比值ⅹ似然比,验后概之比。是患者“有病”与“无病”概率的比值。阳率=验后比值/(1+验后比值);(2)诺模图法[21 性似然比( positive LR,PLR)是真阳性率和假阳性左栏代表验前概率,中间栏代表LR,右栏代表验 VoL. 11 No. 1 99

诊断试验准确性研究设计及临床应用Ｖｏｌ􀆰 １１Ｎｏ􀆰 １９９１􀆰 ７绘制四格表ꎬ 评价诊断准确性依据金标准诊断可将研究对象划分为 “ 有病” 或 “无病”ꎻ 依据待评价诊断试验的结果可将研究对象划分为检测 “阳性” 或检测 “阴性”ꎮ 以金标准诊断为列ꎬ 待评价的诊断试验结果为行ꎬ 可绘制四格表 (表１)ꎮ 表１诊断试验四格表诊断试验金标准诊断有病无病合计阳性真阳性 (ａ) 假阳性 (ｂ) ａ＋ｂ阴性假阴性 (ｃ) 真阴性 (ｄ) ｃ＋ｄ合计ａ＋ｃｂ＋ｄａ＋ｂ＋ｃ＋ｄａ􀆰 真阳性ꎬ 指金标准诊断为 “有病” 且诊断试验结果是 “阳性” 的例数ꎻ ｂ􀆰 假阳性ꎬ 指金标准诊断为 “无病” 但诊断试验结果是 “阳性” 的例数ꎻ ｃ􀆰 假阴性ꎬ 指金标准诊断为 “有病” 但诊断试验结果是 “阴性” 的例数ꎻ ｄ􀆰 真阴性ꎬ 指金标准诊断为 “无病” 且诊断试验结果是 “阴性” 的例数灵敏度 (以Ｓｅｎ表示)ꎬ 即真阳性率ꎬ 是金标准诊断为 “ 有病” 的研究对象中ꎬ 诊断试验结果是 “阳性” 的比例ꎬ 反映了诊断试验识别疾病的能力ꎮ 灵敏度只与病例组有关ꎬ Ｓｅｎ＝ａ / ( ａ＋ｃ)ꎮ 特异度 (以Ｓｐｅ表示)ꎬ 即真阴性率ꎬ 是金标准诊断为 “无病” 的研究对象中ꎬ 诊断试验结果是 “阴性” 的比例ꎬ 反映识别无病的能力ꎮ 特异度只与对照组有关ꎬ Ｓｐｅ＝ｄ / (ｂ＋ｄ)ꎮ 一项汇总了２３项Ｍｅｔａ分析的研究显示ꎬ 诊断试验的灵敏度和特异度会随疾病患病率而变化ꎬ 特异度会随着患病率的升高而降低[１４] ꎮ 灵敏度和特异度是诊断试验的重要指标ꎬ 但无法帮助临床医生估计单个患者的疾病概率[１５] ꎮ ＰＶꎬ 是应用诊断试验的结果来估计研究对象有病或无病可能性的大小ꎮ 阳性预测值 ( ｐｏｓｉｔｉｖｅＰＶꎬ ＰＰＶ) 是诊断试验结果为阳性者中 “有病” 者所占的比例ꎬ ＰＰＶ＝ａ / ( ａ＋ｂ)ꎻ 阴性预测值 ( ｎｅｇａｔｉｖｅＰＶꎬ ＮＰＶ) 是诊断试验结果为阴性者中 “无病” 者的比例ꎬ ＮＰＶ＝ｄ / (ｃ＋ｄ)ꎮ 预测值可用于估计疾病的概率ꎬ 但会随患病率的变化而变化ꎮ 因此ꎬ 当临床医生面临的患者群体与已发表文献中研究对象的患病率不同时ꎬ 不可将文献中的预测值数据直接应用于自己的患者[１５] ꎮ ＬＲꎬ 是诊断试验的某种结果 (阳性或阴性) 在 “有病” 组中出现的概率与 “无病” 组中出现的概率之比ꎮ 是患者 “有病” 与 “无病” 概率的比值ꎮ 阳性似然比 ( ｐｏｓｉｔｉｖｅＬＲꎬ ＰＬＲ) 是真阳性率和假阳性率的比值ꎬ ＰＬＲ＝Ｓｅｎ / (１－Ｓｐｅ) ＝ [ ａ / ( ａ＋ｃ) ] / [ｂ / (ｂ＋ｄ) ]ꎻ 阴性似然比 ( ｎｅｇａｔｉｖｅＬＲꎬ ＮＬＲ) 是假阴性率和真阴性率的比值ꎬ ＮＬＲ＝ (１－Ｓｅｎ) / Ｓｐｅ＝ [ｃ / (ａ＋ｃ) ] / [ ｄ / ( ｂ＋ｄ) ]ꎮ 似然比利用了诊断试验的全部信息ꎬ 不受患病率影响ꎬ 可用于估计单个患者的疾病概率[１６] ꎮ １􀆰 ８论文报告诊断试验的结果解释应结合临床实际ꎬ 结论要客观真实ꎮ 推荐遵循诊断准确性研究报告规范 (ＳｔａｎｄａｒｄｓｆｏｒＲｅｐｏｒｔｉｎｇｏｆＤｉａｇｎｏｓｔｉｃＡｃｃｕｒａｃｙꎬ ＳＴＡＲＤ) 进行论文报告ꎮ ＳＴＡＲＤ于２００３年发表ꎬ 旨在提高诊断试验的报告质量[１７] ꎻ ２０１５年发布了更新版本ꎬ 对２００３版ＳＴＡＲＤ的清单条目和流程图进行了修订增补[１８] ꎮ 其中文译文和相关解读也已发表[１９￣２１] ꎮ ２诊断试验结果的临床应用对于临床医生而言ꎬ 非常重要的问题是: 如何将某项诊断试验准确性研究的结果应用于自己的患者? 回答这个问题之前ꎬ 需要明确两点: (１) 该诊断试验的结果是否准确可靠? 如研究问题明确、设计科学严谨、金标准和研究对象选择合理、采用盲法、检测结果稳定可重复ꎬ 则较为准确可靠ꎮ 可应用诊断试验准确性研究的质量评价工具 ( ＱｕａｌｉｔｙＡｓｓｅｓｓｍｅｎｔｏｆＤｉａｇｎｏｓｔｉｃＡｃｃｕｒａｃｙＳｔｕｄｉｅｓꎬ ＱＵＡＤＡＳ) 对偏倚风险进行评估[２２￣２３] ꎮ ( ２) 该诊断试验是否适用于自己的患者? 如所处的医疗环境与该诊断试验实施的环境相似ꎬ 且患者符合该研究的纳入标准ꎬ 则较为适用ꎮ ２􀆰 １由验前概率获得验后概率当医生接诊一例患者ꎬ 综合病史、体格检查以及已有的化验结果会形成初步诊断ꎬ 此时临床分析估计所得的疾病概率称之为验前概率 ( ｐｒｅｔｅｓｔｐｒｏｂａｂｉｌｉ￣ｔｙ) [２５] ꎬ 在此基础上ꎬ 医生进行某项诊断试验ꎬ 检测结果可能会提高或降低初步诊断的可能性ꎬ 此时的疾病概率称之为验后概率 ( ｐｏｓｔｔｅｓｔｐｒｏｂａｂｉｌｉｔｙ)ꎮ 诊断试验的ＬＲ [３]帮助医生从验前概率得到验后概率ꎬ ＬＲ的大小表明某个诊断试验的结果将会提高或降低目标疾病验前概率的程度ꎮ 应用ＬＲ由验前概率获得验后概率包括以下几种方法: ( １) 计算法: 验前比值＝验前概率 / ( １－验前概率) ꎬ 验后比值＝验前比值×似然比ꎬ 验后概率＝验后比值 / (１＋验后比值) ꎻ (２) 诺模图法[２６] : 左栏代表验前概率ꎬ 中间栏代表ＬＲꎬ 右栏代表验

协和医学杂志后概率,将验前概率和LR对应的数值连线并延长,发现。即可得到验后概率(图3);(3)软件法:通过网患者符合经典型不明原因发热( fever of unkno 址htp://mea.che. net/clint/templates/! calculators/lr- ongin,HUO)定义,总结临床问题:结核感染T细胞 nomogram.∞sp,输入验前概率及LR的数值,即可获检测对经典型FUO患者的诊断准确性如何?文献检得验后概率。索到2016年发表的一项研究——“结核感染T细胞 0.1 检测在结核高流行区对FUO病因诊断价值”{。通过仔细阅读文献,充分评估偏倚风险,认为该研究结果可信,且硏究场所、临床情况、硏究人群的年龄性别等描述均与患者相符,研究结果可用于该患者。此项研究中,未获得病原学证据的临床诊断结核病患者结核感染T细胞检测的PIR为4.24。应用诺模图法 600000 获得诊断结核病的验后概率为81%(图3)。据此, 加用诊断性抗结核治疗,1个月后患者体温正常,无其他不适,复查显示红细胞沉降率和C反应蛋白逐渐降至正常。继续规范抗结核治疗,总疗程1年。最终诊断:结核菌感染(部位未明确)。 3小结诊断试验准确性研究遵循通用的临床研究设计理念,如 PICOS原则构建研究问题、选择有代表性的险前概率似然比验后概率研究对象、估算样本量、采用盲法、依规范进行论文图3诺模图报告等,但也有其独特之处,如确定诊断金标准、确将验前概率与似然比对应的数值连线并延长,即可得立最佳截点值以及计算诊断准确性参数等。在研究设到验后概率计过程中,应注意控制偏倚,使得研究结果准确且能够外推。需特别注意的是,在应用IR帮助临床诊断 2.2临床场景模拟时,除评价证据质量外,应充分评估研究结果是否适患者女性,68岁,发热3个月,峰值体温39℃,用于接诊患者,否则可能误导诊断。体温多波动在37~38.5℃,伴盗汗,午后及夜间为著。伴咳嗽,干咳为主,偶有少量白色泡沫样痰。参考文献当地医院查红细胞沉降率为65mm/h,C反应蛋白为13.7mg/L;胸片正常;EB病毒、巨细胞病毒、[l] Yerushalmy J. Statistical problems in assessing methods of 支原体、衣原体等相关检测无明显异常。诊断“病 medical diagnosis, with special reference to X-ray techniques 毒感染”,予以莫西沙星、感冒清热冲剂等药物治 [J. Public Health Rep, 1947, 62: 1432-1449 疗,效果不佳。2年前诊断糖尿病。父亲患陈旧性[2]eci. Predictive value of a single diagnostic test in un. 肺结核。 selected populations [J]. N Engl J Med, 1966, 274 分析患者病情:老年女性,午后低热伴盗汗,炎 171-1173 症指标升高,既往糖尿病史,父亲患陈旧性肺结核。 [3 Grimes DA, Schulz KF Refining clinical diagnosis with like- lihood ratios [J]. Lancet, 2005, 365: 1500-1505 怀疑患者为结核菌感染,但未发现明确的结核病υ。[4] Sackett DL, Haynes RB. The architecture of diagnostic 依据现有证据,估计患者患结核病的概率为50%。 search[J].BMJ,2002,324:539-541. 但仍需与其他感染、肿瘤及自身免疫性疾病相鉴别。[5] Limmer Je, Mol bw, Heisterkamp S,etal. Empirical evi- 进一步完善相关检查,结核感染T细胞检测的结果为 lence of design- related bias in studies of diagnostic tests 每百万个外周血单个核细胞中存在680个斑点形成细 ].JAMA,199,282:1061-106 胞,提示存在结核感染。除此之外,无其他阳性[6] Glasziou h, Irig L, Deeks J. When should a new test be. 100 January, 2020

协和医学杂志１００Ｊａｎｕａｒｙꎬ ２０２０后概率ꎬ 将验前概率和ＬＲ对应的数值连线并延长ꎬ 即可得到验后概率 (图３) ꎻ ( ３) 软件法: 通过网址ｈｔｔｐ: / / ｍｅｔａ􀆰 ｃｃｈｅ􀆰 ｎｅｔ / ｃｌｉｎｔ / ｔｅｍｐｌａｔｅｓ/ ｃａｌｃｕｌａｔｏｒｓ/ ｌｒ＿ｎｏｍｏｇｒａｍ􀆰 ａｓｐꎬ 输入验前概率及ＬＲ的数值ꎬ 即可获得验后概率ꎮ 图３诺模图将验前概率与似然比对应的数值连线并延长ꎬ 即可得到验后概率２􀆰 ２临床场景模拟患者女性ꎬ ６８岁ꎬ 发热３个月ꎬ 峰值体温３９ ℃ ꎬ 体温多波动在３７ ~ ３８􀆰 ５ ℃ ꎬ 伴盗汗ꎬ 午后及夜间为著ꎮ 伴咳嗽ꎬ 干咳为主ꎬ 偶有少量白色泡沫样痰ꎮ 当地医院查红细胞沉降率为６５ｍｍ / ｈꎬ Ｃ反应蛋白为１３􀆰 ７ｍｇ / Ｌꎻ 胸片正常ꎻ ＥＢ病毒、巨细胞病毒、支原体、衣原体等相关检测无明显异常ꎮ 诊断 “病毒感染” ꎬ 予以莫西沙星、感冒清热冲剂等药物治疗ꎬ 效果不佳ꎮ ２年前诊断糖尿病ꎮ 父亲患陈旧性肺结核ꎮ 分析患者病情: 老年女性ꎬ 午后低热伴盗汗ꎬ 炎症指标升高ꎬ 既往糖尿病史ꎬ 父亲患陈旧性肺结核ꎮ 怀疑患者为结核菌感染ꎬ 但未发现明确的结核病灶ꎮ 依据现有证据ꎬ 估计患者患结核病的概率为５０％ꎮ 但仍需与其他感染、肿瘤及自身免疫性疾病相鉴别ꎮ 进一步完善相关检查ꎬ 结核感染Ｔ细胞检测的结果为每百万个外周血单个核细胞中存在６８０个斑点形成细胞ꎬ 提示存在结核感染ꎮ 除此之外ꎬ 无其他阳性发现ꎮ 患者符合经典型不明原因发热 ( ｆｅｖｅｒｏｆｕｎｋｎｏｗｎｏｒｉｇｉｎꎬ ＦＵＯ) 定义ꎬ 总结临床问题: 结核感染Ｔ细胞检测对经典型ＦＵＯ患者的诊断准确性如何? 文献检索到２０１６年发表的一项研究——— “结核感染Ｔ细胞检测在结核高流行区对ＦＵＯ病因诊断价值” [２７] ꎮ 通过仔细阅读文献ꎬ 充分评估偏倚风险ꎬ 认为该研究结果可信ꎬ 且研究场所、临床情况、研究人群的年龄性别等描述均与患者相符ꎬ 研究结果可用于该患者ꎮ 此项研究中ꎬ 未获得病原学证据的临床诊断结核病患者结核感染Ｔ细胞检测的ＰＬＲ为４􀆰 ２４ꎮ 应用诺模图法ꎬ 获得诊断结核病的验后概率为８１％ (图３)ꎮ 据此ꎬ 加用诊断性抗结核治疗ꎬ １个月后患者体温正常ꎬ 无其他不适ꎬ 复查显示红细胞沉降率和Ｃ反应蛋白逐渐降至正常ꎮ 继续规范抗结核治疗ꎬ 总疗程１年ꎮ 最终诊断: 结核菌感染 (部位未明确)ꎮ ３小结诊断试验准确性研究遵循通用的临床研究设计理念ꎬ 如ＰＩＣＯＳ原则构建研究问题、选择有代表性的研究对象、估算样本量、采用盲法、依规范进行论文报告等ꎬ 但也有其独特之处ꎬ 如确定诊断金标准、确立最佳截点值以及计算诊断准确性参数等ꎮ 在研究设计过程中ꎬ 应注意控制偏倚ꎬ 使得研究结果准确且能够外推ꎮ 需特别注意的是ꎬ 在应用ＬＲ帮助临床诊断时ꎬ 除评价证据质量外ꎬ 应充分评估研究结果是否适用于接诊患者ꎬ 否则可能误导诊断ꎮ 参考文献 [１] ＹｅｒｕｓｈａｌｍｙＪ. Ｓｔａｔｉｓｔｉｃａｌｐｒｏｂｌｅｍｓｉｎａｓｓｅｓｓｉｎｇｍｅｔｈｏｄｓｏｆｍｅｄｉｃａｌｄｉａｇｎｏｓｉｓꎬ ｗｉｔｈｓｐｅｃｉａｌｒｅｆｅｒｅｎｃｅｔｏＸ￣ｒａｙｔｅｃｈｎｉｑｕｅｓ [Ｊ]. ＰｕｂｌｉｃＨｅａｌｔｈＲｅｐꎬ １９４７ꎬ ６２: １４３２￣１４４９. [２] ＶｅｃｃｈｉｏＴＪ. Ｐｒｅｄｉｃｔｉｖｅｖａｌｕｅｏｆａｓｉｎｇｌｅｄｉａｇｎｏｓｔｉｃｔｅｓｔｉｎｕｎ￣ｓｅｌｅｃｔｅｄｐｏｐｕｌａｔｉｏｎｓ [ Ｊ ]. ＮＥｎｇｌＪＭｅｄꎬ １９６６ꎬ ２７４: １１７１￣１１７３. [３] ＧｒｉｍｅｓＤＡꎬ ＳｃｈｕｌｚＫＦ. Ｒｅｆｉｎｉｎｇｃｌｉｎｉｃａｌｄｉａｇｎｏｓｉｓｗｉｔｈｌｉｋｅ￣ｌｉｈｏｏｄｒａｔｉｏｓ [Ｊ]. Ｌａｎｃｅｔꎬ ２００５ꎬ ３６５: １５００￣１５０５. [４] ＳａｃｋｅｔｔＤＬꎬ ＨａｙｎｅｓＲＢ. Ｔｈｅａｒｃｈｉｔｅｃｔｕｒｅｏｆｄｉａｇｎｏｓｔｉｃｒｅ￣ｓｅａｒｃｈ [Ｊ]. ＢＭＪꎬ ２００２ꎬ ３２４: ５３９￣５４１. [５] ＬｉｊｍｅｒＪＧꎬ ＭｏｌＢＷꎬ ＨｅｉｓｔｅｒｋａｍｐＳꎬ ｅｔａｌ. Ｅｍｐｉｒｉｃａｌｅｖｉ￣ｄｅｎｃｅｏｆｄｅｓｉｇｎ￣ｒｅｌａｔｅｄｂｉａｓｉｎｓｔｕｄｉｅｓｏｆｄｉａｇｎｏｓｔｉｃｔｅｓｔｓ [Ｊ]. ＪＡＭＡꎬ １９９９ꎬ ２８２: １０６１￣１０６６. [６] ＧｌａｓｚｉｏｕＰꎬ ＩｒｗｉｇＬꎬ ＤｅｅｋｓＪＪ. Ｗｈｅｎｓｈｏｕｌｄａｎｅｗｔｅｓｔｂｅ￣

诊断试验准确性研究设计及临床应用 come the current reference standard? [JJ. Ann Intern Med y: the STARD initiative [J]. BM, 2003, 326: 41-44. 2008,149:816-82 [18 Bossuyt PM, Reitsma JB, Bruns DE, et al. STARD 2015 [7] Worster A, Carpenter C. Incorporation bias in studies of di- an updated list of essential items for reporting diagnostic ac- agnostic tests: how to avoid being biased about bias [J] curacy studies [J]. BMJ, 2015, 351: h5527. CJEM,2008,10:174-17 [19]王波,詹思延如何撰写高质量的流行病学研究论文第 [8] Weiss NS Control definition in case-control studies of the ef- 三讲诊断试验准确性研究的报告规范一 STARD介绍 ficacy of screening and diagnostic testing [J]. Am J Epide. [J].中华流行病学杂志,2006,27:909-912 iol,1983,118:457-460. [20]朱一丹,李会娟,武阳丰.诊断准确性研究报告规范 [9 Whiting PF, Rutjes AW, Westwood ME, et al. A systematic ( STARD)2015介绍与解读[J].中国循证医学杂志 review classifies sources of bias and variation in diagnostic 2016.16:730-735 test accuracy studies[J]. J Clin Epidemiol,2013,66:[21]孙凤.医学研究报告规范解读[M].北京:北京大学医学出版社,2015:1 [10] Rutjes AW, Reitsma JB, Di Nisio M, et al. Evidence of bias [22] Whiting P, Rutjes AW, Reitsma JB, et al. The development [J].C 2006,174:469-476 diagnostic accuracy included in systematic reviews [J] [11] Hajian-Tilaki K. Sample size estimation in diagnostic test BMC Med Res methodol. 2003. 3. 25 studies of biomedical informatics [J]. J Biomed Inform, [23 Whiting PF, Rutjes AW, Westwood ME, et al. QUADAS-2 014,48:193-204. a revised tool for the quality assessment of diagnostic 12 Simel DL, Samsa GP, Matchar DB. Likelihood ratios with accuracy studies [J]. Ann Intern Med, 2011, 155 confidence: sample size estimation for diagnostic test studi [J].J Clin Epidemiol, 1991, 44: 763-770 [24 Schunemann H], Oxman AD, Brozek J, et al. Grading [13 Whiting P, Rutjes AW, Reitsma JB, et al. Sources of varia- tion and bias in studies of diagnostic accuracy: a systematic nostic tests and strategies [J]. BMJ, 2008, 336 review [J]. Ann Intern Med, 2004, 140: 189-202 1106·1110 [ 14] Leeflang MM, Rutjes AW, Reitsma JB, et al. Variation of a [25] Richardson WS. Where do pretest probabilities come from? test,'s sensitivity and specificity with dis [J]. Evid Based Med, 1999, 4: 68-69 CMAJ,2013,185:E537-E544 [26] Fagan TJ Letter: Nomogram for Bayes theorem [J]. N Engl [15] Akobeng AK. Understanding diagnostic tests 1: sensitivity JMed,1975,293:257 specificity and predictive values [J]. Acta Paediatr, 2007. [27] Shi X, Zhang L, Zhang Y, et al. Utility of T-Cell Interferon- 96:338-341. gamma Release Assays for Etiological Diagnosis of Classic [16] Akobeng AK. Understanding diagnostic tests 2 Fever of Unknown Origin in a High Tuberculosis Endemic ratios, pre- and post-test probabilities and the Area-a pilot prospective cohort [J]. PLos One, 2016 clinical practice [J]. Acta Paediatr, 2007, 96:487-49 ll:e0l46879. [17] Bossuyt PM, Reitsma JB, Bruns DE, et al. Towards complete and accurate reporting of studies of diagnostic accu- (收稿日期:2019-12-11) VoL. 1 No. 1 101

诊断试验准确性研究设计及临床应用Ｖｏｌ􀆰 １１Ｎｏ􀆰 １１０１ｃｏｍｅｔｈｅｃｕｒｒｅｎｔｒｅｆｅｒｅｎｃｅｓｔａｎｄａｒｄ? [Ｊ]. ＡｎｎＩｎｔｅｒｎＭｅｄꎬ ２００８ꎬ １４９: ８１６￣８２２. [７] ＷｏｒｓｔｅｒＡꎬ ＣａｒｐｅｎｔｅｒＣ. Ｉｎｃｏｒｐｏｒａｔｉｏｎｂｉａｓｉｎｓｔｕｄｉｅｓｏｆｄｉ￣ａｇｎｏｓｔｉｃｔｅｓｔｓ: ｈｏｗｔｏａｖｏｉｄｂｅｉｎｇｂｉａｓｅｄａｂｏｕｔｂｉａｓ [ Ｊ]. ＣＪＥＭꎬ ２００８ꎬ １０: １７４￣１７５. [８] ＷｅｉｓｓＮＳ. Ｃｏｎｔｒｏｌｄｅｆｉｎｉｔｉｏｎｉｎｃａｓｅ￣ｃｏｎｔｒｏｌｓｔｕｄｉｅｓｏｆｔｈｅｅｆ￣ｆｉｃａｃｙｏｆｓｃｒｅｅｎｉｎｇａｎｄｄｉａｇｎｏｓｔｉｃｔｅｓｔｉｎｇ [Ｊ]. ＡｍＪＥｐｉｄｅ￣ｍｉｏｌꎬ １９８３ꎬ １１８: ４５７￣４６０. [９] ＷｈｉｔｉｎｇＰＦꎬ ＲｕｔｊｅｓＡＷꎬ ＷｅｓｔｗｏｏｄＭＥꎬ ｅｔａｌ. Ａｓｙｓｔｅｍａｔｉｃｒｅｖｉｅｗｃｌａｓｓｉｆｉｅｓｓｏｕｒｃｅｓｏｆｂｉａｓａｎｄｖａｒｉａｔｉｏｎｉｎｄｉａｇｎｏｓｔｉｃｔｅｓｔａｃｃｕｒａｃｙｓｔｕｄｉｅｓ [ Ｊ]. ＪＣｌｉｎＥｐｉｄｅｍｉｏｌꎬ ２０１３ꎬ ６６: １０９３￣１１０４. [１０] ＲｕｔｊｅｓＡＷꎬ ＲｅｉｔｓｍａＪＢꎬ ＤｉＮｉｓｉｏＭꎬ ｅｔａｌ. Ｅｖｉｄｅｎｃｅｏｆｂｉａｓａｎｄｖａｒｉａｔｉｏｎｉｎｄｉａｇｎｏｓｔｉｃａｃｃｕｒａｃｙｓｔｕｄｉｅｓ [ Ｊ]. ＣＭＡＪꎬ ２００６ꎬ １７４: ４６９￣４７６. [１１] Ｈａｊｉａｎ￣ＴｉｌａｋｉＫ. Ｓａｍｐｌｅｓｉｚｅｅｓｔｉｍａｔｉｏｎｉｎｄｉａｇｎｏｓｔｉｃｔｅｓｔｓｔｕｄｉｅｓｏｆｂｉｏｍｅｄｉｃａｌｉｎｆｏｒｍａｔｉｃｓ [ Ｊ]. ＪＢｉｏｍｅｄＩｎｆｏｒｍꎬ ２０１４ꎬ ４８: １９３￣２０４. [１２] ＳｉｍｅｌＤＬꎬ ＳａｍｓａＧＰꎬ ＭａｔｃｈａｒＤＢ. Ｌｉｋｅｌｉｈｏｏｄｒａｔｉｏｓｗｉｔｈｃｏｎｆｉｄｅｎｃｅ: ｓａｍｐｌｅｓｉｚｅｅｓｔｉｍａｔｉｏｎｆｏｒｄｉａｇｎｏｓｔｉｃｔｅｓｔｓｔｕｄｉｅｓ [Ｊ]. ＪＣｌｉｎＥｐｉｄｅｍｉｏｌꎬ １９９１ꎬ ４４: ７６３￣７７０. [１３] ＷｈｉｔｉｎｇＰꎬ ＲｕｔｊｅｓＡＷꎬ ＲｅｉｔｓｍａＪＢꎬ ｅｔａｌ. Ｓｏｕｒｃｅｓｏｆｖａｒｉａ￣ｔｉｏｎａｎｄｂｉａｓｉｎｓｔｕｄｉｅｓｏｆｄｉａｇｎｏｓｔｉｃａｃｃｕｒａｃｙ: ａｓｙｓｔｅｍａｔｉｃｒｅｖｉｅｗ [Ｊ]. ＡｎｎＩｎｔｅｒｎＭｅｄꎬ ２００４ꎬ １４０: １８９￣２０２. [１４] ＬｅｅｆｌａｎｇＭＭꎬ ＲｕｔｊｅｓＡＷꎬ ＲｅｉｔｓｍａＪＢꎬ ｅｔａｌ. Ｖａｒｉａｔｉｏｎｏｆａｔｅｓｔ􀆳ｓｓｅｎｓｉｔｉｖｉｔｙａｎｄｓｐｅｃｉｆｉｃｉｔｙｗｉｔｈｄｉｓｅａｓｅｐｒｅｖａｌｅｎｃｅ [Ｊ]. ＣＭＡＪꎬ ２０１３ꎬ １８５: Ｅ５３７￣Ｅ５４４. [１５] ＡｋｏｂｅｎｇＡＫ. Ｕｎｄｅｒｓｔａｎｄｉｎｇｄｉａｇｎｏｓｔｉｃｔｅｓｔｓ１: ｓｅｎｓｉｔｉｖｉｔｙꎬ ｓｐｅｃｉｆｉｃｉｔｙａｎｄｐｒｅｄｉｃｔｉｖｅｖａｌｕｅｓ [Ｊ]. ＡｃｔａＰａｅｄｉａｔｒꎬ ２００７ꎬ ９６: ３３８￣３４１. [１６] ＡｋｏｂｅｎｇＡＫ. Ｕｎｄｅｒｓｔａｎｄｉｎｇｄｉａｇｎｏｓｔｉｃｔｅｓｔｓ２: ｌｉｋｅｌｉｈｏｏｄｒａｔｉｏｓꎬ ｐｒｅ￣ａｎｄｐｏｓｔ￣ｔｅｓｔｐｒｏｂａｂｉｌｉｔｉｅｓａｎｄｔｈｅｉｒｕｓｅｉｎｃｌｉｎｉｃａｌｐｒａｃｔｉｃｅ [Ｊ]. ＡｃｔａＰａｅｄｉａｔｒꎬ ２００７ꎬ ９６: ４８７￣４９１. [１７] ＢｏｓｓｕｙｔＰＭꎬ ＲｅｉｔｓｍａＪＢꎬ ＢｒｕｎｓＤＥꎬ ｅｔａｌ. Ｔｏｗａｒｄｓｃｏｍｐｌｅｔｅａｎｄａｃｃｕｒａｔｅｒｅｐｏｒｔｉｎｇｏｆｓｔｕｄｉｅｓｏｆｄｉａｇｎｏｓｔｉｃａｃｃｕ￣ｒａｃｙ: ｔｈｅＳＴＡＲＤｉｎｉｔｉａｔｉｖｅ [Ｊ]. ＢＭＪꎬ ２００３ꎬ ３２６: ４１￣４４. [１８] ＢｏｓｓｕｙｔＰＭꎬ ＲｅｉｔｓｍａＪＢꎬ ＢｒｕｎｓＤＥꎬ ｅｔａｌ. ＳＴＡＲＤ２０１５: ａｎｕｐｄａｔｅｄｌｉｓｔｏｆｅｓｓｅｎｔｉａｌｉｔｅｍｓｆｏｒｒｅｐｏｒｔｉｎｇｄｉａｇｎｏｓｔｉｃａｃ￣ｃｕｒａｃｙｓｔｕｄｉｅｓ [Ｊ]. ＢＭＪꎬ ２０１５ꎬ ３５１: ｈ５５２７. [１９] 王波ꎬ 詹思延. 如何撰写高质量的流行病学研究论文第三讲诊断试验准确性研究的报告规范———ＳＴＡＲＤ介绍 [Ｊ]. 中华流行病学杂志ꎬ ２００６ꎬ ２７: ９０９￣９１２. [２０] 朱一丹ꎬ 李会娟ꎬ 武阳丰. 诊断准确性研究报告规范 (ＳＴＡＲＤ) ２０１５介绍与解读 [ Ｊ]. 中国循证医学杂志ꎬ ２０１６ꎬ １６: ７３０￣７３５. [２１] 孙凤. 医学研究报告规范解读 [Ｍ]. 北京: 北京大学医学出版社ꎬ ２０１５: １８１￣１８８. [２２] ＷｈｉｔｉｎｇＰꎬ ＲｕｔｊｅｓＡＷꎬ ＲｅｉｔｓｍａＪＢꎬ ｅｔａｌ. ＴｈｅｄｅｖｅｌｏｐｍｅｎｔｏｆＱＵＡＤＡＳ: ａｔｏｏｌｆｏｒｔｈｅｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｏｆｓｔｕｄｉｅｓｏｆｄｉａｇｎｏｓｔｉｃａｃｃｕｒａｃｙｉｎｃｌｕｄｅｄｉｎｓｙｓｔｅｍａｔｉｃｒｅｖｉｅｗｓ [ Ｊ ]. ＢＭＣＭｅｄＲｅｓＭｅｔｈｏｄｏｌꎬ ２００３ꎬ ３: ２５. [２３] ＷｈｉｔｉｎｇＰＦꎬ ＲｕｔｊｅｓＡＷꎬ ＷｅｓｔｗｏｏｄＭＥꎬ ｅｔａｌ. ＱＵＡＤＡＳ￣２: ａｒｅｖｉｓｅｄｔｏｏｌｆｏｒｔｈｅｑｕａｌｉｔｙａｓｓｅｓｓｍｅｎｔｏｆｄｉａｇｎｏｓｔｉｃａｃｃｕｒａｃｙｓｔｕｄｉｅｓ [ Ｊ ]. ＡｎｎＩｎｔｅｒｎＭｅｄꎬ ２０１１ꎬ １５５: ５２９￣５３６. [２４] ＳｃｈｕｎｅｍａｎｎＨＪꎬ ＯｘｍａｎＡＤꎬ ＢｒｏｚｅｋＪꎬ ｅｔａｌ. Ｇｒａｄｉｎｇｑｕａｌｉｔｙｏｆｅｖｉｄｅｎｃｅａｎｄｓｔｒｅｎｇｔｈｏｆｒｅｃｏｍｍｅｎｄａｔｉｏｎｓｆｏｒｄｉａｇ￣ｎｏｓｔｉｃｔｅｓｔｓａｎｄｓｔｒａｔｅｇｉｅｓ [ Ｊ ]. ＢＭＪꎬ ２００８ꎬ ３３６: １１０６￣１１１０. [２５] ＲｉｃｈａｒｄｓｏｎＷＳ. Ｗｈｅｒｅｄｏｐｒｅｔｅｓｔｐｒｏｂａｂｉｌｉｔｉｅｓｃｏｍｅｆｒｏｍ? [Ｊ]. ＥｖｉｄＢａｓｅｄＭｅｄꎬ １９９９ꎬ ４: ６８￣６９. [２６] ＦａｇａｎＴＪ. Ｌｅｔｔｅｒ: ＮｏｍｏｇｒａｍｆｏｒＢａｙｅｓｔｈｅｏｒｅｍ [Ｊ]. ＮＥｎｇｌＪＭｅｄꎬ １９７５ꎬ ２９３: ２５７. [２７] ＳｈｉＸꎬ ＺｈａｎｇＬꎬ ＺｈａｎｇＹꎬ ｅｔａｌ. ＵｔｉｌｉｔｙｏｆＴ￣ＣｅｌｌＩｎｔｅｒｆｅｒｏｎ￣ｇａｍｍａＲｅｌｅａｓｅＡｓｓａｙｓｆｏｒＥｔｉｏｌｏｇｉｃａｌＤｉａｇｎｏｓｉｓｏｆＣｌａｓｓｉｃＦｅｖｅｒｏｆＵｎｋｎｏｗｎＯｒｉｇｉｎｉｎａＨｉｇｈＴｕｂｅｒｃｕｌｏｓｉｓＥｎｄｅｍｉｃＡｒｅａ—ａｐｉｌｏｔｐｒｏｓｐｅｃｔｉｖｅｃｏｈｏｒｔ [ Ｊ]. ＰＬｏＳＯｎｅꎬ ２０１６ꎬ １１: ｅ０１４６８７９. (收稿日期: ２０１９￣１２￣１１)

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录