第八讲 应用统计学的基本概念 Dr. Alan moses 我是 Alan moses博士,是马萨诸塞州波士顿的 Joslin糖尿病中心的高级副院长和首席医 生。在这部分讲座中,我们将学习应用统计学的基本概念。我们首先回顾在临床研究中统计 学的作用。然后学习统计学的基本概念及常用统计学检验。最后我们将讨论一些所谓的“数 据分析中的捣蛋鬼”。 临床研究中统计学的作用是什么?我们所做的就是区分事实和偶然性。我们需要比较组 间差异,并检验干预的效应 那么,临床研究中生物统计学家的作用是什么?虽然我们希望得到令人满意数据并知道 如何设计试验及进行分析数据,但通常我们需要依靠生物统计学家的专业知识来选择适当的 试验设计和计算适合的样本量。我们都应认识到样本量是由对结果的测定决定的,涉及其精 确度、准确度、可重复性和可行性。此外,在进行数据分析时,生物统计学家帮助我们决定 使用何种分析工具。在试验开始之前就应确定所使用的统计方法,非常重要的是,分析方法 决不能在试验完成之后加以改变 在对试验进行分析时,统计学的作用是什么?我们应当记住,统计方法仅仅是一种帮助我 们解释试验中所获得的数据的工具。它们是一种工具而不是试验的最终结果。而且像任何工 具一样,使用统计工具必须小心。计算机可以产生一些或有统计学意义的数据,但是只有硏 究者才知道该使用何种统计学检验来进行统计学分析。已参加培训的研究者可以很容易地选 择统计学检验方法,必须记住的很重要的一点是,对于没有足够知识的人而言,有强大功能 的统计软件包可能导致致命性的错误 生物统计学的重要概念之一是其正确性( validity)。对于关键性的数据分析、试验的结果 尤其是结果的发表,正确性都是其核心。有两种正确性:内部的和外部的(可推广性)。 内部的正确性就是在设定的试验范围内结果是准确的,使用的方法和分析经受得住检 验,数据和相关的医学文献均支持研究者对试验结果的解释和结论。 外部正确性或可推广性决定了试验设计是否能够允许所做的观察和所得的结论推广到 整个人群。试验人群的选择决定了最大可推广范围,这个概念我们在这个讲座的其它部分已 经谈到过。如果研究对象包括男性、女性、不同的种族、不同的年龄分层,那么就有更多的 机会将临床试验的结果应用于普通人群。另一方面,受试者的选择也将决定研究和结论可应 用的人群范围。例如,如果在临床试验中选择年龄介于5-10岁的儿童,那么该试验的结果 就仅能应用于该人群。如果选择45岁以上的亚洲男性作为受试者,那么试验结果就只能应 用于这个人群。 在正确性的概念中,应该认识到须有足够的样本量以支持所得出的结论,同时要选择适 当的对照人群,特别是强调随机双盲对照这一临床研究的根本的科学方法。著名科学家 Isaac
第八讲 应用统计学的基本概念 Dr. Alan Moses 我是Alan Moses博士, 是马萨诸塞州波士顿的Joslin糖尿病中心的高级副院长和首席医 生。在这部分讲座中,我们将学习应用统计学的基本概念。我们首先回顾在临床研究中统计 学的作用。然后学习统计学的基本概念及常用统计学检验。最后我们将讨论一些所谓的“数 据分析中的捣蛋鬼”。 临床研究中统计学的作用是什么?我们所做的就是区分事实和偶然性。我们需要比较组 间差异,并检验干预的效应。 那么,临床研究中生物统计学家的作用是什么?虽然我们希望得到令人满意数据并知道 如何设计试验及进行分析数据,但通常我们需要依靠生物统计学家的专业知识来选择适当的 试验设计和计算适合的样本量。我们都应认识到样本量是由对结果的测定决定的,涉及其精 确度、准确度、可重复性和可行性。此外,在进行数据分析时,生物统计学家帮助我们决定 使用何种分析工具。在试验开始之前就应确定所使用的统计方法,非常重要的是, 分析方法 决不能在试验完成之后加以改变. 在对试验进行分析时,统计学的作用是什么?我们应当记住,统计方法仅仅是一种帮助我 们解释试验中所获得的数据的工具。它们是一种工具而不是试验的最终结果。而且像任何工 具一样,使用统计工具必须小心。计算机可以产生一些或有统计学意义的数据,但是只有研 究者才知道该使用何种统计学检验来进行统计学分析。已参加培训的研究者可以很容易地选 择统计学检验方法,必须记住的很重要的一点是,对于没有足够知识的人而言,有强大功能 的统计软件包可能导致致命性的错误。 生物统计学的重要概念之一是其正确性(validity)。对于关键性的数据分析、试验的结果 尤其是结果的发表,正确性都是其核心。有两种正确性: 内部的和外部的 (可推广性)。 内部的正确性就是在设定的试验范围内结果是准确的,使用的方法和分析经受得住检 验,数据和相关的医学文献均支持研究者对试验结果的解释和结论。 外部正确性或可推广性决定了试验设计是否能够允许所做的观察和所得的结论推广到 整个人群。试验人群的选择决定了最大可推广范围,这个概念我们在这个讲座的其它部分已 经谈到过。如果研究对象包括男性、女性、不同的种族、不同的年龄分层,那么就有更多的 机会将临床试验的结果应用于普通人群。另一方面,受试者的选择也将决定研究和结论可应 用的人群范围。例如,如果在临床试验中选择年龄介于 5-10 岁的儿童,那么该试验的结果 就仅能应用于该人群。如果选择 45 岁以上的亚洲男性作为受试者,那么试验结果就只能应 用于这个人群。 在正确性的概念中,应该认识到须有足够的样本量以支持所得出的结论,同时要选择适 当的对照人群,特别是强调随机双盲对照这一临床研究的根本的科学方法。著名科学家 Isaac
asimov引用过这样一句话“科学工作的可敬之处就在于,任何科学信仰,虽然已具有坚实 的基础,仍要不断地被检验看它是否真实,是否普遍地正确”。这是他对正确性之重要性的 看法,泛指任何科学范畴也包括临床试验 现在我们将要讨论如何看待一些类型的数据。首先是相对危险度和比值比。这是评价后 果的指标,当比较暴露因素对结果的影响时是非常有价值的。比值比主要用于病例对照硏究。 相对危险度主要用于队列研究。这两类研究设计在前面的讲座中已讲过 让我们首先看一下相对危险度。这张表显示是如何得到一个相对危险因素的。表格被分 为两行两列,第一列是发病,第二列是未发病。我们看一下发病是否是暴露于危险因素的结 果或者未暴露于该危险因素。暴露组发病数被标为A,暴露组未发病数被标为B,非暴露 组的发病数被标为C,非暴露组未发病数被标为D。从这张表格中我们可以得到相对危险度, 相对危险度是暴露组的发病率除以非暴露组的发病率,即(A(A+B)/(CAC+D)。这就是相对 危险度。 用来计算比值比的表格结构与上表相似,但是计算方法不同。仍具有这样的自变量,暴 露于危险因素或未暴露于危险因素与发病或未发病比较。即A和B,与C和D。但是比值 比与相对危险度不同,它是由(A×D),即病例组有暴露史×对照组无暴露史除以(B×C), 即病例组无暴露史×对照组有暴露史。比值比即(A×D)/(BXC) 在解释关联性检验时,我们如何使用比值比和相对危险度?实际上非常简单。当比值比或 相对危险度小于1时,这种危险因素与疾病呈负相关或该因素是保护因素。比值比和相对危 险度等1时二者无关联性,如果大于1时,二者均证明为正相关。 以上介绍了临床试验中生物统计学应用中的一些概念。下面我们将举一些例子,看看在 分析临床研究数据时如何使用以上及其它的检验方法
Asimov 引用过这样一句话“科学工作的可敬之处就在于,任何科学信仰,虽然已具有坚实 的基础,仍要不断地被检验看它是否真实,是否普遍地正确”。这是他对正确性之重要性的 看法,泛指任何科学范畴也包括临床试验。 现在我们将要讨论如何看待一些类型的数据。首先是相对危险度和比值比。这是评价后 果的指标,当比较暴露因素对结果的影响时是非常有价值的。比值比主要用于病例对照研究。 相对危险度主要用于队列研究。这两类研究设计在前面的讲座中已讲过。 让我们首先看一下相对危险度。这张表显示是如何得到一个相对危险因素的。表格被分 为两行两列,第一列是发病,第二列是未发病。我们看一下发病是否是暴露于危险因素的结 果或者未暴露于该危险因素。暴露组发病数被标为 A,暴露组未发病数被标为 B, 非暴露 组的发病数被标为 C,非暴露组未发病数被标为 D。从这张表格中我们可以得到相对危险度, 相对危险度是暴露组的发病率除以非暴露组的发病率,即(A/(A+B))/ (C/(C+D))。这就是相对 危险度。 用来计算比值比的表格结构与上表相似,但是计算方法不同。仍具有这样的自变量,暴 露于危险因素或未暴露于危险因素与发病或未发病比较。即 A 和 B,与 C 和 D。但是比值 比与相对危险度不同,它是由(A×D),即病例组有暴露史×对照组无暴露史除以(B×C), 即病例组无暴露史×对照组有暴露史。比值比即(A×D)/(B×C)。 在解释关联性检验时,我们如何使用比值比和相对危险度?实际上非常简单。当比值比或 相对危险度小于 1 时,这种危险因素与疾病呈负相关或该因素是保护因素。比值比和相对危 险度等 1 时二者无关联性,如果大于 1 时,二者均证明为正相关。 以上介绍了临床试验中生物统计学应用中的一些概念。下面我们将举一些例子,看看在 分析临床研究数据时如何使用以上及其它的检验方法