8-2 应用统计学的基本概念(2) 在生物统计学的第一部分我们讨论了临床试验中统计学的作用,生物统计学家的作用 以及在不同类型的临床试验中比较结果的一些方法。在这部分我们将学习无效假设一些基本 原则,统计学显著性和P值的概念,并简要谈一下样本量 让我们从无效假设开始谈起。无效假设就是认为被比较的项目之间无差别。在临床试验 中就是两组:一组是应用一种药物的治疗组,另一组是使用对照药物治疗组。的确,统计的 常规就是用来判断差异是由偶然性或样本偏差造成的,还是存在真实的差异。统计学显著性 水平在某种程度上是任意规定的,但是常规上我们定义统计学显著性水平是005。这就是 值,即指由于机会(偶然性)导致差异的概率小于5%。这意味着事实上具有统计学显著性 时,无效假设的发生率小于1/20。再一次强调,这个定义是一种惯例 对于P值有许多神秘感。但是应该记住,应在特定临床试验范畴内解释P值。最近我 们将P值用具体数值表述,例如0.023而不是小于0.5。事实上这就给出了两样本人群之间 差异更多的信息。0.023和0.049都小于0.05,但是0.023统计学显著性更强。通过可信区 间可进一步说明P值。可信区间为统计量提供了测量的表示方式,在某些情况下它还可以 提供部分临床重要性信息。可信区间的范围大致是具体统计数值标准误的4倍。 在这部分内容中,也是本次生物统计学课程中最重要的一点是,P值大小并不提示结果 的重要性。结果可能具有统计学显著性。但是并无临床重要性。例如,一项包含3000-4000 个体的试验,在两种不同的治疗方法之间略有差异,由于样本例数大,差异具有统计学显著 性。但是在对被治疗人群的影响方面,从临床角度而言差异并不具有意义 另一同等重要的方面是,不具有统计学显著性的差异并非不重要。例如,英国糖尿病前 瞻性研究( UKPDS)发现强化治疗与非强化治疗的糖尿病患者中大血管疾病(心梗)的发生率 有差异,P值等于0052,不具有统计学显著性,但是临床医师却强烈地认为如果增大样本 量或延长随访期,这种差异就会达到统计学显著性,该结果看起来很有临床意义。 在进行统计学显著性分析时,可能出现两类错误。第一类错误是α错误,或Ⅰ型错误: 它拒绝了实际上是正确的无效假设。也就是两种治疗措施在疗效方面被认为不同,但事实上 二者疗效相同。另一类错误是β错误或Ⅱ型错误,它未拒绝实际上是不正确的无效假设,也 就是说真实的差异被忽视。在假设检验中,当我们谈到未能发现治疗效应的可能性时,我们 界定的差异的大小是很重要的因素。事实上B错误是受三个主要因素相互作用的影响:差异 的程度,受试者的数量和a水平,a水平即研究者确定的在此水平他们将拒绝无效假设 这就提出了统计检验效能的概念。统计检验效能就是基于事先确定的显著性水平的大 小,无效假设被拒绝的概率。检验效能实际上就是β错误的余数:检验效能=1-β错误。 错误越低检验效能越大。对一具体的临床试验设计,检验效能越大,得到具有统计学显著性 P值的可能性越大,也就越有希望发现治疗的效益(如果其确实存在)。 你会注意到我们谈论了许多统计学中的常规(惯例),常规是在设计任何试验时,检验 效能均应达到80%,在许多试验中检验效能设为90%。从我们已经讨论过的内容中可以看
8-2 应用统计学的基本概念 (2) 在生物统计学的第一部分,我们讨论了临床试验中统计学的作用,生物统计学家的作用, 以及在不同类型的临床试验中比较结果的一些方法。在这部分我们将学习无效假设一些基本 原则,统计学显著性和 P 值的概念,并简要谈一下样本量。 让我们从无效假设开始谈起。无效假设就是认为被比较的项目之间无差别。在临床试验 中就是两组:一组是应用一种药物的治疗组,另一组是使用对照药物治疗组。的确,统计的 常规就是用来判断差异是由偶然性或样本偏差造成的,还是存在真实的差异。统计学显著性 水平在某种程度上是任意规定的,但是常规上我们定义统计学显著性水平是 0.05。这就是 P 值,即指由于机会(偶然性)导致差异的概率小于 5%。这意味着事实上具有统计学显著性 时,无效假设的发生率小于 1/20。再一次强调,这个定义是一种惯例。 对于 P 值有许多神秘感。但是应该记住,应在特定临床试验范畴内解释 P 值。最近我 们将 P 值用具体数值表述,例如 0.023 而不是小于 0.5。事实上这就给出了两样本人群之间 差异更多的信息。0.023 和 0.049 都小于 0.05,但是 0.023 统计学显著性更强。 通过可信区 间可进一步说明 P 值。可信区间为统计量提供了测量的表示方式,在某些情况下,它还可以 提供部分临床重要性信息。可信区间的范围大致是具体统计数值标准误的 4 倍。 在这部分内容中,也是本次生物统计学课程中最重要的一点是,P 值大小并不提示结果 的重要性。结果可能具有统计学显著性。但是并无临床重要性。例如,一项包含 3000-4000 个体的试验,在两种不同的治疗方法之间略有差异,由于样本例数大,差异具有统计学显著 性。但是在对被治疗人群的影响方面,从临床角度而言差异并不具有意义。 另一同等重要的方面是,不具有统计学显著性的差异并非不重要。例如,英国糖尿病前 瞻性研究(UKPDS)发现强化治疗与非强化治疗的糖尿病患者中大血管疾病(心梗)的发生率 有差异, P 值等于 0.052,不具有统计学显著性,但是临床医师却强烈地认为如果增大样本 量或延长随访期,这种差异就会达到统计学显著性,该结果看起来很有临床意义。 在进行统计学显著性分析时,可能出现两类错误。第一类错误是α错误,或Ⅰ型错误: 它拒绝了实际上是正确的无效假设。也就是两种治疗措施在疗效方面被认为不同,但事实上 二者疗效相同。另一类错误是β错误或Ⅱ型错误,它未拒绝实际上是不正确的无效假设,也 就是说真实的差异被忽视。在假设检验中,当我们谈到未能发现治疗效应的可能性时,我们 界定的差异的大小是很重要的因素。事实上β错误是受三个主要因素相互作用的影响:差异 的程度,受试者的数量和α水平,α水平即研究者确定的在此水平他们将拒绝无效假设。 这就提出了统计检验效能的概念。统计检验效能就是基于事先确定的显著性水平的大 小,无效假设被拒绝的概率。检验效能实际上就是β错误的余数:检验效能=1-β错误。β 错误越低检验效能越大。对一具体的临床试验设计,检验效能越大,得到具有统计学显著性 P 值的可能性越大,也就越有希望发现治疗的效益(如果其确实存在)。 你会注意到我们谈论了许多统计学中的常规 (惯例),常规是在设计任何试验时,检验 效能均应达到 80%,在许多试验中检验效能设为 90%。从我们已经讨论过的内容中可以看
到,增加检验效能的最明显的方法是増加样本量。另一方面,在临床试验中増加样本量会增 加费用,并且可能会使受试者暴露于研究用药或方法所带来的不适当的危险之下。所以我们 在样本量和检验方法精度之间应取得平衡,使检验效能足够高得以证实特定治疗的益处。 那么什么决定样本量呢?当然是与分析的终点指标有关:我们所需要的结果适合用这些 终点指标吗?它们准确吗?是可重复的吗?例如,如果需要进行一个统计检验,无论是关于 患者对一种临床状态的反应或是某种变异范围很大的生化检査,即使具有临床意义也很难证 实组间存在相对小的差异。如果某一检查的变异10-20%,将更难证实组间存在5%的差异。 当然,还有很大一个内容是讲述精度以及拥有精确评价工具的重要性。使用的统计方法有助 于决定样本量,并受样本量的制约。此外,样本量有助于决定干预所预测的差异的幅度。 到目前为止,我们已经学习了P值,概率,假设检验和样本量等内容。在下一部分, 我们将举一些数据分析的具体例子,并讲述如何使用具体的统计学检验来分析特定类型的数 据
到,增加检验效能的最明显的方法是增加样本量。另一方面,在临床试验中增加样本量会增 加费用,并且可能会使受试者暴露于研究用药或方法所带来的不适当的危险之下。所以我们 在样本量和检验方法精度之间应取得平衡,使检验效能足够高得以证实特定治疗的益处。 那么什么决定样本量呢?当然是与分析的终点指标有关:我们所需要的结果适合用这些 终点指标吗?它们准确吗?是可重复的吗?例如,如果需要进行一个统计检验,无论是关于 患者对一种临床状态的反应或是某种变异范围很大的生化检查,即使具有临床意义也很难证 实组间存在相对小的差异。如果某一检查的变异 10-20%,将更难证实组间存在 5%的差异。 当然,还有很大一个内容是讲述精度以及拥有精确评价工具的重要性。使用的统计方法有助 于决定样本量,并受样本量的制约。此外,样本量有助于决定干预所预测的差异的幅度。 到目前为止,我们已经学习了 P 值,概率,假设检验和样本量等内容。在下一部分, 我们将举一些数据分析的具体例子,并讲述如何使用具体的统计学检验来分析特定类型的数 据