安徽医科大学：《卫生统计学 public health statistics》课程教学资源（参考资料）数据统计方法的选择.doc_大学文库

(1)n>40并且理论数小于5的格子数行列表中格子总数的25%，则用Fisher's确切概率法检验三、Poisson分布资料 1单样本资料与总体比较： 1)观察值较小时：用确切概率法进行检验。 2)观察值较大时：用正态近似的U检验。 2.两个样本比较：用正态近似的U检验。配对设计或随机区组设计四、两组或多组计量资料的比较 1.两组资料： 1)大样本资料或配对差值服从正态分布的小样本资料，作配对t检验 2)小样本并且差值呈偏态分布资料，则用Wilcoxon的符号配对秩检验 2.多组资料： 1)若大样本资料或残差服从正态分布，并且方差齐性，则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如： LSD检验，Bonferroni检验等)进行两两比较。 2)如果小样本时，差值呈偏态分布资料或方差不齐，则作Fredman的统计检验。如果 Fredman的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：用Wilcoxon的符号配对秩检验，但用Bonferroni方法校正P值等)进行两两比较。五、分类资料的统计分析 1.四格表资料 1)b+c>40,则用McNemar配对x2检验或配对边际x2检验 2)b+c≤40，则用二项分布确切概率法检验 2.C×C表资料： 1)配对比较：用McNemar配对x2检验或配对边际2检验 2)一致性问题(Agreement):用Kap检验变量之间的关联性分析六、两个变量之间的关联性分析 1.两个变量均为连续型变量 1)小样本并且两个变量服从双正态分布，则用Pearson相关系数做统计分析 2)大样本或两个变量不服从双正态分布，则用Spearman相关系数进行统计分析 2.两个变量均为有序分类变量，可以用Spearman相关系数进行统计分析 3.一个变量为有序分类变量，另一个变量为连续型变量，可以用Spearman相关系数进行统计分析七、回归分析 1.直线回归：如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，则直线回归（单个自变量的线性回归，称为简单回归），否则应作适当的变换，使其满足上述条件

(1)n>40 并且理论数小于 5 的格子数行列表中格子总数的 25%，则用 Fisher’s 确切概率法检验三、Poisson 分布资料 1.单样本资料与总体比较： 1)观察值较小时：用确切概率法进行检验。 2)观察值较大时：用正态近似的 U 检验。 2.两个样本比较：用正态近似的 U 检验。配对设计或随机区组设计四、两组或多组计量资料的比较 1.两组资料： 1)大样本资料或配对差值服从正态分布的小样本资料，作配对 t 检验 2)小样本并且差值呈偏态分布资料，则用 Wilcoxon 的符号配对秩检验 2.多组资料： 1)若大样本资料或残差服从正态分布，并且方差齐性，则作随机区组的方差分析。如果方差分析的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如： LSD 检验，Bonferroni 检验等）进行两两比较。 2)如果小样本时，差值呈偏态分布资料或方差不齐，则作 Fredman 的统计检验。如果 Fredman 的统计检验为有统计学意义，则进一步作统计分析：选择合适的方法（如：用 Wilcoxon 的符号配对秩检验，但用 Bonferroni 方法校正 P 值等）进行两两比较。五、分类资料的统计分析 1.四格表资料 1)b+c>40，则用 McNemar 配对  2 检验或配对边际 2 检验 2)b+c40，则用二项分布确切概率法检验 2.C×C 表资料： 1)配对比较：用 McNemar 配对  2 检验或配对边际 2 检验 2)一致性问题（Agreement）：用 Kap 检验变量之间的关联性分析六、两个变量之间的关联性分析 1.两个变量均为连续型变量 1)小样本并且两个变量服从双正态分布，则用 Pearson 相关系数做统计分析 2)大样本或两个变量不服从双正态分布，则用 Spearman 相关系数进行统计分析 2.两个变量均为有序分类变量，可以用 Spearman 相关系数进行统计分析 3.一个变量为有序分类变量，另一个变量为连续型变量，可以用 Spearman 相关系数进行统计分析七、回归分析 1.直线回归：如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，则直线回归（单个自变量的线性回归，称为简单回归），否则应作适当的变换，使其满足上述条件

2.多重线性回归：应变量(Y)为连续型变量（即计量资料），自变量(X1,X2,…,X,) 可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布 (大样本时无需正态性)，残差与自变量无趋势变化，可以作多重线性回归。 1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用 3.二分类的Logistic回归：应变量为二分类变量，自变量(X1,X2,…,X,)可以为连续型变量、有序分类变量或二分类变量。 1)非配对的情况：用非条件Logistic回归 (1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 (2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用 2)配对的情况：用条件Logistic回归 (1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 (2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用 4.有序多分类有序的Logistic回归：应变量为有序多分类变量，自变量(X1,X2,…,X,) 可以为连续型变量、有序分类变量或二分类变量。 1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用 5.无序多分类有序的Logistic回归：应变量为无序多分类变量，自变量(X,X,…,X,) 可以为连续型变量、有序分类变量或二分类变量。 1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用八、生存分析资：要求资料记录结局和结局发生的时间（如：死亡和死亡发生的时间） l.用Kaplan-Meier方法估计生存曲线 2.大样本时，可以寿命表方法估计 3.单因素可以用Log一rank比较两条或多条生存曲线 4.多个因素时，可以作多重的Cox回归 1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用

2.多重线性回归：应变量（Y）为连续型变量（即计量资料），自变量（X1，X2，…，Xp）可以为连续型变量、有序分类变量或二分类变量。如果回归分析中的残差服从正态分布（大样本时无需正态性），残差与自变量无趋势变化，可以作多重线性回归。 1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用 3.二分类的 Logistic 回归：应变量为二分类变量，自变量（X1，X2，…，Xp）可以为连续型变量、有序分类变量或二分类变量。 1)非配对的情况：用非条件 Logistic 回归 (1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 (2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用 2)配对的情况：用条件 Logistic 回归 (1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 (2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用 4.有序多分类有序的 Logistic 回归：应变量为有序多分类变量，自变量（X1，X2，…，Xp）可以为连续型变量、有序分类变量或二分类变量。 1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用 5.无序多分类有序的 Logistic 回归：应变量为无序多分类变量，自变量（X1，X2，…，Xp）可以为连续型变量、有序分类变量或二分类变量。 1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用八、生存分析资：要求资料记录结局和结局发生的时间（如；死亡和死亡发生的时间） 1.用 Kaplan-Meier 方法估计生存曲线 2.大样本时，可以寿命表方法估计 3.单因素可以用 Log－rank 比较两条或多条生存曲线 4.多个因素时，可以作多重的 Cox 回归 1)观察性研究：可以用逐步线性回归寻找（拟）主要的影响因素 2)实验性研究：在保持主要研究因素变量（干预变量）外，可以适当地引入一些其它可能的混杂因素变量，以校正这些混杂因素对结果的混杂作用