第九章相关分析-- Correlate菜单详解 (医学统计之星:张文彤) 在医学中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变 量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下 章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实 现 SPSS的相关分析功能被集中在 Statistics菜单的 Correlate子菜单中,他一般 包括以下三个过程: Bivariate过程此过程用于进行两个/多个变量间的参数/非参数相关分 析,如果是多个变量,则给出两两相关的分析结果。这是 Correlate子菜 单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的 95%以上。下面的讲述也以该过程为主 Partial过程如果需要进行相关分析的两个变量其取值均受到其他变量 的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量 影响后的相关系数,这种分析思想和协方差分析非常类似。 Partial过程 就是专门进行偏相关分析的。 Distances过程调用此过程可对同一变量内部各观察单位间的数值或各 个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后 者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非 常少。 §9.1 Bivariate过程 9.1.1界面说明 【 Variables框】 用于选入需要进行相关分析的变量,至少需要选入两个 【 Correlation Coefficients复选框组】 用于选择需要计算的相关分析指标,有: Pearson复选框选择进行积距相关分析,即最常用的参数相关分析 Kendall’stau-b复选框计算 Kendall s等级相关系数 Spearman复选框计算 Spearman相关系数,即最常用的非参数相关分析 (秩相关)
第九章 相关分析――Correlate 菜单详解 (医学统计之星:张文彤) 在医学中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变 量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下 一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实 现。 SPSS 的相关分析功能被集中在 Statistics 菜单的 Correlate 子菜单中,他一般 包括以下三个过程: • Bivariate 过程 此过程用于进行两个/多个变量间的参数/非参数相关分 析,如果是多个变量,则给出两两相关的分析结果。这是 Correlate 子菜 单中最为常用的一个过程,实际上我们对他的使用可能占到相关分析的 95%以上。下面的讲述也以该过程为主。 • Partial 过程 如果需要进行相关分析的两个变量其取值均受到其他变量 的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量 影响后的相关系数,这种分析思想和协方差分析非常类似。Partial 过程 就是专门进行偏相关分析的。 • Distances 过程 调用此过程可对同一变量内部各观察单位间的数值或各 个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后 者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非 常少。 §9.1 Bivariate 过程 9.1.1 界面说明 【Variables 框】 用于选入需要进行相关分析的变量,至少需要选入两个。 【Correlation Coefficients 复选框组】 用于选择需要计算的相关分析指标,有: • Pearson 复选框 选择进行积距相关分析,即最常用的参数相关分析 • Kendall's tau-b 复选框 计算 Kendall's 等级相关系数 • Spearman 复选框 计算 Spearman 相关系数,即最常用的非参数相关分析 (秩相关)
【 Test of Significance单选框组】 用于确定是进行相关系数的单侧(One- tailed)或双侧(Two- tailed)检验, 般选双侧检验 【 Flag significant correlations】 用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时 P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号 【 Options钮】 弹出 Options对话框,选择需要计算的描述统计量和统计分析 Statistics复选框组可选的描述统计量。它们是: 1. Means and standard deviations每个变量的均数和标准差 2. Cross- product deviations and covariances各对变量的交叉积和以及 协方差阵 Missing values单选框组定义分析中对缺失值的处理方法,可以是具体 分析用到的两个变量有缺失值才去除该记录( Exclude cases pairwise), 或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量 是否缺失),则在所有分析中均将该记录去除 Excludes cases listwise) 默认为前者,以充分利用数据 9.1.2分析实例 例9.1请计算SPSS自带的样本数据 judges.sav中意大利( judge)和韩国法官 ( judge2)得分的相关性。 解:由于 judge和 judge2的数据分布不太好,这里同时计算 Pearson相关系数 和 Spearman相关系数。操作如下 这种做法严格说来是有问题的,我这样做主要是想偷懒。 1. Variables框:选入 judge、jdge2 2. Pearson复选框:选中 3. Spearman复选框:选中 4.单击CK钮 9.1.3结果解释
【Test of Significance 单选框组】 用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一 般选双侧检验。 【Flag significant correlations】 用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时 P<0.05 的系数值旁会标记一个星号,P<0.01 的则标记两个星号。 【Options 钮】 弹出 Options 对话框,选择需要计算的描述统计量和统计分析: • Statistics 复选框组 可选的描述统计量。它们是: 1. Means and standard deviations 每个变量的均数和标准差 2. Cross-product deviations and covariances 各对变量的交叉积和以及 协方差阵 • Missing Values 单选框组 定义分析中对缺失值的处理方法,可以是具体 分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise), 或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量 是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。 默认为前者,以充分利用数据。 9.1.2 分析实例 例 9.1 请计算 SPSS 自带的样本数据 judges.sav 中意大利(judge1)和韩国法官 (judge2)得分的相关性。 解:由于 judge1 和 judge2 的数据分布不太好,这里同时计算 Pearson 相关系数 和 Spearman 相关系数。操作如下: 这种做法严格说来是有问题的,我这样做主要是想偷懒。 1. Variables 框:选入 judge1、judge2 2. Pearson 复选框:选中 3. Spearman 复选框:选中 4. 单击 OK 钮 9.1.3 结果解释
例9.1的输出结果如下所示: Correlati Correlations South Korea ig(2-tailed) outh Korea Pearson correlation 1000 H: Correlation is significant at the 0.01 level (2-tailed) 在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。每一行和每 列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分 别是相关系数、P值和样本数。由于这里只分析了两个变量,因此给出的是2*2 的方阵。由上表可见 judged、 judge.2自身的相关系数均为l( of course),而 judge和 judge2的相关系数为0.91,P<0.001,有非常显著的统计学意义。 如果需要得到具体的P值。请进入表格的编辑模式,双击P值所在的单 元格,就可以看到精确的P值大小。 上表的标题内容翻译如下: taly South Korea earson积距相关系数1.00.910 Italy值(双侧) 000 Pearson积距相关系数.9101.000 South 值(双侧) Kore 样本数 300 300 Nonparametric Correlations
例 9.1 的输出结果如下所示: Correlations 在上面的结果中,变量间两两的相关系数是用方阵的形式给出的。每一行和每一 列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分 别是相关系数、P 值和样本数。由于这里只分析了两个变量,因此给出的是 2*2 的方阵。由上表可见 judge1、judge2 自身的相关系数均为 1(of course),而 judge1 和 judge2 的相关系数为 0.91,P<0.001,有非常显著的统计学意义。 如果需要得到具体的 P 值。请进入表格的编辑模式,双击 P 值所在的单 元格,就可以看到精确的 P 值大小。 上表的标题内容翻译如下: Italy South Korea Italy Pearson 积距相关系数 P 值(双侧) 样本数 1.000 . 300 .910 .000 300 South Korea Pearson 积距相关系数 P 值(双侧) 样本数 .910 .000 300 1.000 . 300 Nonparametric Correlations
Italy South Korea pearman's rho Italy 1000 Sig. (2-tailed) outh Korea Correlation Coefficient 920** Sig. (2-tailed) H: Correlation is significant at the 01 level (2-tailed). 此处的表格内容和上面 Pearson相关系数的结果非常相似,只是表格左侧注明为 Spearman等级相关。可见 judge和 judge2的等级相关系数为0.92,P<0.001, 有非常显著的统计学意义。 9.2 Partial过程 9.2.1界面说明 Variables框】 用于选入需要进行偏相关分析的变量,至少需要选入两个。 【 Controlling for框】 用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普 通的相关分析。 【 Test of Significance单选框组】 意义同前,用于确定是进行相关系数的单侧(One- tailed)或双侧(Two- tailed) 检验,一般选双侧检验 【 Display actual significince level复选框】 用于确定是否在结果中给出确切的P值,一般选中 【 Options钮】 弹出 Options对话框,选择需要计算的描述统计量和统计分析 Statistics复选框组可选的描述统计量。它们是: Means and standard deviations每个变量的均数和标准差
此处的表格内容和上面 Pearson 相关系数的结果非常相似,只是表格左侧注明为 Spearman 等级相关。可见 judge1 和 judge2 的等级相关系数为 0.92,P<0.001, 有非常显著的统计学意义。 9.2 Partial 过程 9.2.1 界面说明 【Variables 框】 用于选入需要进行偏相关分析的变量,至少需要选入两个。 【Controlling for 框】 用于选择需要在偏相关分析时进行控制的协变量,如果不选入,则进行的就是普 通的相关分析。 【Test of Significance 单选框组】 意义同前,用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed) 检验,一般选双侧检验。 【Display actual significince level 复选框】 用于确定是否在结果中给出确切的 P 值,一般选中。 【Options 钮】 弹出 Options 对话框,选择需要计算的描述统计量和统计分析: • Statistics 复选框组 可选的描述统计量。它们是: 1. Means and standard deviations 每个变量的均数和标准差
2.Zero- order correlations给出包括协变量在内所有变量的相关方阵 Missing values单选框组定义分析中对缺失值的处理方法,可以是具体 分析用到的两个变量有缺失值才去除该记录( Exclude cases pairwise), 或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量 是否缺失),则在所有分析中均将该记录去除 Excludes cases listwise)。 默认为前者,以充分利用数据。 9.2.2结果解释 偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂,比如说我们要 在排除变量 judge3的影响后计算变量 judge和 judge2的相关性(只是举个例 子而已,这样是没有实际依据的),则结果如下 Partial corr -- PARTIAL CORRELATION COEFFICIENTS Controlling for.. JUDGE3 JUDGE JUDGE JUDGE 1.0000 5632 (0)(297) JUDGE2 1.0000 (0) (Co is printed if a coefficient cannot be computed fficient/(D F)/2-tailed Significance 这些结果一目了然,不用再解释了吧,可见当控制了变量 judge3的影响后, judged和 judge2的相关系数值大大降低,但仍然具有统计学意义。 请注意,友好的统计软件界面是会骗人的:偏相关分析和协方差分析一样, 里面蕴涵的统计学知识要远比你用统计软件进行操作时感觉到的内容复杂的多 这些分析都具有严格的适用条件,在进行分析之前需要对数据是否满足条件进行 考察。因此进行这些分析前一定要参考有关书籍,并慎重行事。 9.3 Distances过程
2. Zero-order correlations 给出包括协变量在内所有变量的相关方阵 • Missing Values 单选框组 定义分析中对缺失值的处理方法,可以是具体 分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise), 或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量 是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。 默认为前者,以充分利用数据。 9.2.2 结果解释 偏相关分析的结果和普通相关分析几乎完全相同,非常容易看懂,比如说我们要 在排除变量 judge3 的影响后计算变量 judge1 和 judge2 的相关性(只是举个例 子而已,这样是没有实际依据的),则结果如下: Partial Corr - - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - - - Controlling for.. JUDGE3 JUDGE1 JUDGE2 JUDGE1 1.0000 .5632 ( 0) ( 297) P= . P= .000 JUDGE2 .5632 1.0000 ( 297) ( 0) P= .000 P= . (Coefficient / (D.F.) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 这些结果一目了然,不用再解释了吧,可见当控制了变量 judge3 的影响后, judge1 和 judge2 的相关系数值大大降低,但仍然具有统计学意义。 请注意,友好的统计软件界面是会骗人的:偏相关分析和协方差分析一样, 里面蕴涵的统计学知识要远比你用统计软件进行操作时感觉到的内容复杂的多, 这些分析都具有严格的适用条件,在进行分析之前需要对数据是否满足条件进行 考察。因此进行这些分析前一定要参考有关书籍,并慎重行事。 9.3 Distances 过程
Distances过程是专门进行距离相关分析用的,由于该方法大多数人用的非常 少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去 了。如要用到,请参考有关的多元统计专业书 Variables框】 用于选入需要进行距离相关分析的变量,至少需要选入两个。 【 Label cases by框】 选择一个变量用于给各个记录加上标签,可以不选。 【 Compute Distances单选框组】 其中有两个选择, Between cases表示作变量内部观察值之间的距离相关分析, Between variables表示作变量之间的距离相关分析。 【 Measure单选框组】 用于选择分析时采用的距离类型: Dissimilarities为不相似性测距, Similarities为相似性测距。 【 Measure钮】 和前面的 Measure单选框组配合使用,单击后弹出 Distance: Dissimilarity Measure对话框,用户可根据数据特征选用测距方法 选择 Dissimilarities时各种数据类型可用的测距方法有 1、计量资料 Euclidean distance:以两变量差值平方和的平方根为距离 Squared Euclidean distance:以两变量差值平方和为距离 Chebychev:以两变量绝对差值的最大值为距离; Block:以两变量绝对差值之和为距离 Minkowski:以两变量绝对差值p次幂之和的p次根为距离; Customized:以两变量绝对差值p次幂之和的r次根为距离 2、计数资料 Chi- square measure:x2值测距 Phi- square measure:ψ2值测距,即将x2测距值除合计频数的平方根 3、二分类变量 Euclidean distance:二分差平方和的平方根,最小为0,最大无限;
Distances 过程是专门进行距离相关分析用的,由于该方法大多数人用的非常 少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去 了。如要用到,请参考有关的多元统计专业书。 【Variables 框】 用于选入需要进行距离相关分析的变量,至少需要选入两个。 【Label cases by 框】 选择一个变量用于给各个记录加上标签,可以不选。 【Compute Distances 单选框组】 其中有两个选择,Between cases 表示作变量内部观察值之间的距离相关分析, Between variables 表示作变量之间的距离相关分析。 【Measure 单选框组】 用于选择分析时采用的距离类型:Dissimilarities 为不相似性测距, Similarities 为相似性测距。 【Measure 钮】 和前面的 Measure 单选框组配合使用,单击后弹出 Distance:Dissimilarity Measure 对话框,用户可根据数据特征选用测距方法: 选择 Dissimilarities 时各种数据类型可用的测距方法有: 1、计量资料 • Euclidean distance:以两变量差值平方和的平方根为距离; • Squared Euclidean distance:以两变量差值平方和为距离; • Chebychev:以两变量绝对差值的最大值为距离; • Block:以两变量绝对差值之和为距离; • Minkowski:以两变量绝对差值 p 次幂之和的 p 次根为距离; • Customized:以两变量绝对差值 p 次幂之和的 r 次根为距离。 2、计数资料 • Chi-square measure:χ2 值测距; • Phi-square measure:ψ2 值测距,即将 χ2 测距值除合计频数的平方根。 3、二分类变量 • Euclidean distance:二分差平方和的平方根,最小为 0,最大无限;
Squared euclidean distance:二分差平方和,最小为0,最大无限; Size difference:最小距离为0,最大无限 Pattern difference:从0至1的无级测距; Variance:以方差为距,最小为0,最大无限 Lance and Williams:Bray- Curtis非等距系数,界于0至1之间。 选择 Similarities时各种数据类型可用的测距方法有: 1、计量资料 Pearson correlation:以 Pearson相关系数为距离 Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。 2、二分类变量 Russell and rao:以二分点乘积为配对系数 Simple matching:以配对数与总对数的比例为配对系数 Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重 Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重 Rogers and Tanimoto: Rogers and Tanimoto配对系数,分母为配对数, 分子为非配对数,非配对数给予加倍的权重 Sokal and sneath l: Sokal and Sneath I型配对系数,分母为配对数, 分子为非配对数,配对数给予加倍的权重 Sokal and sneath2: Sokal and sneathⅡ型配对系数,分子与分母均 为非配对数,但分子给予加倍的权重 Sokal and sneath3: Sokal and sneathⅢ型配对系数,分母为配对数, 分子为非配对数,分子与分母的权重相同 Kuczynski1: Kuczynski I型配对系数,分母为总数与配对数之差, 分子为非配对数,分子与分母的权重相同; Kuczynski2: Kuczynski平均条件概率; Sokal and sneath4: Sokal and sneath条件概率; Hamann: Hamann概率 Lambda: Goodman- Kruskal相似测量的λ值: Anderberg'sD:以一个变量状态预测另一个变量状态 Yule’sY:Yule综合系数,属于2×2四格表的列联比例函数; Yule'sQ: Goodman- Kruskalγ值,属于2×2四格表的列联比例函数。 3、其他类型变量 0 chiai:0 chiai二分余弦测量 Sokal and sneath5: Sokal and sneathⅤ型相似测量 Phi4 point correlation: Pearson相关系数的平方值 Dispersion: Dispersion相似测量。 同时,还可以选择数据转换形式: None:不作数据转换;
• Squared Euclidean distance:二分差平方和,最小为 0,最大无限; • Size difference:最小距离为 0,最大无限; • Pattern difference:从 0 至 1 的无级测距; • Variance:以方差为距,最小为 0,最大无限; • Lance and Williams:Bray-Curtis 非等距系数,界于 0 至 1 之间。 选择 Similarities 时各种数据类型可用的测距方法有: 1、计量资料 • Pearson correlation:以 Pearson 相关系数为距离; • Cosine:以变量矢量的余弦值为距离,界于-1 至+1 之间。 2、二分类变量 • Russell and Rao:以二分点乘积为配对系数; • Simple matching:以配对数与总对数的比例为配对系数; • Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重; • Dice:Dice 配对系数,分子与分母中的配对数给予加倍的权重; • Rogers and Tanimoto:Rogers and Tanimoto 配对系数,分母为配对数, 分子为非配对数,非配对数给予加倍的权重; • Sokal and Sneath 1:Sokal and Sneath Ⅰ型配对系数,分母为配对数, 分子为非配对数,配对数给予加倍的权重; • Sokal and Sneath 2:Sokal and Sneath Ⅱ型配对系数,分子与分母均 为非配对数,但分子给予加倍的权重; • Sokal and Sneath 3:Sokal and Sneath Ⅲ型配对系数,分母为配对数, 分子为非配对数,分子与分母的权重相同; • Kulczynski 1:Kulczynski Ⅰ型配对系数,分母为总数与配对数之差, 分子为非配对数,分子与分母的权重相同; • Kulczynski 2:Kulczynski 平均条件概率; • Sokal and Sneath 4:Sokal and Sneath 条件概率; • Hamann:Hamann 概率; • Lambda:Goodman-Kruskai 相似测量的 λ 值; • Anderberg's D:以一个变量状态预测另一个变量状态; • Yule's Y:Yule 综合系数,属于 2×2 四格表的列联比例函数; • Yule's Q:Goodman-Kruskal γ 值,属于 2×2 四格表的列联比例函数。 3、其他类型变量 • Ochiai:Ochiai 二分余弦测量; • Sokal and Sneath 5:Sokal and Sneath Ⅴ型相似测量; • Phi 4 point correlation:Pearson 相关系数的平方值; • Dispersion:Dispersion 相似测量。 • 同时,还可以选择数据转换形式: • None:不作数据转换;
Z- Scores:作标准Z分值转换 Range-1to1:作-1至+1之间的标准化转换 Range0to1:作0至1之间的标准化转换; Maximum magnitude of 1:作最大量值1的标准转换; lean of l:作均数单位转换 Standard deviation of l:作标准差单位转换
• Z-Scores:作标准 Z 分值转换; • Range -1 to 1:作-1 至+1 之间的标准化转换; • Range 0 to 1:作 0 至 1 之间的标准化转换; • Maximum magnitude of 1:作最大量值 1 的标准转换; • Mean of 1:作均数单位转换; • Standard deviation of 1:作标准差单位转换