第七章相关分析 第一节 Bivariate correlations过程 7.1.1主要功能 712实例操作 第二节 Partial correlations过程 7.21主要功能 722实例操作 第三节 Distances correlations过程 7.3.1主要功能 732实例操作 任何事物的存在都不是孤立的,而是相互联系、相互制约的。在医学领域中,身高与体 重、体温与脉搏、年龄与血压等都存在一定的联系。说明客观事物相互间关系的密切程度并 用适当的统计指标表示出来,这个过程就是相关分析。 值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。但如果事物之 间有因果关系,则两者必然相关 SPSS的相关分析是借助于 Statistics菜单的 Correlate选项完成的。 第一节 Bivariate过程 7.1.1主要功能 调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互 关系的密切程度。调用该过程命令时允许同时输入两变量或两个以上变量,但系统输出的是 变量间两两相关的相关系数。 返回目录返回主页
第七章 相关分析 第一节 Bivariate Correlations 过程 7.1.1 主要功能 7.1.2 实例操作 第二节 Partial Correlations 过程 7.2.1 主要功能 7.2.2 实例操作 第三节 Distances Correlations 过程 7.3.1 主要功能 7.3.2 实例操作 任何事物的存在都不是孤立的,而是相互联系、相互制约的。在医学领域中,身高与体 重、体温与脉搏、年龄与血压等都存在一定的联系。说明客观事物相互间关系的密切程度并 用适当的统计指标表示出来,这个过程就是相关分析。 值得注意,事物之间有相关,不一定是因果关系,也可能仅是伴随关系。但如果事物之 间有因果关系,则两者必然相关。 SPSS 的相关分析是借助于 Statistics 菜单的 Correlate 选项完成的。 第一节 Bivariate 过程 7.1.1 主要功能 调用此过程可对变量进行相关关系的分析,计算有关的统计指标,以判断变量之间相互 关系的密切程度。调用该过程命令时允许同时输入两变量或两个以上变量,但系统输出的是 变量间两两相关的相关系数
7.1.2实例操作 例7-1某地区10名健康儿童头发和全血中的硒含量(100pm)如下,试作发硒与血 硒的相关分析。 编号 硒 血硒 3 678 73 10 73 10 7.1.2.1数据准备 激活数据管理窗口,定义变量名:发硒为ⅹ,血硒为Y,按顺序输入相应数值,建立数 据库(图7.1)。 图7.1原始数据的输入 7.1.2.2统计分析
7.1.2 实例操作 [例 7-1]某地区 10 名健康儿童头发和全血中的硒含量(1000ppm)如下,试作发硒与血 硒的相关分析。 编号 发硒 血硒 1 2 3 4 5 6 7 8 9 10 74 66 88 69 91 73 66 96 58 73 13 10 13 11 16 9 7 14 5 10 7.1.2.1 数据准备 激活数据管理窗口,定义变量名:发硒为 X,血硒为 Y,按顺序输入相应数值,建立数 据库(图 7.1)。 图 7.1 原始数据的输入 7.1.2.2 统计分析
激活 Statistics菜单选 Correlate中的 Bivariate命令项,弹出 Bivariate Correlation对话框 (图7.2)。在对话框左侧的变量列表中选x、y,点击>钮使之进入 Variables框;再在 Correlation Coefficients框中选择相关系数的类型,共有三种: Pearson为通常所指的相关系 数(r), Kendell'tau-b为非参数资料?bdba南喙叵凳琤 pearman为非正态分布资料的 Pearson相关系数替代值,本例选用 Pearson项;在 Test of Significance框中可选相关系数的 单侧(One- tailed)或双侧(iwo- tailed)检验,本例选双侧检验。 图7.2相关分析对话框 点击 Options.钮弹出 Bivariate Correlation: Options对话框(图73),可选有关统计项目。 本例要求输出X、Y的均数与标准差以及XY交叉乘积的标准差与协方差,故选 Means and standard deviations和 Cross-product deviations and covariances项,而后点击 Continue钮返回 Bivariate Correlation对话框,再点击OK钮即可 图7.3相关分析统计对话框 7.1.2.3结果解释: 在结果输出窗口中将看到如下统计数据:变量X、Y的例数、均数与标准差,变量X Y交叉乘积的例数、标准差与协方差;xY两两对应的相关系数及其双侧检验的概率,本例 r=0.8715,P=0.001
激活 Statistics 菜单选 Correlate 中的 Bivariate...命令项,弹出 Bivariate Correlation 对话框 (图 7.2)。在对话框左侧的变量列表中选 x、y,点击 ➢ 钮使之进入 Variables 框;再在 Correlation Coefficients 框中选择相关系数的类型,共有三种:Pearson 为通常所指的相关系 数(r),Kendell’s tau-b 为非参数资料?bdba 南喙叵凳 琒 pearman 为非正态分布资料的 Pearson 相关系数替代值,本例选用 Pearson 项;在 Test of Significance 框中可选相关系数的 单侧(One-tailed)或双侧(Two-tailed)检验,本例选双侧检验。 图 7.2 相关分析对话框 点击 Options...钮弹出 Bivariate Correlation:Options 对话框(图 7.3),可选有关统计项目。 本例要求输出 X、Y 的均数与标准差以及 XY 交叉乘积的标准差与协方差,故选 Means and standard deviations 和 Cross-product deviations and covariances 项,而后点击 Continue 钮返回 Bivariate Correlation 对话框,再点击 OK 钮即可。 图 7.3 相关分析统计对话框 7.1.2.3 结果解释: 在结果输出窗口中将看到如下统计数据:变量 X、Y 的例数、均数与标准差,变量 X、 Y 交叉乘积的例数、标准差与协方差;XY 两两对应的相关系数及其双侧检验的概率,本例 r = 0.8715,P = 0.001
Variable Cases Mean Std dev 10 75.4000 12.2945 10.8000 3.3267 Variables Cases Cross-Prod dev Variance-Covar 320.8000 35.6444 Y 10000 (10)(10) 87151.0000 (10)(10) P=001 Coefficient/( Cases)/2-tailed Significance) is printed if a coefficient cannot be computed 返回目录返回主页 第二节 Partia过程 7.2.1主要功能 调用此过程可对变量进行偏相关分析。在偏相关分析中,系统可按用户的要求对两相关 变量之外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系 返回目录返回主页 7.2.2实例操作 [例7-2某地29名13岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表,试 对该资料作控制体重影响作用的身高与肺活量相关分析。 编号「身高(cm)「体重「肺活量「编号「身高(cm)「体重「肺活量
Variable Cases Mean Std Dev X 10 75.4000 12.2945 Y 10 10.8000 3.3267 Variables Cases Cross-Prod Dev Variance-Covar X Y 10 320.8000 35.6444 X Y X 1.0000 .8715 ( 10) ( 10) P= . P= .001 Y .8715 1.0000 ( 10) ( 10) P= .001 P= . (Coefficient / (Cases) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 第二节 Partial 过程 7.2.1 主要功能 调用此过程可对变量进行偏相关分析。在偏相关分析中,系统可按用户的要求对两相关 变量之外的某一或某些影响相关的其他变量进行控制,输出控制其他变量影响后的相关系 数。 7.2.2 实例操作 [例 7-2]某地 29 名 13 岁男童身高(cm)、体重(kg)和肺活量(ml)的数据如下表, 试 对该资料作控制体重影响作用的身高与肺活量相关分析。 编号 身高(cm) 体重 肺活量 编号 身高(cm) 体重 肺活量
(kg) (m) (kg) (ml) 135.1 32.0 1750 153.0 472 1750 2 139.9 30.4 2000 6789 147.6 40.5 2000 163.6 46.2 2750 157.5 43.3 2250 146.5 33.5 2500 155.1 44.7 2750 2750 160.5 37.5 2000 156.4 2000 143.0 31.5 678901 7.8 41.5 1494 1497 31.0 23 160.8 40.4 2750 145.0 33.0 2500 24 1590 38.5 2500 1485 37.2 158.2 37.5 165.5 150.0 36.0 135.0 27.6 34.7 2250 153.3 41.0 2750 154.6 152.0 0 1750 156.5 32.0 1750 160.5 472 7.2.2.1数据准备 激活数据管理窗口,定义变量名:身高为 height,体重为 weight,肺活量为ve,按顺序 输入相应数值,建立数据库 7.2.2.2统计分析 激活 Statistics菜单选 Correlate中的 Partial.命令项,弹出 Partial Correlations对话框(图 7.4)。现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析,故在对话框左侧的变 量列表中选变量 height、ve,点击>钮使之进入 Variables框,选要控制的变量wigh,点 击≯钮使之进入 Controlling for框中,在 Test of significance框中选双侧检验,然后点击OK 钮即可。 图7.4偏相关分析对话框
(kg) (ml) (kg) (ml) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 135.1 139.9 163.6 146.5 156.2 156.4 167.8 149.7 145.0 148.5 165.5 135.0 153.3 152.0 160.5 32.0 30.4 46.2 33.5 37.1 35.5 41.5 31.0 33.0 37.2 49.5 27.6 41.0 32.0 47.2 1750 2000 2750 2500 2750 2000 2750 1500 2500 2250 3000 1250 2750 1750 2250 16 17 18 19 20 21 22 23 24 25 26 27 28 29 153.0 147.6 157.5 155.1 160.5 143.0 149.4 160.8 159.0 158.2 150.0 144.5 154.6 156.5 47.2 40.5 43.3 44.7 37.5 31.5 33.9 40.4 38.5 37.5 36.0 34.7 39.5 32.0 1750 2000 2250 2750 2000 1750 2250 2750 2500 2000 1750 2250 2500 1750 7.2.2.1 数据准备 激活数据管理窗口,定义变量名:身高为 height,体重为 weight,肺活量为 vc,按顺序 输入相应数值,建立数据库。 7.2.2.2 统计分析 激活 Statistics 菜单选 Correlate 中的 Partial...命令项,弹出 Partial Correlations 对话框(图 7.4)。现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析,故在对话框左侧的变 量列表中选变量 height、vc,点击 ➢ 钮使之进入 Variables 框,选要控制的变量 weight,点 击 ➢ 钮使之进入 Controlling for 框中, 在 Test of Significance 框中选双侧检验,然后点击 OK 钮即可。 图 7.4 偏相关分析对话框
7.2.2.3结果解释 在结果输出窗口中将看到如下统计数据:控制体重的影响后,身高与肺活量的相关系数 为0.0926,经检验P=0.639,故身高与肺活量的线性相关不存在。(如果不控制体重的影响, 则身高与肺活量的相关系数为0.5884,P为0.001。在有控制的情况下,身高与肺活量的决 定系数=r2=000857,而无控制的身高与肺活量决定系数=P2=0.34621,可见身高与肺活 量的相关有33.764%是由体重协同作用而产生的。) Controlling for. WEIGHT HEIGHT VC HEIGHT 0000 P=.639 0926 1.0000 (26)(0) P=639P= Coefficient/(D F )/2-tailed Significance is printed if a coefficient cannot be computed 如果控制变量改为身高,则得如下结果:体重与肺活量的相关系数为0.5528,经检验 0.002,故体重与肺活量的线性相关存在。可见,尽管肺活量与身高和体重均有关系,但 如果仅仅研究其中一个变量与肺活量的相关关系时,体重的意义会更大 Controlling for. HEIGHT WEIGHT VC 1.0000 5528 P=.002 WEIGHT 5528 1.0000 Coefficient/(D F)/2-tailed Significance) is printed if a coefficient cannot be computed
7.2.2.3 结果解释 在结果输出窗口中将看到如下统计数据:控制体重的影响后,身高与肺活量的相关系数 为 0.0926,经检验 P = 0.639,故身高与肺活量的线性相关不存在。(如果不控制体重的影响, 则身高与肺活量的相关系数为 0.5884,P 为 0.001。在有控制的情况下,身高与肺活量的决 定系数 = r2 = 0.00857,而无控制的身高与肺活量决定系数 = r2 = 0.34621,可见身高与肺活 量的相关有 33.764%是由体重协同作用而产生的。) Controlling for.. WEIGHT HEIGHT VC HEIGHT 1.0000 .0926 ( 0) ( 26) P= . P= .639 VC .0926 1.0000 ( 26) ( 0) P= .639 P= . (Coefficient / (D.F.) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 如果控制变量改为身高,则得如下结果:体重与肺活量的相关系数为 0.5528,经检验 P = 0.002,故体重与肺活量的线性相关存在。可见,尽管肺活量与身高和体重均有关系,但 如果仅仅研究其中一个变量与肺活量的相关关系时,体重的意义会更大。 Controlling for.. HEIGHT VC WEIGHT VC 1.0000 .5528 ( 0) ( 26) P= . P= .002 WEIGHT .5528 1.0000 ( 26) ( 0) P= .002 P= . (Coefficient / (D.F.) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed
返回目录返回主页 第三节 Distances过程 7.3.1主要功能 调用此过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近 程度:也可对变量间进行距离相关分析,常用于考察预测值对实际值的拟合优度 返回目录返回主页 7.3.2实例操作 [例7-3某医师对10份标准血红蛋白样品作三次平行检测,结果如下,问检测结果是否 样品 6 第一1236121412311232121212812.24124112331217 次1240 12.251222123412.3112.3012.221224 第二12.181222 12.21121012251220124612.3612.1l 第三 次 7.3.2.1数据准备 激活数据管理窗口,定义变量名:第一次测量值为HB1,第二次测量值为HB2,第 次测量值为HB3,输入相应数值即完成 7.3.2.2统计分析 激活 Statistics菜单选 Correlate中的 Distance.命令项,弹出 Distance对话框(图7.5)。 在对话框左侧的变量列表中选变量 hbsab2、hb3,点击>钮使之进入 Variables框。在 Compute Distances框中有两个选项, Between cases表示作变量内部观察值之间的距离相关分析 Between variables表示作变量之间的距离相关分析,在本例中,因三次平行测量结果分别置 于三个变量中,故选择后者
第三节 Distances 过程 7.3.1 主要功能 调用此过程可对变量内部各观察单位间的数值进行距离相关分析,以考察相互间的接近 程度;也可对变量间进行距离相关分析,常用于考察预测值对实际值的拟合优度。 7.3.2 实例操作 [例 7-3]某医师对 10 份标准血红蛋白样品作三次平行检测,结果如下,问检测结果是否 一致? 样品 号 1 2 3 4 5 6 7 8 9 10 第一 次 第二 次 第三 次 12.36 12.40 12.18 12.14 12.20 12.22 12.31 12.28 12.35 12.32 12.25 12.21 12.12 12.22 12.10 12.28 12.34 12.25 12.24 12.31 12.20 12.41 12.30 12.46 12.33 12.22 12.36 12.17 12.24 12.11 7.3.2.1 数据准备 激活数据管理窗口,定义变量名:第一次测量值为 HB1,第二次测量值为 HB2,第三 次测量值为 HB3,输入相应数值即完成。 7.3.2.2 统计分析 激活 Statistics 菜单选 Correlate 中的 Distance...命令项,弹出 Distance 对话框(图 7.5)。 在对话框左侧的变量列表中选变量hb1、hb2、hb3,点击➢ 钮使之进入Variables框。在Compute Distances 框中有两个选项,Between cases 表示作变量内部观察值之间的距离相关分析, Between variables 表示作变量之间的距离相关分析,在本例中,因三次平行测量结果分别置 于三个变量中,故选择后者
图7.5距离相关分析对话框 在 Measure栏中有两种测距方式: Dissimilarities为不相似性测距, Similarities为相似性 测距。若选 Dissimilarities并点击 Measure钮,弹出 Distance: Dissimilarity Measure对话框(图 7.6),用户可根据数据特征选用测距方法 图7.6距离相关中不相似性距离测量对话框 1、计量资料 Euclidean distance:以两变量差值平方和的平方根为距离 Squared Euclidean distance:以两变量差值平方和为距离 Chebychev:以两变量绝对差值的最大值为距离 以两变量绝对差值之和为距离 Minkowski:以两变量绝对差值p次幂之和的p次根为距离; Customized:以两变量绝对差值p次幂之和的r次根为距离
图 7.5 距离相关分析对话框 在 Measure 栏中有两种测距方式:Dissimilarities 为不相似性测距,Similarities 为相似性 测距。若选 Dissimilarties 并点击 Measure...钮,弹出 Distance:Dissimilarity Measure 对话框(图 7.6),用户可根据数据特征选用测距方法: 图 7.6 距离相关中不相似性距离测量对话框 1、计量资料 Euclidean distance:以两变量差值平方和的平方根为距离; Squared Euclidean distance:以两变量差值平方和为距离; Chebychev:以两变量绝对差值的最大值为距离; Block:以两变量绝对差值之和为距离; Minkowski:以两变量绝对差值 p 次幂之和的 p 次根为距离; Customized:以两变量绝对差值 p 次幂之和的 r 次根为距离
2、计数资料 Ch- -square measure:x2值测距; &nb7 ba span> Phi-squaremeasure:y2值测距,即将x2测距值除合计频数的平方根。 字符变量 Euclidean distance:二分差平方和的平方根,最小为0,最大无限: Squared Euclidean distance:二分差平方和,最小为0,最大无限 Size difference:最小距离为0,最大无限; Pattern difference:从0至1的无级测距 Variance以方差为距,最小为0,最大无限; Lance and williams: Bray-Curtis非等距系数,界于0至1之间。 若选 Similarties并点击 Measure.钮,弹出 Distance: Similarity Measure对话框(图77), 用户可根据数据特征选用测距方法: 图7.7距离相关中相似性距离测量对话框 1、计量资料 Pearson correlation:以 Pearson相关系数为距离 Cosine:以变量矢量的余弦值为距离,界于-1至+1之间 2、二分字符变量 Russell and rao:以二分点乘积为配对系数 Simple matching:以配对数与总对数的比例为配对系数 Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重; Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重 Rogers and Tanimoto: Rogers and Tanimoto配对系数,分母为配对数,分子为非配对数 非配对数给予加倍的权重 Sokal and sneath 1: Sokal and Sneath I型配对系数,分母为配对数,分子为非配对数 配对数给予加倍的权重 Sokal and sneath2: Sokal and sneathⅡ型配对系数,分子与分母均为非配对数,但分子 给予加倍的权重: Sokal and sneath3: Sokal and SneathⅢ型配对系数,分母为配对数,分子为非配对数, 分子与分母的权重相同
2、计数资料 Chi-square measure:χ 2 值测距; &nb79ba span>Phi-squaremeasure:ψ 2 值测距,即将 χ 2 测距值除合计频数的平方根。 3、二分字符变量 Euclidean distance:二分差平方和的平方根,最小为 0,最大无限; Squared Euclidean distance:二分差平方和,最小为 0,最大无限; Size difference:最小距离为 0,最大无限; Pattern difference:从 0 至 1 的无级测距; Variance:以方差为距,最小为 0,最大无限; Lance and Williams:Bray-Curtis 非等距系数,界于 0 至 1 之间。 若选 Similarties 并点击 Measure...钮,弹出 Distance: Similarity Measure 对话框(图 7.7), 用户可根据数据特征选用测距方法: 图 7.7 距离相关中相似性距离测量对话框 1、计量资料 Pearson correlation:以 Pearson 相关系数为距离; Cosine:以变量矢量的余弦值为距离,界于-1 至+1 之间。 2、二分字符变量 Russell and Rao:以二分点乘积为配对系数; Simple matching:以配对数与总对数的比例为配对系数; Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重; Dice:Dice 配对系数,分子与分母中的配对数给予加倍的权重; Rogers and Tanimoto:Rogers and Tanimoto 配对系数,分母为配对数,分子为非配对数, 非配对数给予加倍的权重; Sokal and Sneath 1:Sokal and Sneath Ⅰ型配对系数,分母为配对数,分子为非配对数, 配对数给予加倍的权重; Sokal and Sneath 2:Sokal and Sneath Ⅱ型配对系数,分子与分母均为非配对数,但分子 给予加倍的权重; Sokal and Sneath 3:Sokal and Sneath Ⅲ型配对系数,分母为配对数,分子为非配对数, 分子与分母的权重相同;
Kuczynski1: Kuczynski I型配对系数,分母为总数与配对数之差,分子为非配对数, 分子与分母的权重相同; Kuczynski2: Kuczynski平均条件概率 Sokal and Sneath4: Sokal and sneath条件概率; Hamann: Hamann概率 Lambda: Goodman- Kruskal相似测量的λ值; Anderberg's D:以一个变量状态预测另一个变量状态; Yule'sY:Yule综合系数,属于2×2四格表的列联比例函数 Yules Q: Goodman- Kruskal y值,属于2×2四格表的列联比例函数 3、其他型变量 Ochiai: Ochiai二分余弦测量 Sokal and Sneath5: Sokal and Sneath V型相似测量 Phi4 point correlation: Pearson相关系数的平方值; Dispersion: Dispersion相似测量 同时,还可以选择数据转换形式: None:不作数据转换 Z- Scores:作标准Z分值转换 Range-ltol:作-1至+1之间的标准化转换 Range o to l:作0至1之间的标准化转换 Maximum magnitude of l:作最大量值1的标准转换 Mean of l:作均数单位转换 Standard deviation of 1:作标准差单位转换 本例选 Similarties项,并以 Pearson correlation为测量距离。点击 Continue钮返回 Distance 对话框,再点击OK钮即可。 7.3.2.3结果解释 在结果输出窗口可看到三次测量结果的相关系数矩阵。第一次测量与第二次测量结果的 r=0.5734,第一次测量与第三次测量结果的r=0.7309,第二次测量与第三次测量结果的r= 0.0878,由此可见,后两次测量的结果一致性较差,这意味着第一次恰好是后两次的“均值”, 故对该指标作重复测量意义不大 Data information 10 unweighted cases accepted 0 cases rejected because of m value Correlation measure used Correlation Similarity Coefficient Matrix Variable HBI HB2 5734 HB3 7309 0878
Kulczynski 1:Kulczynski Ⅰ型配对系数,分母为总数与配对数之差,分子为非配对数, 分子与分母的权重相同; Kulczynski 2:Kulczynski 平均条件概率; Sokal and Sneath 4:Sokal and Sneath 条件概率; Hamann:Hamann 概率; Lambda:Goodman-Kruskai 相似测量的 λ 值; Anderberg's D:以一个变量状态预测另一个变量状态; Yule's Y:Yule 综合系数,属于 2×2 四格表的列联比例函数; Yule's Q:Goodman-Kruskal γ 值,属于 2×2 四格表的列联比例函数。 3、其他型变量 Ochiai:Ochiai 二分余弦测量; Sokal and Sneath 5:Sokal and Sneath Ⅴ型相似测量; Phi 4 point correlation:Pearson 相关系数的平方值; Dispersion:Dispersion 相似测量。 同时,还可以选择数据转换形式: None:不作数据转换; Z-Scores:作标准 Z 分值转换; Range -1 to 1:作-1 至+1 之间的标准化转换; Range 0 to 1:作 0 至 1 之间的标准化转换; Maximum magnitude of 1:作最大量值 1 的标准转换; Mean of 1:作均数单位转换; Standard deviation of 1:作标准差单位转换。 本例选 Similarties 项,并以Pearson correlation 为测量距离。点击 Continue 钮返回 Distance 对话框,再点击 OK 钮即可。 7.3.2.3 结果解释 在结果输出窗口可看到三次测量结果的相关系数矩阵。第一次测量与第二次测量结果的 r = 0.5734,第一次测量与第三次测量结果的 r = 0.7309,第二次测量与第三次测量结果的 r = 0.0878,由此可见,后两次测量的结果一致性较差,这意味着第一次恰好是后两次的“均值”, 故对该指标作重复测量意义不大。 Data Information 10 unweighted cases accepted. 0 cases rejected because of missing value. Correlation measure used. Correlation Similarity Coefficient Matrix Variable HB1 HB2 HB2 .5734 HB3 .7309 .0878