第五章:SPSS统计绘图功能详解 (医学统计之星:张文彤) ,SAS绘制的统计图不太美观;而SPSS绘制的统计图较为美观,可以满足 大多数情况下的要求; STATA绘制的统计图形最为精美,但由于它采用命令行方 式操作,美观的图形需要添加大量选项,普通人不易掌握;而S-PLUS、 MATHLAB 等偏数理统计的软件虽然绘图能力也非常强,但由于自身的定位问题,并不为大 多数人所熟悉。因此,在各种统计软件中,以SPSS制作的统计图应用最为广泛 心 EXECL的统计绘图功能非常的强,我们还有必要学习SPSS的绘图功能 这个问题我的看法是: EXCEL由于它的纯中文界面和简单而强大的绘图功能,使 得可以用它来直接绘制各种简单的统计图,但是, EXCEL可以直接绘制的统计图 种类有限,象误差条图、自回归图等它就无能为力,即是它支持的线图、条图等, 如果过于复杂,如叠式条图、累计条图等也无法作出,而这些图在统计中是经常 会碰到的,此时就只有采用统计软件来绘制,SPSS就是其中的佼佼者。 §5.1常用统计图 在SPSS10.0版中,除了生存分析所用的生存曲线图被整合到 ANALYZE菜单 中外,其他的统计绘图功能均放置在 graph菜单中。该菜单具体分为以下几部分: Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学 者可以通过它对SPSS的绘图能力有一个大致的了解。 · Interactive:交互式统计图,这是SPSS9.0版新增的内容 sMap:统计地图,这是SPSS10.0版新增的内容。 市面上所能见到的SSs10.0D版由于执照不全,并不能安装统计地图 模块。 ·下方的其他菜单项是我们最为常用的普通统计图,具体来说有: 条图 洲散点图 心□ 线图 直方图饼图 面积图 向箱式图 正态Q→Q图 正态PP图 质量控制图 Pareto图 自回归曲线图
第五章:SPSS 统计绘图功能详解 (医学统计之星:张文彤) ,SAS 绘制的统计图不太美观;而 SPSS 绘制的统计图较为美观,可以满足 大多数情况下的要求;STATA 绘制的统计图形最为精美,但由于它采用命令行方 式操作,美观的图形需要添加大量选项,普通人不易掌握;而 S-PLUS、MATHLAB 等偏数理统计的软件虽然绘图能力也非常强,但由于自身的定位问题,并不为大 多数人所熟悉。因此,在各种统计软件中,以 SPSS 制作的统计图应用最为广泛。 EXECL 的统计绘图功能非常的强,我们还有必要学习 SPSS 的绘图功能 吗? 这个问题我的看法是:EXCEL 由于它的纯中文界面和简单而强大的绘图功能,使 得可以用它来直接绘制各种简单的统计图,但是,EXCEL 可以直接绘制的统计图 种类有限,象误差条图、自回归图等它就无能为力,即是它支持的线图、条图等, 如果过于复杂,如叠式条图、累计条图等也无法作出,而这些图在统计中是经常 会碰到的,此时就只有采用统计软件来绘制,SPSS 就是其中的佼佼者。 §5.1 常用统计图 在 SPSS 10.0 版中,除了生存分析所用的生存曲线图被整合到 ANALYZE 菜单 中外,其他的统计绘图功能均放置在 graph 菜单中。该菜单具体分为以下几部分: • Gallery:相当于一个自学向导,将统计绘图功能做了简单的介绍,初学 者可以通过它对 SPSS 的绘图能力有一个大致的了解。 • Interactive:交互式统计图,这是 SPSS 9.0 版新增的内容。 • Map:统计地图,这是 SPSS 10.0 版新增的内容。 市面上所能见到的 SPSS 10.0 D 版由于执照不全,并不能安装统计地图 模块。 •下方的其他菜单项是我们最为常用的普通统计图,具体来说有: 条图 散点图 线图 直方图 饼图 面积图 箱式图 正态 Q-Q 图 正态 P-P 图 质量控制图 Pareto 图 自回归曲线图
高低图 交互相关图序列图 频谱图 误差线图 其中后面几种图形用于时间序列分析。我们的讲解将这些常规统计图为 主,对交互式统计图和统计地图只举例介绍,就不再全面讲述了 我们所用的数据集为SPSS自带的 anxiety.sav,本章的大多数例子都将围 绕该数据集展开。 5.1.1操作界面介绍(条图) 5.1.1.1条图的通用界面 由于不同图形的绘图对话框有相当强的共性,下面我们通过一个简单的例子 来看看绘图菜单的大致界面是怎么样的,通过这个例子大家可以举一反三。 例5.1:在数据集 anxIety.sav中分不同的 subject对变量 score值(之和) 绘制条图。 选择 graphs=bar后,系统首先会弹出一个简单的导航对话框如下所示: 绘制简单条图(单式条图) Define Simple 绘制复式条图 Cancel 绘制堆积条图(分段条图) Help Stacked 定义统计图中数据的表达类型: 条图反映了同一变量若干条记录的分组汇总 Data in Chart Are group 条图反映了不同变量的汇总 C Summaries of separate ariables C Values of individual cases 条图反映了个体观察值 在该对话框中,SPSS将条图进行了大致的分类,对话框的上半部分用于选 择条图类型,下半部分的 Data in chart are单选框组用于定义条图中数据的表
高低图 交互相关图 序列图 频谱图 误差线图 其中后面几种图形用于时间序列分析。我们的讲解将这些常规统计图为 主,对交互式统计图和统计地图只举例介绍,就不再全面讲述了。 我们所用的数据集为 SPSS 自带的 anxiety.sav,本章的大多数例子都将围 绕该数据集展开。 5.1.1 操作界面介绍(条图) 5.1.1.1 条图的通用界面 由于不同图形的绘图对话框有相当强的共性,下面我们通过一个简单的例子 来看看绘图菜单的大致界面是怎么样的,通过这个例子大家可以举一反三。 例 5.1:在数据集 anxiety.sav 中分不同的 subject 对变量 score 值(之和) 绘制条图。 选择 graphs==>bar 后,系统首先会弹出一个简单的导航对话框如下所示: 绘制简单条图(单式条图) 绘制复式条图 绘制堆积条图(分段条图) 定义统计图中数据的表达类型: 条图反映了同一变量若干条记录的分组汇总 条图反映了不同变量的汇总 条图反映了个体观察值 在该对话框中,SPSS 将条图进行了大致的分类,对话框的上半部分用于选 择条图类型,下半部分的 Data in Chart are 单选框组用于定义条图中数据的表
达类型。这里根据我们所需绘制条图的类型,应该选择简单条图,在表达类型中 则应选择" Summaries for groups of cases"。选好后单击 DEFINE钮,系统开启 正式的条图定义对话框如下: a Define Simple Bar: Summaries for Groups of Cases Bars Represent OK Anxiety [anxiety c Nof cases C% of cases 参 Tension [tension] Cum n of cases C Cum. of cases o Score [score o Trial[trial] C Other summary function Reset Variabl Cancel Change Summary. Helr Category Axis Template Use chart specifications from: Titles File Options 对话框左侧为通用的侯选变量列表框,右侧的对话框元素依次解释如下: 【 Bars represent单选框组】 用于定义条图中直条所代表的含义,可以是样本例数、样本数所占的百分比、 累计样本例数、累计样本数所占的百分比或其余汇总函数,在例5.1中我们要对 变量 score的值绘图,因此选择最后一项" Other summary function",系统开启 summary function对话框如下所示:
达类型。这里根据我们所需绘制条图的类型,应该选择简单条图,在表达类型中 则应选择"Summaries for groups of cases"。选好后单击 DEFINE 钮,系统开启 正式的条图定义对话框如下: 对话框左侧为通用的侯选变量列表框,右侧的对话框元素依次解释如下: 【Bars Represent 单选框组】 用于定义条图中直条所代表的含义,可以是样本例数、样本数所占的百分比、 累计样本例数、累计样本数所占的百分比或其余汇总函数,在例 5.1 中我们要对 变量 score 的值绘图,因此选择最后一项"Other summary function",系统开启 summary function 对话框如下所示:
Summary Function for Selected Variable(s) Continue Mean of values C Standard deviation Cancel C Median of values C Variance C Mode of values C Minimum value Help C Number of cases C Maximum value CSum ofvalues C Cumulative sum C Percentage above C Number above C Percentage belot C Number below C Percentile High C Percentage inside C Number inside Values are grouped midpoints 该对话框中列出了更多的统计汇总函数,可以满足绝大多数情况的需要。具 体有 上部:包括大多数常用统计汇总函数,如均数、标准差、中位数、方差、 众数、最大、最小值、样本例数、变量值之和、累计变量值 中部:可对各记录按大小进行筛选,如上侧百分之多少,或者只选择小 于某个数值的记录。具体的数值在 value框中输入。 下部:可按数值大小值选择取值在某个范围内的记录,具体的范围在low 和high框中输入。 注意上面的一些函数是和前面重复的,如样本例数 此外,对话框最下侧还有一个 Values are grouped midpoints复选框,当 选中 median of values或 percentile单选框时该框变为可选,选中则表明数据 为频数表格式,所输入的数值为组中值 根据我们的目的,这里选择 sum of values单选框,单击 continue后系统 回到上一个对话框。 【 Category Axis框】 用于选择所需的分类变量,此处必选。这里根据要求,将 sub ject选入,可 以见到此时0K已经变黑可用了
该对话框中列出了更多的统计汇总函数,可以满足绝大多数情况的需要。具 体有: •上部:包括大多数常用统计汇总函数,如均数、标准差、中位数、方差、 众数、最大、最小值、样本例数、变量值之和、累计变量值。 •中部:可对各记录按大小进行筛选,如上侧百分之多少,或者只选择小 于某个数值的记录。具体的数值在 value 框中输入。 •下部:可按数值大小值选择取值在某个范围内的记录,具体的范围在 low 和 high 框中输入。 注意上面的一些函数是和前面重复的,如样本例数。 此外,对话框最下侧还有一个 Values are grouped midpoints 复选框,当 选中 median of values 或 percentile 单选框时该框变为可选,选中则表明数据 为频数表格式,所输入的数值为组中值。 根据我们的目的,这里选择 sum of values 单选框,单击 continue 后系统 回到上一个对话框。 【Category Axis 框】 用于选择所需的分类变量,此处必选。这里根据要求,将 subject 选入,可 以见到此时 OK 已经变黑可用了
【 Template框】 用于选择绘制条图的模板,一般较少用。 【 Titles钮】 用于输入统计图的标题和脚注,最多可以输入两行主标题,一行副标题,两 脚注。 【 Options钮】 弹出 Options对话框,用于定义相关的选项,有: o Confidence Interval框输入需要计算的均数差值可信区间范围, 默认为95%。如果是和总体均数为0相比,则此处计算的就是样本所在总 体均数的可信区间。 。 Missing values单选框组定义分析中对缺失值的处理方法,可以是 具体分析用到的变量有缺失值才去除该记录( Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录 去除( Excludes cases listwise)。默认为前者,以充分利用数据。 现在,我们已经完成了绘制该图所需的工作,单击0K,系统绘出统计图如 下 至于 Data inChart are中的另两种情况 Summaries of separate variables 和 Values of individual cases,其对话框界面极为简单,可以说是一目了然, 这里不再多讲,只指出以下几点
【Template 框】 用于选择绘制条图的模板,一般较少用。 【Titles 钮】 用于输入统计图的标题和脚注,最多可以输入两行主标题,一行副标题,两 行脚注。 【Options 钮】 弹出 Options 对话框,用于定义相关的选项,有: o Confidence Interval 框 输入需要计算的均数差值可信区间范围, 默认为 95%。如果是和总体均数为 0 相比,则此处计算的就是样本所在总 体均数的可信区间。 o Missing Values 单选框组 定义分析中对缺失值的处理方法,可以是 具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by analysis),或只要相关变量有缺失值,则在所有分析中均将该记录 去除(Excludes cases listwise)。默认为前者,以充分利用数据。 现在,我们已经完成了绘制该图所需的工作,单击 OK,系统绘出统计图如 下: 至于 Data inChart Are 中的另两种情况 Summaries of separate variables 和 Values of individual cases,其对话框界面极为简单,可以说是一目了然, 这里不再多讲,只指出以下几点:
在 Summaries of separate variables的对话框中,可以用 Change summary钮更改汇总函数。 在 Values of individual cases的对话框中,下方 category labels 的选择并不影响做出直条的多少,只会影响X轴表示的内容,默认是记录 号 5.1.1.2复式条图与分段条图的界面 复式条图与分段条图的界面并非全新的东西,只是在前面的简单界面上增加 了一些元素,让我们再通过一个例子来看看 例5.2:在数据集 anxiety.sav中分不同的 subject对变量 score值(之和) 绘制条图,并且按变量 trial的不同取值堆积(分段): 由于要按变量 trial的不同取值分段,因此在导航对话框中就不能选 simple,而应根据目的选择 stacked,单击 define后系统开启的条图定义对话 框和我们前面所用的略有不同,具体来说在 Category Axis框附近不同,现在 Category Axis框下面多了些东西如下所示 Cate Axi Category Axi Define Stacks by Define Clusters by 选择 stacks时的情况 选择 clusters时的情况 显然,当需要做复式条图时,将所需的分类变量选入 stacks框中即可,做 分段条图的情况也与此类似。 以例5.2为例,其操作步骤如下: 1. Graphs==>bar 2. Clustered:选中 3. Summarizes for groups of variables单选框:选中 4.单击 Define ars repesent框:选入 score 0 ther summary function单选框:选中 Variable框:选入 sub jec 8. Change summary钮:单击 Sum of values单选框:单击 单击 continue钮 11. Cat 框:选入 sub jec 12. Define stacks by框:选入 trial 13.单击OK
•在 Summaries of separate variables 的对话框中,可以用 Change summary 钮更改汇总函数。 •在 Values of individual cases 的对话框中,下方 category labels 的选择并不影响做出直条的多少,只会影响 X 轴表示的内容,默认是记录 号。 5.1.1.2 复式条图与分段条图的界面 复式条图与分段条图的界面并非全新的东西,只是在前面的简单界面上增加 了一些元素,让我们再通过一个例子来看看: 例 5.2:在数据集 anxiety.sav 中分不同的 subject 对变量 score 值(之和) 绘制条图,并且按变量 trial 的不同取值堆积(分段): 由于要按变量 trial 的不同取值分段,因此在导航对话框中就不能选 simple,而应根据目的选择 stacked,单击 define 后系统开启的条图定义对话 框和我们前面所用的略有不同,具体来说在 Category Axis 框附近不同,现在 Category Axis 框下面多了些东西如下所示: 选择 stacks 时的情况 选择 clusters 时的情况 显然,当需要做复式条图时,将所需的分类变量选入 stacks 框中即可,做 分段条图的情况也与此类似。 以例 5.2 为例,其操作步骤如下: 1. Graphs==>bar 2. Clustered:选中 3. Summarizes for groups of variables 单选框:选中 4. 单击 Define 5. Bars repesent 框:选入 score。 6. Other summary function 单选框:选中 7. Variable 框:选入 subject 8. Change summary 钮:单击 9. Sum of values 单选框:单击 10. 单击 continue 钮 11. Category Axis 框:选入 subject 12. Define stacks by 框:选入 trial 13. 单击 OK
绘出的条图如下所示: 但是,在 Values of individual cases的对话框中情况有些不同,原先Bars represent框只能选入一个变量,做复式条图和分段条图时该框中可以选入多个 变量了,其他的内容不变 5.1.2其他常用统计图 5.1.2.1散点图 散点图是各种统计图中比较简单的一种,共分为 simple、 matrix(以矩阵 的形式显示多个变量间两两的散点图)、 overlay(将多个变量间两两的散点图 同时做在一张图上)和3D(将X、Y、Z三个变量间的相关散点图做在一个立体 空间中)四种,其中需要解释的比较特殊的内容有: Set marks by框:选入一个标记变量,根据该变量取致的不同对同一个 散点图中的各点标以不同的颜色(或形状),例如在数据cars中我们以 horse和 weight做图,如果用 orgion的大小来做 marks,则两次做出的 图如下:
绘出的条图如下所示: 但是,在 Values of individual cases 的对话框中情况有些不同,原先 Bars repersent 框只能选入一个变量,做复式条图和分段条图时该框中可以选入多个 变量了,其他的内容不变。 5.1.2 其他常用统计图 5.1.2.1 散点图 散点图是各种统计图中比较简单的一种,共分为 simple、matrix(以矩阵 的形式显示多个变量间两两的散点图)、overlay(将多个变量间两两的散点图 同时做在一张图上)和 3D(将 X、Y、Z 三个变量间的相关散点图做在一个立体 空间中)四种,其中需要解释的比较特殊的内容有: • Set marks by 框:选入一个标记变量,根据该变量取致的不同对同一个 散点图中的各点标以不同的颜色(或形状),例如在数据 cars 中我们以 horse 和 weight 做图,如果用 orgion 的大小来做 marks,则两次做出的 图如下:
n Akan Venicle Weiht (bs) 没有mark变量时的情况 用 orgion做mark变量时的情况 Label cases框:当编辑图形在图形选项中选择显示 labels时,图形默 认显示记录号,如果在这里选择了 label变量,则显示该变量的取值 ·做出的3D图形可以在编辑时进行三维旋转,从多个角度进行观察。 5.1.2.2线图 线图实际上和条图是一回事,可以认为它就是条图的变形,条图是用直条的 高低表示多少,而线图是用点的高低来表示,然后又用直线将各点连接而成 5.1.2.3饼图 饼图的做法简直太简单了,不值一提 5.1.2.4面积图 面积图的做法是和线图、饼图类似的,比如堆积面积图是将各个指标值相加 而成,和分段式条图非常类似 5.1.2.5直方图 直方图用于观察某个变量的分布情况,如果选择了 display normal curve 复选框,则会同时做出一条当前变量理想状况的正态分布曲线来,和该曲线相比, 你就可以知道变量的实际分布究竟差了多远
没有 mark 变量时的情况 用 orgion 做 mark 变量时的情况 • Label cases 框:当编辑图形在图形选项中选择显示 labels 时,图形默 认显示记录号,如果在这里选择了 label 变量,则显示该变量的取值。 •做出的 3D 图形可以在编辑时进行三维旋转,从多个角度进行观察。 5.1.2.2 线图 线图实际上和条图是一回事,可以认为它就是条图的变形,条图是用直条的 高低表示多少,而线图是用点的高低来表示,然后又用直线将各点连接而成。 5.1.2.3 饼图 饼图的做法简直太简单了,不值一提! 5.1.2.4 面积图 面积图的做法是和线图、饼图类似的,比如堆积面积图是将各个指标值相加 而成,和分段式条图非常类似。 5.1.2.5 直方图 直方图用于观察某个变量的分布情况,如果选择了 display normal curve 复选框,则会同时做出一条当前变量理想状况的正态分布曲线来,和该曲线相比, 你就可以知道变量的实际分布究竟差了多远
Std Dev-043,00 Mean 2959 5 %。飞电多 vEhicle Weight(bs. 5.1.2.6其他 PP图和Q-Q图都是用来观察变量是否服从正态分布的;质量控制图则用来 观察个体值是否有超过正常值范围的情况出现;箱式图的作用和它类似,只是换 了一种表达方式;其余的几种图几乎都是用与时间序列模型的。 5.1.3常用统计图编辑方法详解 该部分内容请参见4.5节:图片编辑方法详解。 §5.2交互式统计图 交互式统计图是SPSS8.0版新增的绘图类型,包括了交互式条图、线图、 面积图、饼图、散点图、箱式图、误差限图和和直方图共七种类型,那么,这种 新的统计图类型和普通的统计图相比有什么优越性,或者说,它的主要卖点 交互性都体现在哪里呢 在我看来,“交互式”这三个字主要体现在以下几个方面: 对话框的交互。它的对话框全部采用拖方式操作,并且每一个元素的可 操作性都大大强于普通对话框,以前需要两至三层对话框才能完成的工 作,现在在一层对话框中就可以完成了。 ·图形内容的交互。在技术上,普通统计图存储的是图形元素,因此编辑 时只能就图形元素的特征,如颜色、线型等加以修改;而现在的交互式统 计图完全不同,它存储的是原始数据或者绘图用的中间结果(如均数、标 准差等),因此当图形绘制完毕后仍能对图形进行彻底更改,如加入锌的
5.1.2.6 其他 P-P 图和 Q-Q 图都是用来观察变量是否服从正态分布的;质量控制图则用来 观察个体值是否有超过正常值范围的情况出现;箱式图的作用和它类似,只是换 了一种表达方式;其余的几种图几乎都是用与时间序列模型的。 5.1.3 常用统计图编辑方法详解 该部分内容请参见 4.5 节:图片编辑方法详解。 §5.2 交互式统计图 交互式统计图是 SPSS 8.0 版新增的绘图类型,包括了交互式条图、线图、 面积图、饼图、散点图、箱式图、误差限图和和直方图共七种类型,那么,这种 新的统计图类型和普通的统计图相比有什么优越性,或者说,它的主要卖点-- 交互性都体现在哪里呢? 在我看来,“交互式”这三个字主要体现在以下几个方面: •对话框的交互。它的对话框全部采用拖方式操作,并且每一个元素的可 操作性都大大强于普通对话框,以前需要两至三层对话框才能完成的工 作,现在在一层对话框中就可以完成了。 •图形内容的交互。在技术上,普通统计图存储的是图形元素,因此编辑 时只能就图形元素的特征,如颜色、线型等加以修改;而现在的交互式统 计图完全不同,它存储的是原始数据或者绘图用的中间结果(如均数、标 准差等),因此当图形绘制完毕后仍能对图形进行彻底更改,如加入锌的
变量(在散点图中加入标示变量,甚至二维变三维)、删除某一部分数据、 甚至改变所会图形的基本类型,如将条图改绘为线图等,只要所需信息相 同,随你如何转换!不但如此,由于这个存储特点,现在我们还可以绘出 以前无法直接得到的图形,如将一个数据透视表的内容用图形来表示! Descriptive Statistics N Minimum aximum Mean Std Deviation 5.17 Valid n (istwise) 哈哈,统计表,我们要拿你来做图! 40,0 Statistics 这就是做出的交互式统计图 把它转成三维怎么样? ·增强的图形编辑能力。同样由于它的存储特点,现在交互式统计图的图 形编辑能力达到了有恃无恐的地步!几乎任何东西都可以拿来改,也可以 往里添加许多辅助线,如下面所示的一样:
变量(在散点图中加入标示变量,甚至二维变三维)、删除某一部分数据、 甚至改变所会图形的基本类型,如将条图改绘为线图等,只要所需信息相 同,随你如何转换!不但如此,由于这个存储特点,现在我们还可以绘出 以前无法直接得到的图形,如将一个数据透视表的内容用图形来表示! 哈哈,统计表,我们要拿你来做图! 这就是做出的交互式统计图 把它转成三维怎么样? •增强的图形编辑能力。同样由于它的存储特点,现在交互式统计图的图 形编辑能力达到了有恃无恐的地步!几乎任何东西都可以拿来改,也可以 往里添加许多辅助线,如下面所示的一样: