第二章数据文件的管理(上) (医学统计之星:张文彤) 不言而喻,一切统计分析都是以数据为基础的,因此统计软件的数据管理能 力非常重要。SPSS以其豪华的界面为依托,为用户提供的便捷的数据管理功能 下面我们就来具体看一下。 §2.1建立与保存数据文件 和大多数应用软件相同,SPS中数据文件的管理功能基本上都集中在了 File菜单上,该菜单的组织结构和wORD等也极为相似,因此这里我们只介绍比 较有特色的几个菜单项。 spss10.0有三个主要窗口界面:数据管理窗口、程序编辑窗口和结果浏览 窗口:另有两个不常用的窗口:结果草稿浏览窗口和VBs脚本语言编辑窗口。他 们共享许多菜单项,如File菜单就大部分相同,这里介绍的许多内容在五个窗 口中都是通用的。 2.1.1新建数据文件 如果你正从头开始进行一个新的课题,刚刚把数据收集上来,要做统计分析, 自然需要新建一个数据库,然后将所有的数据从纸上请到计算机里。在SPSS中 新建一个数据库容易的不得了一一已经到了什么都不用做的地步!是这样,当你 进入SPSS系统时,系统就已经生成了一个空数据文件,即你看到的空白的数据 管理界面。你只要按自己的需要定义变量,输入数据然后存盘就是了(这些操作 马上会讲到)。 2.1.2打开其他格式的数据文件 凡是做过数据输入工作的人都知道:这活又费眼睛又累人,出错太多了还要 挨批评,非常影响个人的光辉形象。算了,还是在有限的经费里划几百美元出来 雇个打字小姐吧(怎么用美元?因为我请了个老外!)。可是非常不幸,该同志 只会用 EXCEL2000(又是一个被微软成功洗脑的家伙),数据现已输好,怎么 转成SPSS数据文件呢?没关系,SPSS提供了以下几种方法来打开其他格式的数 据文件。 2.1.2.1直接打开 SPSS现在可以直接读入许多格式的数据文件,其中就包括 EXCEL各个版本 的数据文件。选择菜单File==>pen=Data或直接单击快捷工具栏上的
第二章 数据文件的管理(上) (医学统计之星:张文彤) 不言而喻,一切统计分析都是以数据为基础的,因此统计软件的数据管理能 力非常重要。SPSS 以其豪华的界面为依托,为用户提供的便捷的数据管理功能, 下面我们就来具体看一下。 §2.1 建立与保存数据文件 和大多数应用软件相同,SPSS 中数据文件的管理功能基本上都集中在了 File 菜单上,该菜单的组织结构和 WORD 等也极为相似,因此这里我们只介绍比 较有特色的几个菜单项。 SPSS 10.0 有三个主要窗口界面:数据管理窗口、程序编辑窗口和结果浏览 窗口;另有两个不常用的窗口:结果草稿浏览窗口和 VBs 脚本语言编辑窗口。他 们共享许多菜单项,如 File 菜单就大部分相同,这里介绍的许多内容在五个窗 口中都是通用的。 2.1.1 新建数据文件 如果你正从头开始进行一个新的课题,刚刚把数据收集上来,要做统计分析, 自然需要新建一个数据库,然后将所有的数据从纸上请到计算机里。在 SPSS 中, 新建一个数据库容易的不得了--已经到了什么都不用做的地步!是这样,当你 进入 SPSS 系统时,系统就已经生成了一个空数据文件,即你看到的空白的数据 管理界面。你只要按自己的需要定义变量,输入数据然后存盘就是了(这些操作 马上会讲到)。 2.1.2 打开其他格式的数据文件 凡是做过数据输入工作的人都知道:这活又费眼睛又累人,出错太多了还要 挨批评,非常影响个人的光辉形象。算了,还是在有限的经费里划几百美元出来 雇个打字小姐吧(怎么用美元?因为我请了个老外!)。可是非常不幸,该同志 只会用 EXCEL 2000(又是一个被微软成功洗脑的家伙),数据现已输好,怎么 转成 SPSS 数据文件呢?没关系,SPSS 提供了以下几种方法来打开其他格式的数 据文件。 2.1.2.1 直接打开 SPSS 现在可以直接读入许多格式的数据文件,其中就包括 EXCEL 各个版本 的数据文件。选择菜单 File==>Open==>Data 或直接单击快捷工具栏上的“
按钮,系统就会弹出 Open file对话框,单击“文件类型”列表框,在里面能看 到直接打开的数据文件格式,分别是 S(*. sav) sPSS数据文件(6.0~10.0版) SPSS/PC+(*.sys) sPSs4.0版数据文件 Systat(*. syd syd格式的 Systat数据文件 Systat(米.sys) 来sys格式的 Systat数据文件 SPSS portable(*. por) SPSS便携格式的数据文件 EXCEL (* xls EXEL数据文件(从5.0版~20) Lotus(=** w*) Lotus数据文件 SYLK(*. slk) SYLK数据文件 dBase(*. dbf dBase系列数据文件,(从 d Base il~IV) Text(*. txt) 纯文本格式的数据文件 data(*. dat) 纯文本格式的数据文件 选择所需的文件类型,然后选中需要打开的文件,SPSS就会按你的要求打 开你要使用的数据文件,并自动转换为数据SPSS格式 山也许有视力好的朋友会注意到右下方除了“打开”和“取消”两个按钮外, 中间还有一个“ Paste”按钮,该按钮在SPSS的大多数对话框中都存在,是用于 自动生成SPSS程序的,我们以后会专门讲解该问题 2.1.2.2使用数据库查询打开 SPSS可以直接打开许多类型的数据文件,但这并不是说它可以打开所有类 型的数据文件(废话),比如 FoxPro3.0以上版本的*.dbf文件就不能直接打 开(有兴趣的话你可以试试)。为此,SPSS还提供了另一个适用范围更广、但 使用上较为专业的数据接口一一数据库查询 实际上,SPSS在这里使用的是一种叫ODBC( Open Database Capture)的数据 接口,该接口被大多数数据库软件和办公软件(如 MS Office)支持,通过它, 应用程序可以直接访问以结构化査询语言(SQL)做为数据访问标准的数据库管 理系统。 D由于SPS510.0可以直接打开 EXCEL所有系列的数据文件,因此数据库查询 接口的用处不是很大。但是,在9.0及以前的版本中,该查询仍是直接打开 EXCEL 95、97及2000数据文件的唯一办法
按钮,系统就会弹出 Open File 对话框,单击“文件类型”列表框,在里面能看 到直接打开的数据文件格式,分别是: SPSS(*.sav) SPSS 数据文件(6.0~10.0 版) SPSS/PC+(*.sys) SPSS 4.0 版数据文件 Systat(*.syd) *.syd 格式的 Systat 数据文件 Systat(*.sys) *.sys 格式的 Systat 数据文件 SPSS portable(*.por) SPSS 便携格式的数据文件 EXCEL(*.xls) EXCEL 数据文件(从 5.0 版~2000 版) Lotus(*.w*) Lotus 数据文件 SYLK(*.slk) SYLK 数据文件 dBase(*.dbf) dBase 系列数据文件,(从 dBase II~IV) Text(*.txt) 纯文本格式的数据文件 data(*.dat) 纯文本格式的数据文件 选择所需的文件类型,然后选中需要打开的文件,SPSS 就会按你的要求打 开你要使用的数据文件,并自动转换为数据 SPSS 格式。 也许有视力好的朋友会注意到右下方除了“打开”和“取消”两个按钮外, 中间还有一个“Paste”按钮,该按钮在 SPSS 的大多数对话框中都存在,是用于 自动生成 SPSS 程序的,我们以后会专门讲解该问题。 2.1.2.2 使用数据库查询打开 SPSS 可以直接打开许多类型的数据文件,但这并不是说它可以打开所有类 型的数据文件(废话),比如 FoxPro 3.0 以上版本的*.dbf 文件就不能直接打 开(有兴趣的话你可以试试)。为此,SPSS 还提供了另一个适用范围更广、但 使用上较为专业的数据接口--数据库查询。 实际上,SPSS 在这里使用的是一种叫 ODBC(Open Database Capture)的数据 接口,该接口被大多数数据库软件和办公软件(如 MS Office)支持,通过它, 应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管 理系统。 由于 SPSS 10.0 可以直接打开 EXCEL 所有系列的数据文件,因此数据库查询 接口的用处不是很大。但是,在 9.0 及以前的版本中,该查询仍是直接打开 EXCEL 95、97 及 2000 数据文件的唯一办法
uDBC数据引擎是独立与各种应用软件,直接安装到 Windows系统中的,因此 你所用的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况。还好 大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如MS Office)。不过有一点要提醒大家,许多机器的OBDC数据引擎安装有问题(尤 其是D版),在SPSS中使用它往往要死机。 选择菜单File=>0 pen Database==》 New Query,系统会弹出数据库向导的 第一个窗口,其中会列出你使用的机器上已安装的所有数据库驱动程序,选中所 需的数据源,然后单击下一步,向导会一步一步的提示你如何做,直至将数据读 入SPSS。 山我原来准备举一个具体例子,但后来发现不同版本的ODBC引擎所弹出的对 话框并不相同!不仅如此,不同的数据驱动程序其对话框也各不相同!比如说 有的需要你的 Loginid和 Password,有的又不需要,因此我这里就不再讲了 由于它使用上太专业(尤其在10.0版中,9.0版还好些),如果确实要用,请 找一个对数据库接口比较熟的人来帮你。 2.1.2.3使用文本导入向导读入文本文件 选择菜单File=> Read Text Data,系统就会弹出 Open File对话框,对! 和前面的情况完全一样,只是文件类型自动跳到了Text(米.txt)。实际上,该 功能在SPSS中已被整合到了 Open File对话框中之所以在菜单上保留该条目有 两个原因:1.读入纯文本的情况非常普遍,放在这里更加醒目;2.为了和SPSS 老版本的使用上保持兼容。 例2.1现有一数据文件以纯文本的形式存为“c:i21.txt”,且第一行 为变量名,请将其读入SPSS。 解:在 Open file对话框选中相应的文件名并单击“确定”,系统会自动启 动文本导入向导对话框如下:
ODBC 数据引擎是独立与各种应用软件,直接安装到 Windows 系统中的,因此 你所用的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况。还好, 大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如 MS Office)。不过有一点要提醒大家,许多机器的 OBDC 数据引擎安装有问题(尤 其是 D 版),在 SPSS 中使用它往往要死机。 选择菜单 File==>Open Database==>New Query,系统会弹出数据库向导的 第一个窗口,其中会列出你使用的机器上已安装的所有数据库驱动程序,选中所 需的数据源,然后单击下一步,向导会一步一步的提示你如何做,直至将数据读 入 SPSS。 我原来准备举一个具体例子,但后来发现不同版本的 ODBC 引擎所弹出的对 话框并不相同!不仅如此,不同的数据驱动程序其对话框也各不相同!比如说, 有的需要你的 LoginID 和 Password,有的又不需要,因此我这里就不再讲了。 由于它使用上太专业(尤其在 10.0 版中,9.0 版还好些),如果确实要用,请 找一个对数据库接口比较熟的人来帮你。 2.1.2.3 使用文本导入向导读入文本文件 选择菜单 File==>Read Text Data,系统就会弹出 Open File 对话框,对! 和前面的情况完全一样,只是文件类型自动跳到了 Text (*.txt)。实际上,该 功能在 SPSS 中已被整合到了 Open File 对话框中之所以在菜单上保留该条目有 两个原因:1. 读入纯文本的情况非常普遍,放在这里更加醒目;2. 为了和 SPSS 老版本的使用上保持兼容。 例 2.1 现有一数据文件以纯文本的形式存为“c:\Li2_1.txt”,且第一行 为变量名,请将其读入 SPSS。 解:在 Open File 对话框选中相应的文件名并单击“确定”,系统会自动启 动文本导入向导对话框如下:
Text Import Wizard-Step 1 of 6 62884081285 Welcome to the text import wizard! 63024000734033 This wizard will help you read data from your text file and speci fy informati on about the Does your text file match a predefined format? a No Text fil 304050 国【 上一步的下一步0) 取消 帮助 D多在SPSs10.0中,该向导并没有重新设计,因此仍然有问题被截断无法显示 完的情况出现。 可以看到该向导共分6步,这是第一步。中部为一对单选按钮,问题为“你 的文本文件和预定义格式相一致吗?”,下方为按预定义格式读入的数据文件的 预览。显然,SPSS的预定义格式并没有正确识别该文件。因此选择“No”并单 击“下一步”,系统弹出向导的下一个对话框如下:
在 SPSS 10.0 中,该向导并没有重新设计,因此仍然有问题被截断无法显示 完的情况出现。 可以看到该向导共分 6 步,这是第一步。中部为一对单选按钮,问题为“你 的文本文件和预定义格式相一致吗?”,下方为按预定义格式读入的数据文件的 预览。显然,SPSS 的预定义格式并没有正确识别该文件。因此选择“No”并单 击“下一步”,系统弹出向导的下一个对话框如下:
Text Import Wizard-Step 2 of 6 How are your variables arranged? d Delimiter- Variables are delimited by a specific character Are variable names included at the top of your file? Text file ⊥ LL a LLLL 304050 区上一步凹下一步丬」成。」」取消」帮助 最上方的问题是“你的变量是如何排列的?”,下面的选项分别为 Delimit (用某种字符区分)和 Fixed Width(固定宽度),一般都是 Delimit,第二个 问题是“变量名包括在文件最前面了吗?”,我们当然选“Yes”,单击“下一 步”,系统弹出第三个对话框
最上方的问题是“你的变量是如何排列的?”,下面的选项分别为 Delimite (用某种字符区分)和 Fixed Width(固定宽度),一般都是 Delimite,第二个 问题是“变量名包括在文件最前面了吗?”,我们当然选“Yes”,单击“下一 步”,系统弹出第三个对话框:
The first case of data begins on which How are your cases represented C Each line represents a CA specific number of yari ables represent= How many cases do you want to import? c All of the ca cases C A random percentage of the cases (approx= Dat 1.0 L⊥⊥L⊥⊥⊥ ⊥⊥⊥⊥L⊥L L⊥⊥⊥L⊥L L⊥ ⊥⊥LL⊥L 1.00 1.001.05 上一步⑩)[一步⑩)」元成。」」取消」」帮助」 最上方的句子意为“第一条记录从第几行开始?”,右侧可以输入行数。由 于我们所用的数据第一行为变量名,因此这里输入2。下面的问题是“你的记 录是怎样存储在文件中的?”。可以是“每一行代表一条记录”,或者“每 个变量代表一条记录”,数据一般都是第一种情况。下一个问题是“你想导入多 少条记录?”,可以是“所有记录 前*条”或“随机导入*%的记录” 一般也选前者。单击“下一步”,第四个对话框如下 D多我这里写的非常详细,但实际使用中你可以不管大多数问题,因为SPSs 般都能自动正确设置
最上方的句子意为“第一条记录从第几行开始?”,右侧可以输入行数。由 于我们所用的数据 第一行为变量名,因此这里输入 2。下面的问题是“你的记 录是怎样存储在文件中的?”。可以是“每一行代表一条记录”,或者“每** 个变量代表一条记录”,数据一般都是第一种情况。下一个问题是“你想导入多 少条记录?”,可以是“所有记录”、“前**条”或“随机导入**%的记录”。 一般也选前者。单击“下一步”,第四个对话框如下: 我这里写的非常详细,但实际使用中你可以不管大多数问题,因为 SPSS 一 般都能自动正确设置
Text Import Wizard - Delimited Step 4 of 6 Which delimiters appear between vari ables? V Sp omma 厂 Other group 84 IL 1.00 1.20 区上一步①[一步③完成」取消」帮助 最上方的问题为“变量间用的是哪种分隔符?”,可选的有Tab键、空格、 逗号、分号或自行定义的其他符号。本数据采用的是空格,可见系统已经自动识 别并选择了空格,而下方的数据预览窗口显示出了正确的数据读入情况。单击 “下一步”,第五个对话框如下
最上方的问题为“变量间用的是哪种分隔符?”,可选的有 Tab 键、空格、 逗号、分号或自行定义的其他符号。本数据采用的是空格,可见系统已经自动识 别并选择了空格,而下方的数据预览窗口显示出了正确的数据读入情况。单击 “下一步”,第五个对话框如下:
Text Import Wizard-Step 5 of 6 Specifications for variable(s) selected in the data preview Data 彐 1.05 1.20 上一步)[下一步⑩」完成。」」取消」帮助 上方的提示为“定义在数据预览窗口中所选择的变量。”。顾名思义,在这 个对话框中你可以在数据预览窗口中选择某一列变量,然后更改其变量名和类 型。当然,在这里我们不用这样做,直接单击“下一步”,系统弹出文本导入向 导的最后一个对话框如下:
上方的提示为“定义在数据预览窗口中所选择的变量。”。顾名思义,在这 个对话框中你可以在数据预览窗口中选择某一列变量,然后更改其变量名和类 型。当然,在这里我们不用这样做,直接单击“下一步”,系统弹出文本导入向 导的最后一个对话框如下:
Text Import Wizard-Step 6 of 6 You have successfully defined the format of Would you like to save this file format for future Would you like to paste the syntax? Press the Finish button to complete the text group 84 . 000 1.05 20 上一步)步匚亮成。」取消」帮助 最上面的问题为“你愿意保存这次的文件(读入)格式设置以备下次使用 吗 第二个问题为“你是否愿意将以上操作粘贴为SPSS语句? 般这 两个问题我们都可以不管。单击“完成”,系统最终成功的读入了Li2_1.txt。 2.1.3保存数据文件 在对数据做了修改后,保存数据文件是必不可少的工作之一。选择菜单 ile==Save,如果数据文件曾经存储过,则系统会自动按原文件名保存数据: 否则,就会弹出和选择 Save as菜单时相同的 Save as对话框。里面可以保存 的数据类型和可以打开的几乎一样多,选择合适的类型,确定就是了 D多save命令的快捷键为^S,如果你曾经领教过 Windows死机的巨大潜力, 那么你一定会同意习惯性的随手按ˆS至少不能算是一个坏习惯。 如果你准备将数据存为SPSS以外的其他类型,要注意有些设置可能会丢失, 如标签和缺失值等。尤其是缺失值,如果想存的数据格式不支持缺失值,那你的 数据可能会变的面目全非。 2.1.4Fie菜单中的其他条目 Disp Data Info】
最上面的问题为“你愿意保存这次的文件(读入)格式设置以备下次使用 吗?”,第二个问题为“你是否愿意将以上操作粘贴为 SPSS 语句?”,一般这 两个问题我们都可以不管。单击“完成”,系统最终成功的读入了 Li2_1.txt。 2.1.3 保存数据文件 在对数据做了修改后,保存数据文件是必不可少的工作之一。选择菜单 File==>Save,如果数据文件曾经存储过,则系统会自动按原文件名保存数据; 否则,就会弹出和选择 Save as 菜单时相同的 Save as 对话框。里面可以保存 的数据类型和可以打开的几乎一样多,选择合适的类型,确定就是了。 Save 命令的快捷键为^S,如果你曾经领教过 Windows 死机的巨大潜力, 那么你一定会同意习惯性的随手按^S 至少不能算是一个坏习惯。 如果你准备将数据存为 SPSS 以外的其他类型,要注意有些设置可能会丢失, 如标签和缺失值等。尤其是缺失值,如果想存的数据格式不支持缺失值,那你的 数据可能会变的面目全非。 2.1.4 File 菜单中的其他条目 【Disp Data Info】
该菜单项用于显示数据的基本信息,选择它后会弹出非常类似于打开文件的 个对话框用于选择数据文件,选择好后按OK,系统就会在结果窗口中列出所 选数据的基本情况,如建立时间、标签设置、记录数、变量设置等。 【 Apply Data Dictionary】 即使用数据字典,该功能使你可以直接在新数据集中套用以前定义好的变量 设置(格式、标签等,但不包括数据类型),举个例子吧:请打开Lil1.sav 文件,将变量ⅹ的长度从8改为4,标签删掉,然后选择菜单File==> Apply data Dictionary,在文件对话框中选择Li1_1.sav并按OK(即将Lil1.sav的变量 设置按相同变量名一一套用在现在的数据集上),怎么样?一切都变回去了吧 Cache data】 建立数据缓冲区。以前SPSS每执行一条命令都会重新读取所需的数据,如 果是从远程用SαL调用数据库,这会非常的费时。现在使用 Cache data,可以 将数据全部读入暂存盘,建立活动数据的缓冲区。大大加快处理速度。不过我特 意试了一下,如果是处理本机数据的话,该命令对速度的提升不是非常明显:( 【 Print和 Print preview】 这两个菜单项用于将数据管理窗口中的数据以表格的形式打印出来,其中 Print preview是新增加的,使用上和WPS2000的打印预览非常相似(其实用的 是同样的程序),不过和SPSS结果的打印程序一样,用SPSS直接打印数据非常 的浪费纸张,用不用你自己决定吧。 【 Stop processor】 用于停止执行当前的SPSS命令。由于SPSS处理速度非常的慢,如果你正在 对一个大型的数据执行统计命令,等了半天都没有结束,此时你的另一半约你逛 街的时间又要到了,可是你的结果还没有存,执行命令时又存不了,怎么办呢? 试试这个命令吧。 D参并非所有的命令都可以喊停的,许多数据库操作命令(计算变量,合并 等)好象就停不了 §2.2编辑数据文件 在SPSS中,数据文件的编辑、整理等功能被集中在了Data和 Transform两 个菜单项中,这两个菜单的内容如下所示:
该菜单项用于显示数据的基本信息,选择它后会弹出非常类似于打开文件的 一个对话框用于选择数据文件,选择好后按 OK,系统就会在结果窗口中列出所 选数据的基本情况,如建立时间、标签设置、记录数、变量设置等。 【Apply Data Dictionary】 即使用数据字典,该功能使你可以直接在新数据集中套用以前定义好的变量 设置(格式、标签等,但不包括数据类型),举个例子吧:请打开 Li1_1.sav 文件,将变量 x 的长度从 8 改为 4,标签删掉,然后选择菜单 File==>Apply Data Dictionary,在文件对话框中选择 Li1_1.sav 并按 OK(即将 Li1_1.sav 的变量 设置按相同变量名一一套用在现在的数据集上),怎么样?一切都变回去了吧。 【Cache Data】 建立数据缓冲区。以前 SPSS 每执行一条命令都会重新读取所需的数据,如 果是从远程用 SQL 调用数据库,这会非常的费时。现在使用 Cache Data,可以 将数据全部读入暂存盘,建立活动数据的缓冲区。大大加快处理速度。不过我特 意试了一下,如果是处理本机数据的话,该命令对速度的提升不是非常明显:(。 【Print 和 Print Preview】 这两个菜单项用于将数据管理窗口中的数据以表格的形式打印出来,其中 Print Preview 是新增加的,使用上和 WPS2000 的打印预览非常相似(其实用的 是同样的程序),不过和 SPSS 结果的打印程序一样,用 SPSS 直接打印数据非常 的浪费纸张,用不用你自己决定吧。 【Stop Processor】 用于停止执行当前的 SPSS 命令。由于 SPSS 处理速度非常的慢,如果你正在 对一个大型的数据执行统计命令,等了半天都没有结束,此时你的另一半约你逛 街的时间又要到了,可是你的结果还没有存,执行命令时又存不了,怎么办呢? 试试这个命令吧。 并非所有的命令都可以喊停的,许多数据库操作命令(计算变量,合并 等)好象就停不了。 §2.2 编辑数据文件 在 SPSS 中,数据文件的编辑、整理等功能被集中在了 Data 和 Transform 两 个菜单项中,这两个菜单的内容如下所示: