第三章数据的描述 当我们面对一大堆数据时,往往使人眼花缭乱。没有人能够记住那些巨 大的数据中的所有数值,但总是可以对数据形成一些印象。有些特征大略了解 下就可以得到 这些数据的大致范围;是定性还是定量;有多少变量;收集该数据的目 的等等。 本章介绍如何来简单用图表和少数的一些数字来概括数据的某些特征。 当然,由于数据是从总体中产生的,其特征也反映了总体的特征。对数 据的描述也是对其总体的一个近似的描述。 第一节用图来表示数据 如何用图表来显示数据? 变量分为定性变量和定量变量 定性变量主要反映现象的分类情况, 定量变量主要反映现象的数值大小; 因此对不同的变量采用的图形表示也不相同 二、定量变量的图表示 表示定量变量常用的图形
第三章 数据的描述 当我们面对一大堆数据时,往往使人眼花缭乱。没有人能够记住那些巨 大的数据中的所有数值,但总是可以对数据形成一些印象。有些特征大略了解一 下就可以得到: 这些数据的大致范围;是定性还是定量;有多少变量;收集该数据的目 的等等。 本章介绍如何来简单用图表和少数的一些数字来概括数据的某些特征。 当然,由于数据是从总体中产生的,其特征也反映了总体的特征。对数 据的描述也是对其总体的一个近似的描述。 第一节 用图来表示数据 一、如何用图表来显示数据? 变量分为定性变量和定量变量: 定性变量主要反映现象的分类情况, 定量变量主要反映现象的数值大小; 因此对不同的变量采用的图形表示也不相同 二、定量变量的图表示 表示定量变量常用的图形:
直方图、盒型图、茎叶图、散点图 直方图 对于一个定量变量,比如某个地区(地区1)学校高三男生的身高; 有163个度量 地区1高三男生身高(cmm) Std. Dev =10.91 Mean=170.9 150.0160.0170.0180.0190.0200.0 155.0165.0175 185.0195.0 地区1高三男生高度 如何用图形来表示这个数据,使人们能够看出这个数据的大体分布或“形 状”呢?一个办法就是画一个直方图( histogram)。Spss选 项: Graphs- Histogram(图3.1) 该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子宽 度因不同的数据或要求而定),而纵坐标为各种身高区间的身高的频 数。 比如在170cm左右5cm范围的观测值有34个(最高的—个矩 形条),而165cm附近5cm内有28个(第二高的矩形),在175cm附 近5cm范围有26个而在2米附近的区间只有4个观测等等 直
直方图、盒型图、茎叶图、散点图 直方图 对于一个定量变量,比如某个地区(地区 1 )学校高三男生的身高; 有 163 个度量。 如何用图形来表示这个数据,使人们能够看出这个数据的大体分布或 “ 形 状 ” 呢?一个办法就是画一个直方图 (histogram) 。 Spss 选 项 :Graphs-Histogram (图 3.1 ) 该图的横坐标是身高区间,这里每一格代表 5cm 的身高范围(格子宽 度因不同的数据或要求而定),而纵坐标为各种身高区间的身高的频 数。 比如在 170cm 左右 5cm 范围的观测值有 34 个(最高的一个矩 形条),而 165cm 附近 5cm 内有 28 个(第二高的矩形),在 175cm 附 近 5cm 范围有 26 个,而在 2 米 附近的区间只有 4 个观测等等。 直
方图的纵坐标也可以是百分比,即把频数除以样本量。显然用百分比得到的图形 和用频数所得到的形状一样;只是量纲不同而已。 盒型图 比直方图简单一些的是盒形图( boxplot,又称箱图、箱线图、盒子 图)。图3.2的左边一个是根据地区1高三男生的身高数据所绘的盒形图 其右边的图代表另一个地区(地区2)的高三学生的身高(SPSS数据文件为 eight.sav)。 高三男生身 地区 盒子的中间横线是数据的中位数( median),它是下节要引进的量之一。顾名思 义,中位数是数据中占据中间位子的数,即数据中有一半大于中位数(在其之上), 另一半小于中位数(在其之下) spss选项: Graphs- Boxplot(图3.2) 封闭盒子的上下两横线(边)为上下四分位数(点);其意义为:数据 中有四分之一的数目大于上四分位数,即在盒子之上;另外有四分之一的数目小
方图的纵坐标也可以是百分比,即把频数除以样本量。显然用百分比得到的图形 和用频数所得到的形状一样;只是量纲不同而已。 盒型图 比直方图简单一些的是盒形图 (boxplot ,又称箱图、箱线图、盒子 图 ) 。图 3.2 的左边一个是根据地区 1 高三男生的身高数据所绘的盒形图; 其右边的图代表另一个地区(地区 2 )的高三学生的身高( SPSS 数据文件为: height.sav )。 盒子的中间横线是数据的中位数 (median) ,它是下节要引进的量之一。顾名思 义,中位数是数据中占据中间位子的数,即数据中有一半大于中位数(在其之上), 另一半小于中位数(在其之下)。 Spss 选项 :Graphs-Boxplot (图 3.2 ) 封闭盒子的上下两横线(边)为上下四分位数(点);其意义为:数据 中有四分之一的数目大于上四分位数,即在盒子之上;另外有四分之一的数目小
于下四分位数,即在盒子之下 因此有一半的数目在中间封闭盒子的范 围内。有一半分布在盒子上下两边 在盒子上下两边分别各有一条纵向的线段,表明盒子外面点的分 布。 若干个盒形图往往放在一个图中比较。从图中可以看出左面的度量 比右边的分散得多,但总的来说似乎地区1的学生要高一些。 按照 SPSs的默认选项,如果所有样本中的数目都在离四分位点1.5倍盒子长度之 内,则线的端点为最大和最小值。 距离四分位数大于1.5倍盒子长度的 数值点则被软件认为是离群点( outlier),单独点出 而超过盒长三倍 的被认为是极端值( extreme)。当然不同的软件及不同选项所生成的盒形图两 头线长的定义不尽相同,但封闭盒子长度的定义基本一样 茎叶图 在上面介绍的直方图和盒形图中,已经看不到数值,因此很难恢复数据 的原貌。 下面引进另一种图茎叶图(stem-and- eaf plots) 地区1高三男生身高为例的,茎叶图既展示了分布形状又有原始数据。它象一 片带有茎的叶子。茎为较大的数目,图3.3是用SPSS画的地区1高三男生 身高的茎叶图(SPSS数据文件:s3 height1.sav),虽然看起来不象一个 地区1高三男生高度Stem-and- Leaf plot Stem leaf
于下四分位数,即在盒子之下。 因此有一半的数目在中间封闭盒子的范 围内。有一半分布在盒子上下两边。 在盒子上下两边分别各有一条纵向的线段,表明盒子外面点的分 布。 若干个盒形图往往放在一个图中比较。从图中可以看出左面的度量 比右边的分散得多,但总的来说似乎地区 1 的学生要高一些。 按照 SPSS 的默认选项,如果所有样本中的数目都在离四分位点 1.5 倍盒子长度之 内,则线的端点为最大和最小值。 距离四分位数大于 1.5 倍盒子长度的 数值点则被软件认为是离群点 (outlier) ,单独点出; 而超过盒长三倍 的被认为是极端值 (extreme) 。当然不同的软件及不同选项所生成的盒形图两 头线长的定义不尽相同,但封闭盒子长度的定义基本一样。 茎叶图 在上面介绍的直方图和盒形图中,已经看不到数值,因此很难恢复数据 的原貌。 下面引进另一种图:茎叶图 (stem-and-leaf plots) 。 以 地区 1 高三男生身高为例的,茎叶图既展示了分布形状又有原始数据。它象一 片带有茎的叶子。茎为较大的数目,图 3.3 是用 SPSS 画的地区 1 高三男生 身高的茎叶图 (SPSS 数据文件: S3height1.sav) ,虽然看起来不象一个 “ 图 ” 。 地区 1 高三男生高度 Stem-and-Leaf Plot Frequency Stem & Leaf
9.00 15.001223344 17.00 15.55666667778899999 20.00 16.01112222223333333444 16 55555666666667777788888888888999999 25.00 17 0000000011112222233333344 555666677777777777888899 18.0111111122333 1.00 18.55667788899 19.2333 2.00 19.56 3.00 Extremes(>=198) Stem width: 10.00 Each leaf: 1 case(s)
9.00 15 . 001223344 17.00 15 . 55666667778899999 20.00 16 . 01112222223333333444 35.00 16 . 55555666666667777788888888888999999 25.00 17 . 0000000011112222233333344 24.00 17 . 555666677777777777888899 13.00 18 . 0111111122333 11.00 18 . 55667788899 4.00 19 . 2333 2.00 19 . 56 3.00 Extremes (>=198) Stem width: 10.00 Each leaf: 1 case(s)
SPSS选项: Analyze- Descriptive Statistics- Explore(图 33) 其中茎叶图中茎的单位为10cm,而叶子为个位 比如 第一行茎为150cm,叶子为150、150、151、152、152、153、 153、154、154cm等。每行左边有一个频数(比如第一行有9个数目 第二行有17个等等);可以看出最长的行为从165cm到169m的一段 (有35个数)。 散点图 人们得到的数据也可能有两个变量,比如美国男士和女士初婚年限的 数据(SPSs数据: marriage.sav) 该数据描述了自1900年到 1998年男女第一次结婚延续的时间。这里年份是一个变量,而结婚延续时间是 第二个变量。 1900年-1998年美国初婚年限的中位数 27 美国初婚年限中位数 性别 B0 1960 由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个中间的值(中 位数)作为代表。自1900到1960年是每十年一个值,以后到1990是每
SPSS 选项 :Analyze-Descriptive Statistics-Explore (图 3.3 ) 其中茎叶图中茎的单位为 10cm ,而叶子为个位。 比如 第一行茎为 150cm ,叶子为 150 、 150 、 151 、 152 、 152 、 153 、 153 、 154 、 154cm 等。每行左边有一个频数(比如第一行有 9 个数目, 第二行有 17 个等等);可以看出最长的一行为从 165cm 到 169cm 的一段 (有 35 个数)。 散点图 人们得到的数据也可能有两个变量,比如美国男士 和 女士初婚年限的 数据( SPSS 数据: marriage.sav )。 该数据描述了自 1900 年到 1998 年男女第一次结婚延续的时间。这里年份是一个变量,而结婚延续时间是 第二个变量。 由于不可能将所有人的婚姻年限都给出来,所以每年就取了一个中间的值 ( 中 位数 ) 作为代表。自 1900 到 1960 年是每十年一个值,以后到 1990 是每
五年取一个数,1995年以后是每年一个数。SPSS选项 Graphs-Scatter(图 34) 由于分男士和女士,因此有两个二维数据。这时可以用一个变量为横 坐标(如年份),另一个为纵坐标(这里是结婚年限)来点图(图34)。这 种图称为散点图( scatter plot) 还可以看出在二十世纪六十年代婚 姻年限降低,而后来又升高。而男子的年限平均比女性长。这个图是用SPSS画 的 为什么男女初婚年限不一样?这是因为初婚一方的配偶不一定也是 初婚 三、定性变量的图表示 定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图 但可以描绘出它们各类的比例,常用饼图和条形图表示。 饼图 下面用SPSS绘的图3.5表示了说世界各种主要语言人数的比例 (SPSS数据: language.sav)。 该图看不出具体说各种语言的具体人 数,但可以看出比例,而且如果知道世界总人口,也可以大致推算出说各种语言 的人数
五年取一个数,1995 年以后是每年一个数。SPSS 选项 :Graphs-Scatter( 图 3.4) 由于分男士 和 女士,因此有两个二维数据。这时可以用一个变量为横 坐标(如年份),另一个为纵坐标(这里是结婚年限)来点图(图 3.4 )。这 种图称为散点图( scatter plot )。 还可以看出在二十世纪六十年代婚 姻年限降低,而后来又升高。而男子的年限平均比女性长。这个图是用 SPSS 画 的。 为什么男女初婚年限不一样 ? 这是因为初婚一方的配偶不一定也是 初婚。 三、定性变量的图表示: 定性变量(或属性变量,分类变量)不能点出直方图、散点图或茎叶图, 但可以描绘出它们各类的比例,常用饼图和条形图表示。 饼图 下面用 SPSS 绘的图 3.5 表示了说世界各种主要语言人数的比例 (SPSS 数据: language.sav) 。 该图看不出具体说各种语言的具体人 数,但可以看出比例,而且如果知道世界总人口,也可以大致推算出说各种语言 的人数
讲世界各种语言的人数 印地语 加语 制e牙语 法语 这种图叫做饼图( pie chart)。如果有太多的类别,那么饼图就不那么好看 sPSs选项 Graphs-Pie(图3.5) 条形图 而用同样数据( language.sav)画的图3.6(用SPSs绘制)称为 条形图( bar chart)。 从每条可以看出讲各种语言的实际人数,而 且分别给出了每个语种中母语和日常使用的人数(在图中并排放置) sPSS选项 Graphs-Bar
这种图叫做饼图( pie chart )。如果有太多的类别,那么饼图就不那么好看 了。 SPSS 选项 :Graphs-Pie( 图 3.5) 条形图 而用同样数据( language.sav )画的图 3.6 (用 SPSS 绘制)称为 条形图( bar chart )。 从每一条可以看出讲各种语言的实际人数,而 且分别给出了每个语种中母语和日常使用的人数(在图中并排放置)。 SPSS 选项 :Graphs-Bar
讲世界各种语言的人数 母 日常使用 语种 第二节用少量数字来概括数据的特征 用一两个数字概括大量数字是日常生活中常见的。比如说,北京人的平 均收入是多少;东西部的收入差距是多少,高收入的人占人口的百分比等。这些 平均 差距″或百分比都是用来概括的数字。 定性变量的数据描述 由于定性变量主要是计数,比较简单,常用的概括就是比例、百分比、 中位数和众数 中位数( median) 中位数是数据按照大小排列之后位于中间的那个数(如果样本量为奇 数),或者中间两个数目的平均(如果样本量为偶数) 众数
第二节 用少量数字来概括数据的特征 用一两个数字概括大量数字是日常生活中常见的。比如说,北京人的平 均收入是多少;东西部的收入差距是多少,高收入的人占人口的百分比等。这些 “ 平均 ” , “ 差距 ” 或百分比都是用来概括的数字。 一、定性变量的数据描述 由于定性变量主要是计数,比较简单,常用的概括就是比例、百分比、 中位数和众数。 中位数 (median) 中位数是数据按照大小排列之后位于中间的那个数(如果样本量为奇 数),或者中间两个数目的平均(如果样本量为偶数)。 众数
众数就是数据中出现次数或出现频率最多的数值。 在定性变量中,由于记录的是频率,因此众数用得多些。比如在图3.6 的关于语言的饼图中,可以看出众数就是由“其他”语种代表;这是因为无 论是母语还是日常使用语,“其他“类的频率都最大。当然,“其他”不 是一个语种。就单一语种来说,还是中国北方话为众数。 用spss进行定性变量的数据描述,主要选项 Spss→ Analyse escriptive Statistics→· Frequencies 二、定量变量的数据描述 统计量和总体参数 除了图表之外,可以用少量汇总统计量或概括统计量( ( summary statistIc)来描述定量变量的数据。 通常有 均值(平均数)、中位数、总数;标准差、方差、标准误。 如果这些数字是从样本数据得来的,称为统计量( statistIc) 如果这些数字是从总体数据得来的,称为总体参数( statistIc 由于样本本身是随机的,从同一个总体抽出来的不同样本也不一样。因 此,对于不同数据或样本,统计量的取值也不一样;所以统计量是随机的
众数就是数据中出现次数或出现频率最多的数值。 在定性变量中,由于记录的是频率,因此众数用得多些。比如在图 3.6 的关于语言的饼图中,可以看出众数就是由 “ 其他 ” 语种代表;这是因为无 论是母语还是日常使用语,“ 其他 ” 类的频率都最大。当然,“ 其他 ” 不 是一个语种。就单一语种来说,还是中国北方话为众数。 用 spss 进行定性变量的数据描述,主要选项: Spss Analyse Descriptive Statistics Frequencies 二、定量变量的数据描述 统计量和总体参数 除了图表之外,可以用少量汇总统计量或概括统计量 (summary statistic) 来描述定量变量的数据。 通常有 : 均值 ( 平均数 ) 、中位数、总数;标准差、方差、标准误。 如果这些数字是从样本数据得来的,称为统计量 (statistic) 。 如果这些数字是从总体数据得来的,称为总体参数 (statistic) 。 由于样本本身是随机的,从同一个总体抽出来的不同样本也不一样。因 此,对于不同数据或样本,统计量的取值也不一样;所以统计量是随机的