实用统计分析方法与SPSS应用 (初稿) 张文璋 二OOO年十月
1 实用统计分析方法与 SPSS 应用 (初稿) 张文璋 zhangwenzhang@sina.com.cn 二○○○年十月
《实用统计分析方法与SPSS应用》初稿/张文璋 目录 详细目录 第一章概论 第二章SPSS软件基础 第三章 统计数据的收集、整理与描述 第四章 总体与样本的描述 2447 第五章 由样本推断总体 第六章 方差分析 100 第七章相关分析 第八章 回归分析 第九章含虚拟自变量的回归分析 第十章 Logistic回归分析 第十一章非参数检验 第十二章聚类分析 第十三章主成分分析 第十四章因子分析 270 第十五章事件史分析 附录 Excel在统计分析中的应用 308 附录二常用统计表 参考文献 详细目录 详细目录 第一章概论 第一节市场经济呼唤统计学 第二节统计学的研究对象及其学科分类 第三节实用统计分析方法概述 第二章 SPSS软件基础. 第一节统计分析软件简介 第二节SPSS简介… 第三节SPSS基本操作 第三章统计数据的收集、整理与描述. 第一节统计数据的来源 第二节统计数据的收集 第三节统计数据的整理 438 第四节统计数据的描述 第五节统计数据的探索性分析. 第四章总体与样本的描述
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 2 目录 详细目录...........................................................................................................................................2 第一章 概论...........................................................................................................................5 第二章 SPSS 软件基础.......................................................................................................12 第三章 统计数据的收集、整理与描述.............................................................................34 第四章 总体与样本的描述.................................................................................................54 第五章 由样本推断总体.....................................................................................................77 第六章 方差分析...............................................................................................................100 第七章 相关分析...............................................................................................................112 第八章 回归分析...............................................................................................................121 第九章 含虚拟自变量的回归分析...................................................................................178 第十章 Logistic 回归分析.................................................................................................186 第十一章 非参数检验...........................................................................................................198 第十二章 聚类分析...............................................................................................................221 第十三章 主成分分析...........................................................................................................241 第十四章 因子分析...............................................................................................................270 第十五章 事件史分析...........................................................................................................298 附录一 Excel 在统计分析中的应用.................................................................................308 附录二 常用统计表...........................................................................................................367 参考文献.................................................................................................................................. - 379 - 详细目录 详细目录...........................................................................................................................................2 第一章 概论...................................................................................................................................5 第一节 市场经济呼唤统计学...............................................................................................5 第二节 统计学的研究对象及其学科分类...........................................................................5 第三节 实用统计分析方法概述...........................................................................................8 第二章 SPSS 软件基础.......................................................................................................12 第一节 统计分析软件简介.................................................................................................12 第二节 SPSS 简介...............................................................................................................14 第三节 SPSS 基本操作.......................................................................................................21 第三章 统计数据的收集、整理与描述.......................................................................................34 第一节 统计数据的来源.....................................................................................................34 第二节 统计数据的收集.....................................................................................................35 第三节 统计数据的整理.....................................................................................................38 第四节 统计数据的描述.....................................................................................................45 第五节 统计数据的探索性分析.........................................................................................51 第四章 总体与样本的描述.................................................................................................54
《实用统计分析方法与SPSS应用》初稿/张文璋 第一节总体、样本与随机变量. 第二节总体与随机变量的描述 第三节样本的描述 第四节抽样分布一一总体与样本的连接点 第五章由样本推断总体 第一节抽样 第二节估计 第三节检验. 第六章方差分析 100 第一节单因素方差分析 .100 第二节多因素方差分析 107 第三节案例:证券信息的定量分析 110 第七章相关分析 第一节简单相关分析 第二节偏相关分析 第三节其它相关系数分析 第八章回归分析 121 第一节一元线性回归分析 第二节一元线性回归模型估计量的性质与分布 第三节一元线性回归模型的检验 第四节多元线性回归基本概念 第五节多元线性回归模型的估计和检验 第六节非线性回归与曲线回归 第七节多重共线性 第八节异方差 第九节自相关 第十节回归模型的应用 第十一节案例1:我国经济增长持续性的实证研究 第十二节案例2:中德人口老龄化水平之比较 170 第九章 含虚拟自变量的回归分析 第一节虚拟变量回归模型的基本概念 第二节包含一个质因素的虚拟变量模型 第三节包含多个质的因素的虚拟变量模型 第四节案例:虚拟变量在新股上市模型中的应用 第十章 Logistic回归分析 第一节 Logistic回归基本概念 第二节 Logistic回归模型的估计与检验…… 第三节案例:审计意见预测模型的构建 .193 第十一章 非参数检验 第一节非参数检验基本概念 第二节非参数检验方法 第十二章聚类分析 221 第一节聚类分析概述 第二节数据变换处理
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 3 第一节 总体、样本与随机变量.........................................................................................54 第二节 总体与随机变量的描述.........................................................................................56 第三节 样本的描述.............................................................................................................63 第四节 抽样分布——总体与样本的连接点.....................................................................66 第五章 由样本推断总体.....................................................................................................77 第一节 抽样.........................................................................................................................77 第二节 估计.........................................................................................................................81 第三节 检验.........................................................................................................................87 第六章 方差分析...............................................................................................................100 第一节 单因素方差分析...................................................................................................100 第二节 多因素方差分析...................................................................................................107 第三节 案例:证券信息的定量分析..................................................................................110 第七章 相关分析...............................................................................................................112 第一节 简单相关分析.......................................................................................................112 第二节 偏相关分析...........................................................................................................115 第三节 其它相关系数分析...............................................................................................117 第八章 回归分析...............................................................................................................121 第一节 一元线性回归分析...............................................................................................121 第二节 一元线性回归模型估计量的性质与分布...........................................................129 第三节 一元线性回归模型的检验...................................................................................131 第四节 多元线性回归基本概念.......................................................................................135 第五节 多元线性回归模型的估计和检验.......................................................................137 第六节 非线性回归与曲线回归.......................................................................................143 第七节 多重共线性...........................................................................................................150 第八节 异方差...................................................................................................................154 第九节 自相关...................................................................................................................161 第十节 回归模型的应用...................................................................................................165 第十一节 案例 1:我国经济增长持续性的实证研究.......................................................167 第十二节 案例 2:中德人口老龄化水平之比较............................................................170 第九章 含虚拟自变量的回归分析...................................................................................178 第一节 虚拟变量回归模型的基本概念...........................................................................178 第二节 包含一个质因素的虚拟变量模型.......................................................................178 第三节 包含多个质的因素的虚拟变量模型...................................................................183 第四节 案例:虚拟变量在新股上市模型中的应用.........................................................183 第十章 Logistic 回归分析...............................................................................................186 第一节 Logistic 回归基本概念.........................................................................................186 第二节 Logistic 回归模型的估计与检验.........................................................................187 第三节 案例:审计意见预测模型的构建.......................................................................193 第十一章 非参数检验.......................................................................................................198 第一节 非参数检验基本概念...........................................................................................198 第二节 非参数检验方法...................................................................................................199 第十二章 聚类分析...............................................................................................................221 第一节 聚类分析概述.......................................................................................................221 第二节 数据变换处理.......................................................................................................223
《实用统计分析方法与SPSS应用》初稿/张文璋 第三节聚类统计量 225 第四节聚类方法 230 第五节案例:汽车市场需求情况定量研究 第十三章主成分分析 第一节主成分分析的基本思想 222 第二节总体主成分 243 第三节样本主成分 第四节案例:新兴股市的多因素模型 第十四章因子分析 270 第一节因子分析模型 270 第二节因子分析模型估计方法 276 第三节因子旋转 第四节因子得分 第五节案例:研究生院规模的因子分析… 第十五章事件史分析 298 第一节事件史分析方法的源流 第二节事件史分析方法的内容概述 第三节事件史案例分析 附录一 Excel在统计分析中的应用 第一节中文 Excel概述 308 第二节Exce基本操作 314 第三节 Excel在描述统计中的应用 第四节Exce在推断统计中的应用 325 附录二常用统计表 参考文献 379
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 4 第三节 聚类统计量...........................................................................................................225 第四节 聚类方法...............................................................................................................230 第五节 案例:汽车市场需求情况定量研究...................................................................236 第十三章 主成分分析...........................................................................................................241 第一节 主成分分析的基本思想.......................................................................................241 第二节 总体主成分...........................................................................................................243 第三节 样本主成分...........................................................................................................247 第四节 案例: 新兴股市的多因素模型............................................................................258 第十四章 因子分析.............................................................................................................270 第一节 因子分析模型.......................................................................................................270 第二节 因子分析模型估计方法.......................................................................................276 第三节 因子旋转...............................................................................................................285 第四节 因子得分...............................................................................................................288 第五节 案例:研究生院规模的因子分析.......................................................................291 第十五章 事件史分析.........................................................................................................298 第一节 事件史分析方法的源流.......................................................................................298 第二节 事件史分析方法的内容概述...............................................................................299 第三节 事件史案例分析...................................................................................................303 附录一 Excel 在统计分析中的应用.................................................................................308 第一节 中文 Excel 概述....................................................................................................308 第二节 Excel 基本操作.....................................................................................................314 第三节 Excel 在描述统计中的应用.................................................................................319 第四节 Excel 在推断统计中的应用.................................................................................325 附录二 常用统计表...................................................................................................................367 参考文献.................................................................................................................................. - 379 -
《实用统计分析方法与SPSS应用》初稿/张文璋 第一章概论 第一节市场经济呼唤统计学 许多人简单地认为统计( Statistics)就是收集数字,其实这仅仅是统计学的原始意义。 现代统计学已远远超出了这个范围,发展成为广泛应用于社会科学、自然科学等领域的科学 方法。它是研究客观事物数量特征和数量关系的方法论学科,能够告诉人们如何通过打开几 扇窗口去探索一个未知的世界,教会人们怎样用一种新的方式来思考问题,是一门很实用的 学科。 大千世界,万事万物,无一不具有它的质量、数量两个方面,都是一定质量和数量的结 合和表现。在对事物质的了解基础上,从数量方面认识事物,把握事物的数量方面,做到胸 中有数,是对事物认识深化的具体表现。统计作为一种强有力的定量分析方法,在社会、 经济、政治、生活等领域得到了广泛的应用,起着日益重要的作用。大至国家的宏观决策, 小至企事业单位的微观管理,都离不开统计的应用。现代市场经济对统计信息的需求急剧增 加,对统计理论与方法提出了更高的要求 面对二十一世纪,我国的人文社会科学肩负着时代的重托。社会发展问题、经济可持续 发展问题、国际竞争力问题、金融风险管理问题、保险精算问题、人口与社会保障问题、环 境保护问题等等,这些都迫切地等待着我们去深入地硏究。要解决这些问题,置身于古老东 方文化氛围之中的中国学者需要冷静思考。时代要求我们必须抛开偏见,正确理解与批判地 吸收建立在发达商品经济基础上的外来文化,加强数学方法、统计学方法的学习,提高我们 的定性分析与定量分析相结合的能力。这样,中国人才会在新的世纪里大步赶上世界发达国 第二节统计学的研究对象及其学科分类 、统计学的研究对象 1992年11月,国家技术监督局正式批准统计学为一级学科,国家标准局颁布的学科分 类标准已将统计学列为一级学科,1998年教育部进行的专业调整也将统计学归入理学类 级学科。建设一级学科统计学的构想反映了统计学学科建设的内在要求,符合国际统计学发 展的大趋势。所谓一级学科统计学,指的是研究搜集和分析数据、研究客观事物数量特征和 数量关系的方法论科学。一级学科统计学首先是一门方法论,它是研究客观现象(包括自然 现象和社会现象)数量特征和数量关系、具有明确对象的方法论科学。统计方法论性质是指 它作为一门认识方法论科学,为人们提供一套从不确定的现象中探索现象规律性的理论和方 法。这里作为统计学研究对象具体体现的“数据”,是指进行各种统计(指统计工作)、计算 科学研究或技术设计等所依据的数值。 统计数据所具有的不同特点,使得统计学百花园色彩纷呈,各具特色。数据中的实验数 据主要来自自然技术现象,如对产品配方检验得到的数据等等,这类数据大多在可控条件下 通过物理测量取得,这类数据的搜集、整理工作并不复杂,研究的重点在于数据分析。另
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 5 第一章 概论 第一节 市场经济呼唤统计学 许多人简单地认为统计(Statistics)就是收集数字,其实这仅仅是统计学的原始意义。 现代统计学已远远超出了这个范围,发展成为广泛应用于社会科学、自然科学等领域的科学 方法。它是研究客观事物数量特征和数量关系的方法论学科,能够告诉人们如何通过打开几 扇窗口去探索一个未知的世界,教会人们怎样用一种新的方式来思考问题,是一门很实用的 学科。 大千世界,万事万物,无一不具有它的质量、数量两个方面,都是一定质量和数量的结 合和表现。在对事物质的了解基础上,从数量方面认识事物,把握事物的数量方面,做到胸 中有数,是对事物认识深化的具体表现。统计作为一种强有力的定量分析方法,在社会、 经济、政治、生活等领域得到了广泛的应用,起着日益重要的作用。大至国家的宏观决策, 小至企事业单位的微观管理,都离不开统计的应用。现代市场经济对统计信息的需求急剧增 加,对统计理论与方法提出了更高的要求。 面对二十一世纪,我国的人文社会科学肩负着时代的重托。社会发展问题、经济可持续 发展问题、国际竞争力问题、金融风险管理问题、保险精算问题、人口与社会保障问题、环 境保护问题等等,这些都迫切地等待着我们去深入地研究。要解决这些问题,置身于古老东 方文化氛围之中的中国学者需要冷静思考。时代要求我们必须抛开偏见,正确理解与批判地 吸收建立在发达商品经济基础上的外来文化,加强数学方法、统计学方法的学习,提高我们 的定性分析与定量分析相结合的能力。这样,中国人才会在新的世纪里大步赶上世界发达国 家。 第二节 统计学的研究对象及其学科分类 一、统计学的研究对象 1992 年 11 月,国家技术监督局正式批准统计学为一级学科,国家标准局颁布的学科分 类标准已将统计学列为一级学科,1998 年教育部进行的专业调整也将统计学归入理学类一 级学科。建设一级学科统计学的构想反映了统计学学科建设的内在要求,符合国际统计学发 展的大趋势。所谓一级学科统计学,指的是研究搜集和分析数据、研究客观事物数量特征和 数量关系的方法论科学。一级学科统计学首先是一门方法论,它是研究客观现象(包括自然 现象和社会现象)数量特征和数量关系、具有明确对象的方法论科学。统计方法论性质是指 它作为一门认识方法论科学,为人们提供一套从不确定的现象中探索现象规律性的理论和方 法。这里作为统计学研究对象具体体现的“数据”,是指进行各种统计(指统计工作)、计算、 科学研究或技术设计等所依据的数值。 统计数据所具有的不同特点,使得统计学百花园色彩纷呈,各具特色。数据中的实验数 据主要来自自然技术现象,如对产品配方检验得到的数据等等,这类数据大多在可控条件下 通过物理测量取得,这类数据的搜集、整理工作并不复杂,研究的重点在于数据分析。另一
《实用统计分析方法与SPSS应用》初稿/张文璋 类是观察数据,它主要来自社会经济现象,如国内生产总值(GDP)数据、某年度的货币购 买力数据等等。由于社会经济现象的复杂性,尤其是不能通过一定条件下的物理或化学实验 进行研究,致使观察数据的搜集往往十分困难,统计学不仅要研究观察数据的整理、分析技 术,而且要花很大力气研究观察数据的调查搜集技术。正因为实验数据和观察数据有不同特 点,所以以实验数据作为研究对象的自然技术统计学,如生物统计学、统计力学等等,和以 观察数据作为研究对象的社会经济统计学,如农业统计学、工业统计学等等,就表现出很不 相同的特点。社会经济统计学利用统计指标、统计分组方法,不厌其详地研究数据搜集的技 术,研究资料来源、指标口径和计算方法,至于数据整理、尤其是数据分析的技术,则由于 社会经济各专门统计的共同特点,出于简化篇幅的考虑,一般安排在社会经济统计学原理中 作统一研究。自然技术统计学的生物统计学等等,与社会经济统计学的农、工业统计学则恰 恰相反,它的研究重点往往放在对数据所作的各种分析上,至于数据搜集、整理的技术,则 考虑到自然技术各专门统计所具有的共同特点,一般放到作为自然技术统计学原理的数理统 计学中作简要讨论(之所以往往仅作简要讨论,是因为实验数据的搜集和整理远比观察数据 的搜集整理简单)。从上面的分析中不难看出,自然技术统计学和社会经济统计学本没有不 可逾越的鸿沟,两者只是由于研究对象所具有的不同特点,才产生了不同的理论体系和学科 特色。建设一级学科统计学的构想,兼容自然技术统计学与社会经济统计学,反映了统计学 发展的内在要求,对促进自然技术统计学和社会经济统计学各自的发展,都具有重要的意义 统计学的学科分类 统计学作为一门研究客观事物数量特征和数量关系的方法论科学,其内容构成错综复 杂,既有层次性,又有交叉性,所以对其学科的分类迄今未得到合理的解决。较为流行的划 分是把统计学分为社会经济统计学和数理统计学,或者分为描述统计与推断统计。这些分类 都无法完全包括现代意义上的统计学内容,是不妥当的。与一级统计学相对应,我们把统计 学分为理论统计学、应用统计学、与其他统计学等(如图1-1所示)。 理论统计学包括各种统计基础理论,又可以分为描述统计学和推断统计学。描述统计学 指以总体全面资料或非随机性局部资料为基础的统计理论与方法体系,包括统计总体论(有 关总体、指标和分组等理论)、统计设计、统计调査、统计整理、统计指数、动态分析理论 统计平衡理论、统计数据库等等,不同于仅研究如何整理和概括大量数据的“描述统计学 推断统计学指依据随机样本推断总体特征的理论与方法体系,也就是数理统计学,又可以分 为理论数理统计学和应用数理统计学。理论数理统计学侧重于统计方法的数理基础,包括概 率论、经典统计理论、贝叶斯理论、统计判决理论等。应用数理统计学(现代意义上的数理 统计学)则侧重于统计方法的应用形式,包括抽样技术、试验设计、相关分析、方差分析、 多重应答分析、多元统计分析、序贯分析、线性统计模型、时间序列分析、非参数统计等。 这里的描述统计学与推断统计学并无“普通统计学”与“高级统计学”之分,实际上,推断 统计学的某些内容是非常初等的,而描述统计学中的某些方法(如统计指数理论)却具有相 当的理论深度和复杂性。 应用统计学只涉及某一特定现象领域的统计研究,又可以分为核算统计学和实验统计 学。核算统计学是通过核算手段研究社会现象及其过程的数量特征或统计规律性的理论与方 法体系,包括经济统计学、社会统计学、科技统计学、环境统计学等等。而实验统计学是运 用实验手段研究自然现象自身及其过程的数量特征或统计规律性的理论与方法体系,包括统 计物理学、生物统计学、天文统计学、气象统计学、心理统计学、农业试验统计学、工程技 术统计学等等。 ③杨灿:《统计学基本问题研究》,《统计研究》,1993年第3期 黄良文、黄沂木:《大学科统计刍议》,《统计研究》,1995年
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 6 类是观察数据,它主要来自社会经济现象,如国内生产总值(GDP)数据、某年度的货币购 买力数据等等。由于社会经济现象的复杂性,尤其是不能通过一定条件下的物理或化学实验 进行研究,致使观察数据的搜集往往十分困难,统计学不仅要研究观察数据的整理、分析技 术,而且要花很大力气研究观察数据的调查搜集技术。正因为实验数据和观察数据有不同特 点,所以以实验数据作为研究对象的自然技术统计学,如生物统计学、统计力学等等,和以 观察数据作为研究对象的社会经济统计学,如农业统计学、工业统计学等等,就表现出很不 相同的特点。社会经济统计学利用统计指标、统计分组方法,不厌其详地研究数据搜集的技 术,研究资料来源、指标口径和计算方法,至于数据整理、尤其是数据分析的技术,则由于 社会经济各专门统计的共同特点,出于简化篇幅的考虑,一般安排在社会经济统计学原理中 作统一研究。自然技术统计学的生物统计学等等,与社会经济统计学的农、工业统计学则恰 恰相反,它的研究重点往往放在对数据所作的各种分析上,至于数据搜集、整理的技术,则 考虑到自然技术各专门统计所具有的共同特点,一般放到作为自然技术统计学原理的数理统 计学中作简要讨论(之所以往往仅作简要讨论,是因为实验数据的搜集和整理远比观察数据 的搜集整理简单)。从上面的分析中不难看出,自然技术统计学和社会经济统计学本没有不 可逾越的鸿沟,两者只是由于研究对象所具有的不同特点,才产生了不同的理论体系和学科 特色。建设一级学科统计学的构想,兼容自然技术统计学与社会经济统计学,反映了统计学 发展的内在要求,对促进自然技术统计学和社会经济统计学各自的发展,都具有重要的意义。 二、统计学的学科分类① 统计学作为一门研究客观事物数量特征和数量关系的方法论科学,其内容构成错综复 杂,既有层次性,又有交叉性,所以对其学科的分类迄今未得到合理的解决。较为流行的划 分是把统计学分为社会经济统计学和数理统计学,或者分为描述统计与推断统计。这些分类 都无法完全包括现代意义上的统计学内容,是不妥当的。与一级统计学相对应,我们把统计 学分为理论统计学、应用统计学、与其他统计学等(如图 1-1所示)。 理论统计学包括各种统计基础理论,又可以分为描述统计学和推断统计学。描述统计学 指以总体全面资料或非随机性局部资料为基础的统计理论与方法体系,包括统计总体论(有 关总体、指标和分组等理论)、统计设计、统计调查、统计整理、统计指数、动态分析理论、 统计平衡理论、统计数据库等等,不同于仅研究如何整理和概括大量数据的“描述统计学”。 推断统计学指依据随机样本推断总体特征的理论与方法体系,也就是数理统计学,又可以分 为理论数理统计学和应用数理统计学。理论数理统计学侧重于统计方法的数理基础,包括概 率论、经典统计理论、贝叶斯理论、统计判决理论等。应用数理统计学(现代意义上的数理 统计学)则侧重于统计方法的应用形式,包括抽样技术、试验设计、相关分析、方差分析、 多重应答分析、多元统计分析、序贯分析、线性统计模型、时间序列分析、非参数统计等。 这里的描述统计学与推断统计学并无“普通统计学”与“高级统计学”之分,实际上,推断 统计学的某些内容是非常初等的,而描述统计学中的某些方法(如统计指数理论)却具有相 当的理论深度和复杂性。 应用统计学只涉及某一特定现象领域的统计研究,又可以分为核算统计学和实验统计 学。核算统计学是通过核算手段研究社会现象及其过程的数量特征或统计规律性的理论与方 法体系,包括经济统计学、社会统计学、科技统计学、环境统计学等等。而实验统计学是运 用实验手段研究自然现象自身及其过程的数量特征或统计规律性的理论与方法体系,包括统 计物理学、生物统计学、天文统计学、气象统计学、心理统计学、农业试验统计学、工程技 术统计学等等。 ① 杨灿:《统计学基本问题研究》,《统计研究》,1993 年第 3 期; 黄良文、黄沂木:《大学科统计刍议》,《统计研究》,1995 年
《实用统计分析方法与SPSS应用》初稿/张文璋 除了理论统计学和应用统计学外,还有统计史学、统计法制学、比较统计学等其他统计 学科,以及经济计量学、保险精算学、运筹学、信息论等边缘学科 从统计学的学科分类可以看出,统计学的内容是十分丰富的,其研究和应用的领域非常 广泛。本书主要是为非统计专业的学生和统计工作者提供一本关于实用统计分析方法的读 物,所以,主要包括了应用数理统计的一些内容。本书强调统计分析方法的基本思想和应用 条件,培养用计算机进行统计计算的能力,并希望通过案例分析提高学生的解决实际问题的 能力 图1-1统计学分类 统计本体论 统计设计 统计调查 统计整理 统计指数 动态分析 概率论 经典统计理论 贝叶斯理论 理论数理统计学 统计判决 抽样技术 试验设计 相关分析 方差分析 应用数理统计学 多元统计分析 序贯分析 线性统计模型 寸间序列分析 经济统计学 非参数统计 社会统计学 科技统计学 环境统计学 应 性物统计学 心理统计学 厌文统计学 气象统计学 工程技术统计学
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 7 除了理论统计学和应用统计学外,还有统计史学、统计法制学、比较统计学等其他统计 学科,以及经济计量学、保险精算学、运筹学、信息论等边缘学科。 从统计学的学科分类可以看出,统计学的内容是十分丰富的,其研究和应用的领域非常 广泛。本书主要是为非统计专业的学生和统计工作者提供一本关于实用统计分析方法的读 物,所以,主要包括了应用数理统计的一些内容。本书强调统计分析方法的基本思想和应用 条件,培养用计算机进行统计计算的能力,并希望通过案例分析提高学生的解决实际问题的 能力。 图 1-1 统计学分类 统 计 学 统计本体论 统计设计 统计调查 统计整理 统计指数 动态分析 ………… 概率论 经典统计理论 贝叶斯理论 统计判决 ………… 抽样技术 试验设计 相关分析 方差分析 多元统计分析 序贯分析 线性统计模型 时间序列分析 非参数统计 ………… 经济统计学 社会统计学 科技统计学 环境统计学 ………… 生物统计学 心理统计学 天文统计学 气象统计学 工程技术统计学 ………… 应用数理统计学 理论数理统计学 描 述 统 计 学 推 断 统 计 学 核 算 统 计 学 实 验 统 计 学 理 论 统 计 学 应 用 统 计 学
《实用统计分析方法与SPSS应用》初稿/张文璋 第三节实用统计分析方法概述 变量( ariab的分类 要进行统计分析,离不开统计数据。在搜索数据之前,必须首先了解数据的种类。数据 涉及到变量的取值,通常用变量的取值来描述数据。变量可按多种方法分类,这些分类有助 于选择适当的统计分析方法作进一步的分析与研究。下面按三种方法对变量进行分类:按间 隙分类、按作用分类和按测量尺度分类 (一)按间隙(gaps)划分 根据一个变量紧挨着的两个观测值之间是否有空隙(缺口),可以把变量分为两类:离 散型变量( discrete variable)和连续型变量( continuous variable)。如果一个变量的观测值之间有 空隙,该变量称为离散型变量,否则称为连续型变量,如图1-2(A所示。更准确地说,当 个变量的任意两个可能取值之间没有其他取值时,该变量是离散的:当一个变量的任意两 个可能取值之间还有其他可能取值时,该变量是连续的。例如,性别(设男性取值为0,女 性取值为1)、企业数日、分组情况(设A组取值为1,B组取值为2等)等为离散型变量 身高、体重、血压、GDP等为连续型变量。 图1-2离散型变量与连续型变量 没有空隙 (A)离散变量的取值 (B)连续变量的取值 需要指出的是,由于分析的需要,离散型变量经常作为连续型变量处理。而连续型变量 也可以作为离散型变量处理,如可以把“血压”变量分为“低”、“中”、“高”三组变为离散 型变量。 (二)按作用划分 根据一个变量在分析时的作用,可以把变量分为因变量( dependent variable或自变量 ( independent variable)。如果一个变量由其他变量来描述,该变量称为因变量或反应变量 ( response variable);如果一个变量与其他变量一起用于描述因变量,该变量称为自变量或预 测变量( predictor variable)。例如,在分析家庭收入、性别等因素对消费支出的影响时,收入 变量和性别变量是自变量,消费支出变量是因变量。 个变量是因变量还是自变量,与统计分析的目的有关。同一个变量在某种分析中作为 因变量,而在其它分析中可能作为自变量。 (三)根据测量尺度划分 根据变量测量精度不同,可把变量由低到高分为四种尺度:定类变量、定序变量、定距 变量和定比变量 1、定类变量 定类变量又称为名义( nominal)变量。这是一种测量精确度最低、最粗略的基于“质” 因素的变量,它的取值只代表观测对象的不同类别,例如“性别”变量、“职业”变量等都 是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的其同特点是用不多的名 称来加以表达,并由被研究变量每一组出现的次数及其总计数所组成,这种数据是枚举性的, 即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而,在定类数据中 同一组内各单位是等价的,同时若更换各不同组的符号并不会改变数据原有的基本信息。因
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 8 第三节 实用统计分析方法概述 一、变量(Variable)的分类 要进行统计分析,离不开统计数据。在搜索数据之前,必须首先了解数据的种类。数据 涉及到变量的取值,通常用变量的取值来描述数据。变量可按多种方法分类,这些分类有助 于选择适当的统计分析方法作进一步的分析与研究。下面按三种方法对变量进行分类:按间 隙分类、按作用分类和按测量尺度分类。 (一)按间隙(gaps)划分 根据一个变量紧挨着的两个观测值之间是否有空隙(缺口),可以把变量分为两类:离 散型变量(discrete variable)和连续型变量(continuous variable)。如果一个变量的观测值之间有 空隙,该变量称为离散型变量,否则称为连续型变量,如图 1-2 (A)所示。更准确地说,当 一个变量的任意两个可能取值之间没有其他取值时,该变量是离散的;当一个变量的任意两 个可能取值之间还有其他可能取值时,该变量是连续的。例如,性别(设男性取值为 0,女 性取值为 1)、企业数目、分组情况(设 A 组取值为 1,B 组取值为 2 等)等为离散型变量; 身高、体重、血压、GDP 等为连续型变量。 图 1-2 离散型变量与连续型变量 需要指出的是,由于分析的需要,离散型变量经常作为连续型变量处理。而连续型变量 也可以作为离散型变量处理,如可以把“血压”变量分为“低”、“中”、“高”三组变为离散 型变量。 (二)按作用划分 根据一个变量在分析时的作用,可以把变量分为因变量(dependent variable)或自变量 (independent variable)。如果一个变量由其他变量来描述,该变量称为因变量或反应变量 (response variable);如果一个变量与其他变量一起用于描述因变量,该变量称为自变量或预 测变量(predictor variable)。例如,在分析家庭收入、性别等因素对消费支出的影响时,收入 变量和性别变量是自变量,消费支出变量是因变量。 一个变量是因变量还是自变量,与统计分析的目的有关。同一个变量在某种分析中作为 因变量,而在其它分析中可能作为自变量。 (三)根据测量尺度划分 根据变量测量精度不同,可把变量由低到高分为四种尺度:定类变量、定序变量、定距 变量和定比变量。 1、定类变量 定类变量又称为名义(nominal)变量。这是一种测量精确度最低、最粗略的基于“质” 因素的变量,它的取值只代表观测对象的不同类别,例如“性别”变量、“职业”变量等都 是定类变量。定类变量的取值称为定类数据或名义数据。定类数据的其同特点是用不多的名 称来加以表达,并由被研究变量每一组出现的次数及其总计数所组成,这种数据是枚举性的, 即由计数一一而得。唯一适合于定类数据的数学关系是“等价关系”。因而,在定类数据中, 同一组内各单位是等价的,同时若更换各不同组的符号并不会改变数据原有的基本信息。因 空隙 没有空隙 (A)离散变量的取值 (B)连续变量的取值
《实用统计分析方法与SPSS应用》初稿/张文璋 此,最常用来综合定类数据的统计量是频数、比率或百分比等。 2、定序变量 定序变量又称为有序( ordina1)变量、顺序变量,它的取值的大小能够表示观测对象的 某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历” 变量的取值是:1一小学及以下、2一初中、3一高中、中专、技校、4一大学专科、5一大学 本科、6—研究生以上。由小到大的取值能够代表学历由低到高。定序变量的取值称为定序 数据或有序数据。适合于定序数据的数学关系是“大于(>)”和“小于(<)”关系。在定序 数据中,同一组内各单位是等价的,相邻组之间的单位是不等价的,它们存在“大于”或“小 于”的关系。而且,并进行保序变换(或称单调变换),则不改变数据原有的基本信息即等 级顺序。最适合用于综合定序数据取值的集中趋势的统计量是中位数 3、定距变量 定距变量又称为间隔( interval)变量,它的取值之间可以比较大小,可以用加减法计算 出差异的大小。例如,“年龄”变量,其取值60与20相比,表示60岁比20岁大,并且可 以计算出大40岁(60-20)。定距变量的取值称为定距数据或间隔数据。定距数据是一些真 实的数值,具有公共的、不变的测定单位,可以进行加减乘除运算。定距数据的基本特点是 两个相同间隔的数值的差异相等,例如,年龄的60岁与50岁之差等于40岁与30岁之差。 对于定距数据,不仅可以规定“等价关系”以及“大于关系”和“小于关系”,而且也可以 规定任意两个相同间隔的比值或差值。如果将每个数值分别乘以一个正的常数再加上一个常 数,即进行正线性变换,并不影响定距数据原有的基本信息。因此,常用的统计量如均值 标准差、相关系数等都可直接用于定距数据。 4、定比变量 定比变量又称为比率( ratio)变量,它与定距变量意义相近,细微差别在于定距变量中 的“0”值只表示某一取值,不表示“没有”。例如,人的身高就是一个定比变量,如果身 高值为“0”米,则表示这个人不存在。而定比变量的“0”值表示“没有”。而在测定温度 的摄氏表中,0°C并不表示没有温度,因为还有在零点以下的温度。定比变量的取值称为定 比数据或比率数据。定比数据也同样可进行算术运算和线性变换等。通常对定距变量和定比 变量不需再加以区别,两者统称为定距变量或间隔变量 一般地,定类变量和定序变量用于描述定性数据,属于定性变量;而定距变量和定比变 量用于描述定量数据,属于定量变量。 同其他分类标准一样,一个变量在不同分析中可当作不同尺度的变量。例如,“年龄” 在某些分析中(如回归分析)当作定距变量,而在另外一些分析中(如方差分析)可通过分 组作为定类变量处理。 另外,较高尺度的变量包含了较低尺度变量的性质。定序变量包含了定类变量的所有特 征,定距变量同时包含了定序变量和定类变量的特征。这种性质允许在分析数据时把一些较 高尺度变量作为较低尺度变量处理。例如,定距变量可当作定类变量或定序变量看待,而定 序变量可作为定序变量分析 以上通过三种不同方法对变量进行分类。这些分类是可以重叠的。一个变量可能是离散 型变量、自变量、定类变量(如“最高学历”),也可能是连续型变量、因变量、定距变量(如 血压”)。按间隙分类和按测量尺度分类的重叠如图1-3所示
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 9 此,最常用来综合定类数据的统计量是频数、比率或百分比等。 2、定序变量 定序变量又称为有序(ordinal)变量、顺序变量,它的取值的大小能够表示观测对象的 某种顺序关系(等级、方位或大小等),也是基于“质”因素的变量。例如,“最高学历” 变量的取值是:1—小学及以下、2—初中、3—高中、中专、技校、4—大学专科、5—大学 本科、6—研究生以上。由小到大的取值能够代表学历由低到高。定序变量的取值称为定序 数据或有序数据。适合于定序数据的数学关系是“大于(>)”和“小于(<)”关系。在定序 数据中,同一组内各单位是等价的,相邻组之间的单位是不等价的,它们存在“大于”或“小 于”的关系。而且,并进行保序变换(或称单调变换),则不改变数据原有的基本信息即等 级顺序。最适合用于综合定序数据取值的集中趋势的统计量是中位数。 3、定距变量 定距变量又称为间隔(interval)变量,它的取值之间可以比较大小,可以用加减法计算 出差异的大小。例如,“年龄”变量,其取值 60 与 20 相比,表示 60 岁比 20 岁大,并且可 以计算出大 40 岁(60-20)。定距变量的取值称为定距数据或间隔数据。定距数据是一些真 实的数值,具有公共的、不变的测定单位,可以进行加减乘除运算。定距数据的基本特点是 两个相同间隔的数值的差异相等,例如,年龄的 60 岁与 50 岁之差等于 40 岁与 30 岁之差。 对于定距数据,不仅可以规定“等价关系”以及“大于关系”和“小于关系”,而且也可以 规定任意两个相同间隔的比值或差值。如果将每个数值分别乘以一个正的常数再加上一个常 数,即进行正线性变换,并不影响定距数据原有的基本信息。因此,常用的统计量如均值、 标准差、相关系数等都可直接用于定距数据。 4、定比变量 定比变量又称为比率(ratio)变量,它与定距变量意义相近,细微差别在于定距变量中 的“0”值只表示某一取值,不表示“没有”。例如,人的身高就是一个定比变量,如果身 高值为“0”米,则表示这个人不存在。而定比变量的“0”值表示“没有”。而在测定温度 的摄氏表中, C o 0 并不表示没有温度,因为还有在零点以下的温度。定比变量的取值称为定 比数据或比率数据。定比数据也同样可进行算术运算和线性变换等。通常对定距变量和定比 变量不需再加以区别,两者统称为定距变量或间隔变量。 一般地,定类变量和定序变量用于描述定性数据,属于定性变量;而定距变量和定比变 量用于描述定量数据,属于定量变量。 同其他分类标准一样,一个变量在不同分析中可当作不同尺度的变量。例如,“年龄” 在某些分析中(如回归分析)当作定距变量,而在另外一些分析中(如方差分析)可通过分 组作为定类变量处理。 另外,较高尺度的变量包含了较低尺度变量的性质。定序变量包含了定类变量的所有特 征,定距变量同时包含了定序变量和定类变量的特征。这种性质允许在分析数据时把一些较 高尺度变量作为较低尺度变量处理。例如,定距变量可当作定类变量或定序变量看待,而定 序变量可作为定序变量分析。 以上通过三种不同方法对变量进行分类。这些分类是可以重叠的。一个变量可能是离散 型变量、自变量、定类变量(如“最高学历”),也可能是连续型变量、因变量、定距变量(如 “血压”)。按间隙分类和按测量尺度分类的重叠如图 1-3所示
《实用统计分析方法与SPSS应用》初稿/张文璋 图1-3变量分类的重叠 定距变量 连续变量 定序变量 变量“年龄” 定类变量变量“性别” 离散变量 因为自变量与因变量是根据分析目的而不是按变量本身性质来划分的,所以图1-3中没 有包括这种分类。从图1-3中可以看出,定类变量必须是离散变量,而定距变量和定序变量 可以是离散变量或连续变量;连续变量必须是定序变量或定距变量。例如,变量“性别”是 离散变量又是定类变量:变量“年龄”可当作定距变量、连续变量,也可以作为定类变量、 离散变量。 统计分析方法的分类与选择 对数据进行统计分析时,选择正确的分析方法是非常重要的。选择统计分析方法时,必 须考虑许多因素,主要有:(1)统计分析的目的,(2)所用变量的特征,(3)对变量所作的 假定,(4)数据的收集方法(即抽样过程)。选择统计分析方法时一般考虑前两个因素就足 够了 (一)根据统计分析目的不同进行分类 统计分析方法根据统计分析目的的不同,可以分成四大类:相关分析方法、结构简化方 法、分类分析方法、预测决策方法。 (二)根据变量特征的不同进行分类 根据变量的分类不同分类方法,把变量分为因变量、自变量以及定量变量、定性变量, 可把统计分析方法一一进行归类(如表1-1所示),这是正确选择统计分析方法的一种有效 方法 表1-1统计分析方法分类表 ①详见何晓群编著:《现代统计分析方法与应用》,中国人民大学出版社,1998
《实用统计分析方法与 SPSS 应用》初稿 / 张文璋 10 图 1-3 变量分类的重叠 因为自变量与因变量是根据分析目的而不是按变量本身性质来划分的,所以图 1-3中没 有包括这种分类。从图 1-3中可以看出,定类变量必须是离散变量,而定距变量和定序变量 可以是离散变量或连续变量;连续变量必须是定序变量或定距变量。例如,变量“性别”是 离散变量又是定类变量;变量“年龄”可当作定距变量、连续变量,也可以作为定类变量、 离散变量。 二、统计分析方法的分类与选择 对数据进行统计分析时,选择正确的分析方法是非常重要的。选择统计分析方法时,必 须考虑许多因素,主要有:(1)统计分析的目的,(2)所用变量的特征,(3)对变量所作的 假定,(4)数据的收集方法(即抽样过程)。选择统计分析方法时一般考虑前两个因素就足 够了。 (一)根据统计分析目的不同进行分类 统计分析方法根据统计分析目的的不同,可以分成四大类:相关分析方法、结构简化方 法、分类分析方法、预测决策方法①。 (二)根据变量特征的不同进行分类 根据变量的分类不同分类方法,把变量分为因变量、自变量以及定量变量、定性变量, 可把统计分析方法一一进行归类(如表 1-1所示),这是正确选择统计分析方法的一种有效 方法。 表 1-1 统计分析方法分类表 ① 详见何晓群编著:《现代统计分析方法与应用》,中国人民大学出版社,1998 年。 定距变量 定序变量 变量“年龄” 定类变量 连续变量 离散变量 变量“性别