第三章统计整理 教学目的与要求:了解统计整理的意义、内容:掌屋统计分组的方法及分配数列的编制、 统计表的基本格式等, 教学重点:统计分组的依据、分配数列的编制、统计表的构成 教学难点:组距式分配数列的编制。 第一节统计整理概述 统计资料的整理与显示是统计工作的一个重要环节,它是统计资料的搜集 工作的继续,是统计分析的前提。(统计工作分为统计设计、统计搜集、统计整 理、统计分析四个环节)。 一、统计整理的意义 统计整理:指根据统计研究的目的要求,对统计调查所取得的各项资料进 行科学的分组和汇总的工作过程:对已整理过的资料(包括历史资料)进行再加工 也属于统计整理。 1、通过统计调查可以取得第一手资料,但这种资料只能反映总体各单位 的具体情况,是分散、零碎、表面的。要说明总体情况,揭示出总体的内在特征, 还需要对这些资料进行加工整理,使之系统化,以便通过综合指标对总体作出概 括性的说明。 2、统计整理是整个统计工作和研究过程的中间环节,起着承前启后的作 里。统计整理是统计调查的继续,又是统计分析的基础。统计调查所搜集到的资 料,只有通过科学的审核、分类、汇总等整理工作,才能使统计在认识社会的过 程中,实现由个别到全体、由特殊到一般、由现象到本质、由感性到理性的转化, 才能从整体上反映出事物的数量特征。否则统计调查所得的资料再丰富、再完备, 其作用也发挥不出来,统计调查就将徒劳无益,统计分析也将无法进行。 3、统计整理还是积崇历史资料的必要手段。统计研究中经常要用动态分 析,这就需要有长期紫积的历史资料,而根据积紫资料的要求,对已有的统计资 料进行筛选,以及按历史的口径对现有的统计资料重新调整、分类和汇总等,都 必须通过统计整理工作来完成 二、统计整理的程序 统计整理的全过程包括对统计资料的审核、分组、汇总和编制统计图表四
个环节,需要按照一定的步骤进行: (1)对搜集到的资料进行全面审核,以确保统计资料符合统计研究目的的 要求,资料准确无误。 (②)根据研究目和统计分析的需要,选择整理的标志,并进行划类分组。 统计分组是统计整理的重要内容和统计分析的基础,只有正确的分组才能整理出 有科学价值的综合指标,并借助这些指标来揭示现象的本质与规律。 (③)在分组的基础上,将各项资料进行汇总,得出反映各组和总体数量特 征的各种指标。 (4)统计资料的显示。即通过编制统计表和绘制统计图,将整理出的资料 简捷明了、系统有序地显示出来。 三、统计资料的审核 对调查资料进行审核是统计整理的第一步,包括以下内容: 一、审核资料的完整性和及时性 审核资料的完整性,就是看调查单位或填报单位是否齐全:规定的项目是 否都有答案,应报资料的份数是否符合规定。 审核资料的及时性,是看填报单位是否按时报送了有关资料。对不报、漏 报或迟报的现象都要及时查清。 二、审核资料的正确性 审核资料的正确性,是检查所填报的资料是否准确可靠。常用的审核方法 有两种: (一)逻辑检查 首先,从理论上或常识上检查资料是否有悖常理、有无不切实际或不符合 逻辑的地方。比如,一张调查表中,年龄是9岁,职业是教师,其中必有一个是 错误的。又如,若在某劳动密集型行业的报表中,企业规模为大型,而职工人数 则是100人,这其中也必有一错。 其次,是检查各项目之间有无相互矛盾的地方。例如,企业的净产值大于 同期总产值就是明显的逻辑错误。 (二)计算检查 即检查各项指标的计算口径、计量单位是否符合规定,并通过各种计算方
法来检查各指标间的数字是否相互衔接。 三、历史资料的审核 在利用历史资料(或其他间接资料)时,应审核资料的可靠程度、指标含 义、所属时间与空间范围、计算方法和分组条件与规定的要求是否一致。一般可 以从调查资料的历史背景、调查者搜集资料的目的以及资料来源等,来判断资料 的可靠程度,也可以从指标间的相互关系以及指标的变动趋势来检查它的正确 性。对不能满足现在要求、缺漏或有疑问的资料,要进行有科学根据的推算、弥 补和订正。 四、资料审核后的订正 通过上述审核,如发现有缺报、缺份和缺项等情况,应及时催报、补报: 如有不正确之处,则应分别不同情况作如下处理: ()对于可以肯定的一般错误,应及时代为更正,并通知原报单位。 (2)对于可疑之数或无法代为更正的错误,应要求原单位复查更正。 (3)如果所发现的差错在其他单位也可能发生时,应将错误情况通报所有 单位,以免发生类似错误。 (4)对于严重的错误,应发还重新填报,并查明发生错误的原因,若属于 违法行为,则应依法严肃处理。 第二节统计分组 一、统计分组的概念 1、概念:根据社会经济现象的特点和统计研究的目的要求,按照某个重 要标志(或几个标志)把总体划分为若干不同性质的组,称为统计分组。统计分 组的对象是总体,统计分组的标志可以是品质标志,也可以是数量标志 2、统计分组的深层次理解 从分组的性质来看,分组兼有“分和合”双重含义。 1)对于现象总体而言,是“分”,即把总体分为性质相异的若干部分: 而对于总体单位而言,又是“合”,即把性质相同的许多总体单位合为一组。 2)对于分组标志而言,是“分”,即按分组标志将不同的标志表现分为 若干组,而对于其他标志而言,是“合”,即在一个组内的各单位即使其它标志 表现不相同也只能结合在一组
由此可见,选择一种分组方法,突出了一种差异,显示了一种矛盾,必然 同时掩盖了其他差异,忽略了其他矛盾。不同的分组方法,可能得出不同的结论。 缺乏科学根据的分组,不但无法显示事物的根本特征,甚至会把不同性质的事物 混淆在一起,歪曲社会经济现象的本质。因此,统计分组必须先对所研究现象本 质作全面地、深刻地分析,确定所研究现象类型的属性及其内部差别,而后才能 选择反映事物本质的正确的分组标志。 二、统计分组的原则 统计分组,必须遵循两个原则:穷尽原则和互斥原则。 穷尽原则,就是使总体中的每一个单位都应有组可归,或者说各分组的空 间足以容纳总体所有的单位。 互斥原则,就是在特定的分组标志下,总体中的任何一个单位只能归属于 某一组,而不能同时或可能归属于几个组。 三、统计分组的作用 统计分组在统计研究中的重要作用可概括为三个方面: (一)划分社会现象的不同类型。 社会经济现象千差万别,要了解各种社会经济现象的性质、特点及其相互 关系,必须根据某种标志把它们划分为性质不同的类型,以便揭示不同社会经济 现象的质的差异。例如,国民经济按产业分组:农业分成农、林、牧、渔业各组: 社会商品零售额按商品用途分组:企业按所有制分组等等。这些分组也叫类型分 组。 (二)揭示社会现象的内部结构。 从数量上反映总体内部的结构是统计研究的重要任务。总体的内部结构可 体现部分与整体的关系以及各部分之间存在的差别和相互联系,反映事物从量变 到质变的过程,帮助人们掌握事物的特征,认识事物的性质。 (三)分析社会现象之间的依存关系。 社会经济现象之间广泛地存在着相互依存的关系,如农作物的耕作深度与 收成率之间、合理密植与农产量之间、家庭的工资收入与生活费支出之间、工人 技术级别与产品质量之间、工人劳动生产率与产品成本之间、市场商品价格与其
需求量之间等等,都在一定程度上存在相互依存的关系。所有这些依行关系,都 可通过统计分组分析出影响因素与结果因素之间的变动规律。 四、统计分组的种类 (一)按分组的作用或目的不同,分为类型分组、结构分组和分析分组。 1、类型分组:是将复杂的现象总体,划分为若干个不同性质的部分。 2、结构分组:是在对总体分组的基础上计算出各组对总体的比重,以此来 研究总体各部分的结构。类型分组和结构分组往往紧密联系在一起。 3、分析分组:是为研究现象之间依存关系而进行的统计分组。分析分组的 分组标志称为原因标志,与原因标志相对应的标志称为结果标志。如影响某种商 品消费需求的因索有:该商品的价格、消费者收入、相关商品的价格、消费者偏 好以及消费者对该商品的预期等。原因标志不同,结果标志也会不同:同一原因 标志由于分组的不同,结果标志也会不同。例如,工人的劳动生产率与产值之间、 商品流通费用率与商品销售额之间的依存关系,都可以按分析分组法来研究它们 之间的联系。 (二)按分组标志的多少,可分为简单分组、复合分组和并列分组 1、简单分组:就是对总体只按一个标志进行分组。 2、复合分组:就是对总体按两个或两个以上的标志进行的重叠式分组,即 在按某一标志分组的基础上再按另一标志进一步分组。 这样分组的结果就形成几层重叠的组别,把高校学生的构成分析得更为深 入、详细。 复合分组的优点是,从对同一现象的层层分组和分组标志的联系中,更深 入全面地研究总体各个方面的内部结构。但是,采用复合分组时,组数会随者分 组标志的增加而成倍增加,使每组包括的单位数相应减少,处理不好就会成为烦 琐哲学,不利于分析问题。因此,不能溢用复合分组,尤其不宜采用过多的标志 进行复合分组,也不宜对较小总体进行复合分组。 3、并列分组:就是同时用两个或两个以上的标志,分别从不同的角度,进 行不重叠的多种分组。也就是说,很多简单分组从不同角度说明同一个总体,就 构成一个并列的分组体系。例如,职工先按性别分成两组,另按年龄分成若干组: 进口总额先按贸易对象分成若干组,另按商品用途分成若干组
并列分组的特点是两种或多种分组相互独立而不重叠,既可从不同的方面 反映事物的多种结构,又不致使分组过于烦琐,故被广泛采用。 (三)按分组标志的性质,分为品质分组和数量分组。 品质分组:是按品质标志进行的分组,即按事物的某种属性分组 数量分组:是按数量标志进行的分组。按品质标志分组和按数量标志分组是 一对重要的统计分组,统计分组方法主要是围绕这两种分组来阐述的。 五、分组标志的选择 分组标志是统计分组的依据或标准。正确选择分组标志是进行统计分组的 关键,分组标志确定得恰当与否会直接影响统计分组的作用。为了正确选择分组 标志,必须遵循以下几条原则: (一)要符合统计研究的目的和要求 统计分组是为统计研究服务的,统计研究的目的不同,选择的分组标志也 应有所不同。 (二)必须选择最重要的标志作为分组依据 社会经济现象纷繁复杂,研究某一问题可能涉及许多标志,科学的统计分 组则应从中选择与统计研究的目的、与有关事物的性质或类型关系最密切的标 志,即最主要或最本质的标志作为统计分组的依据。 (三)要考虑到社会经济现象所处的具体历史条件 客观事物的特点和内部联系随着条件的变化而不同,因此选择分组标志时, 要具体情况具体分析,根据事物的不同条件来选择分组标志。 六、统计分组的方法 在分组标志确定后,就要进行具体的分组。我们说按分组标志的性质不同, 分为品质分组和数量分组,这两种分组的具体处理方法也存在着不同。 (一)品质分组的方法 按品质标志分组时,其组数的确定主要取决于两个因素一统计研究的任 务与事物的特点。 1、对事物进行品质分组,其组数的多少首先取决于事物本身的特点。事物 本身所具有的既定的属性,是我们确定组数的基本依据。在有些场合,事物的属 性就已确定了总体的组数
2、对于有些事物构成比较复杂,组数可多可少的情况,就需要考虑统计研 究任务的具体要求。例如:①人口按职业分组,产品和商品的分组等,就是可粗 可细,组数可多可少的,到底分为几组,就只好根据统计研究的任务米确定了。 要求较细时,组数可多些:要求较粗时,组数则可少些。②我国把社会经济各部 门划分为第一产业、第二产业和第三产业,第一产业还可细分为农业、林业、畜 牧业和渔业等。③但有的品质分组较为复杂,组的养限不易划分,存在着一些交 叉过渡状态,组界边缘不清,例如第一产业中的林业与第二产业采掘业中的木材 及竹材采运业的区分。对于这一类问题,统计工作中采用统一的分类标准。这样 的具体规定分类(组)的标准,为统计整理提供了统一的依据。 (二)数量分组的方法 按数量标志分组,应注意如下两个问题: 首先,分组时各组数量养限的确定必须能反映事物质的差别。例如,学生 学习成绩分组,不能把55分和65分合为一组,因为这样的分组未区分及格与不 及格的质的差别。 其次,应根据被研究的现象总体的数量特征,采用适当的分组形式,确定 相宜的组距、组限。 1、单项式分组与组距式分组 1)单项式分组:就是用一个变量值(标志值)作为一组,形成单项式变量 数列。单项式分组一般适用于离散型变量且变量变动范围不大的场合。 2)组距式分组:就是将变量依次划分为几段区间,一段区间表现为“从… 到…”距离,把一段区间内的所有变量值归为一组,形成组距式变量数列。区 间的距离就是组距。对于连续型变量或者变动范围较大的离散型变量,适宜采用 组距式分组。 2、间断组距式分组和连续组距式分组 在组距式分组中,每组包含许多变量值,每一组变量值中,其最小值为下 限,最大值为上限。组距是上下限之间的距离,相邻两组的界限,称为组限。 间断组距式分组:是指凡是组限不相连的分组。例如,儿章按年龄分组分 为未满1岁,1-2岁,3-4岁,5-9岁,10-14岁。 连续组距式分组:凡是组限相连(或称相重叠的)分组,即以同一数值作为
相邻两组的共同界限的分组。例如,工人按工时定额完成程度分组分为90-100%, 100-110%,110-120%等组. 如果变量值只是在整数之间变动,例如企业数、职工数、机器设备台数等 离散型变量,可采用间断组距式分组,也可采用连续组距式分组。如果变量值在 一定范围内的表现即可以是整数,也可以是小数,如产值、身高、体重等连续型 变量,只能采用连续组距式分组。 “上限不在本组内”原则 在进行连续组距式分组时应注意,由于以同一个数值作为相邻两组共同的 界限,为了遵循统计分组穷尽和互斥原则,所以统计上规定,凡是总体某一个单 位的变量值是相邻两组的界限值,这一个单位归入作为下限值的那一组内,即所 谓“上限不在本组内”原则。3、等距分组与异距分组 按数量标志进行组距式分组,还可分为等距分组和不等距(或称异距)分组。 1)等距分组 等距分组:就是标志值在各组保持相等的组距,即各组的标志值变动都限 于相同的范围。凡是在标志值变动比较均匀的情况下,都可采用等距分组。例如, 工人的年龄、工龄、工资的分组:零件尺寸的误差、加工时间的分组:农产品单 位面积产量、单位产品成本的分组等等。等距分组有很多好处,它便于绘制统计 图,也便于进行各类运算 2)异距分组 分组的形式应服从分组的要求,即性质相同的单位应合并在一个组内,性 质不同的应当分开。现象的差别取决于现象的本质,而不在于数学形式,必须根 据现象的本质特征和统计研究的目的任务来确定分组的等距与否。在下列情况 下,就必须考虑采用异距分组: 第一,标志值分布很不均匀的场合。例如,学生成绩如果密集于某一范围, 如60-80分或70-90分之间,其它部分则分布十分稀少,在这种场合若仍以10 分为组距进行等距式分组,则无法显示出分布的规律性,会使得这一密集的分数 段分布的信息损失过大。因此,合理的做法是,在分布比较密集的区间内使用较 短的组距,在分布比较稀少的其余部分使用较长的组距,形成各组的组距不相等 的异距分组
第二,标志值相等的量具有不同意义的场合。例如,生命的每一个月对于 新生婴儿和对于成年人是大不一样的,此时,进行人口疾病研究的年龄分组,应 采用异距式分组,即1岁以下按月分组,1-10岁按年分组,11-20岁按5年分组, 21岁以上按10年或20年分组等等。 第三,标志值按一定比例发展变化的场合。例如,百货商场营业额差别是 很大的,比如营业额从5万元至5千万元,可采取公比为10的不等距分组5-50 万元、50-500万元、500-5000万元。若用等距分组,即使组距为100万元,也 得分为50组,显然是不合适的。 对于异距分组方法的运用,没有固定模式可供依循,全凭统计人员在实践 中不断探索,关键在于对所研究现象的内在联系必须十分熟悉,才能很好运用异 距分组来揭示事物的本质。 七、组距、组数、组限与组中值 在具体进行分组时,首先应对标志值的分布情况进行仔细审查,找出变量 的最大值和最小值:其次,在分布比较集中的标志值处确定组距的中心位置:再 次,根据预定的组距的大小定出上下限。一般地,第一组的下限必须略小于实际 变量值的最小值,最后一组的上限必须略大于实际变量值的最大值,并尽可能使 各单位的标志值在组内分布比较均匀。 (一)组距 在组距式分组中,组距是各组上下限之间的距离,即各组最大标志值和最 小标志值之差。 1、由于有等距分组与异距分组之分,在后文中将要出现的频数密度的概念, 必须具体计算确定每一个组的组距大小。在许多版本的教科书中,笼统地使用如 下公式来计算组距的大小,即 组距=上限-下限 ①事实上,这一公式只适用于计算连续组距式分组的组距大小,例如成绩 分组中,60-70分,70-80分,其组距为10分(=70-60或80-70)。②如果 将这一公式套用于间断组距式,将会产生谬误。例如,商店规模按职工人 数分组,分为1-5人,6-10人,11-15人等等。套用上述公式,得出5-1(或 10-6,或15-11)=4,即组距为4人的结论,显然是错误的
2、对于间断式分组的组距大小的计算,必须采用如下公式 组距=本组上限-前组上限 (1) (或)=后组下限-本组下限(2) (或)=本组上限-本组下限+1 (3)》 在上面的例子中,可见其组距实际上是5人。应当注意到,连续组距式分 组的组距大小,也可根据公式(1)或(2)求得。 (二)组数 全距是总体中最大的标志值与最小的标志值之差。 组数的多少直接取决于两个因素,一个是总体的全距,另一个是组距。在 等距分组的条件下,组数等于全距除以组距。 在组距既定的条件下,全距大则组数多,全距小则组数少:在全距既定的 条件下,组距大则组数少,组距小则组数多。全距是客观存在的事实,不以人的 意志为转移,所以,确定组数的关键是确定组距。如对学生成绩情况的统计分组 中,组数过少,例如学生成绩分为2组,不能很好地达到分组的基本要求:组数 过多,例如成绩分为101组,即分组过细,也无法起到化繁为简的作用,难以显 示出总体分布的规律。 (三)组中值 组中值:为上下限之间的中点数值,组中值的计算公式为:组中值=(上限 +下限)/2 在计算平均指标或进行其它统计分析时,常以组中值来代表各组标志值的 平均水平。当各组标志值均匀分布时,组中值代表各组标志值的水平,其代表性 就高。因此,分组时应注意 1、尽可能使组内各单位标志值分布均匀: 2、为避免产生过大的计算误差,在选取各组上、下限时,应尽可能使组中 值恰为整数。 3、当连续型变量按离散型变量表示时,组距数列的编制采取相邻组限不重 叠的形式,组中值的确定应考虑到连续型变量自身的特点。 年龄就是比较典型的例子,它实质上是连续型变量,习惯上用整数表示。 例如一群大学生分为17-19岁、20-22岁两组,则组距3岁,组中值分别为18.5