经济数学基础 第8章数据处理 第3编概率论与数理统计 第8章数据处理 引入:平均数“骗人” 2000年,全世界陆地面积达1.5亿平方公里,平均每平方公里不到100人, 可是新加坡超过6000人,蒙古则不到2人 2000年,我国居民储蓄存款余额64332亿元,平均每户18467元,每人5082 元.可是,全国农户年纯收入超过5000元者仅占7.45%,实际上超过80%的储蓄 集中在不到20%的人手里. 2000年,我国某些省市的上市公司的平均利润额都是上升的,可是,除了一 两个盈利大户外,其他上市公司的利润额都是下降的,甚至是亏损的 据此,有人认为,“平均数最能骗人!” 但实际上,平均数又最能服人 2000年,我国国内生产总值89404亿元,早已进入世界前10名,可是,人均 只有7078元,排在100名开外 2000年,我国钢产量1.285亿吨,居世界第一,可是,人均产量不到100公 斤,只是我们邻居韩、日两国的1/8左右 可见,根据经济分析的不同目的,可以使用不同数据处理方法.以国内生产总 值为例:说明一国经济实力,用年国内生产总值总量为宜;说明一国发展阶段,用 人均国内生产总值为宜;说明一国发展速度,用国内生产总值增长率为宜;说明 国经济效益,用人均劳动生产率为宜;说明一国收入分配,以基尼系数为宜 219
经济数学基础 第 8 章 数据处理 ——219—— 第 3 编 概率论与数理统计 第 8 章 数据处理 一、引入:平均数“骗人” 2000 年,全世界陆地面积达 1.5 亿平方公里,平均每平方公里不到 100 人, 可是新加坡超过 6000 人,蒙古则不到 2 人. 2000 年,我国居民储蓄存款余额 64332 亿元,平均每户 18467 元,每人 5082 元.可是,全国农户年纯收入超过 5000 元者仅占 7.45%,实际上超过 80%的储蓄 集中在不到 20%的人手里. 2000 年,我国某些省市的上市公司的平均利润额都是上升的,可是,除了一 两个盈利大户外,其他上市公司的利润额都是下降的,甚至是亏损的. 据此,有人认为,“平均数最能骗人!” 但实际上,平均数又最能服人: 2000 年,我国国内生产总值 89404 亿元,早已进入世界前 10 名,可是,人均 只有 7078 元,排在 100 名开外. 2000 年,我国钢产量 1.285 亿吨,居世界第一,可是,人均产量不到 100 公 斤,只是我们邻居韩、日两国的 1/8 左右. 可见,根据经济分析的不同目的,可以使用不同数据处理方法.以国内生产总 值为例:说明一国经济实力,用年国内生产总值总量为宜;说明一国发展阶段,用 人均国内生产总值为宜;说明一国发展速度,用国内生产总值增长率为宜;说明一 国经济效益,用人均劳动生产率为宜;说明一国收入分配,以基尼系数为宜
经济数学基础 第8章数据处理 为此,要全面描述一个总体的各种特点,必须使用不同方法处理不同数据.平 均数只是从平均的意义描述一个总体的状态,就看你如何使用.数据指标没有好坏, 使用方法却分优劣 本章内容结构 均值 平均数 加权平均数 众数 中位数 重要特数 离散程度 标准差 数理统计|数据处理 极差 基本概念 频数分布表 直方图 频数直方图 频率直方图 三、学习方法 这一章的中心内容是对搜集到的数据进行适当处理,找出数据的某些统计规律 性.为此,介绍了三种基本的数据处理方法: 1.计算统计数据的一些重要特征数,如均值、方差等等 2.列频数分布表 3.作频数直方图、频率直方图及频率密度曲线等 同时,为了对统计知识有初步的了解,还介绍了几个常见的概念:1.总体和样 本;2.正态曲线. 总体和样本是统计分析中最基本和最常见的概念.学习这部分内容时,从理解 总体和样本的概念入手,要理解硏究总体是从硏究样本数据开始的,研究样本数据 220—
经济数学基础 第 8 章 数据处理 ——220—— 为此,要全面描述一个总体的各种特点,必须使用不同方法处理不同数据.平 均数只是从平均的意义描述一个总体的状态,就看你如何使用.数据指标没有好坏, 使用方法却分优劣. 二、本章内容结构 三、学习方法 这一章的中心内容是对搜集到的数据进行适当处理,找出数据的某些统计规律 性.为此,介绍了三种基本的数据处理方法: 1.计算统计数据的一些重要特征数,如均值、方差等等; 2.列频数分布表; 3.作频数直方图、频率直方图及频率密度曲线等. 同时,为了对统计知识有初步的了解,还介绍了几个常见的概念:1.总体和样 本;2.正态曲线. 总体和样本是统计分析中最基本和最常见的概念.学习这部分内容时,从理解 总体和样本的概念入手,要理解研究总体是从研究样本数据开始的,研究样本数据
经济数学基础 第8章数据处理 的目的是为了推断总体的性质.弄清了这一点,很自然地会想到面对收集到的一批 样本数据如何进行处理的问题.如果收集到的数据少,通过计算它的均值或加权平 均数、几何平均数、方差或标准差等特征数,从而对总体有一个大致的了解,有时 甚至可用更简单、方便的方法,如通过中位数、众数或极差等特征数,粗略地了解 总体的情况.但如果想更多地知道总体性质;如数据在哪个范围内出现的次数最 多?某个范围内数据出现的百分比是多少?等等,就需要抽取更多的样本数据进行 研究.这时仅计算数据的特征数是不够的,需要通过对数据进行适当的分组,计算 组频数、组频率等指标,才能描述出数据的统计规律性.同时由于数据多,计算均 值和方差也是比较麻烦的,寻找一种简便的均值和方差的计算方法,就是很自然的 事情了.解决上述问题的有效方法就是列一张频数分布表,它包含组限、组中值、 组频数和组频率等指标.把频数分布表用几何图形表示出来,就是绘制频数直方图 和频率直方图,从中可以直观地看出数据的统计规律性.由于我们获得的资料往往 是客观对象中的一部分(也就是样本),设想如果能够将全部的资料都收集到,则 它的频率直方图就可以用一条连续的曲线来代替,这条曲线描述的就是总体的分布 情况,这也正是频率密度曲线的由来.实际问题中,最常见的频率密度曲线就是正 态曲线 在学习本章内容的时候,要掌握一组数据的均值、方差的计算方法,掌握加权 平均数和加权方差的计算方法.知道均值是一组数据的“代表”性数值,表示总体 的平均水平;方差是描述数据分散程度的数值,方差越大,表示数据越分散,反之 方差越小,表示数据越集中.另外中位数和众数也反映总体的平均情况.极差是描述 数据分散程度的数,由于它们都不需要复杂的计算,容易确定,因此在实际问题中 也经常使用它们描述数据的平均水平或分散程度 列频数分布表时,范围(a,b)以a略小于样本数据的最小值,b略大于样本 数据最大值为宜.组数要适当.因为组数太多,不易显出数据的统计规律性,计算也
经济数学基础 第 8 章 数据处理 ——221—— 的目的是为了推断总体的性质. 弄清了这一点,很自然地会想到面对收集到的一批 样本数据如何进行处理的问题. 如果收集到的数据少,通过计算它的均值或加权平 均数、几何平均数、方差或标准差等特征数,从而对总体有一个大致的了解,有时 甚至可用更简单、方便的方法,如通过中位数、众数或极差等特征数,粗略地了解 总体的情况. 但如果想更多地知道总体性质;如数据在哪个范围内出现的次数最 多?某个范围内数据出现的百分比是多少?等等,就需要抽取更多的样本数据进行 研究.这时仅计算数据的特征数是不够的,需要通过对数据进行适当的分组,计算 组频数、组频率等指标,才能描述出数据的统计规律性.同时由于数据多,计算均 值和方差也是比较麻烦的,寻找一种简便的均值和方差的计算方法,就是很自然的 事情了.解决上述问题的有效方法就是列一张频数分布表,它包含组限、组中值、 组频数和组频率等指标.把频数分布表用几何图形表示出来,就是绘制频数直方图 和频率直方图,从中可以直观地看出数据的统计规律性. 由于我们获得的资料往往 是客观对象中的一部分(也就是样本),设想如果能够将全部的资料都收集到,则 它的频率直方图就可以用一条连续的曲线来代替,这条曲线描述的就是总体的分布 情况,这也正是频率密度曲线的由来. 实际问题中,最常见的频率密度曲线就是正 态曲线. 在学习本章内容的时候,要掌握一组数据的均值、方差的计算方法,掌握加权 平均数和加权方差的计算方法. 知道均值是一组数据的“代表”性数值,表示总体 的平均水平;方差是描述数据分散程度的数值,方差越大,表示数据越分散,反之 方差越小,表示数据越集中.另外中位数和众数也反映总体的平均情况.极差是描述 数据分散程度的数,由于它们都不需要复杂的计算,容易确定,因此在实际问题中 也经常使用它们描述数据的平均水平或分散程度. 列频数分布表时,范围( a,b )以 a 略小于样本数据的最小值, b 略大于样本 数据最大值为宜.组数要适当.因为组数太多,不易显出数据的统计规律性,计算也
经济数学基础 第8章数据处理 比较麻烦;组数太少,分析粗糙,计算误差较大.一般采用等组距分组,组距等于 范围/组数,组限就是指相邻的两个分点组成的左闭右开区间用唱票或划斜杠 (//)的方法数各组的频数,并计算组频率和组中值.将上述内容一一填入表内 就得到频数分布表.为检验组频数和组频率是否正确,可计算组频数之和是否为样 本容量,组频率之和是否为1 利用频数分布表近似计算样本数据的均值及其方差,是计算多个数据的特征数 时常用的方法 通过对本章的学习,要掌握均值、加权平均数、方差等特征数的基本计算方法, 学会数据个数较多时的处理方法,即列频数分布表,画频数直方图和频率直方图等 从中了解总体的分布情况 四、教学要求 1.了解总体、样本、均值等基本概念; 2.了解加权平均数、几何平均数,直方图与频率密度曲线等基本概念 五、讲授内容 第一单元重要的特征数 第二单元直方图 22
经济数学基础 第 8 章 数据处理 ——222—— 比较麻烦;组数太少,分析粗糙,计算误差较大.一般采用等组距分组,组距等于 范围/组数,组限就是指相邻的两个分点组成的左闭右开区间.用唱票或划斜杠 (////)的方法数各组的频数,并计算组频率和组中值.将上述内容一一填入表内, 就得到频数分布表.为检验组频数和组频率是否正确,可计算组频数之和是否为样 本容量,组频率之和是否为 1. 利用频数分布表近似计算样本数据的均值及其方差,是计算多个数据的特征数 时常用的方法. 通过对本章的学习,要掌握均值、加权平均数、方差等特征数的基本计算方法, 学会数据个数较多时的处理方法,即列频数分布表,画频数直方图和频率直方图等, 从中了解总体的分布情况. 四、教学要求 1.了解总体、样本、均值等基本概念; 2.了解加权平均数、几何平均数,直方图与频率密度曲线等基本概念. 五、讲授内容 第一单元 重要的特征数 第二单元 直方图