绪论 生物统计学的概念、任务和内容 一、生物统计学的概念 概念:生物统计学的特殊性在于“统计”二字上。统计的汉语意思字面上理解是“统 计算”。生物学研究中通过观察、测量、实验可以得到许多数据,这些数据参差不齐, 杂乱无章,必须对其进行统计分析,找出内在联系与规律。 例:抛钱币一一统计规律性 生物统计学的英文为Biometry,它是来自希腊文的两个词根,一个是“Bios”-生 命,另一个是“metron'”-测量。所以合起来的意思是“生命的测量学”。它是用数理统 计的原理和方法来分析和解释生物界的各种现象和规律的科学。 著名生物统计学家杨纪珂赋词综括生物统计学的内涵, 七律西江月 事物皆含规律, 拾得锦囊数百, 奈何变异重重。 收存花粉千种。 恰如云阵护苍龙, 春来大地漫东风 只见一磷半缝。 蝶使蜂媒相送。 性质、意义 基础课、必修课 现代生物学发展的趋势:精确化、定量化。 贝费里奇在《科学研究的艺术》中说:“没有利用数学的学科不称为科学。 恩格斯在19世纪0年代的《自然辩证法》手稿中说:“数学的应用在生物学中等 于零”。 最近半个世纪才出现生物数学(联合国教科文组织1974年正式承认其为独立学 科)。 二、生物统计学的任务 通过对样本的研究来推断总体的性质。生物统计学的核心问题就是总体与样本的关 系问题。 总体:研究对象的全部。举例。 样本:总体的一部分
1 绪 论 生物统计学的概念、任务和内容 一、 生物统计学的概念 概念:生物统计学的特殊性在于“统计”二字上。统计的汉语意思字面上理解是“统一 计算”。生物学研究中通过观察、测量、实验可以得到许多数据,这些数据参差不齐, 杂乱无章,必须对其进行统计分析,找出内在联系与规律。 例:抛钱币——统计规律性 生物统计学的英文为 Biometry,它是来自希腊文的两个词根,一个是“Bios”-生 命,另一个是“metron”-测量。所以合起来的意思是“生命的测量学”。它是用数理统 计的原理和方法来分析和解释生物界的各种现象和规律的科学。 著名生物统计学家杨纪珂赋词综括生物统计学的内涵。 七律 西江月 事物皆含规律, 拾得锦囊数百, 奈何变异重重。 收存花粉千种。 恰如云阵护苍龙, 春来大地漫东风, 只见一磷半缝。 蝶使蜂媒相送。 性质、意义 基础课、必修课 现代生物学发展的趋势:精确化、定量化。 贝费里奇在《科学研究的艺术》中说:“没有利用数学的学科不称为科学。 恩格斯在 19 世纪 70 年代的《自然辩证法》手稿中说:“数学的应用在生物学中等 于零”。 最近半个世纪才出现生物数学(联合国教科文组织 1974 年正式承认其为独立学 科)。 二、生物统计学的任务 通过对样本的研究来推断总体的性质。生物统计学的核心问题就是总体与样本的关 系问题。 总体:研究对象的全部。举例。 样本:总体的一部分
这样一个由样本推断总体的过程在认识论中叫做由特殊到一般,方法论中叫归纳, 逻辑论中叫做归纳逻辑。 生物统计学与其它学科的关系 生物统计学属于生物数学的范畴,在生物学日益定量化、精确化的时代,生物学的 各分支都与其有着密切的联系, 宏观方面: 动植物分类学、动植物生态学都大量地应用生物统计学为研究手段。数量生态学、 数值分类学是成功地应用数理统计的典范。如种群分布格局、种间关系、聚类分析、群 落演替的马尔柯夫过程等等。 微观方面: 所有实验学科所得数据的处理。微观模型的建立。遗传学中某种基因或表型出现的 概率,对遗传学定律的验证。在农、医两大应用生物学领域更由极为广泛的应用。讲课 中,将以这两方面为主题介绍生物统计学的原理及方法。 三、生物统计学的主要内容 从统计方法的主要内容来讲,大致可分为四方面: 1,数据整理及其基本分析 大样本(样本中个体数很多)情况下,需通过数据初步整理之后,再从资料中计算 出三个主要统计量:x、S、S用以推断总体特征: x一集中性 S一离散性 S,一可靠性(用x估计μ时,这个估计的变异性) 2.统计推断(显著性检验) (1)平均数间差异的比较 两组或两组以上数据的平均数孰优孰劣?有无显著差异。例如两个试验田的小麦产 量:甲:300公斤,乙:280公斤。两者有无差异?(u检验,t检验) (2)x?检验一属性的统计分析 有许多性状不能直接用测量的方法加以衡量。一般称之为属性性状。通过对具有相 同属性的计数来分析理论值与观察值之间的差异。 2
2 这样一个由样本推断总体的过程在认识论中叫做由特殊到一般,方法论中叫归纳, 逻辑论中叫做归纳逻辑。 生物统计学与其它学科的关系 生物统计学属于生物数学的范畴,在生物学日益定量化、精确化的时代,生物学的 各分支都与其有着密切的联系。 宏观方面: 动植物分类学、动植物生态学都大量地应用生物统计学为研究手段。数量生态学、 数值分类学是成功地应用数理统计的典范。如种群分布格局、种间关系、聚类分析、群 落演替的马尔柯夫过程等等。 微观方面: 所有实验学科所得数据的处理。微观模型的建立。遗传学中某种基因或表型出现的 概率,对遗传学定律的验证。在农、医两大应用生物学领域更由极为广泛的应用。讲课 中,将以这两方面为主题介绍生物统计学的原理及方法。 三、生物统计学的主要内容 从统计方法的主要内容来讲,大致可分为四方面: 1. 数据整理及其基本分析 大样本(样本中个体数很多)情况下,需通过数据初步整理之后,再从资料中计算 出三个主要统计量: x 、S、 x S 用以推断总体特征: x—集中性 S—离散性 x S —可靠性 (用 x 估计 μ 时,这个估计的变异性) 2. 统计推断(显著性检验) (1)平均数间差异的比较 两组或两组以上数据的平均数孰优孰劣?有无显著差异。例如两个试验田的小麦产 量:甲:300 公斤,乙:280 公斤。两者有无差异?(u 检验,t 检验) (2)χ 2 检验—属性的统计分析 有许多性状不能直接用测量的方法加以衡量。一般称之为属性性状。通过对具有相 同属性的计数来分析理论值与观察值之间的差异
(3)方差分析 目的是进行多个平均数之间的比较。其原理是利用数学方法(线性可加性)把试验中 的总变异分解为由不同变异原因所形成的各种变异,并进行显著性检验与多重比较。 3.相关与回归 对两个变量之间相互关系的密切程度的研究称为相关。以相关系数表示。 回归是指两个或两个以上的变量间存在着从属关系,即一个变量(X)变化时,引 起另一个变量(Y)的相应变化,它们的从属关系可以用回归分析的方法进行研究。通 过回归分析,可以根据实际数据建立回归方程,用以对某些指标进行预测和预报。例如 用父母的身高来预测子女的身高(子女的身高-父高+母高×18) 2 4.试验设计 所谓试验设计,主要是指任何选择实验材料,进行合理的分组处理,其目的是为了尽 量减少和控制实验误差,并对实验误差作出无偏的估计。为了使实验结果成为有用而可 靠的科学资料,在开始实验之前认真地进行试验设计是非常必要的。 四、生物统计学地发展概况 1.统计学的诞生与发展 生物统计是数理统计的具体应用,因此我们应当了解几位对数理统计学的创立和发 展有重大贡献的科学家 数理统计最早的起源可追溯到十七世纪它与政治济济有关,因为要对国家收入、税 率、保险、人口普查、长寿、死亡等作出定量的描述与分析。最早的人口统计学家有 J.Graunt(1620-1674)和W.pety(1623-1687)。此外,当时闲暇阶层在赌博中的胜负、 输赢对概率论的发展也起了推动作用。对发展概率论作出重要贡献的人是B.pascal (1623-1662)和Pde Fermat(1601-1665)以及J.Bernoulli(1654-1705),他们为概率 论的发展奠定了基础。 A.de Moivre(1667-1756)第一个在解决养老金问题上把统计学同概率论结合起来, 并由二项分布近似地推出了正态分布,这对生物统计的理论发展十分重要。 较晚期的统计学发展受到了天文学家的推动,象S.Laplace(1749-1827)和K.Gauss (1777-1855)在对天文观测的误差估计中提出了著名的“最小二乘法”,这对统计学的 发展作出了不朽的贡献。 Katler(比利时)(1796-1874)首先把概率论的基本原理引进统计学的研究领域
3 (3)方差分析 目的是进行多个平均数之间的比较。其原理是利用数学方法(线性可加性)把试验中 的总变异分解为由不同变异原因所形成的各种变异,并进行显著性检验与多重比较。 3. 相关与回归 对两个变量之间相互关系的密切程度的研究称为相关。以相关系数表示。 回归是指两个或两个以上的变量间存在着从属关系,即一个变量(X)变化时,引 起另一个变量(Y)的相应变化,它们的从属关系可以用回归分析的方法进行研究。通 过回归分析,可以根据实际数据建立回归方程,用以对某些指标进行预测和预报。例如 用父母的身高来预测子女的身高(子女的身高= 1.08 2 父高+母高 ) 4. 试验设计 所谓试验设计,主要是指任何选择实验材料,进行合理的分组处理,其目的是为了尽 量减少和控制实验误差,并对实验误差作出无偏的估计。为了使实验结果成为有用而可 靠的科学资料,在开始实验之前认真地进行试验设计是非常必要的。 四、生物统计学地发展概况 1. 统计学的诞生与发展 生物统计是数理统计 的具体应用,因此我们应当了解几位对数理统计学的创立和发 展有重大贡献的科学家. 数理统计最早的起源可追溯到十七世纪.它与政治济济有关,因为要对国家收入、税 率、保险、人口普查、长寿、死亡等作出定量的描述与分析。最早的人口统计学家有 J.Graunt(1620-1674)和 W. pety(1623-1687)。此外,当时闲暇阶层在赌博中的胜负、 输赢对概率论的发展也起了推动作用。对发展概率论作出重要贡献的人是 B. pascal (1623-1662)和 P.de Fermat(1601-1665)以及 J.Bernoulli(1654-1705),他们为概率 论的发展奠定了基础。 A.de Moivre(1667-1756)第一个在解决养老金问题上把统计学同概率论结合起来, 并由二项分布近似地推出了正态分布,这对生物统计的理论发展十分重要。 较晚期的统计学发展受到了天文学家的推动,象 S.Laplace(1749-1827)和 K.Gauss (1777-1855)在对天文观测的误差估计中提出了著名的“最小二乘法”,这对统计学的 发展作出了不朽的贡献。 Katler(比利时)(1796-1874)首先把概率论的基本原理引进统计学的研究领域
成为数理统计的创始人。而数理统计学这一名词是1867年德国的维德斯坦发表《关于 数理统计学及其在国民经济和保险学中的应用》一文而首先使用的。 2.生物统计学的起源 最早建立生物统计思想的是A.Quetelet(1796-1874)他把统计学的理论应用于解决 生物学、医学和社会学中的问题。引进了“平均人”的概念,第一个认识到在大量的变 异数据之中蕴藏着规律性,这正是近代生物统计学中最重要的思想。 最早应用生物统计方法的另一位生物学家是C.达尔文(1809-1882),他的进化论的 本质正是生物统计,。G.孟德尔(1822-1884)在1866年发表的关于豌豆杂交试验的研 究结果也是一个生物统计的问题。达尔文、孟德尔是最早应用生物统计学方法的人。 3.生物统计学的发展 生物统计学的重要发展是在十九世纪以后。1870年英国遗传学家F.Galton (1822-1911)通过研究人类体高的遗传,认为子女的体高与父母的体高有着直接的关 系,发现子女的体高与他们的父母的体高有回归的趋势,这就是在数理统计中“回归 术语的由来,Galton18870年提出回归一词,因而,后人推崇他为生物统计学的创始人, 称他为“生物统计和优生学之父”。 K.Pearson(1857-1936)在1899年提出了一个测量实际数与理论预计数之间的偏离 度的指数x2。x2在属性统计分析中有着重要的作用,同年他创建了《Biometrika》(生 物统计学报)刊物,并建立了一所数理统计学校。他的学生W.Gosset(古斯特) (1876-1937)对样本标准差做了不少研究,在1908年以“student”(“学生氏”)笔名 将“t-检验”发表于《Biometrika》刊物上,此后t检验法成为当代生物统计学中基本工 具之一。 1923年英国的生物学家R.Fisher(1890-1962)第一个把变异来源不同的均方值称 为F值。当F值大于理论上5%概率水准的F值时,该项变异来源的必然性效应就从偶 然性变量中分析出来。这个分析方法,被称为方差分析。在生物统计中,方差分析应用 的很广,特别是在他发表了《试验研究工作中的统计方法》的专著后,对推动和促进农 业科学、生物学和遗传学的研究和发展起了一定的奠基作用。 J.Neyman(纳耶曼)在1936年,E.S.Pearson在1938年分别提出一种统计假设检验学 说,对促进理论研究及对试验研究做出结论具有实用价值
4 成为数理统计的创始人。而数理统计学这一名词是 1867 年德国的维德斯坦发表《关于 数理统计学及其在国民经济和保险学中的应用》一文而首先使用的。 2. 生物统计学的起源 最早建立生物统计思想的是 A.Quetelet(1796-1874)他把统计学的理论应用于解决 生物学、医学和社会学中的问题。引进了“平均人”的概念,第一个认识到在大量的变 异数据之中蕴藏着规律性,这正是近代生物统计学中最重要的思想。 最早应用生物统计方法的另一位生物学家是 C.达尔文(1809-1882),他的进化论的 本质正是生物统计,。G.孟德尔(1822-1884)在 1866 年发表的关于豌豆杂交试验的研 究结果也是一个生物统计的问题。达尔文、孟德尔是最早应用生物统计学方法的人。 3. 生物统计学的发展 生物统计学的重要发展是在十九世纪以后。1870 年英国遗传学家 F.Galton (1822-1911)通过研究人类体高的遗传,认为子女的体高与父母的体高有着直接的关 系,发现子女的体高与他们的父母的体高有回归的趋势,这就是在数理统计中 “回归” 术语的由来,Galton1870 年提出回归一词,因而,后人推崇他为生物统计学的创始人, 称他为“生物统计和优生学之父”。 K.Pearson(1857-1936)在 1899 年提出了一个测量实际数与理论预计数之间的偏离 度的指数 2 x 。 2 x 在属性统计分析中有着重要的作用,同年他创建了《Biometrika》(生 物统计学报)刊物,并建立了一所数理统计学校。他的学生 W.Gosset(古斯特) (1876-1937)对样本标准差做了不少研究,在 1908 年以“student”(“学生氏”)笔名 将“t-检验”发表于《Biometrika》刊物上,此后 t 检验法成为当代生物统计学中基本工 具之一。 1923 年英国的生物学家 R.Fisher(1890-1962)第一个把变异来源不同的均方值称 为 F 值。当 F 值大于理论上 5%概率水准的 F 值时,该项变异来源的必然性效应就从偶 然性变量中分析出来。这个分析方法,被称为方差分析。在生物统计中,方差分析应用 的很广,特别是在他发表了《试验研究工作中的统计方法》的专著后,对推动和促进农 业科学、生物学和遗传学的研究和发展起了一定的奠基作用。 J.Neyman(纳耶曼)在 1936 年,E.S .Pearson 在 1938 年分别提出一种统计假设检验学 说,对促进理论研究及对试验研究做出结论具有实用价值
4.我国在统计学及生物学方面的工作 李悝(前455-前395)是我国古代统计学家之一。他在《尽地力之教》一书中,对 五口之家,运用平均数和分组法进行分析,首先把收成分组,分为丰年和饥年,丰年又 按上中下分组,饥年按大中小分组,并且计算平均产量。他是我国最早运用复合分组的 人。 我国最早写统计学著作的是沈秉诚,他在1909年就著有《统计学纲领》。这本书是 在日本印刷的,对我国早期的统计学观点的形成和以后的发展都有影响。 三十年代,生物统计已成为农学系的必修课程,最早出版的有王绶编著的《实用生 物统计法》(1935年出版,1953年再版) 5。现代生物统计学 七十年代以来,由于电子计算机的日益普及,本来由于计算量太大而不得不放弃的 统计问题获得了生命力,使其应用更为广泛。 五、生物统计学在生产实践中的应用 生物统计学是应用数学的一个分支。半个世纪来,它的应用范围不断扩大。在遗传 学中,作为研究变异的统计方法,在农学中田间试验与分析,医学中药物试验与分析、 饲养试验、动物群体生态实验、群体遗传与选种统计。 六、生物统计学的学习方法 1、掌握基本概念 2、熟记公式 3、大量作习题 4、在具体研究中要随时应用所学的统计方法。 七、教学计划 本课程共安排了54个学时,主要讲授概率的理论分布、统计推断、方差分析和回 归分析等内容。另外实验设计也是重点讲授的一章。 在教学过程中。我们还要随堂作两次试验。一是抽样试验,一是两因素方差分析试 验。 八、参考书目 主要参考书目:杜容謇的《生物统计学》 其它参考书: 杨纪珂、齐翔林《现代生物统计》安徽教育出版社
5 4. 我国在统计学及生物学方面的工作 李悝(前 455-前 395)是我国古代统计学家之一。他在《尽地力之教》一书中,对 五口之家,运用平均数和分组法进行分析,首先把收成分组,分为丰年和饥年,丰年又 按上中下分组,饥年按大中小分组,并且计算平均产量。他是我国最早运用复合分组的 人。 我国最早写统计学著作的是沈秉诚,他在 1909 年就著有《统计学纲领》。这本书是 在日本印刷的,对我国早期的统计学观点的形成和以后的发展都有影响。 三十年代,生物统计已成为农学系的必修课程,最早出版的有王绶编著的《实用生 物统计法》(1935 年出版,1953 年再版) 5. 现代生物统计学 七十年代以来,由于电子计算机的日益普及,本来由于计算量太大而不得不放弃的 统计问题获得了生命力,使其应用更为广泛。 五、生物统计学在生产实践中的应用 生物统计学是应用数学的一个分支。半个世纪来,它的应用范围不断扩大。在遗传 学中,作为研究变异的统计方法,在农学中田间试验与分析,医学中药物试验与分析、 饲养试验、动物群体生态实验、群体遗传与选种统计。 六、生物统计学的学习方法 1、掌握基本概念 2、熟记公式 3、大量作习题 4、在具体研究中要随时应用所学的统计方法。 七、教学计划 本课程共安排了 54 个学时,主要讲授概率的理论分布、统计推断、方差分析和回 归分析等内容。另外实验设计也是重点讲授的一章。 在教学过程中。我们还要随堂作两次试验。一是抽样试验,一是两因素方差分析试 验。 八、参考书目 主要参考书目:杜容謇的《生物统计学》 其它参考书: 杨纪珂、齐翔林《现代生物统计》 安徽教育出版社
南京农学院主编《田间实验与统计方法》农业出版社 王鉴明,1988年,《生物统计学》农业出版社 刘来福《生物统计学》北京师范大学出版社 贵州农学院主编《生物统计附试验设计》农业出版社 数学所编,1973年,《常用数理统计方法》科学出版社 林少宫,1963年,《基础概率与数理统计》高教出版社 中科院数学所,1974,《常用数理统计表》科学出版社 刘祖洞,《遗传学》上、下
6 南京农学院主编《田间实验与统计方法》农业出版社 王鉴明,1988 年,《生物统计学》农业出版社 刘来福《生物统计学》北京师范大学出版社 贵州农学院主编《生物统计附试验设计》农业出版社 数学所编,1973 年,《常用数理统计方法》科学出版社 林少宫,1963 年,《基础概率与数理统计》高教出版社 中科院数学所,1974,《常用数理统计表》科学出版社 刘祖洞,《遗传学》上、下
第一章数据处理 要求学生掌握数据的基本性质,掌握频数表与频数图的编绘,掌握x与S的意义与 计算,掌握生物统计学的几个基本概念。 1.1数据 1.1.1数据 要对事物在数量上有客观认识,唯一可靠的办法就是通过调查、实验或实践得到数 据,然后进行分析研究。在科学实验中,数据是十分宝贵的资料。 什么叫数据?(举例,请学生概括) 对客观事物通过调查、测量、实验所得到的数量化的观察结果,叫做数据。 (举若干例) 1.1.2数据的性质 数据具有什么样的性质?(问) 反问?你们班的男生一样高,对不对? 我能找到两片完全一样的叶片,信不信? 测量200株小麦株高,得200个数据,设想这样数据有何性质? (引导学生得出结论) 数据的基本性质就是变异性。 这种变异性就是客观存在的,必然要发生的,且具有普遍性 生物统计学就是研究生物群体内个体间的变异性规律以及研究对生物性状观察过程 中的误差规律。(玩方差)假如世界上不存在变异性和误差,则无所谓统计学了。关于 变异性的最早发现并录之于书的是我国战国时期的孟子。他在《孟子.腾文公上》一文 中写到“物之不齐,物之情也。或相倍蓰(五倍)或相千万。 这里不仅说出了变异性的普遍存在,而且还对它提出了一种度量的概念。 1.1.3变异性产生的原因 (学生讨论,并举例)最后概括总结: 要追究变异性的原因,首先要分析那些对某种具体现象起作用的内在因素,如一窝 羔羊的断奶重取决于许多内外因素,它们往往有直接的、间接的、主要的、次要的,还 有的虽然微小,但确有影响,种类非常之多,它们有的虽由人为决定,有的却属随机, 其间的组合方式有无限的多,正是这个原因导致了事物的参差不齐。 7
7 第一章 数据处理 要求学生掌握数据的基本性质,掌握频数表与频数图的编绘,掌握 x 与 S 的意义与 计算,掌握生物统计学的几个基本概念。 1.1 数据 1.1.1 数据 要对事物在数量上有客观认识,唯一可靠的办法就是通过调查、实验或实践得到数 据,然后进行分析研究。在科学实验中,数据是十分宝贵的资料。 什么叫数据?(举例,请学生概括) 对客观事物通过调查、测量、实验所得到的数量化的观察结果,叫做数据。 (举若干例) 1.1.2 数据的性质 数据具有什么样的性质?(问) 反问?你们班的男生一样高,对不对? 我能找到两片完全一样的叶片,信不信? 测量 200 株小麦株高,得 200 个数据,设想这样数据有何性质? (引导学生得出结论) 数据的基本性质就是变异性。 这种变异性就是客观存在的,必然要发生的,且具有普遍性。 生物统计学就是研究生物群体内个体间的变异性规律以及研究对生物性状观察过程 中的误差规律。(玩方差)假如世界上不存在变异性和误差,则无所谓统计学了。关于 变异性的最早发现并录之于书的是我国战国时期的孟子。他在《孟子.腾文公上》一文 中写到“物之不齐,物之情也。或相倍蓰(五倍)或相千万。 这里不仅说出了变异性的普遍存在,而且还对它提出了一种度量的概念。 1.1.3 变异性产生的原因 (学生讨论,并举例)最后概括总结。 要追究变异性的原因,首先要分析那些对某种具体现象起作用的内在因素,如一窝 羔羊的断奶重取决于许多内外因素,它们往往有直接的、间接的、主要的、次要的,还 有的虽然微小,但确有影响,种类非常之多,它们有的虽由人为决定,有的却属随机, 其间的组合方式有无限的多,正是这个原因导致了事物的参差不齐
我们来分析一下影响羔羊断奶重的内外因素。内因通常是指遗传因素,其物质基础 主要是两亲体的精子和卵子中遗传下来的19对染色体内遗传分子所携带的数以万计的 基因密码,其变异是众所周知的:外因是环境的因素,包括饲养管理、疾病防治、母体 效应等,其变异也是显而易见的,对一只羔羊的发育过程来说,它所遭遇的这些有差异 性的内外因素的组合是独一无二的。所以说,遗传差异与环境差异是引起生物体差异的 一对基本矛盾。 正是由于变异之故,中古世纪欧洲的鼠疫虽然猖獗一时,但并没有把欧洲人全部消 灭。说得过头一点,假若没有变异性存在,哪还有一个欧洲人能渡过鼠疫的灾难呢?所 以说,变异性的出现是由于影响某自然事物或现象的许多大大小小的内外因素的偶然性 配合所致。科学研究的目的就在于把这些由内外因素所引起的效应的客观规律剖析清 楚,以便通过它们对同类的事物或同型的现象加以估计和预测。 1.1.4数据的类型 两类 1.离散型 一棵果树结了多少只苹果?你们班有多少人?多少同学体育达标?这类用计数方式 得到的数据叫离散型数据。每个数必须以整数表示。两个整数间的数值是不连续的、离 散的。 2.连续型 本班同学的平均身高、平均体重?一次降雨的降雨量,这类用计量工具直接测定的数 据,所得数据不一定是整数,在整数之间可以出现任何值。 例如:在养鸡的育肥试验中,养了5只鸡,一个月以后,每只鸡的增重量都不一样, 分别3.0斤、2.6斤、3.2斤3.1斤和2.8斤。是连续型数据。如果鸡的数目非常之多, 称的非常精细,那么任取其中一个增重范围,如2.6-2.7斤,不论这个范围定的多么小, 总可以找出几只鸡,其增重大于2.6,而小于2.7斤。即如果把各只鸡的增重在标尺上 一点一点标出来,在一定的区间内,只要鸡的数量很多,这些点就可能一点一点地连接 起来,连续性的含义就在于此。 1.2原始数据的检查与核对 搜集的原始数据在整理之前,应先对全部数据进行检查与核对,分辨真伪,力求完 整、真实和准确。 (1)检查数据本身有无差错
8 我们来分析一下影响羔羊断奶重的内外因素。内因通常是指遗传因素,其物质基础 主要是两亲体的精子和卵子中遗传下来的 19 对染色体内遗传分子所携带的数以万计的 基因密码,其变异是众所周知的;外因是环境的因素,包括饲养管理、疾病防治、母体 效应等,其变异也是显而易见的,对一只羔羊的发育过程来说,它所遭遇的这些有差异 性的内外因素的组合是独一无二的。所以说,遗传差异与环境差异是引起生物体差异的 一对基本矛盾。 正是由于变异之故,中古世纪欧洲的鼠疫虽然猖獗一时,但并没有把欧洲人全部消 灭。说得过头一点,假若没有变异性存在,哪还有一个欧洲人能渡过鼠疫的灾难呢?所 以说,变异性的出现是由于影响某自然事物或现象的许多大大小小的内外因素的偶然性 配合所致。科学研究的目的就在于把这些由内外因素所引起的效应的客观规律剖析清 楚,以便通过它们对同类的事物或同型的现象加以估计和预测。 1.1.4 数据的类型 两类 1.离散型 一棵果树结了多少只苹果?你们班有多少人?多少同学体育达标?这类用计数方式 得到的数据叫离散型数据。每个数必须以整数表示。两个整数间的数值是不连续的、离 散的。 2.连续型 本班同学的平均身高、平均体重?一次降雨的降雨量,这类用计量工具直接测定的数 据,所得数据不一定是整数,在整数之间可以出现任何值。 例如:在养鸡的育肥试验中,养了 5 只鸡,一个月以后,每只鸡的增重量都不一样, 分别 3.0 斤、2.6 斤、3.2 斤 3.1 斤和 2.8 斤。是连续型数据。如果鸡的数目非常之多, 称的非常精细,那么任取其中一个增重范围,如 2.6-2.7 斤,不论这个范围定的多么小, 总可以找出几只鸡,其增重大于 2.6,而小于 2.7 斤。即如果把各只鸡的增重在标尺上 一点一点标出来,在一定的区间内,只要鸡的数量很多,这些点就可能一点一点地连接 起来,连续性的含义就在于此。 1.2 原始数据的检查与核对 搜集的原始数据在整理之前,应先对全部数据进行检查与核对,分辨真伪,力求完 整、真实和准确。 (1)检查数据本身有无差错
记录不全(丢失、损坏、遗漏) 记载错误(笔误、虚构) 测量工具不够、测量技术不熟练 对一些特殊值(极大、极小的)应反复核实,以保证计算的正确与可靠。 (2)取样有无差错 取样不全或非随机取样都会影响统计的准确性。 (3)数据不合理的合并 不同性别、健康状况、品种、年龄、时间与年度、试验因素不同等数据进行了不合理 合并,应予以纠正。 1.3小数位的取舍 两个法则: 法则1.在近似数相加或相减时,小数位数较多的近似数只要比小数位最少的那个加数 多留一位,其余都把它舍去。在计算结果里应保留的小数位数和原来近似数里小数位最 少的哪个位数相同。 不正确运算 正确运算 3.145 3.14 2.27 2.27 3.5 3.5 2.8 2.8 11.715 11.71-11.7 法则2。在两个近似数相乘或相除时,有效数字多的近似数只要比有效数字较少的那个 数多保留一位,其余的都把它舍去,在计算结果里从第一个不是零的数字起应保留的数 字的个数,和原来近似数里有效数字较少的那个位数相同。 不正确运算 正确运算 3.8654 3.865 ×2.96 ×2.96 231924 23190 347886 34785 77308 7720 11.441584 11.4404011.44 法则3.在运算过程中要决定取舍位数时,应运用四舍五入法。比5大进一位,比5小 9
9 记录不全(丢失、损坏、遗漏) 记载错误(笔误、虚构) 测量工具不够、测量技术不熟练 对一些特殊值(极大、极小的)应反复核实,以保证计算的正确与可靠。 (2)取样有无差错 取样不全或非随机取样都会影响统计的准确性。 (3)数据不合理的合并 不同性别、健康状况、品种、年龄、时间与年度、试验因素不同等数据进行了不合理 合并,应予以纠正。 1.3 小数位的取舍 两个法则: 法则 1. 在近似数相加或相减时,小数位数较多的近似数只要比小数位最少的那个加数 多留一位,其余都把它舍去。在计算结果里应保留的小数位数和原来近似数里小数位最 少的哪个位数相同。 不正确运算 正确运算 3.145 3.14 2.27 2.27 3.5 3.5 2.8 2.8 11.715 11.71 11.7 法则 2. 在两个近似数相乘或相除时,有效数字多的近似数只要比有效数字较少的那个 数多保留一位,其余的都把它舍去,在计算结果里从第一个不是零的数字起应保留的数 字的个数,和原来近似数里有效数字较少的那个位数相同。 不正确运算 正确运算 3.8654 3.865 × 2.96 × 2.96 231924 23190 347886 34785 77308 7730 11.441584 11.44040 11.44 法则 3. 在运算过程中要决定取舍位数时,应运用四舍五入法。比 5 大进一位,比 5 小
舍去之.13.5及14.5本来有三位有效数字,如果取两个有效数字时,它们都是14.3.100 有四个有效数字、3.1有两个有效数字、310,000,000有九个有效数字,31×107或 3.1×108只有两个有效数字。 1.4频数表与频数图的编绘 当对某一事物做初步调查或实验时,可得到大量数据(如几百个),对此未加整理的 大堆数字很难得到明确的概念,如果把这些数据按数值大小进行分组,统计频数,制成 频数分布表,就可以看出资料的集中和变异情况,从而对资料得到一个初步的概念。 1.4.1数据整理的目的在于: (1)将区别不同类型,剖析事物的结构和特点,揭示现象的内在联系。如某医院 调查了120天新生儿的体重情况,把新生儿的体重按人数分组。图1可见,每10个新 生儿中,体重超过3公斤的人数通常为5-8个,少于4个或多于9个的情况很少出现。 说明该地区人民的生活水平居中,新生儿体重正常。若超过3公斤的人数很多或很少则 会发现不同的问题(发挥)。 (2)用数据进行各种对比分析,可以透过现象看本质。如同一指标做不同时期的 对比,不同地区和部门的对比,部分和全体的对比,计划与实际的对比等等。 (3)从频数表(图)可以明显地看出数据的三个重要特征:a:集中情况:b:变 异情况:c:曲线情况:d:不规则情况。 如比较小麦体内水含量在不同生长期(苗、分蘖、拔节、抽穗、开花、灌浆、成熟 期)的变化情况,可以找出小麦对水分的敏感期,实施合理灌溉,节约用水,提高水分 利用率。 又如,新近培养出一种抗旱高产小麦品种,在南疆试种效果较好,在北疆其产量是 否稳定呢?要进行不同地区的栽培比较。看不同地区的产量性状。 (4)研究数量的集中趋势和离散程度。 1.4.2离散型数据的整理 例1.调查每天出生的10个新生儿中,体重超过3公斤的人数。共调查120天。 776675883967588878986 787576887956859776868 10868797787586787108975 876787598776785794787 5778987868468758679108 657787678776678
10 舍去之。13.5 及 14.5 本来有三位有效数字,如果取两个有效数字时,它们都是 14。3.100 有四个有效数字、3.1 有两个有效数字、310,000,000 有九个有效数字,31×107 或 3.1×108 只有两个有效数字。 1.4 频数表与频数图的编绘 当对某一事物做初步调查或实验时,可得到大量数据(如几百个),对此未加整理的 大堆数字很难得到明确的概念,如果把这些数据按数值大小进行分组,统计频数,制成 频数分布表,就可以看出资料的集中和变异情况,从而对资料得到一个初步的概念。 1.4.1 数据整理的目的在于: (1)将区别不同类型,剖析事物的结构和特点,揭示现象的内在联系。如某医院 调查了 120 天新生儿的体重情况,把新生儿的体重按人数分组。图 1 可见,每 10 个新 生儿中,体重超过 3 公斤的人数通常为 5-8 个,少于 4 个或多于 9 个的情况很少出现。 说明该地区人民的生活水平居中,新生儿体重正常。若超过 3 公斤的人数很多或很少则 会发现不同的问题(发挥)。 (2)用数据进行各种对比分析,可以透过现象看本质。如同一指标做不同时期的 对比,不同地区和部门的对比,部分和全体的对比,计划与实际的对比等等。 (3)从频数表(图)可以明显地看出数据的三个重要特征:a:集中情况;b:变 异情况;c:曲线情况;d:不规则情况。 如比较小麦体内水含量在不同生长期(苗、分蘖、拔节、抽穗、开花、灌浆、成熟 期)的变化情况,可以找出小麦对水分的敏感期,实施合理灌溉,节约用水,提高水分 利用率。 又如,新近培养出一种抗旱高产小麦品种,在南疆试种效果较好,在北疆其产量是 否稳定呢?要进行不同地区的栽培比较。看不同地区的产量性状。 (4)研究数量的集中趋势和离散程度。 1.4.2 离散型数据的整理 例 1.调查每天出生的 10 个新生儿中,体重超过 3 公斤的人数。共调查 120 天。 7 7 6 6 7 5 8 8 3 9 6 7 5 8 8 8 7 8 9 8 6 7 8 7 5 7 6 8 8 7 9 5 6 8 5 9 7 7 6 8 6 8 10 8 6 8 7 9 7 7 8 7 5 8 6 7 8 7 10 8 9 7 5 8 7 6 7 8 7 5 9 8 7 7 6 7 8 5 7 9 4 7 8 7 5 7 7 8 9 8 7 8 6 8 4 6 8 7 5 8 6 7 9 10 8 6 5 7 7 8 7 6 7 8 7 7 6 6 7 8