安徽农业大学理学院：《高级生物统计》课程教学资源（讲义）第一讲生物统计学基础知识.doc_大学文库

《高级生物统计》讲义李远景安徽农业大学理学院统计教研室 2006 年学分:2个总学时50(理论课29,SAS实验课21) 教学方法:1、各种分析方法适宜的试验资料 2、各种分析方法的分析目的 3、各种分析方法的分析思路 4、各种分析方法的具体分析方法主要通过SAS分析软件解决第一讲生物统计学基础知识第一节主要内容及重要、基本概念 1、生物统计学概念概念1:研究生物数量特征和数量变化规律的方法论学科。量变→质变量变是基础,质变是必然概念2:由样本推断总体的方法论学科。试验研究的目的是为了获得总体的基本信息、基本特征。试验研究的方法则是抽样研究,然后由样本的试验结果来推断总体的特征。样本→≯总体统计数→参数处理的表面效应J处理本身效应(总体效应) 试验误差效应统计推断:利用概率论和抽样分布原理,(排除试验误差的影响)由样本结果推断总体特征 2、总体:具有相同性质的所有个体组成的集团(有限、无限总体)。 3、样本(随机):由总体中随机抽取的部分个体组成的集团 4、参数:由总体中的全部个体计算出的总体特征值,、σ2、G 5、统计数:由样本中的全部个体计算出的样本特征值,、s2、s。主要内容和作用两方面:试验设计和统计分析关系:统计学原理为试验设计提供合理的依据,而试验设计则是进行正确统计分析的前提试验设计科学地设计处理及处理和重复区组的科学的设置(排列)方法。主要内容处理的确定、试验误差的控制、试验设计的原则、试验设计(的方主要作用科学地设计处理和试验,把试验误差控制到最小的程度,获得准确的试验结果 2、统计分析基础统计显著性测验、方差分析、一元线性相关回归等高级统计多因素方差分析、多元回归分析、通径分析、典型相关

《高级生物统计》讲义李远景安徽农业大学理学院统计教研室 2006 年学分：2 个总学时 50（理论课 29，SAS 实验课 21）教学方法：1、各种分析方法适宜的试验资料 2、各种分析方法的分析目的 3、各种分析方法的分析思路 4、各种分析方法的具体分析方法主要通过 SAS 分析软件解决第一讲生物统计学基础知识第一节主要内容及重要一、基本概念 1、生物统计学概念概念 1：研究生物数量特征和数量变化规律的方法论学科。量变 → 质变量变是基础，质变是必然概念 2：由样本推断总体的方法论学科。试验研究的目的是为了获得总体的基本信息、基本特征。试验研究的方法则是抽样研究，然后由样本的试验结果来推断总体的特征。样本 → 总体统计数 → 参数处理的表面效应    试验误差效应处理本身效应（总体效应）统计推断：利用概率论和抽样分布原理，（排除试验误差的影响）由样本结果推断总体特征。 2、总体：具有相同性质的所有个体组成的集团（有限、无限总体）。 3、样本（随机）：由总体中随机抽取的部分个体组成的集团。 4、参数：由总体中的全部个体计算出的总体特征值，  、 2  、 。 5、统计数：由样本中的全部个体计算出的样本特征值， x 、 2 s 、 s 。二、主要内容和作用两方面：试验设计和统计分析关系：统计学原理为试验设计提供合理的依据，而试验设计则是进行正确统计分析的前提。 1、试验设计科学地设计处理及处理和重复区组的科学的设置（排列）方法。主要内容处理的确定、试验误差的控制、试验设计的原则、试验设计（的方法）。主要作用科学地设计处理和试验，把试验误差控制到最小的程度，获得准确的试验结果。 2、统计分析基础统计显著性测验、方差分析、一元线性相关回归等高级统计多因素方差分析、多元回归分析、通径分析、典型相关

分析、聚类分析、判别分析等主要作用科学地分析试验结果,排除试验误差的影响,真正发现事物的数量特征和数量变化的规律第二节试验误差及其控制试验误差的概念(随机误差):试验结果因受随机因素的影响而与处理真值的差异(不可完全消除,与人为差错不同)。、试验误差的主要来源1、试验材料本身固有的差异 2、试验操作管理技术水平不一致造成的差异 3、外界环境条件不一致造成的差异三、试验误差控制的主要途径1、选择纯合一致的试验材料(可区组控制) 试验操作管理技术水平的标准化(可区组控制) 控制外界环境条件的差异(可区组控制) 第三节试验设计试验设计的三原则1、重复其作用是估计和降低试验误差 2、随机化其作用是无偏估计试验误差,获得随机变量 3、局部(区组)控制其作用是最大程度地降低试验误差二、区组设置的灵活性设置区组的原则:同一区组内尽可能相同,不同区组间可以存在差异。所以在材料的应用、操作管理、外界环境条件的控制等均可采用区组控制手段。第四节统计假设测验(差异显著性检验) 基本概念、适宜的试验资料(1)随机样本(2)统计数的抽样分布规律已知 2、分析目的由样本推断总体(判断试验结果中的差异是由试验误差引起的还是由真实差异引起的) 3、分析思路对样本所属的总体提出假设(无效假设和备择假设),计算样本在无效假设的总体中出现的概率,若概率大就接受无效假设:若概率小就否定无效假设,接受备择假设。分析方法三大步 5小概率事件的实际不可能性原理概率很小的事件可以认为它在一次正常的试验中是不可能发生的应用:如果事先假设了一些条件,在这些假设的条件下若计算出某一事件为一小概率事件,然而它在一次正常的试验中竟然发生了,则说明假设的条件不正确,从而否定这个假设(接受另外一个相反的假设) 统计假设测验的基本原理和方法例原品种0=300公斤亩,可=75公斤/亩,新品种n=25,j=330公斤/亩。问新品种的总体平均亩产量与0差异是否显著或是否相同? (一)、提出统计假设对样本所属的总体提出假设(两个假设相对立) 1、无效假设Ho:假设样本所属总体(特征值)相对已知或相比较的总体(特征值) 无自己的独特效用或相同(差异不显著),即H0:4=H0=300公斤/亩。含义

分析、聚类分析、判别分析等。主要作用科学地分析试验结果，排除试验误差的影响，真正发现事物的数量特征和数量变化的规律。第二节试验误差及其控制一、试验误差的概念（随机误差）：试验结果因受随机因素的影响而与处理真值的差异（不可完全消除，与人为差错不同）。二、试验误差的主要来源 1、试验材料本身固有的差异 2、试验操作管理技术水平不一致造成的差异 3、外界环境条件不一致造成的差异三、试验误差控制的主要途径 1、选择纯合一致的试验材料（可区组控制） 2、试验操作管理技术水平的标准化（可区组控制） 3、控制外界环境条件的差异（可区组控制）第三节试验设计一、试验设计的三原则 1、重复其作用是估计和降低试验误差 2、随机化其作用是无偏估计试验误差，获得随机变量 3、局部（区组）控制其作用是最大程度地降低试验误差二、区组设置的灵活性设置区组的原则：同一区组内尽可能相同，不同区组间可以存在差异。所以在材料的应用、操作管理、外界环境条件的控制等均可采用区组控制手段。第四节统计假设测验（差异显著性检验）一、基本概念 1、适宜的试验资料（1）随机样本（2）统计数的抽样分布规律已知。 2、分析目的由样本推断总体（判断试验结果中的差异是由试验误差引起的还是由真实差异引起的）。 3、分析思路对样本所属的总体提出假设（无效假设和备择假设），计算样本在无效假设的总体中出现的概率，若概率大就接受无效假设；若概率小就否定无效假设，接受备择假设。 4、分析方法:三大步。 5、小概率事件的实际不可能性原理概率很小的事件可以认为它在一次正常的试验中是不可能发生的应用：如果事先假设了一些条件，在这些假设的条件下若计算出某一事件为一小概率事件，然而它在一次正常的试验中竟然发生了，则说明假设的条件不正确，从而否定这个假设（接受另外一个相反的假设）。二、统计假设测验的基本原理和方法例原品种  0 =300 公斤/亩， =75 公斤/亩，新品种 n=25, y =330 公斤/亩。问新品种的总体平均亩产量  与  0 差异是否显著或是否相同？（一）、提出统计假设对样本所属的总体提出假设（两个假设相对立） 1、无效假设 H0 ：假设样本所属总体（特征值）相对已知或相比较的总体（特征值）无自己的独特效用或相同（差异不显著），即 H0 ：  =  0 =300 公斤/亩。含义：

y =30 公斤/亩由试验误差造成（由其造成的概率很大）。 2、备择假设 HA ：假设样本所属总体（特征值）相对已知或相比较的总体（特征值）有自己的独特效用或不同（差异显著），即 HA ：   0 或 HA ：   300 公斤/ 亩。含义： y =30 公斤/亩由真实差异造成（而由试验误差造成的概率很小）。（二）在 H0 假设为正确的假定前提下，研究抽样分布，从而计算出样本在 H0 假设的总体中出现的概率。 2 25 75 0 330 300 = − = − = − = − = n y y y u y y y       在标准正态分布（ u ）中 P(u 1.96) =0.05， u =2， P 0.05。说明在 H0 ：  =  0 =300 公斤/亩的总体中由随机抽样获得 y =330 公斤/亩的样本的概率 P 0.05，或由随机误差造成 y =30 公斤/亩这样大的差异的概率 P 0.05，而由真实差异造成 y =30 公斤/亩这样大的差异的概率则为 P=0.95。（三）根据“小概率事件的实际不可能性原理”作出应接受那种假设的推断。若概率小，说明 H0 假设的条件不正确，从而否定 H0 ，接受 HA ，说明试验结果中的差异由真实差异造成的概率很大，或样本所属的总体确实与 H0 假设的总体显著不同，称为差异显著；若概率大，则接受 H0 ，称为差异不显著。本例 u =2  1.96， P 0.05，否定 H0 ，接受 HA ：    0 ，差异显著。显著水平  ：用来进行假设测验的小概率标准。  =0.05（ u0.05 =1.96），  =0.01 （ u0.01 =2.58）。显著水平  选用的规则：统计上达显著，实际上又有一定的应用价值。（1）若试验误差较大，精确度较低，应选低水平  =0.05 （2）若试验误差较小，精确度较高，应选高水平  =0.01 第五节方差分析一、基本知识 1、方差分析：利用方差（变异量）分析因素间相对重要程度的数学方法。 2、适宜资料：多个处理（单、多因素）差异性比较试验；不同因素间变异程度（重要程度）的假设测验。 3、分析目的：通过方差差异的显著性测验，判断出因素间的相对重要程度

（二）、列方差分析表，进行 F 测验单因素随机区组设计方差分析表（固定模型）变异来源 DF SS MS F F0.05 F0.01 区组间 2 4 2 5.0* 4.10 7.56 处理间 5 12 2.4 6.0** 3.33 5.64 误差项 10 4 0.4 总变异 17 20 F 测验表明（1）区组间差异显著，说明区组控制误差效果显著（2）处理间查验及显著，需多重比较以明确各处理间的差异性。（三）、多重比较（多个处理间差异性测验）常用的有三种方法 LSD 发、SSR 法和 Q 法，本例采用 SSR 法： 0.37 3 0.4 2 = = = n s SE e P 2 3 4 5 6 处理 t x 0.05 0.01 SSR0.05 3.15 3.30 3.37 3.43 3.46 D 4 a A SSR0.01 4.48 4.73 4.88 4.96 5.06 E 4 a A LSR0.05 1.17 1.22 1.25 1.27 1.28 B 3 ab AB LSR0.01 1.67 1.75 1.81 1.84 1.87 C 3 ab AB A 2 b B F 2 b B 多重比较表明：DEBC 间差异不显著，AF 间差异不显著，但 D、E 与 A、F 间差异及显著。第六节一元线性相关回归分析一、基本知识 1、适宜资料：两个变量间呈线性相关回归关系的试验资料 2、分析目的：分析一个自变量对一个依变量的影响是否呈显著的线性相关回归关系，若显著，建立线性回归方程（模型），用以预测和控制。 3、分析思路：若变量间的关系呈线性变化，则可利用最小平方法原理用一个线性方程配合该变化关系，若回归变异显著大于误差变异，说明自变量对依变量的线性影响是显著的，否则它们的线性关系就不显著。二、分析方法例江苏武进县连续 9 年测定三月下旬至四月中旬旬平均累积温度和一代三化螟盛发期的关系（y 以 5 月 10 号为 0）的数据，问 X 对 Y 是否呈显著的线性相关回归影响？ x 累积温度 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 y 盛发期 12 16 9 2 7 3 13 9 —1 基本统计量： Variable N Mean Std Dev Sum Minimum Maximum x 9 37.07778 4.25199 333.70000 31.70000 44.20000 y 9 7.77778 5.58520 70.00000 -1.00000 16.00000 （一）、绘制散点图，判断关系趋势类型

安徽农业大学理学院：《高级生物统计》课程教学资源（讲义）第一讲 生物统计学基础知识

安徽农业大学理学院：《高级生物统计》课程教学资源（讲义）第一讲生物统计学基础知识