《高级生物统计》讲义 李远景 安徽农业大学理学院统计教研室 2006 年 学分:2个总学时50(理论课29,SAS实验课21) 教学方法:1、各种分析方法适宜的试验资料 2、各种分析方法的分析目的 3、各种分析方法的分析思路 4、各种分析方法的具体分析方法主要通过SAS分析软件解决 第一讲生物统计学基础知识 第一节主要内容及重要 、基本概念 1、生物统计学概念概念1:研究生物数量特征和数量变化规律的方法论学科。 量变→质变量变是基础,质变是必然 概念2:由样本推断总体的方法论学科。 试验研究的目的是为了获得总体的基本信息、基本特征。试验研究的方法则是抽样 研究,然后由样本的试验结果来推断总体的特征。样本→≯总体统计数→参数 处理的表面效应J处理本身效应(总体效应) 试验误差效应 统计推断:利用概率论和抽样分布原理,(排除试验误差的影响)由样本结果推断总 体特征 2、总体:具有相同性质的所有个体组成的集团(有限、无限总体)。 3、样本(随机):由总体中随机抽取的部分个体组成的集团 4、参数:由总体中的全部个体计算出的总体特征值,、σ2、G 5、统计数:由样本中的全部个体计算出的样本特征值,、s2、s。 主要内容和作用两方面:试验设计和统计分析关系:统计学原理为试验 设计提供合理的依据,而试验设计则是进行正确统计分析的前提 试验设计科学地设计处理及处理和重复区组的科学的设置(排列)方法。 主要内容处理的确定、试验误差的控制、试验设计的原则、试验设计(的方 主要作用科学地设计处理和试验,把试验误差控制到最小的程度,获得准确 的试验结果 2、统计分析基础统计显著性测验、方差分析、一元线性相关回归等 高级统计多因素方差分析、多元回归分析、通径分析、典型相关
《高级生物统计》讲义 李远景 安徽农业大学理学院统计教研室 2006 年 学分:2 个 总学时 50(理论课 29,SAS 实验课 21) 教学方法:1、各种分析方法适宜的试验资料 2、各种分析方法的分析目的 3、各种分析方法的分析思路 4、各种分析方法的具体分析方法主要通过 SAS 分析软件解决 第一讲 生物统计学基础知识 第一节 主要内容及重要 一、基本概念 1、生物统计学概念 概念 1:研究生物数量特征和数量变化规律的方法论学科。 量变 → 质变 量变是基础,质变是必然 概念 2:由样本推断总体的方法论学科。 试验研究的目的是为了获得总体的基本信息、基本特征。试验研究的方法则是抽样 研究,然后由样本的试验结果来推断总体的特征。样本 → 总体 统计数 → 参数 处理的表面效应 试验误差效应 处理本身效应(总体效应) 统计推断:利用概率论和抽样分布原理,(排除试验误差的影响)由样本结果推断总 体特征。 2、总体:具有相同性质的所有个体组成的集团(有限、无限总体)。 3、样本(随机):由总体中随机抽取的部分个体组成的集团。 4、参数:由总体中的全部个体计算出的总体特征值, 、 2 、 。 5、统计数:由样本中的全部个体计算出的样本特征值, x 、 2 s 、 s 。 二、主要内容和作用 两方面:试验设计和统计分析 关系:统计学原理为试验 设计提供合理的依据,而试验设计则是进行正确统计分析的前提。 1、 试验设计 科学地设计处理及处理和重复区组的科学的设置(排列)方法。 主要内容 处理的确定、试验误差的控制、试验设计的原则、试验设计(的方 法)。 主要作用 科学地设计处理和试验,把试验误差控制到最小的程度,获得准确 的试验结果。 2、 统计分析 基础统计 显著性测验、方差分析、一元线性相关回归等 高级统计 多因素方差分析、多元回归分析、通径分析、典型相关
分析、聚类分析、判别分析等 主要作用科学地分析试验结果,排除试验误差的影响,真正发现事物的数 量特征和数量变化的规律 第二节试验误差及其控制 试验误差的概念(随机误差):试验结果因受随机因素的影响而与处理真 值的差异(不可完全消除,与人为差错不同)。 、试验误差的主要来源1、试验材料本身固有的差异 2、试验操作管理技术水平不一致造成的差异 3、外界环境条件不一致造成的差异 三、试验误差控制的主要途径1、选择纯合一致的试验材料(可区组控制) 试验操作管理技术水平的标准化(可区组控制) 控制外界环境条件的差异(可区组控制) 第三节试验设计 试验设计的三原则1、重复其作用是估计和降低试验误差 2、随机化其作用是无偏估计试验误差,获得随机变量 3、局部(区组)控制其作用是最大程度地降低试验误差 二、区组设置的灵活性设置区组的原则:同一区组内尽可能相同,不同区组间可以存 在差异。所以在材料的应用、操作管理、外界环境条件的控制等均可采用区组控制手段。 第四节统计假设测验(差异显著性检验) 基本概念 、适宜的试验资料(1)随机样本(2)统计数的抽样分布规律已知 2、分析目的由样本推断总体(判断试验结果中的差异是由试验误差引起的还是由 真实差异引起的) 3、分析思路对样本所属的总体提出假设(无效假设和备择假设),计算样本在无效 假设的总体中出现的概率,若概率大就接受无效假设:若概率小就否定 无效假设,接受备择假设。 分析方法三大步 5小概率事件的实际不可能性原理概率很小的事件可以认为它在一次正常的试验中 是不可能发生的 应用:如果事先假设了一些条件,在这些假设的条件下若计算出某一事件为一小 概率事件,然而它在一次正常的试验中竟然发生了,则说明假设的条件不正 确,从而否定这个假设(接受另外一个相反的假设) 统计假设测验的基本原理和方法 例原品种0=300公斤亩,可=75公斤/亩,新品种n=25,j=330公斤/亩。问新品 种的总体平均亩产量与0差异是否显著或是否相同? (一)、提出统计假设对样本所属的总体提出假设(两个假设相对立) 1、无效假设Ho:假设样本所属总体(特征值)相对已知或相比较的总体(特征值) 无自己的独特效用或相同(差异不显著),即H0:4=H0=300公斤/亩。含义
分析、聚类分析、判别分析等。 主要作用 科学地分析试验结果,排除试验误差的影响,真正发现事物的数 量特征和数量变化的规律。 第二节 试验误差及其控制 一、试验误差的概念(随机误差):试验结果因受随机因素的影响而与处理真 值的差异(不可完全消除,与人为差错不同)。 二、试验误差的主要来源 1、试验材料本身固有的差异 2、试验操作管理技术水平不一致造成的差异 3、外界环境条件不一致造成的差异 三、试验误差控制的主要途径 1、选择纯合一致的试验材料(可区组控制) 2、试验操作管理技术水平的标准化(可区组控制) 3、控制外界环境条件的差异(可区组控制) 第三节 试验设计 一、试验设计的三原则 1、重复 其作用是估计和降低试验误差 2、随机化 其作用是无偏估计试验误差,获得随机变量 3、局部(区组)控制 其作用是最大程度地降低试验误差 二、区组设置的灵活性 设置区组的原则:同一区组内尽可能相同,不同区组间可以存 在差异。所以在材料的应用、操作管理、外界环境条件的控制等均可采用区组控制手段。 第四节 统计假设测验(差异显著性检验) 一、 基本概念 1、适宜的试验资料 (1)随机样本(2)统计数的抽样分布规律已知。 2、分析目的 由样本推断总体(判断试验结果中的差异是由试验误差引起的还是由 真实差异引起的)。 3、分析思路 对样本所属的总体提出假设(无效假设和备择假设),计算样本在无效 假设的总体中出现的概率,若概率大就接受无效假设;若概率小就否定 无效假设,接受备择假设。 4、分析方法:三大步。 5、小概率事件的实际不可能性原理 概率很小的事件可以认为它在一次正常的试验中 是不可能发生的 应用:如果事先假设了一些条件,在这些假设的条件下若计算出某一事件为一小 概率事件,然而它在一次正常的试验中竟然发生了,则说明假设的条件不正 确,从而否定这个假设(接受另外一个相反的假设)。 二、 统计假设测验的基本原理和方法 例 原品种 0 =300 公斤/亩 , =75 公斤/亩,新品种 n=25, y =330 公斤/亩。问新品 种的总体平均亩产量 与 0 差异是否显著或是否相同? (一)、提出统计假设 对样本所属的总体提出假设(两个假设相对立) 1、 无效假设 H0 :假设样本所属总体(特征值)相对已知或相比较的总体(特征值) 无自己的独特效用或相同(差异不显著),即 H0 : = 0 =300 公斤/亩。含义:
△y=30公斤庙亩由试验误差造成(由其造成的概率很大) 2、备择假设H,:假设样本所属总体(特征值)相对已知或相比较的总体(特征值) 有自己的独特效用或不同(差异显著),即H4:4≠或H4:≠300公斤 亩。含义:Δy=30公斤/亩由真实差异造成(而由试验误差造成的概率很小) (二)在H假设为正确的假定前提下,研究抽样分布,从而计算出样本在H假设的总 体中出现的概率。 n=y-=P-H=-o=30-300=2 在标准正态分布()中P(42196)=05,叫=2,0.05。说明在H: =0=300公斤亩的总体中由随机抽样获得j=330公斤/亩的样本的概率⊥q005,或由 随机误差造成Δy=30公斤/亩这样大的差异的概率q0.05,而由真实差异造成△y=30公 斤/亩这样大的差异的概率则为P=0.95。 (三)根据“小概率事件的实际不可能性原理”作出应接受那种假设的推断。若概率 小,说明H假设的条件不正确,从而否定H,接受H/,说明试验结果中的差异由真实 差异造成的概率很大,或样本所属的总体确实与H假设的总体显著不同,称为差异显著; 若概率大,则接受H0,称为差异不显著 本例=2)196,9005,否定H0,接受H4:H≠山0,差异显著。 显著水平a:用来进行假设测验的小概率标准。a=0.05(u05=1.96),a=0.01 (l001=258)。显著水平a选用的规则:统计上达显著,实际上又有一定的应用价值。 (1)若试验误差较大,精确度较低,应选低水平a=0.05 (2)若试验误差较小,精确度较高,应选高水平α=0.01 第五节方差分析 基本知识 1、方差分析:利用方差(变异量)分析因素间相对重要程度的数学方法。 、适宜资料:多个处理(单、多因素)差异性比较试验:不同因素间变异程度 (重要程度)的假设测验 3、分析目的:通过方差差异的显著性测验,判断出因素间的相对重要程度
y =30 公斤/亩由试验误差造成(由其造成的概率很大)。 2、 备择假设 HA :假设样本所属总体(特征值)相对已知或相比较的总体(特征值) 有自己的独特效用或不同(差异显著),即 HA : 0 或 HA : 300 公斤/ 亩。含义: y =30 公斤/亩由真实差异造成(而由试验误差造成的概率很小)。 (二) 在 H0 假设为正确的假定前提下,研究抽样分布,从而计算出样本在 H0 假设的总 体中出现的概率。 2 25 75 0 330 300 = − = − = − = − = n y y y u y y y 在标准正态分布( u )中 P(u 1.96) =0.05, u =2, P 0.05。说明在 H0 : = 0 =300 公斤/亩的总体中由随机抽样获得 y =330 公斤/亩的样本的概率 P 0.05,或由 随机误差造成 y =30 公斤/亩这样大的差异的概率 P 0.05,而由真实差异造成 y =30 公 斤/亩这样大的差异的概率则为 P=0.95。 (三) 根据“小概率事件的实际不可能性原理”作出应接受那种假设的推断。 若概率 小,说明 H0 假设的条件不正确,从而否定 H0 ,接受 HA ,说明试验结果中的差异由真实 差异造成的概率很大,或样本所属的总体确实与 H0 假设的总体显著不同,称为差异显著; 若概率大,则接受 H0 ,称为差异不显著。 本例 u =2 1.96, P 0.05,否定 H0 ,接受 HA : 0 ,差异显著。 显著水平 :用来进行假设测验的小概率标准。 =0.05( u0.05 =1.96), =0.01 ( u0.01 =2.58)。 显著水平 选用的规则:统计上达显著,实际上又有一定的应用价值。 (1) 若试验误差较大,精确度较低,应选低水平 =0.05 (2) 若试验误差较小,精确度较高,应选高水平 =0.01 第五节 方差分析 一、基本知识 1、 方差分析:利用方差(变异量)分析因素间相对重要程度的数学方法。 2、 适宜资料:多个处理(单、多因素)差异性比较试验;不同因素间变异程度 (重要程度)的假设测验。 3、 分析目的:通过方差差异的显著性测验,判断出因素间的相对重要程度
4、分析思路:任何事物都受多种因素的影响,其中起重要作用的因素引起的变异 (方差)就大:起次要作用的因素引起的变异(方差)就小;而它们的 变异(方差)如果能显著大于试验误差引起的变异(方差),则说明该 因素的作用(效应)是显著的:否则就不显著 分析方法:三大步骤 例有一6(K=6)个处理(A、B、C、D、C、E)的比较试验,3(N=3)次重 复,随机区组设计,试验设计排列图和试验结果如下: E4A2D3B2F2c3区组1 F2c3|D4A1E3区组2 F2c3A3E5B4D5区组3 处理 区组1 区组2 区组3 ABCDE 223 1334 343552 699 16 16 22 「T=54 进行方差分析并解释方差分析结果 对一个资料进行方差分析,首先要分析引起该资料数据发生变异的原因。 总变异=区组间变异+处理间变异+误差变异 由于方差s2=S 所以方差分析的第一步就是平方和SS和自由度DF的分解。 (一)、平方和SS和自由度DF的分解:即把一个资料的总变异的平方和SS和自由 度DF分解为各因素及误差因素的平方和SS和自由度DF 平方和SS的分解式 ∑∑(-y)2=k∑(-)+-+∑∑(y-,一+列 总变异SS=区组间变异SS+处理间变异SSt+误差项变异SSe 自由度DF的分解式:总自由度DFr=区组自由度DF+处理自由度DF+误差自由度DF (kn-1)=(n-) +(n-1)(k-1) kn6×3 =162S5=∑x2-C=182-162=20 ∑72
4、 分析思路:任何事物都受多种因素的影响,其中起重要作用的因素引起的变异 (方差)就大;起次要作用的因素引起的变异(方差)就小;而它们的 变异(方差)如果能显著大于试验误差引起的变异(方差),则说明该 因素的作用(效应)是显著的;否则就不显著。 三、分析方法:三大步骤 例 有一 6(K=6)个处理(A、B、C、D、C、E)的比较试验,3(N=3)次重 复,随机区组设计,试验设计排列图和试验结果如下: 区组 1 区组 2 区组 3 处理 区组 1 区组 2 区组 3 Tt Xt A 2 1 3 6 2 B 2 3 4 9 3 C 3 3 3 9 3 D 3 4 5 12 4 E 4 3 5 12 4 F 2 2 2 6 2 Tr 16 16 22 T = 54 进行方差分析并解释方差分析结果。 对一个资料进行方差分析,首先要分析引起该资料数据发生变异的原因。 总变异=区组间变异+处理间变异+误差变异 由于 方差 S 2= DF SS 所以方差分析的第一步就是平方和 SS 和自由度 DF 的分解。 (一)、平方和 SS 和自由度 DF 的分解:即把一个资料的总变异的平方和 SS 和自由 度 DF 分解为各因素及误差因素的平方和 SS 和自由度 DF。 平方和 SS 的分解式: − 2 (y y) = 2 1 K ( y y) N r − + 2 1 n ( y y) k t − + 2 1 1 ( y y y y) t k n − r − + 总变异SST =区组间变异SSr +处理间变异SSt +误差项变异 SSe 自由度DF 的分解式:总自由度DFT=区组自由度DFr+处理自由度DFt+误差自由度DFe (kn-1) = (n-1) +(k-1) +(n-1)(k-1) 162 6 3 54 2 2 = = = kn T C 182 162 20 2 SST =x −C = − = 4 2 = − = C k T SS r r 12 2 = − = C n T SS t t SSe = SST − SSr − SSt =4 E4 A 2 D3 B 2 F2 C3 B3 F2 C3 D4 A 1 E3 F2 C3 A 3 E5 B4 D5
(二)、列方差分析表,进行F测验 单因素随机区组设计方差分析表(固定模型 变异来源DF 区组间 4.10 7.56 小理间 12 2.4 6.0 3.33 5.64 误差项 10 0.4 总变异 F测验表明(1)区组间差异显著,说明区组控制误差效果显著 (2)处理间查验及显著,需多重比较以明确各处理间的差异性。 (三)、多重比较(多个处理间差异性测验 常用的有三种方法LSD发2,SR法和Q法,本例采用SR法:SE=V=3=037 处理x 0.05 0.01 SSR053.153.303.373.433.46 SSR014.484.734.884965.06 E LSR0051.171221.251.271.28 B 3 AB LSRo0!1.671.751.811.84187 A 2 B F 2 B 多重比较表明:DEBC间差异不显著,AF间差异不显著,但D、E与A、F间差异及显著 第六节一元线性相关回归分析 基本知识 l、适宜资料:两个变量间呈线性相关回归关系的试验资料 2、分析目的:分析一个自变量对一个依变量的影响是否呈显著的线性相关回归关 系,若显著,建立线性回归方程(模型),用以预测和控制 3、分析思路:若变量间的关系呈线性变化,则可利用最小平方法原理用一个线性方 程配合该变化关系,若回归变异显著大于误差变异,说明自变量对依变量的线性影响是显著 的,否则它们的线性关系就不显著 二、分析方法 例江苏武进县连续9年测定三月下旬至四月中旬旬平均累积温度和一代三化螟盛 发期的关系(y以5月10号为0)的数据,问Ⅹ对Y是否呈显著的线性相关回归影响? x累积温度35.534.131.740336840.231.739.244.2 y盛发期12 基本统计量: Variable n Mean Std dey Sum Mi Maximum 937.077784.25199333.7000031.7000044.20000 97.777785.5852070.00000-1.0000016.00000 (一)、绘制散点图,判断关系趋势类型
(二)、列方差分析表,进行 F 测验 单因素随机区组设计方差分析表(固定模型) 变异来源 DF SS MS F F0.05 F0.01 区组间 2 4 2 5.0* 4.10 7.56 处理间 5 12 2.4 6.0** 3.33 5.64 误差项 10 4 0.4 总变异 17 20 F 测验表明(1)区组间差异显著,说明区组控制误差效果显著 (2)处理间查验及显著,需多重比较以明确各处理间的差异性。 (三)、多重比较(多个处理间差异性测验) 常用的有三种方法 LSD 发、SSR 法和 Q 法,本例采用 SSR 法: 0.37 3 0.4 2 = = = n s SE e P 2 3 4 5 6 处理 t x 0.05 0.01 SSR0.05 3.15 3.30 3.37 3.43 3.46 D 4 a A SSR0.01 4.48 4.73 4.88 4.96 5.06 E 4 a A LSR0.05 1.17 1.22 1.25 1.27 1.28 B 3 ab AB LSR0.01 1.67 1.75 1.81 1.84 1.87 C 3 ab AB A 2 b B F 2 b B 多重比较表明:DEBC 间差异不显著,AF 间差异不显著,但 D、E 与 A、F 间差异及显著。 第六节 一元线性相关回归分析 一、基本知识 1、适宜资料:两个变量间呈线性相关回归关系的试验资料 2、分析目的: 分析一个自变量对一个依变量的影响是否呈显著的线性相关回归关 系,若显著,建立线性回归方程(模型),用以预测和控制。 3、分析思路:若变量间的关系呈线性变化,则可利用最小平方法原理用一个线性方 程配合该变化关系,若回归变异显著大于误差变异,说明自变量对依变量的线性影响是显著 的,否则它们的线性关系就不显著。 二、分析方法 例 江苏武进县连续 9 年测定三月下旬至四月中旬旬平均累积温度和一代三化螟盛 发期的关系(y 以 5 月 10 号为 0)的数据,问 X 对 Y 是否呈显著的线性相关回归影响? x 累积温度 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2 y 盛发期 12 16 9 2 7 3 13 9 —1 基本统计量: Variable N Mean Std Dev Sum Minimum Maximum x 9 37.07778 4.25199 333.70000 31.70000 44.20000 y 9 7.77778 5.58520 70.00000 -1.00000 16.00000 (一)、绘制散点图,判断关系趋势类型
X Vs y socres Plot of y*x. Symbol used is* 32.5 35.0 40.0 45,0 本例的散点图基本呈线性趋势 (二)、计算相关系数并进行相关关系的显著性测验 相关系数:表示变量间相关性质和密切程度的统计数,或回归平方和占总平方和比例 的平方根 ∑0-y)2=∑(-y)2+∑(y-y)2 即y的总变异ssy=x引起的回归变异u+误差引起的离回归变异Q 1590444 √1446356×2495556 0.8371 查表0()=0.798,川=0837)0(7)=0.798表明相关极显著(同一个资料相关 显著回归必显著,相关的显著性测验可以查表进行) r2=(-0.8371)2=0.7008=70.08%表明在y的总变异中因x的作用引起的变异占 70.08% The Sas System The CoRR Procedure Pearson Correlation Coefficients, n=9 Prob>rl under HO: Rho=0 x1.0000.083714(0.0049) y-0.83714(0.0049)1.0000 相关极显著 (三)、建立线性回归方程:主要是利用最小平方法建立直线回归方程。 如果变量间呈直线关系,希望用一直线方程j=a+bx来描述它们的关系,建立
x vs.y socres Plot of y*x. Symbol used is '*'. y | 20 + | | * | * * 10 + * * | * | | * 0 + * | --+----------+----------+----------+----------+----------+----------+- 30.0 32.5 35.0 37.5 40.0 42.5 45.0 本例 的散点图基本呈线性趋势 (二)、计算相关系数并进行相关关系的显著性测验 相关系数:表示变量间相关性质和密切程度的统计数,或回归平方和占总平方和比例 的平方根。 − = − + − 2 2 2 (y y) (y ˆ y) (y y ˆ) 即 y的总变异ssy=x引起的回归变异u+误差引起的离回归变异Q 0.8371 144.6356 249.5556 159.0444 ( ) ( ˆ ) 2 2 2 = − − = = = − − = = y x y x y ss ss sp ss ss sp y y y y ss u r 查表 (7) 0.798, r0.01 = r = 0.8371r0.01(7) = 0.798 表明相关极显著(同一个资料相关 显著回归必显著,相关的显著性测验可以查表进行)。 ( 0.8371) 0.7008 2 2 r = − = =70.08%表明在y的总变异中因x的作用引起的变异占 70.08%。 The SAS System The CORR Procedure Pearson Correlation Coefficients, N = 9 Prob > |r| under H0: Rho=0 x y x 1.00000 -0.83714 ( 0.0049) y -0.83714 (0.0049) 1.0000 相关极显著 (三)、建立线性回归方程:主要是利用最小平方法建立直线回归方程。 如果变量间呈直线关系,希望用一直线方程 y ˆ = a + bx 来描述它们的关系,建立
方程的原理为最小平方法:各观察值(点)与直线上对应值(点)的距离(之差)平方之和 为最小:Q=∑(y-分=∑{-(+bx)=最小,先求偏导数建立方程组: an+ 即可求出b= y-bx y=a+b 35,0 37 40.0 42.5 45.0 x-∑y。里=-159044=-109天句度) ∑x2-C∑x)ns142626 a=y-bx=7778-(-1.0996×370778)=48.5485(天) 下面是采用F测验检验回归关系的显著性:如果因x引起的回归变异(方差U)能显著 的大于误差引起的离回归变异(方差),即回归关系显著,否则就不显著 回归方差 回归平方和u回归自由度1 离回归方差离回归平方和Q/离回归自由度(n-2) The SAs System The REG Procedure (Model: MODEL1) Dependent variable: y Analysis of variance Sum of Source Squares Square F Value Pr>F Mode 174.88878174.8887816.400.0049 Er rror 74.6667810.66668 Corrected tota 249.55556 F测验表明一元线性回归极显著 Root mse R-Square 0. 7008 Dependent mea 7. 77778 Adj R-Sq 0.6581 Coeff var 41.99128 The SAs System
方程的原理为最小平方法:各观察值(点)与直线上对应值(点)的距离(之差)平方之和 为最小: = − = 2 Q (y y ˆ) − ( + ) = 2 y a bx 最小,先求偏导数建立方程组: + = + = a x b x xy an b x y 2 即可求出 ( ) a y bx x x n xy x y n b = − − − = , 2 2 y | 20 + | y=a+bx | * | * * 10 + * * | * | | * 0 + * | --+----------+----------+----------+----------+----------+----------+- 30.0 32.5 35.0 37.5 40.0 42.5 45.0 ( ) 1.0996天/(旬.度) 144.6356 159.0444 2 2 = − − = = − − = x ss sp x x n x y x y n b a = y −bx = 7.7778−(−1.099637.0778)= 48.5485(天) 下面是采用F测验检验回归关系的显著性:如果因x引起的回归变异(方差U)能显著 的大于误差引起的离回归变异(方差),即回归关系显著,否则就不显著 离回归平方和 离回归自由度( — ) 回归平方和 回归自由度 离回归方差 回归方差 2 1 Q n u F = = The SAS System The REG Procedure (Model: MODEL1) Dependent Variable: y Analysis of Variance Sum of Mean Source DF Squares Square F Value Pr > F Model 1 174.88878 174.88878 16.40 0.0049 Error 7 74.66678 10.66668 Corrected Total 8 249.55556 F测验表明一元线性 回归极显著 Root MSE 3.26599 R-Square 0.7008 Dependent Mean 7.77778 Adj R-Sq 0.6581 Coeff Var 41.99128 The SAS System
The REG Procedure (Model: MODELI Dependent variabl Parameter estimates Variable dF Estimat Error t Value Pr>tI Intercept148.5493210.127794.79 1-1.099620.271574.050.0049 一元线性回归方程为:j=48.5493-1.0986X (四)、绘制直线回归图 y=48.549-1.0996x 17.5 15.0 0.7008 7.5
The REG Procedure (Model: MODEL1) Dependent Variable: y Parameter Estimates Parameter Standard Variable DF Estimate Error t Value Pr > |t| Intercept 1 48.54932 10.12779 4.79 0.0020 x 1 -1.09962 0.27157 -4.05 0.0049 一元线性回归方程为: y ˆ =48.5493-1.0996X ( 四)、绘制直线回归图 y = 48.549 -1.0996 x N 9 Rsq 0.7008 AdjRsq 0.6581 RMSE 3.266 -2.5 0.0 2.5 5.0 7.5 10.0 12.5 15.0 17.5 x 30 32 34 36 38 40 42 44 46
25 0.7008 RMSE 3.266 Plot+十+U95*x十++L95*x+++y*x +为实际点+为95%上限点+为95%下限点
y = 48.549 -1.0996 x N 9 Rsq 0.7008 AdjRsq 0.6581 RMSE 3.266 -10 -5 0 5 10 15 20 25 x 30 32 34 36 38 40 42 44 46 Plot U95*x L95*x y*x +为 实际点 + 为95%上限点 +为95%下限点