第八章数理统计预测法 数理统计预测法,是利用统计学原理,从害虫发 生的历史资料中,概括出环境因子与虫害发生之间 的内在联系,建立数学模型,然后根据目前环境因 子的情况,来预报未来害虫发生的情况。 数理统计预测预报必须要有多年的田间系统调查 资料,将这些资料选择其中有关部分,进行统计分 析,得出有关预测预报实用的数学模型,才能加以 应用
第八章 数理统计预测法 •数理统计预测法,是利用统计学原理,从害虫发 生的历史资料中,概括出环境因子与虫害发生之间 的内在联系,建立数学模型,然后根据目前环境因 子的情况,来预报未来害虫发生的情况。 •数理统计预测预报必须要有多年的田间系统调查 资料,将这些资料选择其中有关部分,进行统计分 析,得出有关预测预报实用的数学模型,才能加以 应用
数理统计预测法的优点 ·以前各类预测预报方法,可以称为实验生态、生物学方法, 优点:生态学、生物学、生理学意义较明确.缺点:必须 进行田间的系统调查和室内饲养观察,工作量比较大、另 外实验法一般只能作中、短期预报, 时间较短。 •统计预报法,是利用多年的历史资料进行统计分析,尔后 得出数学模型,就可以不用田间系统调查和室内饲养观察, 因而可以大大减少工作量,同时,可作较长时期的预报, 并能进一步利用电子计算机作害虫的预报。近二十年来, 特别是近十年来,数学方法大量渗入害虫预测预报中,而 气象预测预报中的手段也大量引入害虫预测预报中,致使 害虫预测预报从方法上,使害虫预报工作向前迈进了一步 为进入电子计算机时代打下了基础。现将预测预报中常用 数理统计方法介绍如下
数理统计预测法的优点 •以前各类预测预报方法,可以称为实验生态、生物学方法, 优点: 生态学、生物学、生理学意义较明确.缺点:必须 进行田间的系统调查和室内饲养观察,工作量比较大、另 外实验法一般只能作中、短期预报,时间较短。 •统计预报法,是利用多年的历史资料进行统计分析,尔后 得出数学模型,就可以不用田间系统调查和室内饲养观察, 因而可以大大减少工作量,同时,可作较长时期的预报, 并能进一步利用电子计算机作害虫的预报。近二十年来, 特别是近十年来,数学方法大量渗入害虫预测预报中,而 气象预测预报中的手段也大量引入害虫预测预报中,致使 害虫预测预报从方法上,使害虫预报工作向前迈进了一步, 为进入电子计算机时代打下了基础。现将预测预报中常用 数理统计方法介绍如下
第一节预报因子的选取 预报因子的选取 预报因子的选取,是进行数理测报工作的前提,在准备建立预 测模式前,首先要从多年积累的资料中,筛选同预报量有关的 因子。 •预报量 是指预报害虫发生的主要特征,(即在不同的情况 下)预报害虫的发生期、发生量、发生范围以及危害程度等。 ·预报因子 简称为因子,影响害虫发生的因素都是预报因子 (但不一定都能入选)预报因子有生物的如天敌;非生物的如 气温、降雨量、相对温度、光照等。 ·预报因子和预报量通称为预报的要素
第一节 预报因子的选取 •一、预报因子的选取 •预报因子的选取,是进行数理测报工作的前提,在准备建立预 测模式前,首先要从多年积累的资料中,筛选同预报量有关的 因子。 •预报量 是指预报害虫发生的主要特征,(即在不同的情况 下)预报害虫的发生期、发生量、发生范围以及危害程度等。 •预报因子 简称为因子,影响害虫发生的因素都是预报因子 (但不一定都能入选)预报因子有生物的如天敌;非生物的如 气温、降雨量、相对温度、光照等。 •预报因子和预报量通称为预报的要素
选取预报因子的原则 (1)样本数要足够多。样本数量太少,容易碰到由于样本的随机波动 而造成较高的符合率的假象。一般有10-20个就可以了。 ,(2)选择因子的数目要恰当。因为选择因子太少,则提供信息不足, 预报能力差,选择因子过多,计算麻烦且当样本数较少更易引起误差。一般 认为选择因子的数目最好不超过样本的1/5-1/10,如10个样本选1-2个因子。 ·(3)选择准主导因子,并要选好能互相配合,互相弥补的次要因子, 与主导因子互相搭配,但注意不要把一些虽然与预报量相关性好,但它们的 作用是重复的因子。这样的因子,只是单独对预报量发生作用,并不是同主 导因子配合共同起作用,也不能起到弥补的作用,这样的因子不宜作为辅助 因子。如某个月的平均气温和平均最高气温以及积温,不宜同时采用
二 、选取预报因子的原则 •(1)样本数要足够多。样本数量太少,容易碰到由于样本的随机波动 而造成较高的符合率的假象。一般有10-20个就可以了。 •(2)选择因子的数目要恰当。因为选择因子太少,则提供信息不足, 预报能力差,选择因子过多,计算麻烦且当样本数较少更易引起误差。一般 认为选择因子的数目最好不超过样本的1/5-1/10,如10个样本选1-2个因子。 •(3)选择准主导因子,并要选好能互相配合,互相弥补的次要因子, 与主导因子互相搭配,但注意不要把一些虽然与预报量相关性好,但它们的 作用是重复的因子。这样的因子,只是单独对预报量发生作用,并不是同主 导因子配合共同起作用,也不能起到弥补的作用,这样的因子不宜作为辅助 因子。如某个月的平均气温和平均最高气温以及积温,不宜同时采用
(4)尽可保留因子中关于预报对象的原始信息。j 选择因子 最好用原始数据建立预测式,如果将预报因子分级(调查时 没有量,只有重、中、轻)、编号或转换为(0,1)资料, 就会损失信息,但分级、编号、转换、可简化计算,因此, 要权衡得失,恰当处理 ·(5)选择相关性好而且相关性稳定的因子。用多因子作预 报,至少要有一个预报因子与预报量相关性好且相关性稳定。 这可以通过相关性检验和多年经验求出
•(4)尽可保留因子中关于预报对象的原始信息。选择因子 最好用原始数据建立预测式,如果将预报因子分级(调查时 没有量,只有重、中、轻)、编号或转换为(0,1)资料, 就会损失信息,但分级、编号、转换、可简化计算,因此, 要权衡得失,恰当处理。 •(5)选择相关性好而且相关性稳定的因子。用多因子作预 报,至少要有一个预报因子与预报量相关性好且相关性稳定。 这可以通过相关性检验和多年经验求出
三、3个注意 应有科学的依据 自然界的事物都是有联系的,如害虫的发生 规律性和客观环境之间是有联系的,不能把没有科学依据的资料硬往一块 凑,例如预测粘虫幼虫的发生量,应从温度、湿度、作物种类,以及天敌 等经前人研究已经认可的有关因子出发考虑,而不能把蚜虫的天敌蚜茧蜂 作为预报粘虫发生的因子,至少是不能作为主导因子。 应有推理的依据 所选因子要经得起推敲,如不少人认为蚜虫 的基数与其发生量关系较密切,但仔细分析,蚜虫世代短, 繁殖快,天敌 控制复杂,到7-8月间受气温影响很大,而基数则是无关紧要的。 应有实验的依据 所选因子最好在实验基础上,确认该因子与 预报量有关,尔后再作分析
三、 3个注意 •① 应有科学的依据 自然界的事物都是有联系的,如害虫的发生 规律性和客观环境之间是有联系的,不能把没有科学依据的资料硬往一块 凑,例如预测粘虫幼虫的发生量,应从温度、湿度、作物种类,以及天敌 等经前人研究已经认可的有关因子出发考虑,而不能把蚜虫的天敌蚜茧蜂 作为预报粘虫发生的因子,至少是不能作为主导因子。 •② 应有推理的依据 所选因子要经得起推敲,如不少人认为蚜虫 的基数与其发生量关系较密切,但仔细分析,蚜虫世代短,繁殖快,天敌 控制复杂,到7-8月间受气温影响很大,而基数则是无关紧要的。 •③ 应有实验的依据 所选因子最好在实验基础上,确认该因子与 预报量有关,尔后再作分析
第二节线性相关与一元回归式的 建立及应用 选取预报因子 资料分布图方法 将预报量(Y)作Y轴,将预报因 子(X)作X轴,将历年的Y、X数值,描点在坐标上。点子密集在一 条狭长的带内,而接近一条直线或一条曲线,说明二者相关性比较 密切,可以选作预报因子;如果点子分散,不在一条狭长的带内, 表示相关性不强,不宜选作预报因子;如果点子排成圆形,或排成 平行于轴的矩形,则表示无线性相关性;点子排列接近一条直线者, 称为有“线性相关”;点子排列接近一条曲线者,称为有“非线性 相关”,或称有曲线相关。 相关系数法 衡量两变量相关的最好方法是求相关 系数,然后查相关系数检验表,检验相关是否达到一定显著水平。 如果达到,则可选作预报因子
第二节 线性相关与一元回归式的 建立及应用 •一、选取预报因子 •(一) 资料分布图方法 将预报量(Y)作Y轴,将预报因 子(X)作X轴,将历年的Y、X数值,描点在坐标上。点子密集在一 条狭长的带内,而接近一条直线或一条曲线,说明二者相关性比较 密切,可以选作预报因子;如果点子分散,不在一条狭长的带内, 表示相关性不强,不宜选作预报因子;如果点子排成圆形,或排成 平行于轴的矩形,则表示无线性相关性;点子排列接近一条直线者, 称为有“线性相关”;点子排列接近一条曲线者,称为有“非线性 相关”,或称有曲线相关。 •(二) 相关系数法 衡量两变量相关的最好方法是求相关 系数,然后查相关系数检验表,检验相关是否达到一定显著水平。 如果达到,则可选作预报因子
二、相关系数的计算 r=Σ(x-00y-)/Sgr∑(x-x)2*Σ0-)2] =Exy-xx3y/m/Sgr区x2-(21m区y2-(区21m1 =Lxy/Sqr[Lxx.Lyy]
二、相关系数的计算 / [ . ] / )] 2 ( ) 2 / )( 2 ( ) 2 [ / ]/ [( ] 2 * ( ) 2 ( )( )/ [ ( ) Lxy Sqr Lxx Lyy xy x y n Sqr x x n y y n r x x y y Sqr x x y y = = − − − = − − − −
三、一元线性回归式的建立和应用 ·▣归-词(Regression) 原来含义较狭窄,英国高尔登 氏(F.Galton)在1889年,在遗传学论文中首先应用此词。 他发现儿子的平均成长高度,介于父亲高度和一般种族平 均高度之间,父亲矮的其儿子的平均高度较父亲高,比一 般低,父亲高的其儿子的平均高度,较父亲低,但比一般 平均高度又高,这就是说后代的高度有返回于种族平均高 度的趋势,亦即回归一般平均高度,这就是最初在遗传学 上“回归”的意义。现在统计上,多表示观察点回归于某 一 数学模型,比如直线、曲线等
三、一元线性回归式的建立和应用 •回归一词(Regression)原来含义较狭窄,英国高尔登 氏(F.Galton)在1889年,在遗传学论文中首先应用此词。 他发现儿子的平均成长高度,介于父亲高度和一般种族平 均高度之间,父亲矮的其儿子的平均高度较父亲高,比一 般低,父亲高的其儿子的平均高度,较父亲低,但比一般 平均高度又高,这就是说后代的高度有返回于种族平均高 度的趋势,亦即回归一般平均高度,这就是最初在遗传学 上“回归”的意义。现在统计上,多表示观察点回归于某 一数学模型,比如直线、曲线等
(一) 直线回归 直线回归的一般表达式:Y=a+bx 统计上读作Y依X的直线回归 X为自变量,Y是和X的值相对应的依变数Y的点估计值,理论值。 ·A是截距,是当X=O时的Y值 B是斜率,也叫回归系数,即X每增加一个单位数时Y平均地增加 (b>0)或减少(b<0)的单位数。 回归式 a、b值的图解求法: b=tga=对/邻=BC/AC=(Y-a)/X bx=Y-a .Y=a+bx 当X=1时,BC=b Y=a+b 正好是增加的单位数
(一) 直线回归 • 直线回归的一般表达式:Y=a+bx 统计上读作Y依X的直线回归 •X为自变量,Y是和X的值相对应的依变数Y的点估计值,理论值。 •A是截距,是当X=0时的Y值 •B是斜率,也叫回归系数,即X每增加一个单位数时Y平均地增加 (b>0)或减少(b<0)的单位数。 •回归式 a、b值的图解求法: •b=tga=对/邻=BC/AC=(Y-a)/X •bx=Y-a •Y=a+bx •当X=1时,BC=b Y=a+b 正好是增加的单位数