正在加载图片...
368 中国农业科学 35卷 其中r.、b和a的估值浦村对回白离差值 模形分别称为LR0.1RCA1、LRCA2... --Y,-a(, -Y)阵的SV1D分解求得: LR-PCA7模),采用估计式(20) 则可根据(9)式得到。 A.AMMI和LR PCA模型巾奇异值和特征 从模型构成上看,LR-PCA模型具有以下优点 向最的计算采用0R其法7 (1)LR模型在区试中广为熟知和应用,但模型 由F是比较预测精度,所以采用交又验证(cs 适合性不足,往往利余的离差较大。LR-PCA模型 validation)的方法。按照Gauch的做法L,把上述数 进一步对LR模型的剩余部分进行PCA分解, 据中各处理的4个重复随机分开,3个用于建模, 面可提高模型的适合性,另一方面又可对回归离差 个用于验证(称为1次分样)。对干每个模型的每次 部分作更深入的分析。 分样,根据以下公式计算反映模型精唐的各个指 (2)LR筷型中引人PCA后,并不改变其加性参 数和回归系数的估值。结合线性回归和P℃A分析, (I)预测差平方和均值根(root mean square pre. 可对GE互作的模式作出更全面的解释。 diction differences.RMSPD) (3)结合回归和P℃互作值进行分析,有利于 把更多的互作信息纳人模型中,提高模型对处理均 RMSPD=√(Y-Ya)2/ms (21) 值预测的精度。议是本文改进提出这一模型的主要 (2)有效重复数(,ER) 目的 ER=MSe/(RMSPDY-MSe) (22) (3)精度增指倍数(gain「actor,(GF) 3各种模型精度的比较 GF=ER/(r (23 以上公式中,Y为品种在环境;上的模型估 计(或预测)值;Y为验证观测值;ms为品种数和环 于区试中品种×环境组合均值的估计来说,预测精 境数的乘积,也即验证数据的总个数:MS为环境 度更重要。所以,下面通过数据实例对LRPC 内误差均方,由全部数据的联合方差分析获得]: 其它模型的预测精度进行比较。 1=3为建模数据的重复数。RMSPD是预测值 3.1数据和方法 和验证观褐值差值平方和均值的平方根,反陕了 鉴于AMM1是日前国际上较为流行的区试分 值和验证观测值之间的平均接近程度:有效重复 析方法,为便于比较论证,本文采用Gh的AMM 数ER是指某模型交叉验证中3个重复所达到的 专著1中作为典型引用的一套7个品种,1个环 测精度,相当于算术平均值要达到同等精度所需的 境,4次重复(即m=7,5=11,r=4)的大豆区试葱 重复数:精度增益倍数GF则是指某模型的预测精 据,进行模型精度比较(G山曾用这套数据对TM 度相当于算术平均值的倍数 每轮验证进行3000 模型和AM模型作了比较。致比较的模型如 次随机分样,对上述指标求平均,平均的RMSPD越 下: 小,FR和GF越大,表明模型预测值与验证数据起 (1)TM模型,采用估计式(2) 接近,精度越高。与Gaunch不同的是,考虑分样的 (2)ANOVA模型,采用估计式(S)。为与估计 随机误差,本文按以上方法对各种模型进行了20韩 式(6)相区别,在此称之为ANOVA加性主效模型 (共20×30000次分样)验证,计算20轮结果的均值 此时处理均值估计中不含互作成分:估计式(6)与 和标准差,以反映分样误差的大小。具体计算在 TM模型估计式(2)等价,不再单独列出 机上利用VB5,0编程实现,其中主要统计程序 (3)LR模型.采用估计式(10) (ANOVA,LR和PCA子程序)的运算结果均用SAS (4)CA系列模型(由于加=7,s=11.所以a 核算。按上述方法得到6类共23个模型的RM 取值从0到7,对应模型分别称为PCA0,PCA1 SPD、ER和GF指标的均值和标准差见表。 CA2.,.,.,PCA7模型),采用估计式(13) 3.2 模型精度分析 (5)AM系列模型(a取值从0到m-1=6, 从表中可看出,各轮交叉验证的结果比较稳定, 对应模型分别称为AMMIO、AMMI1、AMM位. 所得精度指标的标准差(SD)都很小,其中RMSPD AMMI6模型),采用估计式(16)。 的变异系数(CV)为0.035%-0.077%,其被动很 (6)LR-PCA系列模型(a取值从0到7,对应 小,这说明对本文所用数据而言,30000分样次数是 万方数据中国农业科学 35卷 其中矗…P和q。的估值通过对回归离差值a。 =b—Y:一屈(y, Y)矩阵的SVD分解求得;B. 则可根据(9)式得到。 从模型构成I-看,LR-PCA模型具有以下优点: (1)LR模型在区试中广为熟知和应用,但模型 适合性不足,往往剩余的离差较大。I,R PCA模型 进一步对LR模型的剩余部分进行PCA分解,一方 面可提高模型的适合性,另一方面又可对回归离差 部分作更深入的分析。 (2)i。R模型中引入PCA后,并不改变其加性参 数和回归系数的估值。结合线性回归和PCA分析, 可对GE互作的模式作出更全面的解释。 (3)结合回归和PCA互作值进行分析,有利于 把更多的互作信息纳入模型中,提高模型对处理均 值预测的精度。这是本文改进提出这一模型的主要 目的。 3各种模型精度的比较 统计模型的精度有两种,即描述精度(postcfictive precision)和预测精度(predictive precision)[22 J。对 于区试中品种×环境组合均值的估计来说,预测精 度更重要。所以,下面通过数据实例对LR-PCA和 其它模型的预测精度进行比较。 3.1数据和方法 鉴于AMMI是目前国际上较为流行的区试分 析方法,为便于比较论证,本文采用Gauch的AMMI 专著-l一中作为典型引用的一套7个品种,11个环 境,4次重复(即m=7,S=11,r=4)的大豆区试数 据,进行模型精度比较(Gau,oh曾用这套数据对TM 模型和AMMI模型作了比较¨o)。欲比较的模型如 下: (1)TiM模型,采用估计式(2)。 (2)&NOVA模型,采用估计式(5)。为与估计 式(6)相区别,在此称之为ANOVA加性主效模型, 此时处理均值估计中不含互作成分;估计式(6)与 TM模型估计式(2)等价,不再单独列出。 (3)LR模型,采用估计式(10)。 (4)PCA系列模型(由于m=7,S=11,所以n 取值从0到7.对应模型分别称为PCA0、PCAl、 PCA2. .PCA7模型),采用估计式(13)。 (5)AMMI系列模型(a取值从0到m l=6, 对应模型分别称为AMMl0、AMMll、AMMl2…. MVlMl6模型),采用估计式(16)。 (6)LR—PCA系列模型(d取值从0到7,对应 模型分别称为LR-PCA0、LR—fjcA【、LR。FCA2…,. LR PCA7模型),采用估计式(20)。 PCA、AMMI和LR PCA模型巾奇异值和特征 向量的计算采用QR算法[”。 由r是比较预测精度,所以采用交叉验证(cross vaildation)的方法。按照Gauch的做法【l,把上述数 据中各处理的4个重复随机分开,3个用于建模,1 个用于验证(称为1次分样)。对于每个模型的每次 分样,根据以下公式计算反映模型精度的各个指 标…: (1)预测差平方和均值根(root lllean scluare pro— diction differences,RMSPD) 厂彳—■一———— RMSPD=、/E∑(P。Y。)2/ms (21) (2)有效重复数(effective replications,ER) ER-MSe/(RMSPDz—Mse) (22) (3)精度增益倍数(gain factor,GF) GF-ER/(r一1) (23) 以上公式中,P。为品种i在环境J上的模型估 计(或预测)值;Yi.为验证观测值;mS为品种数和环 境数的乘积,也即验证数据的总个数;MSe为环境 内误差均方,由全部数据的联合方差分析获得L81; r一1=3为建模数据的重复数。RMSPD是预测值 和验证观测值差值平方和均值的平方根,反映了预 测值和验证观测值之间的平均接近程度;有效重复 数ER是指某模型交叉验证中3个重复所达到的预 测精度,相当于算术平均值要达到同等精度所需的 重复数;精度增益倍数GF则是指某模型的预测精 度相当于算术平均值的倍数。每轮验证进行30000 次随机分样,对上述指标求平均,平均的RMSPD越 小,ER和GF越大,表明模型预测值与验证数据越 接近,精度越高。与Gaunch不同的是,考虑分样的 随机误差,本文按以上方法对各种模型进行了20轮 (共20×30000次分样)验证,计算20轮结果的均值 和标准差,以反映分样误差的大小。具体计算在微 机上利用VB5.0编程实现,其中主要统计程序 (ANOVA、I,R和P(A子程序)的运算结果均用SAS 核算。按上述方法得到6类共23个模型的RM— sPD、ER和GF指标的均值和标准差她表。 3.2模型精度分析 从表中可看出,各轮交叉验证的结果比较稳定, 所得精度指标的标准差(SD)都很小,其中RMSPD 的变异系数(CV)为0.035%~0.077%,其波动很 小,这说明对本文所用数据而言,30000分样次数是 万方数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有