第五讲多项式回归与正交多项式 POLYNOMIAL REGRESSION AND ORTHOGONAL POLYNOMIAL 基本知识 、含义:利用多项式(y=b+bx+b2x2+…+bnx)研究变量间非线性回归关系的统计分析方 法。 、适宜资料:变量间呈非线性(曲线)变化关系,而又无已知曲线类型相配合的资料(如果有已知 曲线类型能配合的资料,则可转化为线性分析)。 三、分析目的:通过建立多项式回归方程,分析变量间的曲线关系和规律,以利预测和控制,并估计 出曲线回归方程中的一些重要参数,如回归系数、极大值、极小值、渐近值等,它们往往在专业上有重要 意义。 四、分析思路:把自变量x的不同次方看成新的变量,既把x的p次方看成p元(p个新变量)的线 性回归,然后再按多元线性回归进行分析 五、分析方法:(见后)首先是介绍非线性回归分析的两种分析方法,一是可直线化的非线性回归分 析,二是多项式的非线性回归分析。 变量间的关系并不都是如前三讲所设定的线性关系,而有时是非线性的关系。对于非线性变量间的回 归分析,人们通常经过某种线性处理,将非线性性回归转化为线性回归,即在选用适当函数类型进行拟合 时,进行适当的变量变换,把曲线方程转化为直线方程。但是也不是所有的曲线都能找到适当的函数类型 进行拟合。这时可采用多项式逼近。所以,在许多比较复杂的实际问题中,可以不问自变量和依变量的关 系如何,采用多项式回归进行分析。然而,多项式回归分析也存在不足之处。首先是,当自变量的个数较 多时计算将十分繁杂:其次,如同多元线性回归一样,偏回归系数之间存在相关性,当剔除一个自变量后, 必须重新计算偏回归系数。为此,人们研究了各种简化计算和消去偏回归系数间相关性的办法。而最为常 用的是正交多项式的分析方法。在介绍该方法之前先要了解多项式回归的分析方法。 第一节可直线化的非线性回归分析 可直线化的非线性回归分析的含义 即把符合某些特定曲线类型的资料数据利用数学方法转化为直线型数据,再利用线性回归分析配合直 线方程,然后再反转成曲线回归方程。 二、确定配合特定曲线类型的方法 如何选定与相应资料相配合的特定曲线类型,是可直线化的非线性回归分析的关键。通常有二种方法。 1、图示法:根据所获得资料的自然尺度绘制散点图,然后按照散点趋势画出能够反映它们之间变化规 律的曲线,并与已知的曲线相比较找出与之较为相似的曲线图形,该曲线即为选定的曲线类型 2、直线化法:根据散点图进行直观比较,选出一种曲线类型,将曲线方程直线化,并将原始数据进行 转换,用转换后的数据绘制散点图,若该图形为直线趋势,表明选取的曲线类型是恰当的,否则将重新选 3、常用的可用于直线化法的曲线类型:指数曲线、对数曲线、幂函数曲线、双曲函数曲线、s型曲线 等,具体直线化方法可参考有关统计专著
29 第五讲 多项式回归与正交多项式 POLYNOMIAL REGRESSION AND ORTHOGONAL POLYNOMIAL 基本知识 一、含义:利用多项式( p p y = b + b x + b x ++ b x 2 0 1 2 ˆ )研究变量间非线性回归关系的统计分析方 法。 二、适宜资料:变量间呈非线性(曲线)变化关系,而又无已知曲线类型相配合的资料(如果有已知 曲线类型能配合的资料,则可转化为线性分析)。 三、分析目的:通过建立多项式回归方程,分析变量间的曲线关系和规律,以利预测和控制,并估计 出曲线回归方程中的一些重要参数,如回归系数、极大值、极小值、渐近值等,它们往往在专业上有重要 意义。 四、分析思路:把自变量 x 的不同次方看成新的变量,既把 x 的 p 次方看成 p 元(p 个新变量)的线 性回归,然后再按多元线性回归进行分析。 五、分析方法:(见后)首先是介绍非线性回归分析的两种分析方法,一是可直线化的非线性回归分 析,二是多项式的非线性回归分析。 变量间的关系并不都是如前三讲所设定的线性关系,而有时是非线性的关系。对于非线性变量间的回 归分析,人们通常经过某种线性处理,将非线性性回归转化为线性回归,即在选用适当函数类型进行拟合 时,进行适当的变量变换,把曲线方程转化为直线方程。但是也不是所有的曲线都能找到适当的函数类型 进行拟合。这时可采用多项式逼近。所以,在许多比较复杂的实际问题中,可以不问自变量和依变量的关 系如何,采用多项式回归进行分析。然而,多项式回归分析也存在不足之处。首先是,当自变量的个数较 多时 计算将十分繁杂;其次,如同多元线性回归一样,偏回归系数之间存在相关性,当剔除一个自变量后, 必须重新计算偏回归系数。为此,人们研究了各种简化计算和消去偏回归系数间相关性的办法。而最为常 用的是正交多项式的分析方法。在介绍该方法之前先要了解多项式回归的分析方法。 第一节 可直线化的非线性回归分析 一、可直线化的非线性回归分析的含义 即把符合某些特定曲线类型的资料数据利用数学方法转化为直线型数据,再利用线性回归分析配合直 线方程,然后再反转成曲线回归方程。 二、确定配合特定曲线类型的方法 如何选定与相应资料相配合的特定曲线类型,是可直线化的非线性回归分析的关键。通常有二种方法。 1、图示法:根据所获得资料的自然尺度绘制散点图,然后按照散点趋势画出能够反映它们之间变化规 律的曲线,并与已知的曲线相比较找出与之较为相似的曲线图形,该曲线即为选定的曲线类型。 2、直线化法:根据散点图进行直观比较,选出一种曲线类型,将曲线方程直线化,并将原始数据进行 转换,用转换后的数据绘制散点图,若该图形为直线趋势,表明选取的曲线类型是恰当的,否则将重新选 取。 3、常用的可用于直线化法的曲线类型:指数曲线、对数曲线、幂函数曲线、双曲函数曲线、s 型曲线 等,具体直线化方法可参考有关统计专著
第二节多项式的非线性回归分析 多项式回归分析的原理、优点和p次项的确定 1、多项式回归分析的原理 设有一组观察值(x,y)t=1,2,…,n,存在非线性关系,则多项式回归方程为: y=b+b1x+b2x2+…+bnx° (4-1) 若令x1=X,x2=x2,…xp=x,则(4-1)可改写成 y=do+dx,+d2x2 d 这样就把x看成是新的变量,(4-3)式便是一个p元的线性回归方程,各偏回归系数d仍可按下列 正规方程组求得。 lu +d,71 TIp =lly dpl2p=123 do=y-d x,-d2x2 其中1=2(xn-xxn-)=Ex1xn-2xExn/m(i,j=1,2,…,p) ln=2(x-x)(y2-y)=∑ ∑y 其偏回归系数的计算,回归方程的显著性检验,各偏回归平方和的计算及显著性检验,都与多元线性 回归分析相似 2、多项式回归分析的优点:可以对任何双变量资料进行回归逼近。 3、多项式回归分析p次项的确定:有n对观察值最多只能配到p=n1次多项式。P越大,包含的统计 数越多,计算越复杂。一个多项式回归方程应取多少项(次)为宜,应根据资料的散点图确定,散点图所 表现的曲线趋势的峰+谷+1,即为多项式回归方程的次数。如果散点图波动大或峰谷两侧不对称,可以再 高一次或两次。多项式回归方程通常用于描述试验取值范围内的变化关系,外推一般不可靠 在教学中以下可以省去 为使离回归平方和SSo=∑(y-j)2最小,即根据最小二乘法原理可得出下列正规方程组: bn+b∑x+b2∑x2+…+bn∑x"=∑y b∑x+b∑x2+b2∑x2+…+b∑x=∑xy b∑x2+b∑x3+b2∑x2+…+b∑x"2=∑x2y 4-2) b∑xP+b1∑xP+b2∑ 解上述方程组可得:bo,b,b2…bp 若令x1=X,x2=x2,…x=xP,或φ1(x)=x,中x)=x2,…中p(x)=xP,则(4-1)可改写成 y=do+dx,+d,x2+.+d, (4-3) 或y=d+d1(x)+d22(x)+…+d2(x) (4-4) 这样就把x或Φ(x)看成是新的变量,(4-3)或(4-4)式便是一个p元的线性回归方程,各偏回归
30 第二节 多项式的非线性回归分析 一、多项式回归分析的原理、优点和 p 次项的确定 1、多项式回归分析的原理 设有一组观察值(xt,yt) t=1,2,…,n,存在非线性关系,则多项式回归方程为: p p y = b + b x + b x ++ b x 2 0 1 2 ˆ (4—1) 若令 x1=x,x2=x2,…xp=xp,则(4—1)可改写成 p p y = d + d x + d x ++ d x 0 1 1 2 2 ˆ (4—3) 这样就把 xi 看成是新的变量,(4—3)式便是一个 p 元的线性回归方程,各偏回归系数 di 仍可按下列 正规方程组求得。 + + + = + + + = + + + = p p p pp py p p y p p y d l d l d l l d l d l d l l d l d l d l l 1 1 2 2 1 21 2 22 2 2 1 11 2 12 1 1 (4—5) p p d = y − d x − d x −− d x 0 1 1 2 2 其中 l xit xi x jt x j xit x jt xit x jt n n t ij = − − = − = ( )( ) 1 (i,j=1,2,…,p) l xt xi yt y xt y xt yt n n t iy = − − = − = ( )( ) 1 其偏回归系数的计算,回归方程的显著性检验,各偏回归平方和的计算及显著性检验,都与多元线性 回归分析相似。 2、多项式回归分析的优点:可以对任何双变量资料进行回归逼近。 3、多项式回归分析 p 次项的确定:有 n 对观察值最多只能配到 p=n-1 次多项式。P 越大,包含的统计 数越多,计算越复杂。一个多项式回归方程应取多少项(次)为宜,应根据资料的散点图确定,散点图所 表现的曲线趋势的峰+谷+1,即为多项式回归方程的次数。如果散点图波动大或峰谷两侧不对称,可以再 高一次或两次。多项式回归方程通常用于描述试验取值范围内的变化关系,外推一般不可靠。 在教学中以下可以省去 为使离回归平方和 SSQ=∑(y- y ˆ ) 2 最小,即根据最小二乘法原理可得出下列正规方程组: + + + + = + + + + = + + + + = + + + + = + + + + b x b x b x b x x y b x b x b x b x x y b x b x b x b x x y b n b x b x b x y p k p p p p p p p p p p 2 2 2 1 0 1 4 2 2 2 3 1 2 0 3 1 2 2 0 1 2 0 1 2 (4—2) 解上述方程组可得:b0,b1,b2… bp 。 若令 x1=x,x2=x2,…xp=xp,或φ1(x)=x,φ2(x)=x2,…φp(x)=xp,则(4—1)可改写成 p p y = d + d x + d x ++ d x 0 1 1 2 2 ˆ (4—3) 或 ˆ ( ) ( ) ( ) 0 1 1 2 2 y d d x d x d x = + + ++ p p (4—4) 这样就把 xi 或Φi(x)看成是新的变量,(4—3)或(4—4)式便是一个 p 元的线性回归方程,各偏回归
系数d仍可按下列正规方程组求得 dn+d2l+…+dplp=ly dl21+d12+…+dnl2n=l (4-5 dpI+d2Ip2 其中1=(x1-x)xn-x)=∑x1xn-∑x2xm/n(,=,2,…,p) l=(x,-x)0-)=2xy-∑x∑y/n 或1=2(9(x)-9(m))-()=x1中()-2()2的(x1/n l=2(9x)-9(3)(-列)=2一2x)2y/n 同样,对于多元多项式回归,也可以化为多元线性回归来分析,例如,对于多变量的任意多项式回归 方程 j=b+b1+b2=2+b2+b1=12+b=2+ 只要令x=Z,x2=z2,x3=2,x4=,x==2…可化为多元线性回归方程: d 其偏回归系数的计算,回归方程的显著性检验,各偏回归平方和的计算及显著性检验,都与多元线性 回归分析相似。在教学中以上可以省去 实例分析 例1有一组资料如表4-1,试配置一个回归方程。 表4- 与y的资料 7 6 8 6 7 6 5 先将x与y数值在坐标系上作图 图4!x与y点式图及回归曲线图 由图所示,x与y的点式图呈抛物线形状,故可配合一个二次抛物线方程。为了配合更为适当,可先 配合成三次项后再作检验。其方程为: bo +b,x+6,x+b3x 令x1=x,x2=x2,x=x3,则上述方程可转化为三元线性方程 31
31 系数 di 仍可按下列正规方程组求得。 + + + = + + + = + + + = p p p pp py p p y p p y d l d l d l l d l d l d l l d l d l d l l 1 1 2 2 1 21 2 22 2 2 1 11 2 12 1 1 (4—5) p p d = y − d x − d x −− d x 0 1 1 2 2 其中 l xit xi x jt x j xit x jt xit x jt n n t ij = − − = − = ( )( ) 1 (i,j=1,2,…,p) l xt xi yt y xt y xt yt n n t iy = − − = − = ( )( ) 1 或 l n t t t t t t i x j x x i x j x j x i x i x j n t ij ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) 1 = ( − )( − ) = − = l y y y yt n i x i x t i x t i x n t iy t t t = − − = − = ( ) ( ) ( ) ( ) 1 ( )( ) 同样,对于多元多项式回归,也可以化为多元线性回归来分析,例如,对于多变量的任意多项式回归 方程: y ˆ = b0 + b1 z1 + b2 z2 + b3 z1 2 + b4 z1 z2 + b5 z2 2 + 只要令 x1=z1, x2=z2 ,x3= 2 1 z ,x4=z1z2,x5= 2 2 z …可化为多元线性回归方程: y ˆ = d0 + d1 x1 + d2 x2 + d3 x3 + d4 x4 + d5 x5 + 其偏回归系数的计算,回归方程的显著性检验,各偏回归平方和的计算及显著性检验,都与多元线性 回归分析相似。在教学中以上可以省去 二、实例分析 例 1 有一组资料如表 4—1,试配置一个回归方程。 表 4—1 x 与 y 的资料 x 0 1 2 4 7 6 8 10 y 1 2 4 6 7 6 5 3 先将 x 与 y 数值在坐标系上作图。 图 4.1 x 与 y 点式图及回归曲线图 由图所示,x 与 y 的点式图呈抛物线形状,故可配合一个二次抛物线方程。为了配合更为适当,可先 配合成三次项后再作检验。其方程为: 3 3 2 0 1 2 y ˆ = b + b x + b x + b x 令 x1=x,x2=x2,x3=x3,则上述方程可转化为三元线性方程
y=do+d,+d2x 2+dx3 其中d=y-d1x1-d2x2-d2x 1、计算必要数据,列出正规方程组 级数据: ∑x1=38,∑x2=x2=270,∑x3=∑x=2144,2y=34,∑x2=2x=18066,2y2=176,∑x3=x2=1430610, ∑x1X=∑x=2144,∑xx=Ex2=18066,∑xX∑x3=158408,∑xy=189,∑x2y=∑x2y=129,∑xy=∑ xy=9675 二级数据: x1=475,x2=x2=33.75,x3=x3=286,j=425 l1=Σx2-(Σx)2/n=270-382/8=895 12=∑xx2-∑x∑x2/m=2144-38×270/8=861.5 l13=∑x1x3-∑x12x3/n=18066-38×2144/8=7882 l2=∑x2-(∑x2)2/n=18066-2702/8=89535 l23=∑x2x3-∑x2∑x3/n=158408-270×2144/8=86048 l3=∑x3-(Σx3)2/n=143060-21448=85608 ly=Σxy-∑xy/n=189-38×34/8=275 l2y=Σx2y-2x2y/n=1293-270×34/8=1455 ly,=Σx3y-2x32y/n=9675-2144×34/8=563 ln=∑y2-(2y)2/mn=176-34/8-315 于是正规方程组为: .5d1+861.5d2+7882d3=275 8615d1+8953.5d2+86048d3=1455 7892d1+86048d2+856018d3=563 2、计算偏回归系数,列出回归方程,仍可用(1-16)式对下列增广矩阵作消元变换,求得系数矩阵的逆 及各偏回归系数 895861.5788227.5 A0=861.58953586048145.5 (78886048856018563 00177739625698880670390.307263 ()=-9625698660960915101782459-119206704 8806739101782459161873.5986-1858.84357 0.151354 0.014563-60.1606 2.04329 A2)=-0014563000151315.399165-0.180354 60.160677-15.3991655137.11465-23.16028 0.855 0.1949010.0117111.772064 A(3=-01949010047673-0002998-0.1108 0.011711-0.0029980.0001950.004508 d1=1.7721,d2=-0.1109,d3=-0.0045 d=4.25-1.7721×4.75+0.1109×33.75+0.0045×256=0.7814
32 0 1 1 2 2 3 3 y ˆ = d + d x + d x + d x 其中 0 1 1 2 2 3 3 d = y − d x − d x − d x ⚫ 1、计算必要数据,列出正规方程组 一级数据: ∑x1=38,∑x2=∑x 2=270,∑x3=∑x 3=2144,∑y=34,∑ 2 2 x =∑x 4=18066,∑y 2=176,∑ 2 3 x =∑x 6=1430610, ∑x1x2=∑x3=2144,∑x1x2=∑x 4=18066,∑x2x3∑x 5=158408,∑x1y=189,∑x2y=∑x 2y=1293,∑x3y=∑ x 3y=9675 二级数据: 4.75, x1 = 33.75, 2 x2 = x = 286, 3 x3 = x = y = 4.25 l x x n 2 1 2 11 = 1 −( ) =270-382/8=89.5 l 12 = x1 x2 − x1 x2 n =2144-38×270/8=861.5 l 13 = x1 x3 − x1 x3 n =18066-38×2144/8=7882 l x x n 2 2 2 22 = 2 −( ) =18066-2702/8=8953.5 l 23 = x2 x3 − x2 x3 n =158408-270×2144/8=86048 l x x n 2 3 2 33 = 3 −( ) =1430610-21442/8=856018 l 1y = x1 y − x1 y n =189-38×34/8=27.5 l 2 y = x2 y − x2 y n =1293-270×34/8=145.5 l 3y = x3 y − x3 y n =9675-2144×34/8=563 l yy y y n 2 2 = − ( ) =176-342/8=31.5 于是正规方程组为: + + = + + = + + = 7882 86048 856018 563 861.5 8953.5 86048 145.5 89.5 861.5 7882 27.5 1 2 3 1 2 3 1 2 3 d d d d d d d d d 2、计算偏回归系数,列出回归方程,仍可用(1—16)式对下列增广矩阵作消元变换,求得系数矩阵的逆 及各偏回归系数。 = 7882 86048 856018 563 861.5 8953.5 86048 145.5 89.5 861.5 7882 27.5 (0) A − − = − − 88.067.39 10178.2459 161873.5986 1858.84357 9.625698 660.960915 10178.2459 119.206704 0.017773 9.625698 88.067039 0.307263 (1) A − − − − − − = 60.160677 15.399165 5137.11465 23.16028 0.014563 0.001513 15.399165 0.180354 0.151354 0.014563 60.160677 2.043292 (2) A − − − − − − = 0.011711 0.002998 0.000195 0.004508 0.194901 0.047673 0.002998 0.110928 0.855590 0.194901 0.011711 1.772064 (3) A d1=1.7721,d2=-0.1109,d3=-0.0045 d0=4.25-1.7721×4.75+0.1109×33.75+0.0045×256=0.7814
因此,三次方曲线方程为: j=07814+1.7721x-0.1109x2-00045x3 3、显著性检验及准确性测定: 回归平方和SS=∑d1ln=1.712l×275-0.1109×145.5-00045×563=30.0633 离回归平方和SSo=SSy-SS=l-SS=31.5-300633=1.4367 表4-2回归系数的方差分析 变异来源 F 00503,4) 10.218 离回归 1.4367 0.3592 7 31.5 多元复相关系数(相关指数)R=S/=√306315=09769 R01(4=0.962,R>Ro1,差异极显著,可见多元回归极为显著。 同线性相关分析一样,R2=0.97692=0.9543称为决定系数,表明x的k次(此处k=3)多项式说明的部分所 占的比率为9543%(且准确度也较高)。 4、偏回归系数的显著性检验 d 2/c 为A3)主对角线上的元素,即高斯乘数 Fd=MS山/M。MSQ为离回归的均方 F1=MSn/M。=1721/0.8559×0.3592=1028 F2=MS2/M=(-0.110904767×03592=0.718 F3=Ma/Mb=(-00520015×03592=0289 Foos(1,4=771,Fd1>F00,由于仅有d检验达到5%显著水准,故需对F值最小的x3进行剔除 次方曲线方程变为二次抛物线方程,可由A2冲中求得逆和解,即 d1=20433,d2=-0.1804 d=4.25-20433×4.75+0.1804×33.75=0.6328 二次抛物线方程为 y=0.6328+2.0433x-0.1804x SSu=2.043327.5-0.1804×145.5=299426 SSo=31.5-299426=1.5574 次回归的显著性测验F=M/MSo=(299426/2)1.5574/5)=14971303115=48065 Foo1(2.5=13.27,F>F00;表明二次回归变异及显著的大于离回归变异。也可以利用复相关系数进行显著 性测验R=√296/315=0975R0s=0917,R>Rn。检验结果表明,该资料所配的二次抛物线方 程,其显著水准达到1%,决定系数R2=0.9752=95:06%,表明准确度也较高。再分别对两个偏回归系数进 行显著性检验: F4=2.0433/0.151354×0.3115=8855 F2=(-0.1804)2/0.001513×03115=69052 两偏回归系数皆极显著,表明,所配合的二次抛物线适合于该资料。因此,可依据该回归方程描绘出回归 曲线图(见图41)。倘若需要求出该抛物线最高点的x值时,可对y=06328+2.0433x-0.1804x2求一阶导数
33 因此,三次方曲线方程为: 2 3 y ˆ = 0.7814 +1.7721x − 0.1109x − 0.0045x 3、显著性检验及准确性测定: 回归平方和 1.7721 27.5 0.1109 145.5 0.0045 563 30.0633 3 1 S SU = di l i y = − − = 离回归平方和 SSQ = SSY − SSU = l yy − SSU = 31.5 − 30.0633 = 1.4367 表 4—2 回归系数的方差分析 变异来源 df SS MS F F0.05(3,4) 回归 离回归 总的 3 4 7 30.0633 1.4367 31.5 10.0211 0.3592 10.218* 6.59 多元复相关系数(相关指数) R = SSU l yy = 30.0633 31.5 = 0.9769 R0.01(4)=0.962,R>R0.01,差异极显著,可见多元回归极为显著 。 同线性相关分析一样,R 2=0.97692=0.9543 称为决定系数,表明 x 的 k 次(此处 k=3)多项式说明的部分所 占的比率为 95.43%(且准确度也较高)。 4、偏回归系数的显著性检验 di i ii MS d c 2 = cii 为 A(3)主对角线上的元素,即高斯乘数。 Fdi = MSdi MsQ MSQ 为离回归的均方。 ( 0.0045) 0.000195 0.3592 0.289 ( 0.1109) 0.04767 0.3592 0.718 1.7721 0.85559 0.3592 10.218 2 3 3 2 2 2 2 * 1 1 = = − = = = − = = = = d d Q d d Q d d Q F MS Ms F MS Ms F MS Ms F0.05(1,4)=7.71,Fd1>F0.05,由于仅有 d1 检验达到 5%显著水准,故需对 F 值最小的 x3 进行剔除,把三 次方曲线方程变为二次抛物线方程,可由 A(2)中求得逆和解,即: d1=2.0433,d2=-0.1804 d0=4.25-2.0433×4.75+0.1804×33.75=0.6328 二次抛物线方程为 2 y ˆ = 0.6328 + 2.0433x − 0.1804x SSU=2.043327.5-0.1804×145.5=29.9426 SSQ=31.5-29.9426=1.5574 二次回归的显著性测验 ** F = MSU MSQ = (29.9426/ 2) (1.5574/ 5) =14.9713 0.3115 = 48.065 F0.01(2,5)=13.27,F>F0.01;表明二次回归变异及显著的大于离回归变异。也可以利用复相关系数进行显著 性测验 R = 29.9426 31.5 = 0.975 R0.01(5)=0.917,R>R0.01。检验结果表明,该资料所配的二次抛物线方 程,其显著水准达到 1%,决定系数 R 2=0.9752=95.06%,表明准确度也较高。再分别对两个偏回归系数进 行显著性检验: 2 ** 2 2 ** 1 ( 0.1804) 0.001513 0.3115 69.052 2.0433 0.151354 0.3115 88.555 = − = = = d d F F 两偏回归系数皆极显著,表明,所配合的二次抛物线适合于该资料。因此,可依据该回归方程描绘出回归 曲线图(见图 4.1)。倘若需要求出该抛物线最高点的 x 值时,可对 y ˆ =0.6328+2.0433x-0.1804x 2 求一阶导数
并令其为零,即: 2.0433-2(0.1804x)=0 所以,当x=566时,j取最大值,亦即曲线最高点 第三节正交多项式(不讲,因有计算机分析,不怕繁琐,另外还需要正交多项式系数表配合, 本书没有 、正交多项式回归方程的建立 上述分析可见,要配合一个适当的多项式回归方程,其计算工作量是十分繁琐的。但,如果自变量取 等间隔数值时,可通过恰当的变量变换,如采用正交多项式来配合其回归方程,将使得分析变的十分 简便和实用 为引出正交多项式的分析方法,可先看下例: 设有一组x与y的观察值: 24367 试建立一个二次抛物线回归方程,即: d +d,x+d 若令: 中1=x-3,中2(=(x-3)2-2 则方程可化为二元线性回归方程 do+d1%u(x)+d24 5时二元中值计算表 y 1(x) %( Pux)92(s) uax)y)yIy 2 0 3 4 0 0 6 6 -636 14 114 y=12/5=24,(x=0,2(x=0 1=∑,-1(∑)2=10-3×02=10 l2=Σ叭xax-Σ叭x∑2x)=0×0-30×0=0 l2=∑x)-1(Σ中x)2=14-3×02=14 1,=∑xy-4,y=12-3×0×12=12 l2,=Σ中xy-y=2-3×0×12=0 ln=∑y2-(Σy)2=114-112=852
34 并令其为零,即: 2.0433 2 0.1804 5.66 2.0433 2(0.1804 ) 0 ˆ = = = − = x x x y 所以,当 x=5.66 时, y ˆ 取最大值,亦即曲线最高点。 第三节 正交多项式(不讲,因有计算机分析,不怕繁琐,另外还需要正交多项式系数表配合, 本书没有) 一、正交多项式回归方程的建立 上述分析可见,要配合一个适当的多项式回归方程,其计算工作量是十分繁琐的。但,如果自变量取 等间隔数值时,可通过恰当的变量变换,如采用正交多项式来配合其回归方程,将使得分析变的十分 简便和实用。 为引出正交多项式的分析方法,可先看下例: 设有一组 x 与 y 的观察值: x 1 2 3 4 5 y 2 4 3 6 7 试建立一个二次抛物线回归方程,即: 2 0 1 2 y ˆ = d + d x + d x 若令: φ1(x)=x-3,φ2(x)=(x-3)2-2, 则方程可化为二元线性回归方程 0 1 1( ) 2 2( ) ˆ d d x d X y = + + 表 4—3 n=5 时二元φi(x) 值计算表 x 1( x) 2( x) y ( ) 2 1 x ( ) 2 2 x 1( x) 2( x) y 1(x) y 2( x) 2 y 1 2 3 4 5 -2 -1 0 1 2 2 -1 -2 -1 2 2 4 3 6 7 4 1 0 1 4 4 1 4 1 4 -4 1 0 -1 4 -4 -4 0 6 14 4 -4 -6 -6 14 4 16 9 36 49 ∑ 0 0 12 10 14 0 12 2 114 14 0 14 0 0 0 0 0 10 0 10 12 / 5 2.4 0 0 2 5 2 1 2 2 1 22 2 5 1 1 2 1 12 1 2 2 5 2 1 1 2 1 11 1 1 2 = − = − = = − = − = = − = − = = = = = ( ) ( ) , , ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) x n x x x n x x x n x x x l l l y ( ) 114 12 85.2 2 0 12 0 12 0 12 12 2 5 2 1 2 1 5 1 2 1 2 2 5 1 1 1 1 1 = − = − = = − = − = = − = − = l y y l y y l y y yy n y x n x y x n x ( ) ( ) ( ) ( )
依(4-5)式,正规方程组为: 10d1+0d2=12 d1+14d2=2 解得:d1=12/10=1.2,d2=2/14=0.143 do=y-d1n1(x)-d292(x)=24-1.2x0-0.143×0=24 j=24+12(x-3)+0.143(x-3)2-2] 以上计算结果可看出,通过恰当的变量变换可使得 ∑xx=0(j=12…P1≠ 这种变换具有正交性,若推广至一般: 设x=1,x=2,…,xn=n。如果x1=a+h,x2=a+h,…,x=atnh可变换x=(x-a)/h。于是 x1=1,x2=2,…,x=n,记对应于x的实验结果y(t=1,2,…,n)。该组观察值可配合一个p次多项 式回归方程 j=b+bx+bx2+…+b 设中1(x),中2(,…,中p)为x函数,分别表示一次,二次,…,p次多项式,则上述方程可表示为p 元线性回归方程 y=do+d41(x)+d22(x)+…+dp(x) 为解得各偏回归系数,需算出二级数据为: 1=∑(,一∑Σ (i,j=1,2,…,P) =29-∑(,∑/m 为满足正交条件,变换的变量φ须满足 E9)=E2()=…=2=0 ∑中(x,9x)=0 (≠j 这样 x) i≠j 于是正规方程组可简化为 (xd1+ 0=∑(x)y 0+∑中2x)d2+0+…+0=∑中2xy (4-6) 0+0+0+…+22d=∑y 各偏回归系数为 jd=∑y/∑9
35 依(4—5)式,正规方程组为: + = + = 0 14 2 10 0 12 1 2 1 2 d d d d 解得:d1=12/10=1.2,d2=2/14=0.143 ˆ 2.4 1.2( 3) 0.143[( 3) 2] 2.4 1.2 0 0.143 0 2.4 2 0 1 1( ) 2 2( ) = + − + − − = − − = − − = y x x d y d x d x 以上计算结果可看出,通过恰当的变量变换可使得 = = = = 0 ( , 1,2, , ) 0 ( 1,2, , ) ( ) ( ) 1 ( ) 1 i j p i j i p i x j x n i x n 这种变换具有正交性,若推广至一般: 设 x1=1,x2=2,…,xn=n。如果 x1=a+h,x2=a+2h,…,xn=a+nh 可变换 x = (x − a)/ h 。于是, x1 =1, x2 = 2, , xn = n ,记对应于 xt 的实验结果 yt(t=1,2,…,n)。该组观察值可配合一个 p 次多项 式回归方程 p p y = b + b x + b x ++ b x 2 0 1 1 2 ˆ 设φ1(x),φ2(x),…,φp(x)为 x 函数,分别表示一次,二次,…,p 次多项式,则上述方程可表示为 p 元线性回归方程: ˆ ( ) ( ) ( ) 0 1 1 2 2 y d d x d x d x = + + ++ p p 为解得各偏回归系数,需算出二级数据为: = − = = − = ( 1,2, , ) ( , 1,2, , ) ( ) ( ) ( ) ( ) ( ) ( ) l y y n t n l n i j p i y i x t i x t i x j x x i j i x j t t t t t t 为满足正交条件,变换的变量φi(x)须满足 = = = = = 0 ( ) 0 ( ) ( ) 1( ) 2( ) ( ) i j i x j x x x p x 这样 = = = = l y i j i j l iy i x i x ij i x ( ) 2 ( ) ( ) 0, 0 于是正规方程组可简化为 + + + + = + + + + = + + + + = d y d y d y p x p p x x x x x ( ) 2 ( ) 2 2( ) 2 2( ) 1 1( ) 2 1( ) 0 0 0 0 0 0 0 0 0 (4—6) 各偏回归系数为 = = d y d y i i x i x 0 2 ( ) ( ) (4—7)
对于d的计算已大大简化,问题在于如何选取中x以满足正交条件。 现以模型 为例加以说明 设中1(,中2(x分别为x的一次和二次多项式,并令中)的表达式为: 二次模型可化为: y=do+d1%(r)+d2p2e 为满足 ∑φa=0 ∑φ2x=0 Pur,o 只要适当调节三个参数c10,c21,c20即可 把(4-8)式代入(4—9)式得 ∑(x2+c21x+c20)=0 ∑(x+c1o)(x2+ )=0 则 0 将 代入∑(x+co)x2+c21x+c2)=0,有 ∑(x-x)(x2-2x+x2)+(c21x+2x-2x-c2x)+(C20+C2x+x2)=0 ∑(x-x)(x-x)2+(c21+2x(x-x)+(c20+c21X+x)=0 ∑(x-x)+(c21+2x)∑(x-x)2+(c20+c2X+x2)∑(x-x)=0 这样(c21+2x必为0,故 将 代入∑(x2+c21x+c20)=0,得
36 对于 d 的计算已大大简化,问题在于如何选取φi(x)以满足正交条件。 现以模型: 2 0 1 2 y ˆ = b + b x + b x 为例加以说明。 设φ1(x),φ2(x)分别为 x 的一次和二次多项式,并令φi(x))的表达式为: = + + = + 21 20 2 2( ) 1( ) 10 x c x c x c x x (4—8) 二次模型可化为: 0 1 1( ) 2 2( ) ˆ d d x d X y = + + 为满足 = = = 0 0 0 1( ) 2( ) 2( ) 1( ) x x x x (4—9) 只要适当调节三个参数 c10,c21,c20 即可。 把(4—8)式代入(4—9)式得: + + + = + + = + = ( )( ) 0 ( ) 0 ( ) 0 21 20 2 10 1 21 20 2 1 10 1 x c x c x c x c x c x c n n n 则 = − = − + = c x n x x nc n n 1 10 10 1 0 将 c = −x 10 代入 ( )( 21 20 ) 0 2 10 1 x + c x + c x + c = n ,有 ( ) ( 2 ) ( ) ( ) ( ) 0 ( )[( ) ( 2 )( ) ( )] 0 ( )[( 2 ) ( 2 2 ) ( )] 0 1 2 2 0 2 1 2 2 1 2 1 3 1 2 2 1 2 0 2 1 2 1 2 2 1 2 1 2 0 2 1 2 2 1 − + + − + + + − = − − + + − + + + = − − + + + − − + + + = x x c x x x c c x x x x x x x x c x x x c c x x x x x xx x c x xx x c x c c x x n n n n ∵ ( ) 0 1 x − x = n , ∴ ( ) 0 3 1 x − x = n 这样 ( 2 ) 21 c + x 必为 0,故 c 2x 21 = − 。 将 c 2x 21 = − 代入 ( 21 20 ) 0 2 1 x + c x + c = n ,得
∑(x2-2xx+c20)=0 ∑(x-x)2+(c20-x2)=0 于是c20=x2-1(x-x) 所以,在x取等间隔数值时,只要选取 2(x)=(x-x)2-2(x-x) 即可满足正交条件,若x取自然数1,2,…,n时 2(x-x)2=Ex2-nx2=mn+)2n+D)_n+12 n(n2-1)/l 将上式代入(4-10)式 n2-1 12 所以当x的取值可用ⅹ=x0+h(h为公差:t=1,2,…,n)表示时,各次正交多项式中;cx的统一形式 3(n2-1)(n2 (4-12) 14 h 560 5(n2 15n2-230n+407 18 1008 p2(n2-p2) 4(4 例如x取值为0,20,40,60,80,则可表示为x=-20+20t(t=1,2,…,5)。按(4-12)式,各 φxf值列于表4-3 n=5时的φ x24s中心 0 6/5 12/35
37 [( ) ( )] 0 ( 2 ) 0 2 20 2 1 20 2 1 − + − = − + = x x c x x xx c n n 于是 2 1 2 1 20 c x (x x) n n = − − 所以,在 x 取等间隔数值时,只要选取 = − − − = − 2 1 2 1 2( ) 1( ) (x x) (x x) x x n x n x (4—10) 即可满足正交条件,若 x 取自然数 1,2,…,n 时, ( 1) 2 1 x = n + ( 1) /12 ) 2 1 ( 6 ( 1)(2 1) ( ) 2 2 2 2 2 1 = − + − + + − = − = n n n n n n n x x x nx n 将上式代入(4-10)式 − = − − − − + = − = − + = − 12 1 ( ) 12 1 ) 2 1 ( 2 1 2 2 2 2 2( ) 1( ) n x x n n x x x n x x x (4—11) 所以当 x 的取值可用 xt=x0+ht (h 为公差: t=1,2,…,n)表示时 ,各次正交多项式φi(x)的统一形式 为: − − = − − + − + − − − − = − − + − − − − = − − − − = − − − = − = + 2 −1( ) 2 2 2 1( ) 1( ) ( ) 2 3 2 5 5( ) 2 2 2 2 4 4( ) 2 3 3( ) 2 2 2( ) 1( ) 4(4 1) ( ) ( ) 1008 15 230 407 ( ) 18 5( 7) ( ) 560 3( 1)( 9) ( ) 14 3 13 ( ) ( ) 20 3 7 ( ) 12 1 ( ) p x x p x p x x x x x x p p n p h n n x x h n x x h x x n n h n x x h x x h n x x h x x n h x x h x x (4—12) 例如 x 取值为 0,20,40,60,80,则可表示为 xt=-20+20t(t=1,2,…,5)。按(4—12)式 ,各 φi(x)值列于表 4—3 表 4—4 n=5 时的φi(x) x φ1(x) φ2(x) φ3(x) φ4(x) 0 -2 2 -6/5 12/35
20 48/35 40 0 48/35 12/35 由表4-4可见,φ/值并非全为整数,为避免小数运算时的麻烦,通常再引入一个适当的系数λ;使 (I=1,2,…,p) 为绝对值尽可能小的整数,如表4-3中,取1=1,A2=1,M3=5/6,M4=35/12。则c3(第3列)=( 1,2,0,-2,1)’,c4=(1,-4,6, 相应地由(4-7)式,计算的d可改写成 d 1.2 (4-14) y=y+∑d2x) (4-15) 不同观察值次数下的p次多项式c1已由学者编制成表,实际工作中直接引用即可 、正交多项式回归的显著性检验 (一)p次式回归方程的显著性检验 p次式回归平方和Ss=a∑cy 次式离回归平方和SSo=SSy- SSu dfo=n-p-1 SSo/n-p (二)各偏回归系数d的显著性检验 p l Fa,=MSa: /MSo 其中MS,MS分别为各个偏回归平方和(均方,df=1)及离回归均方。由于正交性,Fd检验不显著 时,可直接从多项式回归方程中剔除,并将其自由度、平方和(MSa)并入离回归项中,以检验其余的 d。无须重新计算d 第三节正交多项式分析实例 正交多项式回归分析 例2、用镇痛药对小动物镇痛效果的研究中,得到关于用药后时间(x)和平均反映时间(y)的资料 如下,试配合一个适当的多项式回归方程 x(分)020406080100120 y(分)24.937.042.037534.028.125.9 因资料中x取等间隔数据n=7,公差h=20,故可用正交系数作多项式回归分析 1、x与y的点式图,以确定多项式的次数。由点式图可知,拟配以三次多项式回归方程
38 20 40 60 80 -1 0 1 2 -1 -2 -1 2 12/5 0 -12/5 6/5 -48/35 72/35 -48/35 12/35 由表 4—4 可见,φi(x)值并非全为整数,为避免小数运算时的麻烦,通常再引入一个适当的系数λi 使 ci=λiφi(x) (i=1,2,…,p) (4—13) 为绝对值尽可能小的整数,如表 4—3 中,取λ1=1,λ2=1,λ3=5/6,λ4=35/12。则 c3(第 3 列)=(― 1,2,0,―2,1)',c4=(1,―4,6,―4,1)'。 相应地由(4—7)式,计算的 di 可改写成: ( 1,2, , ) 2 di = ci y ci i = p (4—14) ( ) 1 ˆ i i i x p i y y d = = + (4—15) 不同观察值次数下的 p 次多项式 ci 已由学者编制成表,实际工作中直接引用即可。 二、正交多项式回归的显著性检验 (一)p 次式回归方程的显著性检验 p 次式回归平方和 SSU= d c y i i p i =1 dfU=p p 次式离回归平方和 SSQ=SSy-SSU dfQ=n-p-1 − −1 = SS n p SS p F Q U (二)各偏回归系数 di 的显著性检验 = = d i d i Q d i i i F MS MS MS c y c 2 2 ( ) (i=1,2,…,p) 其中 MSd i , MS Q 分别为各个偏回归平方和(均方,dfdi=1)及离回归均方。由于正交性,Fdi 检验不显著 时,可直接从多项式回归方程中剔除,并将其自由度、平方和( MSd i )并入离回归项中,以检验其余的 di。无须重新计算 di。 第三节 正交多项式分析实例 一、正交多项式回归分析 例 2、用镇痛药对小动物镇痛效果的研究中,得到关于用药后时间(x)和平均反映时间(y)的资料 如下,试配合一个适当的多项式回归方程。 x(分) 0 20 40 60 80 100 120 y(分) 24.9 37.0 42.0 37.5 34.0 28.1 25.9 因资料中 x 取等间隔数据 n=7,公差 h=20,故可用正交系数作多项式回归分析。 1、x 与 y 的点式图,以确定多项式的次数。由点式图可知,拟配以三次多项式回归方程。 y | 50 + |