《数学建模》算法全收录（算法大全）：第12章回归分析.pdf_大学文库

-226- 第十二章回归分析前面我们讲过曲线拟合问题。曲线拟合问题的特点是，根据得到的若干有关变量的一组数据，寻找因变量与（一个或几个）自变量之间的一个函数，使这个函数对那组数据拟合得最好。通常，函数的形式可以由经验、先验知识或对数据的直观观察决定，要作的工作是由数据用最小二乘法计算函数中的待定系数。从计算的角度看，问题似乎已经完全解决了，还有进一步研究的必要吗? 从数理统计的观点看，这里涉及的都是随机变量，我们根据一个样本计算出的那些系数，只是它们的一个（点）估计，应该对它们作区间估计或假设检验，如果置信区间太大，甚至包含了零点，那么系数的估计值是没有多大意义的。另外也可以用方差分析方法对模型的误差进行分析，对拟合的优劣给出评价。简单地说，回归分析就是对拟合问题作的统计分析。具体地说，回归分析在一组数据的基础上研究这样几个问题：（i）建立因变量 y 与自变量 m x , x , , x 1 2 L 之间的回归模型（经验公式）；（ii）对回归模型的可信度进行检验；（iii）判断每个自变量 x (i 1,2, ,m) i = L 对 y 的影响是否显著；（iv）诊断回归模型是否适合这组数据；（v）利用回归模型对 y 进行预报或控制。 §1 数据表的基础知识 1.1 样本空间在本章中，我们所涉及的均是样本点×变量类型的数据表。如果有 m 个变量 m x , x , , x 1 2 L ，对它们分别进行了 n 次采样（或观测），得到n 个样本点 ( , , , ) i1 i2 im x x L x ，i =1,2,L, n 则所构成的数据表 X 可以写成一个 n× m 维的矩阵。 ⎥ ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎢ ⎣ ⎡ = × = T n T ij n m e e X x M 1 ( ) 式中 T m ei = (xi1, xi2 ,L, xim ) ∈ R ，i = 1,2,L, n ， i e 被称为第i 个样本点。样本的均值为 ( , , , ) 1 2 m x = x x L x ， ∑= = n i j ij x n x 1 1 ， j = 1,2,L,m 样本协方差矩阵及样本相关系数矩阵分别为 T k n k ij m m k e x e x n S s ( )( ) 1 1 ( ) 1 − − − = = ∑= × ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ = × = ii jj ij ij m m s s s R (r ) 其中

-233- 的模型（ i i y x 0 1 ˆ ˆ ˆ = β + β ）来较好地拟合观测值 i y ？用 i i y x 0 1 ˆ ˆ ˆ = β + β 能否较好地反映（或者说解释） i y 值的取值变化？回归方程的质量如何？误差多大？对这些，都必须予以正确的评估和分析。 2.3.1 残差的样本方差记残差 i i i e = y − yˆ ，i =1,2,L, n 残差的样本均值为 ( ˆ ) 0 1 1 = ∑ − = = n i i i y y n e 残差的样本方差为 ∑ ∑ ∑ = = = − − = − − = − = n i i i n i i n i i y y n e n e e n MSE 1 2 1 2 1 2 ( ˆ ) 2 1 2 1 ( ) 2 1 由于有 0 1 ∑ = = n i i e 和 0 1 ∑ = = n i i i x e 的约束，所以，残差平方和有(n − 2)个自由度。可以证明，在对 ∑= n i i e 1 2 除以其自由度 (n − 2) 后得到的 MSE ，是总体回归模型中 ( ) 2 Var i σ = ε 的无偏估计量。记 ∑ − = = = n i e i e n S MSE 1 2 2 1 （13）一个好的拟合方程，其残差总和应越小越好。残差越小，拟合值与观测值越接近，各观测点在拟合直线周围聚集的紧密程度越高，也就是说，拟合方程 y x 0 1 ˆ ˆ ˆ = β + β 解释 y 的能力越强。另外，当 Se 越小时，还说明残差值 i e 的变异程度越小。由于残差的样本均值为零，所以，其离散范围越小，拟合的模型就越为精确。 2.3.2 判定系数（拟合优度）对应于不同的 i x 值，观测值 i y 的取值是不同的。建立一元线性回归模型的目的，就是试图以 x 的线性函数（ x 0 1 β ˆ β ˆ + ）来解释 y 的变异。那么，回归模型 y x 0 1 ˆ ˆ ˆ = β + β 究竟能以多大的精度来解释 y 的变异呢？又有多大部分是无法用这个回归方程来解释的呢？ n y , y , , y 1 2 L 的变异程度可采用样本方差来测度，即 ∑= − − = n i i y y n s 1 2 2 ( ) 1 1 根据式（10），拟合值 n yˆ , yˆ , , yˆ 1 2 L 的均值也是 y ，其变异程度可以用下式测度 ∑= − − = n i i y y n s 1 2 2 ( ˆ ) 1 1 ˆ 下面看一下 2 s 与 2 sˆ 之间的关系，有

-234- ∑ ∑ ∑ ∑ = = = = − = − + − + − − n i i i i n i i n i i i n i i y y y y y y y y y y 1 1 2 1 2 1 2 ( ) ( ˆ ) ( ˆ ) 2 ( ˆ )( ˆ ) 由于 ∑ ∑ = = − − = − − + − n i i i i n i i i i y y y y y x x y 1 0 1 0 1 1 ) ˆ ˆ )( ˆ ˆ ( ˆ )( ˆ ) ( β β β β ) 0 ˆ ˆ ) ( ˆ ˆ ( ˆ ) ˆ ˆ ( ˆ 1 0 1 1 1 0 1 1 = 0∑ − 0 − 1 + ∑ − − − ∑ − − = = = = n i i i n i i i i n i i i β y β β x β x y β β x y y β β x 因此，得到正交分解式为 ∑ ∑ ∑ = = = − = − + − n i i i n i i n i i y y y y y y 1 2 1 2 1 2 ( ) ( ˆ ) ( ˆ ) （14）记 ∑= = − n i i SST y y 1 2 ( ) ，这是原始数据 i y 的总变异平方和，其自由度为 df = n −1 T ； ∑= = − n i i SSR y y 1 2 ( ˆ ) ，这是用拟合直线 i i y x 0 1 ˆ ˆ ˆ = β + β 可解释的变异平方和，其自由度为 = 1 R df ； ∑= = − n i i i SSE y y 1 2 ( ˆ ) ，这是残差平方和，其的自由度为 df = n − 2 E 。所以，有 SST = SSR + SSE ， T R E df = df + df 从上式可以看出，y 的变异是由两方面的原因引起的；一是由于 x 的取值不同，而给 y 带来的系统性变异；另一个是由除 x 以外的其它因素的影响。注意到对于一个确定的样本（一组实现的观测值），SST 是一个定值。所以，可解释变异 SSR 越大，则必然有残差 SSE 越小。这个分解式可同时从两个方面说明拟合方程的优良程度：（1）SSR 越大，用回归方程来解释 i y 变异的部分越大，回归方程对原数据解释得越好；（2）SSE 越小，观测值 i y 绕回归直线越紧密，回归方程对原数据的拟合效果越好。因此，可以定义一个测量标准来说明回归方程对原始数据的拟合程度，这就是所谓的判定系数，有些文献上也称之为拟合优度。判定系数是指可解释的变异占总变异的百分比，用 2 R 表示，有 (1 ) 2 SST SSE SST SSR R = = − （15）从判定系数的定义看， 2 R 有以下简单性质：（1）0 1 2 ≤ R ≤ ；（2）当 1 2 R = 时，有 SSR = SST ，也就是说，此时原数据的总变异完全可以由拟合值的变异来解释，并且残差为零（ SSE = 0 ），即拟合点与原数据完全吻合；（3）当 0 2 R = 时，回归方程完全不能解释原数据的总变异， y 的变异完全由与 x

-235- 无关的因素引起，这时 SSE = SST 。测定系数时一个很有趣的指标：一方面它可以从数据变异的角度指出可解释的变异占总变异的百分比，从而说明回归直线拟合的优良程度；另一方面，它还可以从相关性的角度，说明原因变量 y 与拟合变量 yˆ 的相关程度，从这个角度看，拟合变量 yˆ 与原变量 y 的相关度越大，拟合直线的优良度就越高。看下面的式子 ( , ˆ) ( ) ( ˆ ) ( ˆ )( ˆ ) ( ) ( ˆ ) 2 1 2 1 2 2 1 1 2 1 2 2 r y y y y y y y e y y y y y y y SST SSR R n i i n i i n i i i i n i i n i i = − − ⎥ ⎦ ⎤ ⎢ ⎣ ⎡ + − − = − − = = ∑ ∑ ∑ ∑ ∑ = = = = = （16）在推导中，注意有 ( ˆ ) ˆ 0 1 1 1 ∑ − = ∑ − ∑ = = = = n i i n i i i n i i i e y y e y y e 所以， 2 R 又等于 y 与拟合变量 yˆ 的相关系数平方。还可以证明， 2 R 等于 y 与自变量 x 的相关系数，而相关系数的正、负号与回归系数 1 β ˆ 的符号相同。 2.4 显著性检验 2.4.1 回归模型的线性关系检验在拟合回归方程之前，我们曾假设数据总体是符合线性正态误差模型的，也就是说， y 与 x 之间的关系是线性关系，即 i i i y = β + β x + ε 0 1 ， ~ (0, ) 2 ε i N σ ，i =1,2,L, n 然而，这种假设是否真实，还需进行检验。对于一个实际观测的样本，虽然可以用判定系数 2 R 说明 y 与 yˆ 的相关程度，但是，样本测度指标具有一定的随机因素，还不足以肯定 y 与 x 的线性关系。假设 y 与 x 之间存在线性关系，则总体模型为 i i i y = β + β x + ε 0 1 ，i = 1,2,L, n 如果 0 β1 ≠ ，则称这个模型为全模型。用最小二乘法拟合全模型，并求出误差平方和为 ∑= = − n i i i SSE y y 1 2 ( ˆ ) 现给出假设 H0 : β1 = 0。如果 H0 假设成立，则 i i y = β + ε 0 这个模型被称为选模型。用最小二乘法拟合这个模型，则有 0 ˆ β1 = = y − x = y 0 0 β ˆ β ˆ 因此，对所有的i = 1,2,L, n ，有

《数学建模》算法全收录（算法大全）：第12章 回归分析

《数学建模》算法全收录（算法大全）：第12章回归分析