第十章回归分析 ·回归分析方法是一种常用的数理统计方法,是处理 多个变量变之间相关的一种数学方法 在实际问题中我们常常会遇到多个变量同处于一 个过程之中,它们互相联系、互相制约在有的变量间 有完全确定的函数关系例如电压V、电阻R与电流I 之间有关系式V=R在圆面积S与半径R之间有关系 式S=兀R 自然界众多的变量之间,除了以上所说的那种确定 性的关系外,还有一类重要的关系,即所谓的相关关系 比如,人的身高与体重之间的关系虽然一个人的身高 并不能确定体重,但是总的说来,身高者体重也大我 们称身高与体重这两个变量具有相关 上页 下國回
• 在实际问题中我们常常会遇到多个变量同处于一 个过程之中,它们互相联系、互相制约.在有的变量间 有完全确定的函数关系,例如电压V、电阻R与电流I 之间有关系式:V=IR;在圆面积S与半径R之间有关系 式S=πR2 . • 自然界众多的变量之间,除了以上所说的那种确定 性的关系外,还有一类重要的关系,即所谓的相关关系. 比如,人的身高与体重之间的关系.虽然一个人的身高 并不能确定体重,但是总的说来,身高者,体重也大.我 们称身高与体重这两个变量具有相关关系. • 回归分析方法是一种常用的数理统计方法,是处理 多个变量变之间相关的一种数学方法. 第十章 回归分析
·实际上由于实验误差的影响即使是具有确定性 平关系的变量之间也常表现出某种程度的不确定性 回归分析方法是处理变量间相关关系的有力工 具它不仅为建立变量间关系的数学表达式(经验 金式腿供了般的方法而目还能判明建立的 公 控制等目的因此,回归分析方法的应用越来越 工工 广泛,其方法本身也在不断丰富和发展 上页
• 实际上,由于实验误差的影响,即使是具有确定性 关系的变量之间,也常表现出某种程度的不确定性. • 回归分析方法是处理变量间相关关系的有力工 具.它不仅为建立变量间关系的数学表达式(经验 公式)提供了一般的方法,而且还能判明所建立的 经验公式的有效性,从而达到利用经验公式预测、 控制等目的.因此,回归分析方法的应用越来越 广泛,其方法本身也在不断丰富和发展
§1一元线性回归 1-元线性回归模型 在一元线性回归分析里我们要考察随机变 量Y与一个普通变量x之间的联系 对于有一定联系的两个变量x与Y,通过观 工工工 测或实验得到n对数据 (x12Y1)2(x2,Y2) :.ann 用什么方法可以得到这两个变量之间的经验 公式呢?为此举例如下 上页
• 在一元线性回归分析里,我们要考察随机变 量Y与一个普通变量x之间的联系. §1.1 一元线性回归模型 • 对于有一定联系的两个变量:x与Y,通过观 测或实验得到n对数据 (x1 ,Y1 ), (x2 ,Y2 ), ...,(xn ,Yn ) 用什么方法可以得到这两个变量之间的经验 公式呢?为此举例如下: §1 一元线性回归
例:维尼纶纤维的耐热水性能好坏可以用指标“缩 醛化度”Y(克分子%来衡量这个指标越高耐热水 二性能也越好而甲醛浓度是影响缩醛化度的重要因 素在生产中常用甲醛浓度x(克/升)去控制这一指标 为此必须找出它们之间的关系现安排了一批试验, 获得如下数据 甲醛浓度18202224262830 午缩醛化度268612835128751287975130003036 ·若重复这些试验在同一甲醛浓度x下,所获得的缩 醛化度Y不完全一致这表明x与Y之间不能用一个 完全确定的函数关系来表达 上页
• 例:维尼纶纤维的耐热水性能好坏可以用指标“缩 醛化度”Y(克分子%)来衡量.这个指标越高,耐热水 性能也越好.而甲醛浓度是影响缩醛化度的重要因 素.在生产中常用甲醛浓度x(克/升)去控制这一指标. 为此必须找出它们之间的关系,现安排了一批试验, 获得如下数据: 甲醛浓度 18 20 22 24 26 28 30 缩醛化度 26.86 28.35 28.75 28.87 29.75 30.00 30.36 • 若重复这些试验,在同一甲醛浓度x下,所获得的缩 醛化度Y不完全一致.这表明x与Y之间不能用一个 完全确定的函数关系来表达
散点与近似直线图 31 30 29 28 27。 26 18202224262830x 上页
y 31 30 29 28 27 26 18 20 22 24 26 28 30 x 散点与近似直线图
王 为了看出它们之间是否有关及存在什么样的关系, 我们在直角坐标系下作出了这些点从图上可看出:随 甲醛浓度x的增加缩醛化度Y也增加,且这些点近似 在一条直线附近但又不完全在一条直线上引起这些 点与直线偏离的原因是由于在生产和测试过程中还 存在一些不可控的因素,它们都在影响着试验结果 王,这样我们可以把试验结果Y看成由两部分叠加而成 庄一部分是由的线性函数引起记为0另一部分是 由随机因素引起,记为 即 Y=a+bx+e 般假设随机误差eN(O,2)即 YNa+bx, 02) 上页
• 为了看出它们之间是否有关及存在什么样的关系, 我们在直角坐标系下作出了这些点,从图上可看出:随 甲醛浓度x的增加,缩醛化度Y也增加,且这些点近似 在一条直线附近,但又不完全在一条直线上.引起这些 点与直线偏离的原因是由于在生产和测试过程中还 存在一些不可控的因素,它们都在影响着试验结果. • 这样我们可以把试验结果Y看成由两部分叠加而成: 一部分是由x的线性函数引起,记为a+bx;另一部分是 由随机因素引起,记为ε,即 Y=a+bx+ε 一般假设随机误差ε~N(0,σ2 ).即 Y~ N(a+bx,σ2 )
王 在Y=a+bx+ε中x是一般变量,它可以精确测量或 可以加以控制Y是可观察其值的随机变量,ε 出N(0a3)是不可观察的随机变量,ab是未知参数 为了获得未知参数a,b的估计,需要进行若干次独 立试验设试验结果为 (x1,Y1)2(x2Y2),…(xn2Yn) 则Y1atbx1+81ε1~N(0,02 Y,=a+bx2+8 N(0,02) Yn=a+bxn+en nN(O, 02) 这里1y,相互独立这就是一元线性回归模型 上
• 在Y=a+bx+ε中,x是一般变量,它可以精确测量或 可以加以控制,Y是可观察其值的随机变量, ε~ N(0,σ2 )是不可观察的随机变量, a,b是未知参数. • 为了获得未知参数a,b的估计,需要进行若干次独 立试验.设试验结果为 (x1 ,Y1 ), (x2 ,Y2 ), ...,(xn ,Yn ) • 则 Y1=a+bx1+ε1 ε1~ N(0,σ2 ) Y2=a+bx2+ε2 ε2~ N(0,σ2 ) Yn=a+bxn+εn εn~ N(0,σ2 ) 这里ε1 ,..., εn相互独立.这就是一元线性回归模型
士 §12经验公式与最小二乘法 °设给定n个点 (xLvi, (x2, 22),...... (rnDn) 那么对于平面上任意一条直线l y=a+bx °我们用数量 Ly(a+bx,12 千来刻画点(x)到直线的远近程度(利用解析几何知 识不难看出,yx(a+bx)的几何意义是点(x)沿着 平行于y轴的方向到最短距离而不是沿着垂直于1 的方向到的最短距离 上页
• 设给定n个点 (x1 ,y1 ),(x2 ,y2 ),……,(xn ,yn ) 那么对于平面上任意一条直线l: y=a+bx §1.2 经验公式与最小二乘法 • 我们用数量 [yt -(a+bxt )]2 来刻画点(xt ,yt )到直线l的远近程度(利用解析几何知 识不难看出,|yt -(a+bxt )|的几何意义是点(xt ,yt )沿着 平行于y轴的方向到l的最短距离,而不是沿着垂直于l 的方向到l的最短距离)
王 王*于是 ∑[y-(a+bx) t=1 平就定量地描述了直线这n个点的总的远近程度 上这个量是随着不同的直线而且变化,或是说是随 不同的a与b而变化的,也就是说它是ab的二元函 数记为Q(ab p(a b)=21, -(a+ bx )I 上页
= − + n t t a bxt y 1 2 [ ( )] 于是 就定量地描述了直线l跟这n个点的总的远近程度. 这个量是随着不同的直线而且变化,或是说是随 不同的a与b而变化的,也就是说它是a,b的二元函 数,记为Q(a,b): = = − + n t t a bxt Q a b y 1 2 ( , ) [ ( )]
于是,要找一条直线使得它总的来看最“接近 ”这n个点的问题,就转化为以下的问题 找两个数a,b使二元函数Q(a,b)在 a=ab=b 处达到是最小 由于Q(a,b)是n个数的平方和所以使Q(a,b) 牛最小的原则称为平方和最小原则习惯上称为最小 王二乘原则根据最小二乘原则找ab的方法称为最小 二乘法 上页
• 于是,要找一条直线使得它总的来看最“接近 ”这n个点的问题,就转化为以下的问题: . ˆ ˆ, ( , ) ˆ ˆ, 处达到是最小 找两个数 使二元函数 在 a a b b a b Q a b = = . ˆ . ˆ, , ( , ) , ( , ) 二乘法 二乘原则根据最小二乘原则找 的方法称为最小 最小的原则称为平方和最小原则 习惯上称为最小 由于 是 个数的平方和 所以使 a b Q a b n Q a b