第十章回归分析 回归分析方法是一种常用的数理统计方法,是处理 多个变量变之间相关的一种数学方法 在实际问题中我们常常会遇到多个变量同处于 个过程之中它们互相联系、互相制约在有的变量间 上有完全确定的函数关系例如电压V、电阻R与电流I 之间有关系式V=R在圆面积S与半径R之间有关系 中式S=mR2 自然界众多的变量之间,除了以上所说的那种确定 出性的关系外还有一类重要的关系,即所谓的相关关系 比如人的身高与体重之间的关系虽然一个人的身高 c并不能确定体重但是总的说来身高者体重也大我 们称身高与体重这两个变量具有相关关系 上页
• 在实际问题中我们常常会遇到多个变量同处于一 个过程之中,它们互相联系、互相制约.在有的变量间 有完全确定的函数关系,例如电压V、电阻R与电流I 之间有关系式:V=IR;在圆面积S与半径R之间有关系 式S=πR2 . • 自然界众多的变量之间,除了以上所说的那种确定 性的关系外,还有一类重要的关系,即所谓的相关关系. 比如,人的身高与体重之间的关系.虽然一个人的身高 并不能确定体重,但是总的说来,身高者,体重也大.我 们称身高与体重这两个变量具有相关关系. • 回归分析方法是一种常用的数理统计方法,是处理 多个变量变之间相关的一种数学方法. 第十章 回归分析
·实际上,由于实验误差的影响即使是具有确定性 关系的变量之间,也常表现出某种程度的不确定性. 回归分析方法是处理变量间相关关系的有力工 具它不仅为建立变量间关系的数学表达式(经验 公式提供了一般的方法而且还能判明所建立的 经验公式的有效性从而达到利用经验公式预测 控制等目的因此,回归分析方法的应用越来越 广泛,其方法本身也在不断丰富和发展 上或
• 实际上,由于实验误差的影响,即使是具有确定性 关系的变量之间,也常表现出某种程度的不确定性. • 回归分析方法是处理变量间相关关系的有力工 具.它不仅为建立变量间关系的数学表达式(经验 公式)提供了一般的方法,而且还能判明所建立的 经验公式的有效性,从而达到利用经验公式预测、 控制等目的.因此,回归分析方法的应用越来越 广泛,其方法本身也在不断丰富和发展
§1一元线性回归 §1-元线性回归模型 在一元线性回归分析里我们要考察随机变 量Y与一个普通变量x之间的联系、 对于有一定联系的两个变量x与Y,通过观 中测或实验得到n对数据 (x1,Y1)2(x2,Y2)2,(xn2Yn) 用什么方法可以得到这两个变量之间的经验 公式呢?为此举例如下: 上或
• 在一元线性回归分析里,我们要考察随机变 量Y与一个普通变量x之间的联系. §1.1 一元线性回归模型 • 对于有一定联系的两个变量:x与Y,通过观 测或实验得到n对数据 (x1 ,Y1 ), (x2 ,Y2 ), ...,(xn ,Yn ) 用什么方法可以得到这两个变量之间的经验 公式呢?为此举例如下: §1 一元线性回归
例:维尼纶纤维的耐热水性能好坏可以用指标“缩 醛化度”Y(克分子%)来衡量这个指标越高,耐热水 性能也越好而甲醛浓度是影响缩醛化度的重要因 素在生产中常用甲醛浓度x(克升)去控制这一指标、 为此必须找出它们之间的关系现安排了一批试验 获得如下数据: 甲醛浓度18202224262830 缩醛化度268628352875288729753003036 王·若重复这些试验在同一甲醛浓度x下所获得的缩 醛化度Y不完全一致这表明x与Y之间不能用一个 完全确定的函数关系来表达
• 例:维尼纶纤维的耐热水性能好坏可以用指标“缩 醛化度”Y(克分子%)来衡量.这个指标越高,耐热水 性能也越好.而甲醛浓度是影响缩醛化度的重要因 素.在生产中常用甲醛浓度x(克/升)去控制这一指标. 为此必须找出它们之间的关系,现安排了一批试验, 获得如下数据: 甲醛浓度 18 20 22 24 26 28 30 缩醛化度 26.86 28.35 28.75 28.87 29.75 30.00 30.36 • 若重复这些试验,在同一甲醛浓度x下,所获得的缩 醛化度Y不完全一致.这表明x与Y之间不能用一个 完全确定的函数关系来表达
散点与近似直线图 y 31 30 28 27 26 18202224262830X 上或
y 31 30 29 28 27 26 18 20 22 24 26 28 30 x 散点与近似直线图
王 为了看出它们之间是否有关及存在什么样的关系, 我们在直角坐标系下作出了这些点,从图上可看出随 平甲醛浓度的增加缩醛化度Y也增加且这些点近似 在一条直线附近但又不完全在一条直线上引起这些 平点与直线偏离的原因是由于在生产和测试过程中还 上存在一些不可控的因素它们都在影响着试验结果 这样我们可以把试验结果Y看成由两部分叠加而成 部分是由x的线性函数引起记为a+bx,另一部分是 中由随机因素引起记为,即 Y=a+bx+e 一般假设随机误差NOG)即 YNa+bx, 02) 上或
• 为了看出它们之间是否有关及存在什么样的关系, 我们在直角坐标系下作出了这些点,从图上可看出:随 甲醛浓度x的增加,缩醛化度Y也增加,且这些点近似 在一条直线附近,但又不完全在一条直线上.引起这些 点与直线偏离的原因是由于在生产和测试过程中还 存在一些不可控的因素,它们都在影响着试验结果. • 这样我们可以把试验结果Y看成由两部分叠加而成: 一部分是由x的线性函数引起,记为a+bx;另一部分是 由随机因素引起,记为ε,即 Y=a+bx+ε 一般假设随机误差ε~N(0,σ2 ).即 Y~ N(a+bx,σ2 )
王 在Y=a+bx+ε中x是一般变量它可以精确测量或 可以加以控制Y是可观察其值的随机变量,ε 出N0G)是不可观察的随机变量,ab是未知参数 .为了获得未知参数a的估计,需要进行若干次独 立试验设试验结果为 (x1,Y1),(x2,Y2),…,(xn2Yn) 王.则Y abx+e18r~N(0,02) Y2=a+bx2+8282~N(0,02) Yn=a+bxn+en En-NO, 02) 不这里12相互独立这就是一元线性回归模型 上或
• 在Y=a+bx+ε中,x是一般变量,它可以精确测量或 可以加以控制,Y是可观察其值的随机变量, ε~ N(0,σ2 )是不可观察的随机变量, a,b是未知参数. • 为了获得未知参数a,b的估计,需要进行若干次独 立试验.设试验结果为 (x1 ,Y1 ), (x2 ,Y2 ), ...,(xn ,Yn ) • 则 Y1=a+bx1+ε1 ε1~ N(0,σ2 ) Y2=a+bx2+ε2 ε2~ N(0,σ2 ) Yn=a+bxn+εn εn~ N(0,σ2 ) 这里ε1 ,..., εn相互独立.这就是一元线性回归模型
§12经验公式与最小二乘法 °设给定n个点 (x11).(x2y2) Dn,n 上那么对于平面上任意一条直线4 y=a+bx 我们用数量 Dy(a+bxd] 来刻画点(x3y)到直线l的远近程度(利用解析几何知 不识不难看出,y(a+bx)|的几何意义是点(x沿着 平行于y轴的方向到的最短距离,不是沿着垂直于1 c的方向到的最短距离) 上或
• 设给定n个点 (x1 ,y1 ),(x2 ,y2 ),……,(xn ,yn ) 那么对于平面上任意一条直线l: y=a+bx §1.2 经验公式与最小二乘法 • 我们用数量 [yt -(a+bxt )]2 来刻画点(xt ,yt )到直线l的远近程度(利用解析几何知 识不难看出,|yt -(a+bxt )|的几何意义是点(xt ,yt )沿着 平行于y轴的方向到l的最短距离,而不是沿着垂直于l 的方向到l的最短距离)
王*于是 ∑[y-(a+bx)2 t=1 就定量地描述了直线碾这n个点的总的远近程度 这个量是随着不同的直线而且变化,或是说是随 不同的a与b而变化的也就是说它是ab的二元函 c数记为Qab o(@, b)=>Ly-(a+ bx,) t=1 上或
= − + n t t a bxt y 1 2 [ ( )] 于是 就定量地描述了直线l跟这n个点的总的远近程度. 这个量是随着不同的直线而且变化,或是说是随 不同的a与b而变化的,也就是说它是a,b的二元函 数,记为Q(a,b): = = − + n t t a bxt Q a b y 1 2 ( , ) [ ( )]
于是,要找一条直线使得它总的来看最“接近 这n个点的问题,就转化为以下的问题: 找两个数ab使二元函数Q(a,b)在 a=ab=b 处达到是最小 由于Q(a,b)是n个数的平方和所以使Q(a,b) 牛最小的原则称为平方和最小原则习惯上称为最小 二乘原则根据最小二乘原则找的方法称为最小 二乘法 上或
• 于是,要找一条直线使得它总的来看最“接近 ”这n个点的问题,就转化为以下的问题: . ˆ ˆ, ( , ) ˆ ˆ, 处达到是最小 找两个数 使二元函数 在 a a b b a b Q a b = = . ˆ . ˆ, , ( , ) , ( , ) 二乘法 二乘原则根据最小二乘原则找 的方法称为最小 最小的原则称为平方和最小原则 习惯上称为最小 由于 是 个数的平方和 所以使 a b Q a b n Q a b