§3一元线性回归
2 §3 一元线性回归
在客观世界中普遍存在着变量之间的关系.变 量之间的关系一般来说可分为确定性的与非 确定性的两种.确定性关系是指变量之间的关 系可以用函数关系来表达的另一种非确定性 的关系即所谓相关关系.例如人的身高与体重 之间存在着关系,一般来说,人高一些,体重要 重一些,但同样高度的人,体重往往不相同.人 的血压与年龄之间也存在着关系,但同年龄的 人的血压往往不同这些变量关系都是非确定 性的.回归分析是研究相关关系的一种数学工 具.能够帮助我们从一个变量取得的值估计另 变量所取的值
3 在客观世界中普遍存在着变量之间的关系. 变 量之间的关系一般来说可分为确定性的与非 确定性的两种. 确定性关系是指变量之间的关 系可以用函数关系来表达的. 另一种非确定性 的关系即所谓相关关系. 例如人的身高与体重 之间存在着关系, 一般来说, 人高一些, 体重要 重一些, 但同样高度的人, 体重往往不相同. 人 的血压与年龄之间也存在着关系, 但同年龄的 人的血压往往不同. 这些变量关系都是非确定 性的. 回归分析是研究相关关系的一种数学工 具. 能够帮助我们从一个变量取得的值估计另 一变量所取的值
)一元线性回归设随机变量Y与x之间存在 着某种相关关系这里,x是可以控制或可以精 确观察的变量,如年龄,试验时的温度,施加的 压力,电压与时间等等即可以随意指定n个 值x1x2y…xn因此干脆不把看成随机变量,而 将它当作普通的变量 若Y的数学期望E(Y)存在,其值随x的取值而 定,是x的函数,将此函数记为yx或山(x),称 为Y关于x的回归函数,讨论E(Y)=1(x)与x的函 数关系
4 (一)一元线性回归 设随机变量Y与x之间存在 着某种相关关系. 这里, x是可以控制或可以精 确观察的变量, 如年龄, 试验时的温度, 施加的 压力, 电压与时间等等. 即可以随意指定n个 值x1 ,x2 ,...,xn . 因此干脆不把x看成随机变量, 而 将它当作普通的变量. 若Y的数学期望E(Y)存在, 其值随x的取值而 定, 是x的函数, 将此函数记为mY|x 或 m(x), 称 为Y关于x的回归函数, 讨论E(Y)=m(x)与x的函 数关系
对x取定一组不完全相同的值x1x2y…xm,设 Y1,2,Yn分别是在x1x2y,n处对Y的独立观 察的结果,称 (x1,Y1)x2,Y2),…,(xn,Yn)(3.1) 是一个样本,对应的样本值记为 229nn 现希望知道x)的形式,在一些问题中,可由 专业知识知道,否则,可将每对观察值xp)在 直角坐标系中描出它的相应的点,这种图称为 散点图
5 对x取定一组不完全相同的值x1 ,x2 ,...,xn , 设 Y1 ,Y2 ,...,Yn分别是在x1 ,x2 ,...,xn处对Y的独立观 察的结果, 称 (x1 ,Y1 ),(x2 ,Y2 ),...,(xn ,Yn ) (3.1) 是一个样本, 对应的样本值记为 (x1 ,y1 ),(x2 ,y2 ),...,(xn ,yn ). 现希望知道m(x)的形式, 在一些问题中, 可由 专业知识知道, 否则, 可将每对观察值(xi ,yi )在 直角坐标系中描出它的相应的点, 这种图称为 散点图
例1为研究某一化学反应过程中,温度x(°C) 对产品得率Y%)的影响,测得数据如下 温度 100110120130140150160170180190 得率Y%)45515461667074788589 100 80 60 40 100120140160180200
6 例1 为研究某一化学反应过程中, 温度x(°C) 对产品得率Y(%)的影响, 测得数据如下. 温度 x(°C) 100 110 120 130 140 150 160 170 180 190 得率Y(%) 45 51 54 61 66 70 74 78 85 89 40 60 80 100 100 120 140 160 180 200
这里自变量x是普通变量,Y是随机变量由散 点图大致看出(x)具有线性函数a+bx的形式 设Y关于x的回归函数为x)利用样本来估计 p(x)的间题称为求Y关于x的回归问题特别, 若x)为线性函数:p(x)=a+bx,此时估计(x) 的问题称为求一元线性回归问题
7 这里自变量x是普通变量, Y是随机变量. 由散 点图大致看出m(x)具有线性函数a+bx的形式. 设Y关于x的回归函数为m(x). 利用样本来估计 m(x)的问题称为求Y关于x的回归问题. 特别, 若m(x)为线性函数: m(x)=a+bx, 此时估计m(x) 的问题称为求一元线性回归问题
假设对于x(在某个区间内)的每个值有 YNa+bx, o) 其中a,b及a都是不依赖于x的未知参数记 6=Y-(a+bx),对Y作这样的正态假设,相当于假 设 Y=a+bx+6,aN(0,a2), (32) 其中未知参数a,b及都不依赖于x.(3.2)称为 一元线性回归模型,其中b称为回归系数 则Y由两部分组成,一部分是x的线性函数 a+bx,另一部分aN(0,a)是随机误差,是人们 不可控制的
8 假设对于x(在某个区间内)的每个值有 Y~N(a+bx, s2 ), 其中a,b及s2都是不依赖于x的未知参数. 记 e=Y-(a+bx), 对Y作这样的正态假设, 相当于假 设 Y=a+bx+e, e~N(0,s2 ), (3.2) 其中未知参数a,b及s2都不依赖于x. (3.2)称为 一元线性回归模型, 其中b称为回归系数. 则Y由两部分组成, 一部分是x的线性函数 a+bx, 另一部分e~N(0,s2 )是随机误差, 是人们 不可控制的
(二)a,b的估计取x的n个不全相同的值 1%29 n作独立试验,得到样本 (x1,Y1),(x2,Y2),…,( nn 由(32)式 Y=a+bx+E,E~N0,2),各E相互独立,(3,3) 于是y~Na+bx2),=1,2,…,n.由Y1,Y2…,Yn的 独立性知Y1,Y2,…,Yn的联合密度为 n L 1ex20 (y2-a-bx)2 O√2丌 n exp O√2 1x(n-a-bx)2(3.4) 2 2
9 (二)a,b的估计 取x的n个不全相同的值 x1 ,x2 ,...,xn作独立试验, 得到样本 (x1 ,Y1 ),(x2 ,Y2 ),...,(xn ,Yn ). 由(3.2)式 Yi=a+bxi+ei , ei~N(0,s2 ), 各ei相互独立, (3,3) 于是Yi~N(a+bxi ,s2 ), i=1,2,...,n. 由Y1 ,Y2 ,...,Yn的 独立性知Y1 ,Y2 ,...,Yn的联合密度为 ( ) . (3.4) 2 1 exp 2 1 ( ) 2 1 exp 2 1 1 2 2 1 2 2 - - - = = - - - = = n i i i n n i i i y a bx L y bx s s s s
现用最大似然估计法来估计未知参数a,b对 于任意一组观察值v132…yn2(3.4)式就是样本 的似然函数显然,要L取最大值,只要(34)右 端方括弧中的平方和部分为最小,即只需 Q(a,)=∑(-a-b)2(3.5) 取最小值令Q关于a,b的偏导数等于零: Q 2∑(y-a-bx)=0 a (3.6) a0 b =-2(-a-bx)x1=0
10 现用最大似然估计法来估计未知参数a,b. 对 于任意一组观察值y1 ,y2 ,...,yn , (3.4)式就是样本 的似然函数. 显然, 要L取最大值, 只要(3.4)右 端方括弧中的平方和部分为最小, 即只需 ( , ) ( ) (3.5) 1 2 = = - - n i i i Q a b y a bx (3.6) 2 ( ) 0. 2 ( ) 0, 1 1 = - - - = = - - - = = = n i i i i n i i i y a bx x b Q y a bx a Q 取最小值. 令Q关于a,b的偏导数等于零:
得方程组 na+>x 1b i=1 (3.7 n x: la+ 2b=∑x;y (37)式称为正规方程组
11 得方程组 (3.7) . 1 1 2 1 1 1 = + = + = = = = = n i i i n i i n i i n i i n i i x a x b x y na x b y (3.7)式称为正规方程组