变量间的关系一般来说,可分为两种 1.确定性关系:即“函数关系”,如 C=2m或S=m7 2.非确定性关系: 如(1)污染程度与污染源距离 (2)舒张压与年龄 (3)人的身高与体重 (4)药物剂量与动物死亡率 回归与相关就是研究此类问题的统计方法
变量间的关系一般来说,可分为两种: 1.确定性关系:即“函数关系”,如 或 2.非确定性关系: 如(1)污染程度与污染源距离 (2)舒张压与年龄 (3)人的身高与体重 (4)药物剂量与动物死亡率 回归与相关就是研究此类问题的统计方法 2 s = r
第 直线回归 “回归”的由来 F. Galton K Pearson x一每对夫妇的平均身高(英寸 y一成年儿子的身高(英寸) y=3373+0516x
第一节 直线回归 一、 “回归”的由来 F.Galton K.Pearson 每对夫妇的平均身高(英寸) 成年儿子的身高(英寸) y = 33.73+ 0.516x
X=68y=69 E(72)=yxn2=71 E(Y64)=yx54=67
( 64) 67 6 4 = = E Y Y X = ( 72) 71 7 2 = = E Y Y X = X = 68 Y = 69
二、线性回归基本概念 当一个变量X改变时,另一个变量Y也 相应地改变,此时称X为自变量 (independent variable) Y为应变量( dependentvar iab|e) 自变量X:可随机变动亦可人为取值。 因(应)变量Y:被视为依赖于X而变化的 反应变量。在X的数值确定时按某种规律 随机变动
二、线性回归基本概念 当一个变量X改变时,另一个变量Y也 相应地改变,此时称X为自变量 (independent variable), Y为应变量(dependentvariable)。 自变量X:可随机变动亦可人为取值。 因(应)变量Y:被视为依赖于X而变化的 反应变量。在X的数值确定时按某种规律 随机变动
可见,各散点通常并不会恰好在一条 直线上,但反映出两变量的线性趋势。我 们可以假定,相对于X各个取值,相应的Y 的总体均数位于一条直线上,与X之间数量 上的线性依存关系就称为线性回归。这样 我们就可以用某个恰当的线性回归方程 linear regression equation)来描述Y的总体 均数依赖于X的数值变化 u,r=a+ Br
可见,各散点通常并不会恰好在一条 直线上,但反映出两变量的线性趋势。我 们可以假定,相对于X各个取值, 相应的Y 的总体均数位于一条直线上,与X之间数量 上的线性依存关系就称为线性回归。这样 我们就可以用某个恰当的线性回归方程 (linear regression equation)来描述Y的总体 均数依赖于X的数值变化:
以Y表示的一个样本估计值, 即Ⅹ确定时Y的样本均数,样本回归方程 的一般表达式可写为: Y=a+bX
以 表示 的一个样本估计值, 即X确定时Y的样本均数,样本回归方程 的一般表达式可写为: y|x