第九章方差分析与回归分析 本章研究的主要问题: 1.有关单因素和多因素非简单试验的统计分析方法 多处理的正态总体参数估计和均值比较。 2.对输入变量与试验指标之间存在的统计因果关系和 协同变异问题进行统计分析的方法 回归分析和相 关分析。 涉及的理论模型:线性模型 所用到主要方法:最小二乘法
第九章 方差分析与回归分析 本章研究的主要问题: 1. 有关单因素和多因素非简单试验的统计分析方法 多处理的正态总体参数估计和均值比较。 2. 对输入变量与试验指标之间存在的统计因果关系和 协同变异问题进行统计分析的方法 回归分析和相 关分析。 涉及的理论模型:线性模型 所用到主要方法:最小二乘法
第一节单因素试验的方差分析 术语:试验指标、因素、水平教材p270 单因素随机试验:只考察一个因素A,试验的水平有 a个:A1,A A2。设A的重复数(样本容量) 为r1,=1,2,…,a。总试验次数为 ∑7=n,特别,当=2= r,有c =n。 前提假设:所有试验单元的试验条件一致(元系统 误差)。 方差分析的作用 1.通过对试验数据的统计分析,推断造成试验数据 间的差异的原因是试验水平差异还是随机误差的影
第一节 单因素试验的方差分析 单因素随机试验:只考察一个因素A,试验的水平有 a 个:A1,A2,…Aa 。设Ai的重复数(样本容量) 为ri,i=1,2,…,a 。总试验次数为 r n,特别,当r r ra r,有ar n。 a i i = = = = = = = 1 2 1 前提假设:所有试验单元的试验条件一致(无系统 误差)。 方差分析的作用: 1. 通过对试验数据的统计分析,推断造成试验数据 间的差异的原因是试验水平差异还是随机误差的影 响。 术语:试验指标、因素、水平 教材p270
2.推断哪些因素的影响是显著的。 3.分析出“最佳”的试验水平(固定模型);或估 计总体变量的参数(随机模型) 方差分析与假设检验的区别: 方差分析能同时检验多个总体的某个参数(如均 值)是否相等,而假设检验每次只能检验两个总体 的某个参数是否相等。 方差分析与回归分析的区别: 回归分析主要是为了得到自变量与因变量之间的定 量关系 回归方程。回归系数显著性讨论的目的 是把影响不显著的自变量从回归方程中剔除,以提高 回归方程的稳健性,使预测更加精确可靠
2. 推断哪些因素的影响是显著的。 3. 分析出“最佳”的试验水平(固定模型);或估 计总体变量的参数(随机模型)。 方差分析与假设检验的区别: 方差分析能同时检验多个总体的某个参数(如均 值)是否相等,而假设检验每次只能检验两个总体 的某个参数是否相等。 方差分析与回归分析的区别: 1. 回归分析主要是为了得到自变量与因变量之间的定 量关系 回归方程。回归系数显著性讨论的目的, 是把影响不显著的自变量从回归方程中剔除,以提高 回归方程的稳健性,使预测更加精确可靠
方差分析则是用于区分因素对试验指标影响的显 著程度及影响大小,从而找出“最佳”的试验水平。 2.回归分析要求因素(输入)变量是定量的,而方差 分析则不要求因素(输入)变量是定量的。 3.回归分析要求对所有试验水平都进行相应的试验 而方差分析则只需有选择地对某些试验水平进行试 验(如正交设计)。 第三节一元线性回归 社会经济现象中相互影响或相互联系的关系一般可 分为三类:函数关系、相关关系、不确定关系。 相关关系:现象之间存在着数量上的依存关系,但这 种关系间的数值是不确定的
方差分析则是用于区分因素对试验指标影响的显 著程度及影响大小,从而找出“最佳”的试验水平。 2. 回归分析要求因素(输入)变量是定量的,而方差 分析则不要求因素(输入)变量是定量的。 3. 回归分析要求对所有试验水平都进行相应的试验, 而方差分析则只需有选择地对某些试验水平进行试 验(如正交设计)。 第三节 一元线性回归 相关关系:现象之间存在着数量上的依存关系,但这 种关系间的数值是不确定的。 社会经济现象中相互影响或相互联系的关系一般可 分为三类:函数关系、相关关系、不确定关系
相关关系的分类:因果关系、平行关系 平行关系:互为因果或由共同的外因所影响(协同变 异)。 统计分析的任务: 1.对因果关系,建立回归方程,进行预测和控制 2.对平行关系,估计相关系数,确定相关程度。 回归概念 对因果关系,一般把条件因素(可控制或可观察)作 为自变量x(普通变量),将结果作为因变量Y(随机变 量)
相关关系的分类:因果关系、平行关系 平行关系:互为因果或由共同的外因所影响(协同变 异)。 统计分析的任务: 1. 对因果关系,建立回归方程,进行预测和控制。 2. 对平行关系,估计相关系数,确定相关程度。 一、回归概念 对因果关系,一般把条件因素(可控制或可观察)作 为自变量x(普通变量) ,将结果作为因变量Y(随机变 量)
对确定的X,Y=Y(x)是随机变量,设其期望存在, 记(x)=E(Yx),称(x)为Y(x)对x的回归函数, 简称回归。回归函数描述了X与Y(x)的平均值的依 存关系。(E(Yx)表示对于固定的x,Y(x)的数学 期望。) 估计(x):求Y(x)对x的回归问题
对确定的x,Y=Y(x)是随机变量,设其期望存在, 记 (x)=E(Y|x),称(x) 为Y(x) 对x的回归函数, 简称回归。回归函数描述了x与Y(x) 的平均值的依 存关系。( E(Y|x)表示对于固定的x,Y(x)的数学 期望。) 估计(x): 求Y(x) 对x的回归问题
二、直线回归模型 设x与Y(X)之间有因果关系,且直线相关 y=Q+βx X 设(x)=E(Yx)=0+Bx,称其为总体回归方程, 称β为回归系数
二、直线回归模型 y=+x x1 x2 设x与Y(X)之间有因果关系,且直线相关 设 (x)=E(Y|x) =+x ,称其为总体回归方程, 称 为回归系数
由于α、β是未知的,设視通过样本观察值得出α、 β的估计值a、b。于是 y=a+bx≈E(Y|x)=(x) 称其为经验回归方程或样本回归方程。 问题:如何估计a、b的值? 参数估计 设抽样得到一组样本观察值(X1,y1) n 则样本回归方程的值为 vi=a+bx, y=a+ Bx, +e, i=1,…,n,e相互独立且~N(0,a2)
由于、是未知的,设想通过样本观察值得出、 的估计值a、b。于是 y = a + bx E(Y x) = (x). | 称其为经验回归方程或样本回归方程。 问题:如何估计a、b的值? 三、参数估计 设抽样得到一组样本观察值(x1,y1 ),….,(xn,yn ), 则样本回归方程的值为 1 (0, ). 2 i n N y a bx y x i i i i i i i , , , 相互独立且 ~ , , = = + = + +
根据最小二乘法的原理,选择a、b使回归值与观 察值的误差平方和达到最小.即 mig=Qab)=∑=2=2(y-y) aQ 由 0 0,可得(教材p299300) ab bSn’a=j-bx,其中,Sy=2-2 Sy=2(x-x(y-y),Sx=2(x-x)
min ( , ) ( ) . 2 1 1 2 = = = = = − n i i i n i i Q Q a b y y 根据最小二乘法的原理,选择a、b使回归值与观 察值的误差平方和达到最小,即 由 0, = 0, 可得(教材p299-300) = b Q a Q , , , ,其中, = = = = − − = − = = − = − n i xx i n i xy i i n i yy i xx xy S x x y y S x x a y bx S y y S S b 1 2 1 1 2 ( )( ) ( ) ( )
四、残差分析 ∧ ∧ 设 y-y,则Q=∑ 可以证明:(教材p302-303) O a2~x(n-2,故E(≌2)=n-2, 即E( 三O n-2 这说明σ Q 是的无偏估计量
四、残差分析 设 ,则 。 = = = − = n i i i i i i e y y Q e 1 2 可以证明:(教材p302-303) 这说明 是 的无偏估计量 即 , ~ ,故 , 2 2 2 2 2 2 2 ) 2 ( ( 2) ( ) 2 − = = − − = − n Q n Q E n Q n E Q