回归分析预测法 从本章起将讨论定量预测技术 第三章的基本思路来源于数学分析 中数理统计的回归分析方法,将因素 间的规律(利用已知统计资料)设为按 定数学模型变化的运动轨迹,并假定: 未来的变化仍然是在已知的条件下 进行,运动轨迹将不会发生畸变
回归分析预测法 从本章起将讨论定量预测技术 第三章的基本思路来源于数学分析 中数理统计的回归分析方法,将因素之 间的规律(利用已知统计资料)设为按 一定数学模型变化的运动轨迹,并假定: 未来的变化仍然是在已知的条件下 进行,运动轨迹将不会发生畸变
第一节回归分析的基本概念 回归分析起源于生物学的研究英国生物学家高尔登(Fran cis galton)在19世纪末叶研究遗传特性时,发现父亲的身高与儿 子的身高之间有较密切的联系,一般说来,父亲的身材高大,其子 也比较高大,父亲矮小,儿子也偏于矮小.但是,在大量的研究资料 中,又发现身高有一种向平均数回归的倾向,即身材很高的父亲, 其子比父亲略矮;反之,很矮的父亲,其子比父亲略高这种身高倾 向于平均数的特性就称回归( Regression)高尔登在1889年发 表的著作《自然的遗传》中,提出了回归分析方法以后很快就应用 到经济领域中来.美国经济计量学的先驱者摩尔( H,L Moore)就 首先应用它来研究经济循环和预测,发表了应用回归分析作商品 预测的有关文章.自此以后,应用回归分析对经济作定量分析建 立经济计量模型作定量预测的成果彼彼皆是,发表文章的数量指 数地增长.目前,回归分析的理论与应用,均已达到了成熟的阶段
第一节 回归分析的基本概念 一.基本概念 1.回归分析的来由: 20世纪初,英统计学家 F.Golden 研究父子身高的 遗传统计,高个子父母下一代比父亲更高的概率小于 比他矮的概率,而矮个子父亲下一代比父亲高的概率 大于比他矮的概率;且这两种高度父辈的后代,高度 有向两种父辈平均身高靠拢的趋势,这种现象称为 “回归”——是一种自然界现象规律的提取
2回归分析 研究变量之间的互相关系,把其中一些因素作为 控制的变量,而把另一些随机变量作为因变量,利用 适当的数学模型尽可能趋向于趋势变化的均值描述它 们的关系的分析,称为回归分析。 即假定y与x相关,应有y=f(x) 若x1,x2,………xn个变量影响y,应有 y=f(x1,X2, Xn 显然,有一些问题必须解决
2.回归分析 研究变量之间的互相关系,把其中一些因素作为 控制的变量,而把另一些随机变量作为因变量,利用 适当的数学模型尽可能趋向于趋势变化的均值描述它 们的关系的分析,称为回归分析。 即假定 y 与 x 相关,应有 y = f ( x ) 若 x1,x2, ‥‥‥ xn个变量影响y,应有 y = f (x1,x2, ‥‥‥xn) 显然,有一些问题必须解决
①因素分析 现代社会中,任何一件事物与多个因素相关,如 何选取主要因素,忽略次要因素,使建立的数学模型 不因变量太多而复杂,又能较好的抓住主要矛盾。 解决方法是求相关系数R ②运动轨迹的模型 主要利用已知统计数据在图上打点进行观察分析 寻求一条最佳线路。采用最小二乘法,即在满足该条 线路的模拟值与真值总平方误差∑e为最小的条件下, 来求出模拟数学模型各参数。(为 Gauss-- Markov最佳 线性与无偏估计量)
①因素分析 现代社会中,任何一件事物与多个因素相关,如 何选取主要因素,忽略次要因素,使建立的数学模型 不因变量太多而复杂,又能较好的抓住主要矛盾。 解决方法是求相关系数R ②运动轨迹的模型 主要利用已知统计数据在图上打点进行观察分析, 寻求一条最佳线路。采用最小二乘法,即在满足该条 线路的模拟值与真值总平方误差∑ei 2为最小的条件下, 来求出模拟数学模型各参数。(为Gauss--Markov最佳 线性与无偏估计量 )
③相关性检验 目的是鉴别所求出的模型是否可靠, 方法:利用相关性检验准则进行检验 ④精确度:即讨论在一定置信度条件下的 置信区间 ⑤预测:前面的问题已解决,数学模型已 经建立且可靠,精度问题也已解决,利用延续 性原则代入需预测的数据,并求出结果
③相关性检验 目的是鉴别所求出的模型是否可靠, 方法:利用相关性检验准则进行检验 ④精确度:即讨论在一定置信度条件下的 置信区间 ⑤预测 :前面的问题已解决,数学模型已 经建立且可靠, 精度问题也已解决,利用延续 性原则代入需预测的数据,并求出结果
二方法分类 线性 线性 多元 非线性 非线性
二 .方法分类 线性 线性 一元 多元 非线性 非线性
第二节一元线性回归预测 回归方程的建立 假定需预测的目标为y,与之对应的因素x,随 机抽样,子样数为n,通过图上打点作粗略估计已知 的一组对应数据,初步定为线性关系,同时再考虑到 随机因素,应有 yi=a+ b Xi+ei n 不考虑随机因素,应有 ∧ a+b 代(2)入(1),求得随机项 ei=y-y=y-(a+bx)(3)ei称为残 差
第二节 一元线性回归预测 一.回归方程的建立 假定需预测的目标为 y,与之对应的因素 x,随 机抽样,子样数为 n ,通过图上打点作粗略估计已知 的一组对应数据,初步定为线性关系,同时再考虑到 随机因素,应有: yi = a + b xi + ei i = 1,2,……n (1) 不考虑随机因素,应有: yi = a + b xi i = 1,2,n (2) 代(2)入(1),求得随机项 ei = yi – yi = yi – ( a + bxi ) (3) ei 称为残 差 ∧ ∧
这表示,真值与模拟直线4a+bx之间存 在实际误差ei,累积平方误差为Q=∑ei2称 残差平方和,又称剩余平方和。 反之,我们已知的是实际数据(ⅹ,yi), 从可能的无穷条模拟直线中选取某一条直线, 使之模拟得最好,标准为Q=∑e2,最小。 由(3)Q(ab)=∑e2=∑(y-a-bx 求极值点,应有:[Qa,b)]a=0 及[Q(ab)b=0
这表示,真值与模拟直线y = a + bx之间存 在实际误差 ei,累积平方误差为 Q = ∑ei 2 ,称 残差平方和,又称剩余平方和。 反之,我们已知的是实际数据(xi,yi), 从可能的无穷条模拟直线中选取某一条直线, 使之模拟得最好,标准为Q = ∑e 2 i最小。 由(3) Q(a,b)= ∑ei 2 = ∑(yi –a--bxi)2 求极值点,应有:[Q(a,b)]’a = 0 及 [Q(a,b)]’b = 0 ˆ y
得出(∑(yia-bxi)=0 ∑(yia-bxi)xi=0 求出ab ()∑y-b y-bx b=C∑ Xiyi-nxy)(∑x2nx2) 记∑(xx)2=1kx…x的离差平方和 ∑(X-X)(y-y)=lx….xy离差乘积和
得出 ∑(yi—a—bxi)= 0 ∑(yi—a—bxi)xi = 0 求出a,b a =(1/n) ∑yi - b = (∑xiyi—nxy)/(∑xi 2—nx2 ) 记 ∑(xi—x) 2= lxx……x的离差平方和 ∑(xi—x)(yi--y) = lxy……x,y离差乘积和 x y bx n b n i i = − =1 1 x y bx n b n i i = − =1 1
则b可简记为 b=lxy/lxx, a=y=(lxy/lxx)x a,b称回归系数 y=a+bx称线性回归方程。 这种方法称为最小二乘法,又叫最小 平方法OLS( Ordinary Least square)
则b可简记为 b = lxy/lxx , a = y– (lxy/lxx) x a,b称回归系数 y = a + bx 称线性回归方程。 这种方法称为最小二乘法,又叫最小 平方法OLS(Ordinary Least Square)