65模型检验 一模型检验的必要性 基于数据用统计方法建立经验模型做了以 下工作: 1)借助于数据散布图的直观形象,选择一个 函数来近似变量之间的相关关系; 2)用最小二乘法求经验模型中参数的最佳估计 问题:如何评价此建模方法?客观存在 分析:若两个变量X、Y佝存在相关关系,设其 回归函数为y=u(x)
6.5 模型检验 基于数据用统计方法建立经验模型, 做了以 下工作: 一 .模型检验的必要性 1)借助于数据散布图的直观形象, 选择一个 函数来近似变量之间的相关关系; 2)用最小二乘法求经验模型中参数的最佳估计. 问题:如何评价此建模方法? 分析:若两个变量X、Y间存在相关关系, 设其 回归函数为 y=μ(x). 客观存在
选择一个函数x)作为 主观设3 y=u(x)的估计函数 三 相当于做假设,令A(x)=f(x) 这种假设主观性太强,是否合理必须经过检验 元线性回归问题 需做两方面的检验工作 1.评价方程对样本数据的代表程度; 2检验变量之间的线性关系是否显著
相当于做假设, 令 ˆ(x) = f (x) 这种假设主观性太强,是否合理必须经过检验. 一元线性回归问题 需做两方面的检验工作: 1. 评价方程对样本数据的代表程度; 2. 检验变量之间的线性关系是否显著. 选择一个函数 f(x) 作为 y=μ(x)的估计函数. 主观设 定
二评价回归方程的拟合优度 两种方法:考察数据残差图和计算测定系数 1)考察数据残差图 是检验回归方程拟合优度的一个简单有效的方法 数据残差图分析原理 分析数据残差图,若数据点 (x:,e*) 在(一2,2)区间内随机散布说明回归方程的拟 合是良好的 「例6.1生产表用与产量拟合优度分析
二.评价回归方程的拟合优度 两种方法:考察数据残差图和计算测定系数 1)考察数据残差图 是检验回归方程拟合优度的一个简单有效的方法. 数据残差图分析原理 分析数据残差图, 若数据点 (xi,e *),i=1,2,…,n 在(一2,2)区间内随机散布,说明回归方程的拟 合是良好的. 例6.5.1 生产费用与产量拟合优度分析
例6.52试分析讲义P175图710的四副标准 化残差图 1.图(a)全部数据都在(-2,2)区间内,且 随机散布,说明方程对数据的拟合是良好的 2.图(b)中有较多数据落在(-2,2)区间的 外面这说明方程对数据的拟合不充分 通过分析标准化残 差图可以得到更多信息,可能是由于 可以分析出回归方程的 方程的飛式 回归假定的满足情况 选择不恰当
例6.5.2 试分析讲义P175图7.10的四副标准 化残差图. 1. 图(a)全部数据都在(-2, 2)区间内, 且 随机散布, 说明方程对数据的拟合是良好的. 2. 图(b)中有较多数据落在(-2, 2)区间的 外面, 这说明方程对数据的拟合不充分. 可能是由于 方程的形式 选择不恰当. 通过分析标准化残 差图可以得到更多信息, 可以分析出回归方程的 回归假定的满足情况
对残差图做进一步分析: 1图(c)中残差出现系统变动的趋势 表明关于6=1,2,,n的等方差假定不满足; 2图(d)中残差值ei=1,2,,有相依关系; 说明关于6=1,2,,n的独立性不满足 2)计算测定系数(确定系数、判定系数 n n ∑ 2 (y 2a∑2+62 n ∑n i=1
对残差图做进一步分析: *1 图(c)中残差出现系统变动的趋势; 表明关于 , i i=1,2,…,n 的等方差假定不满足; *2 图(d)中残差值e * ,i=1,2,…,n 有相依关系; 说明关于 , i i=1,2,…,n的独立性不满足. 2)计算测定系数(确定系数、判定系数) 2 1 2 1 2 1 1 2 1 2 2 ˆ ˆ ˆ ˆ ( ) ( ˆ ) y ny a y b x y ny y y y y r n i i n i i i n i i n i i n i i − + − = − − = = = = = =
是评价回归方程拟合优度的一个指标 可证明0≤r2<1且r2的值越大说明 方程对数据的拟合度越高 续例6.5.1生产费用与产量拟合优度分析 给定拟合回归方程测定系数为 21347909×1657+0.3978×132938-10×(1657)2 277119-10×(165.7) 0.6524. 好不好? 结果分析 图71中标准化残差e在横轴上下随机布, 且位于(-2,2)区间内初步判断拟合是良好 的
是评价回归方程拟合优度的一个指标. 可证明 0≤r2≤1 且 r 2 的值越大说明 方程对数据的拟合度越高. 续例6.5.1 生产费用与产量拟合优度分析 给定拟合回归方程测定系数为 2 2 2 277119 10 (165.7) 134.7909 1657 0.3978 132938 10 (165.7) − + − r = =0.6524. 结果分析: 好不好? 图7.11中标准化残差e *在横轴上下随机散布, 且位于(-2,2)区间内,初步判断拟合是良好 的. ?
结论 1)方程对这批数据的拟合是良好的说明在生产 费用的变动中有6524%是由于产量的变动引起 2)测定系数r2的值不是很高,说明仅用“产量” 这一种因素来解释生产费用的变动并不充分,还 应考虑其他因素 三线性关系检验 测定系数r仅是反映回归方程 v=a+bx 对样本数据的拟合优度的一个衡量指标
结论: 1)方程对这批数据的拟合是良好的,说明在生产 费用的变动中,有65.24%是由于产量的变动引起. 2)测定系数 r 2 的值不是很高, 说明仅用“产量” 这一种因素来解释生产费用的变动并不充分, 还 应考虑其他因素. 三. 线性关系检验 测定系数r 2 仅是反映回归方程 y a bx ˆ ˆ = ˆ + 对样本数据的拟合优度的一个衡量指标
2值较高 方程对样本(数据)呈现 的线性关系的代表性较好. X和Y的相关关系是线性关系 由于抽样的随机性使样本的关系与变量z之 问的相关关系有一定差异还不能肯定X和Y的 线性关系显著
r 2 值较高 方程对样本(数据)呈现 的线性关系的代表性较好. X和Y的相关关系是线性关系. 由于抽样的随机性使样本的关系与变量X与Y之 间的相关关系有一定差异,还不能肯定X和Y的 线性关系显著
线性关系检验检验变量XY的线性相 关关系是否显著 样本相关系数n ∑(x1-x)(y-y) 2 ∑(x-x)2∑(y 2 J i=1 的大小反映了X和Y之间线性相关关系的强弱
线性关系检验 检验变量X与Y的线性相 关关系是否显著. = = = − − − − = n i n i i i n i i i x x y y x x y y r 1 1 2 2 1 ( ) ( ) ( )( ) xx yy xy l l l = 的大小反映了X和Y之间线性相关关系的强弱. 样本相关系数
见P178图712线性相关图 样本相关系数r的变动范围是-1≤r≤1, 当r=1说明变量之间存在完全正相关关系; 当r=-1,说明变量之间存在完全负相关关系; 当r=0,说明变量之间不存在线性相关关系; 当0<r<1,说明变量之间存在一定程度的正相 关关系 1<r<0,说明变量之间存在一定程度的负 相关关系; r的值有多大时,才能认为变量X与Y之间的 线性相关关系显著?
当r=1,说明变量之间存在完全正相关关系; 见P178图7.12 线性相关图 当 r=0, 说明变量之间不存在线性相关关系; 当r=-1, 说明变量之间存在完全负相关关系; 样本相关系数r的变动范围是-1≤r≤1, 当0<r<1,说明变量之间存在一定程度的正相 关关系; 当-1<r<0 ,说明变量之间存在一定程度的负 相关关系; 的值有多大时,才能认为变量X与Y之间的 线性相关关系显著? r