第10章统计回归模型
第10章 统计回归模型
数学建模的基本方法机理分析测试分析 由于客观事物内部规律的复杂及人们认识程度的限制, 无法分析实际对象内在的因果关系,建立合乎机理规 律的数学模型 通过对数据的统计分析,找出与数据拟合最好的模型 回归模型是用统计分析方法建立的最常用的一类模型 不涉及回归分析的数学原理和方法 通过实例讨论如何选择不同类型的模型 对软件得到的结果进行分析,对模型进行改进
回归模型是用统计分析方法建立的最常用的一类模型 数学建模的基本方法 机理分析 测试分析 通过对数据的统计分析,找出与数据拟合最好的模型 不涉及回归分析的数学原理和方法 通过实例讨论如何选择不同类型的模型 对软件得到的结果进行分析,对模型进行改进 由于客观事物内部规律的复杂及人们认识程度的限制, 无法分析实际对象内在的因果关系,建立合乎机理规 律的数学模型
牙膏的销售量 问建立牙膏销售量与价格、广告投入之间的模型 题预测在不同价格和广告费用下的牙膏销售量 收集了30个销售周期本公司牙膏销售量、价格 广告费用,及同期其它厂家同类牙膏的平均售价 销售本公司价其它厂家广告费用价格差销售量 周期格(元)价格(元)(百万元)(元)(百万支) 3.85 3.80 5.50 0.05 738 2 3.75 4.006.75 0.25 8.51 29 3.80 3.85 5.80 0.05 793 30 3.70 4.25 6.80 0.55 9.26
牙膏的销售量 问 题 建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量 收集了30个销售周期本公司牙膏销售量、价格、 广告费用,及同期其它厂家同类牙膏的平均售价 30 3.70 4.25 6.80 0.55 9.26 29 3.80 3.85 5.80 0.05 7.93 2 3.75 4.00 6.75 0.25 8.51 1 3.85 3.80 5.50 -0.05 7.38 销售量 (百万支) 价格差 (元) 广告费用 (百万元) 其它厂家 价格(元) 本公司价 格(元) 销售 周期
基本模型 y≈公司牙膏销售量 x1其它厂家与本公司价格差 公司广告费用 75 -02 04 y=Bo+Bx+B2x2+B3x2+8 y=B+Bx, +8 y被解释变量(因变量) x1,x2-解释变量(回归变量,自变量) B0,B1,β2,β3~回归 e~随机误差鹦值为零 75 5 5.5 65 75 的正态分布随机变量)y=++Ax+
基本模型 y ~公司牙膏销售量 x1~其它厂家与本公司价格差 x2~公司广告费用 = + + 0 1 1 y x = + + + 2 0 1 2 2 2 y x x 5 5.5 6 6.5 7 7.5 7 7.58 8.59 9.5 10 x 2 y -0.2 0 0.2 0.4 0.6 7 7.58 8.59 9.5 10 x 1 y = + + + + 2 0 1 1 2 2 3 2 y x x x x 1 , x 2 ~解释变量 (回归变量, 自变量) y~被解释变量(因变量) 0, 1 , 2 , 3 ~回归 ~随机误差(均值为零 系数 的正态分布随机变量)
模型求解 MATLAB统计工具 y=尻+凡x+Bx+B3x箱E由数据xx估计尸 [b, bint r, rint, stats]=regress(y/ x, alpha) 输入Y~维数据向量输出-/的估计值 x]-m4数■m的信区间 据矩阵,第1列为全1向量 残差向量y-xb a1pha(置信水平0.05)nt=的置信区间 参数参数估计值置信区间 17.3244 5.7282289206 S七ats~ 13070 10.68291.9311 检验统计量 -3.6956 -7.49890.10771 RZ, F, P 0.3486 10.03790.65941 R2=0.9054F=829409p=0.0000
MATLAB 统计工具 箱 模型求解 [b,bint,r,rint,stats]=regress(y,x,alpha) 输入 x= ~n4数 据矩阵, 第1列为全1向量 [1 ] 2 1 2 2 x x x alpha(置信水平,0.05) = + + + + 2 0 1 1 2 2 3 2 y x x x b~的估计值 bint~b的置信区间 r ~残差向量y-xb rint~r的置信区间 Stats~ 检验统计量 R2 ,F, p y~n维数据向量 输出 由数据 y,x1 ,x2估计 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000 0 1 2 3
结果分析y=风+x+月x2+x+6 参数参数估计值 置信区间 17.3244 βββ 5.728228.92061 1.3070 0.68291.9311 -3.6956 -7.49890.10771 0.3486 10.03790.65941 R2=0.9054F=829409p=0.000 y的9054%可由模型确定目F远超过F检验的临界值 p远小于a=0.05 模型从整体上看成立 的置信区间包含零点对因变量y的 右端点距零点很近 影响不太显著 x2项显著 可将x2保留在模型中
结果分析 y的90.54%可由模型确定 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000 0 1 2 3 = + + + + 2 0 1 1 2 2 3 2 y x x x F远超过F检验的临界值 p远小于=0.05 2的置信区间包含零点 (右端点距零点很近) x2对因变量y 的 影响不太显著 x2 2项显著 可将x2保留在模型中 模型从整体上看成立
销售量预测=十风高++应x 价格差X1=其它厂家价格x3-本公司 估计x,调整x『控制x脅圃过x,x,预测y 控制价格差x1=0.2元,投入广告费x2=650万元 予=A0+Bx+/2x2+Bx2=82933(百万支) 一销售量预测区间为78230,8.7636(置信度95%) 上限用作库存管理的目标值下限用来把握公司的现金流 若估计x3=3.9,设定x:=3.7,则可以95%的把握 一知道销售额在78320×37≈29(百万元)以上
2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ 销售量预测 y ˆ = + x + x + x 价格差x1=其它厂家价格x3-本公司 估计x 价格x4 3 调整x4 控制价格差x1=0.2元,投入广告费x2=650万元 销售量预测区间为 [7.8230,8.7636](置信度95%) 上限用作库存管理的目标值 下限用来把握公司的现金流 若估计x3=3.9,设定x4=3.7,则可以95%的把握 知道销售额在 7.83203.7 29(百万元)以上 控制x1 通过x1 , x2预测y 8.2933 ˆ ˆ ˆ ˆ ˆ 2 y = 0 + 1 x1 + 2 x2 + 3 x2 = (百万支)
横型改进y=B0+x+B2x2+Bx2+E 对和x2对参数参数估计值置信区间 y的影响 17324415.7282289206 1.3070 独立 ββββ 10.68291.93111 3.6956 -749890.1077 x1和x2 0.3486 10.03790.65941 对y的 R2=0.9054F=82.9409p=0.0000 响有交y= Bx+Bx+B,+ B,+8 互作用参数参数估计值置信区间 29.1133 13.701344.52521 B1 11.1342 1977820.2906 B2 76080 -12.6932-2.52281 B3 0.6712 0.25381.0887 1.4777 2.8518-0.1037 R2=0.9209F=72771m=0.000
模型改进 x1和x2对 y的影响 独立 = + + + + 2 0 1 1 2 2 3 2 y x x x = + + + + + 4 1 2 2 0 1 1 2 2 3 2 y x x x x x 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000 0 1 2 3 参数 参数估计值 置信区间 29.1133 [13.7013 44.5252] 11.1342 [1.9778 20.2906 ] -7.6080 [-12.6932 -2.5228 ] 0.6712 [0.2538 1.0887 ] -1.4777 [-2.8518 -0.1037 ] R2=0.9209 F=72.7771 p=0.0000 3 0 1 2 4 x1和x2 对y的影 响有交 互作用
两模型销售量预测比较 控制价格差x1=02元,投入广告费x2=6.5百万元 2=82933(百万 y=A0+Bx1+2x2+/x2 区间782 齐 8.7636 =B+Bx+Bx,+Bx2+Bxx 33272(百万支) 区间78953, 8.7592 y略有增加 预测区间长度更 短
两模型销售量预测比较 4 1 2 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ y ˆ = + x + x + x + x x 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ y ˆ = + x + x + x y ˆ = 8.2933 (百万 支) 区间 [7.8230, 8.7636] 区间 [7.8953, 8.7592] y ˆ = 8.3272 (百万支) 控制价格差x1=0.2元,投入广告费x2=6.5百万元 预测区间长度更 短 y ˆ 略有增加
两模型y与x1,x2关系的比较 y=Po+Bx+B2x2+B3x2 y=Bo+Bx+B2x2+B3-x2+4xx2 9 9 8.5 8.5 x2=6.5 8 7.5 -0.2 0.2 04 0.6 75 -0.2 0.2 0.4 0.6 10.5 9.5 x1=0,295 8.5 9 8.5 7.5 7 8 8 8
x2=6.5 x1=0.2 -0.2 0 0.2 0.4 0.6 7.5 8 8.5 9 x1 y ˆ -0.2 0 0.2 0.4 0.6 7.5 8 8.5 9 x1 y ˆ 5 6 7 8 7.5 8 8.5 9 9.5 10 x2 y ˆ 5 6 7 8 8 8.5 9 9.5 10 10.5 x2 y ˆ 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ y ˆ = + x + x + x 4 1 2 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ y ˆ = + x + x + x + x x 两模型 y ˆ 与x1,x2关系的比较