回归分析案例 —数学建模与系统仿真 主讲:王晓峰 E-mail:xfwang8280126.com
回 归 分 析 案 例 ——数学建模与系统仿真 主讲:王晓峰 E-mail:xfwang828@126.com
统计回归案例 1牙膏的销售量 2软件开发人员的薪金 3酶促反应
统计回归案例 1 牙膏的销售量 2 软件开发人员的薪金 3 酶促反应
1牙膏的销售量 问建立牙膏销售量与价格、广告投入之间的模型; 题预测在不同价格和广告费用下的牙膏销售量 收集了30个销售周期本公司牙膏销售量、价格、 广告费用,及同期其他厂家同类牙膏的平均售价 销售本公司价其他厂家广告费用价格差销售量 周期格(元)价格(元)(百万元)(元)(百万支) 3.85 3.80 5.50 0.05 738 2 3.75 4.00 6.75 0.25 8.51 ●●鲁 ●● ● 29 3.80 3.85 5.80 0.05 793 30 3.70 4.25 680 0.55 926
1 牙膏的销售量 问 题 建立牙膏销售量与价格、广告投入之间的模型; 预测在不同价格和广告费用下的牙膏销售量. 收集了30个销售周期本公司牙膏销售量、价格、 广告费用,及同期其他厂家同类牙膏的平均售价 . 30 3.70 4.25 6.80 0.55 9.26 29 3.80 3.85 5.80 0.05 7.93 2 3.75 4.00 6.75 0.25 8.51 1 3.85 3.80 5.50 -0.05 7.38 销售量 (百万支) 价格差 (元) 广告费用 (百万元) 其他厂家 价格(元) 本公司价 格(元) 销售 周期
基本模型 y~公司牙膏销售量 x1^其他厂家与本公司价格差 x2~公司广告费用 7.5 -02 04 6 +B1x1+ B2*2+B3*2+e y=B+B,x,+8 y被解释变量(因变量 95 x1,x2解释变量回归变量,自变量 B月1,B2,月3~回归系数 75 ε~随机误差(均值为零的 5.5 正态分布随机变量) +B,x,+ B2 E c
基本模型 y ~公司牙膏销售量 x1 ~其他厂家与本公司价格差 x2 ~公司广告费用 = + + 0 1 1 y x = + + + 2 0 1 2 2 2 y x x 5 5.5 6 6.5 7 7.5 7 7.5 8 8.5 9 9.5 10 x2 y -0.2 0 0.2 0.4 0.6 7 7.5 8 8.5 9 9.5 10 x1 y = + + + + 2 0 1 1 2 2 3 2 y x x x x1 , x2 ~解释变量(回归变量, 自变量) y~被解释变量(因变量) 0 , 1 , 2 , 3 ~回归系数 ~随机误差(均值为零的 正态分布随机变量)
模型求解 MATLAB统计工具箱 y=B+B1x1+B2x2+B3x2+E由数据yx1x2估计B [b ,bint rint, stats]=regress(y, x, alpha) 输入y~n维数据向量输出b~的估计值 x2]-mx4数1ntb的置信区间 据矩阵第列为全向量x残差向量yx a1pha(置信水平,0.05)rint~r的置信区间 参数参数估计值置信区间 17.3244 57282289206 S七ats~ ββ 1.3070 0.682919311检验统计量 -3.6956 749890.,1077 R2, F, P,s2 0.3486 10.03790.65941 R2=0.9054F-829409p<0.001s2=0.0490
模型求解 MATLAB 统计工具箱 [b,bint,r,rint,stats]=regress(y,x,alpha) 输入 x= ~n4数 据矩阵, 第1列为全1向量 [1 ] 2 1 2 2 x x x alpha(置信水平,0.05) = + + + + 2 0 1 1 2 2 3 2 y x x x b~的估计值 bint~b的置信区间 r ~残差向量y-xb rint~r的置信区间 Stats~ 检验统计量 R2 ,F, p,s2 y~n维数据向量 输出 由数据 y,x1 ,x2估计 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p<0.0001 s 2=0.0490 0 1 2 3
结果分析y=B0+B1x1+A2x2+Bx2+E 参数参数估计值置信区间 1732441572822892061 B1 3070 0.68291.9311 B 2 -3.6956 7.49890.10771 B 0.3486 10.03790.6594 R2=0.9054F=829409 0.0001s2=0.0490 y的90.54%可由模型确定F值远超过F检验的临界值 p值远小于a=0.05 模型从整体上看成立 A2的置信区间包含零点x2对因变量y的 (右端点距零点很近) 影响不太显著 x2项显著 可将x2保留在模型中
结果分析 y的90.54%可由模型确定 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p<0.0001 s 2=0.0490 0 1 2 3 = + + + + 2 0 1 1 2 2 3 2 y x x x F值远超过F检验的临界值 p值远小于=0.05 2的置信区间包含零点 (右端点距零点很近) x2对因变量y 的 影响不太显著 x2 2项显著 可将x2保留在模型中 模型从整体上看成立
销售量项测}=+++月⑥ 价格差x其他厂家价格x3本公司价格x4 估计x3调整x4d控制x1中通过x1,x2预测y 控制价格差x1=0.2元,投入广告费x2=65百万元 y=B+Bx1+B2x2+B3x2=82933(百万支) 销售量预测区间为78230,87636(置信度95%) 上限用作库存管理的目标值下限用来把握公司的现金流 若估计x3=39,设定x-37,则可以95%的把握 知道销售额在78230X×3.7≈29(百万元)以上 c
2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ 销售量预测 y ˆ = + x + x + x 价格差x1 =其他厂家价格x3 -本公司价格x4 估计x3 调整x4 控制价格差x1=0.2元,投入广告费x2=6.5百万元 销售量预测区间为 [7.8230,8.7636](置信度95%) 上限用作库存管理的目标值 下限用来把握公司的现金流 若估计x3=3.9,设定x4=3.7,则可以95%的把握 知道销售额在 7.82303.7 29(百万元)以上 控制x1 通过x1 , x2预测y 8.2933 ˆ ˆ ˆ ˆ ˆ 2 y = 0 + 1 x1 + 2 x2 + 3 x2 = (百万支)
模型改进y=B+Bx1+B2x2+B2x2+E 和x,对y参数参数估计值置信区间 的影响独立A 17.3244 15.72822892061 B1 13070 10.68291.9311l B2 3.6956 -749890.1077 x和x2对yB3 0.3486 0.03790.6594 的影响有R=09054F=829409p<0.00072=0.0426 交互作用y=B+Bx1+B2x2+B3x2+Bxx2+E 参数参数估计值 置信区间 291133[13.701344.5252 βββ 1.1342 1.977820.2906 7.6080 126932-25281 0.6712 0.253810887 1.4777 2.8518-0.1037 R2=0.9209F=72,7717n<0.00012=00490
模型改进 x1和x2对y 的影响独立 = + + + + 2 0 1 1 2 2 3 2 y x x x = + + + + + 4 1 2 2 0 1 1 2 2 3 2 y x x x x x 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p<0.0001 s 2=0.0426 0 1 2 3 参数 参数估计值 置信区间 29.1133 [13.7013 44.5252] 11.1342 [1.9778 20.2906 ] -7.6080 [-12.6932 -2.5228 ] 0.6712 [0.2538 1.0887 ] -1.4777 [-2.8518 -0.1037 ] R2=0.9209 F=72.7771 p<0.0001 s 2=0.0490 3 0 1 2 4 x1和x2对y 的影响有 交互作用
兩模型销售量预测比较 控制价格差x1=0.2元,投入广告费x2=65百万元 少=B+Bx1+B2x2+B2x2 预测值y=82933预测区间[7.8230,8.,7636 y=Bo+Bx,+B2x2+B3x2+B4x,r2 预测值y=83272预测区间[7.8953,87592 y略有增加 预测区间长度更短
两模型销售量预测比较 4 1 2 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ y ˆ = + x + x + x + x x 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ y ˆ = + x + x + x 预测区间 [7.8230,8.7636] 预测区间 [7.8953,8.7592] 控制价格差x1=0.2元,投入广告费x2=6.5百万元 y ˆ 略有增加 预测区间长度更短 预测值 y ˆ = 8.2933 预测值 y ˆ = 8.3272
两模型y与x1x2关系的比较 y=Bo+Bx+B2x2+B3x2 y=Bo+Bx+B2*2+B3x2+B4X*2 9 9 8.5 8.5 x2=65 8 7.5 -0.2 0.2 04 0.6 75 -0.2 0.2 040.6 10.5 9.5 x1=0.295 5 9 8.5 7.5 7 2 8 8 2
x2=6.5 x1=0.2 -0.2 0 0.2 0.4 0.6 7.5 8 8.5 9 x1 y ˆ -0.2 0 0.2 0.4 0.6 7.5 8 8.5 9 x1 y ˆ 5 6 7 8 7.5 8 8.5 9 9.5 10 x2 y ˆ 5 6 7 8 8 8.5 9 9.5 10 10.5 x2 y ˆ 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ y ˆ = + x + x + x 4 1 2 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ y ˆ = + x + x + x + x x 两模型 与x1 y ˆ ,x2关系的比较