统计回归模型 数据拟合方法再讨论
统计回归模型 数据拟合方法再讨论
数学建模的基本方法机理分析测试分析 由于客观事物内部规律的复杂及人们认识程度的限制, 无法分析实际对象内在的因果关系,建立合乎机理规 律的数学模型。 通过对数据的统计分析,找出与数据拟合最好的模型 回归模型是用统计分析方法建立的最常用的一类模型 不涉及回归分析的数学原理和方法 通过实例讨论如何选择不同类型的模型 对软件得到的结果进行分析,对模型进行改进
数学建模的基本方法 机理分析 测试分析 由于客观事物内部规律的复杂及人们认识程度的限制 , 无法分析实际对象内在的因果关系,建立合乎机理规 律的数学模型。 通过对数据的统计分析,找出与数据拟合最好的模型 回归模型是用统计分析方法建立的最常用的一类模型 • 不涉及回归分析的数学原理和方法 • 通过实例讨论如何选择不同类型的模型 • 对软件得到的结果进行分析,对模型进行改进
统计回归模型 1牙膏的销售量 2软件开发人员的薪金 3酶促反应 4投资额与国民生产总值和 物价指数
统计回归模型 1 牙膏的销售量 2 软件开发人员的薪金 3 酶促反应 4 投资额与国民生产总值和 物价指数
1牙膏的销售量 问建立牙膏销售量与价格、广告投入之间的模型 题预测在不同价格和广告费用下的牙膏销售量 收集了30个销售周期本公司牙膏销售量、价格、 广告费用,及同期其它厂家同类牙膏的平均售价 销售本公司价其它厂家广告费用价格差销售量 周期格(元)价格(元)(百万元)(元)(百万支) 3.85 3.80 5.50 -0.05 7.38 2 3.75 4.00 6.75 0.25 8.51 29 3.80 385 5800.05193 30 3.70 4.25 680 0.5 9.26
1 牙膏的销售量 问 题 建立牙膏销售量与价格、广告投入之间的模型 预测在不同价格和广告费用下的牙膏销售量 收集了30个销售周期本公司牙膏销售量、价格、 广告费用,及同期其它厂家同类牙膏的平均售价 30 3.70 4.25 6.80 0.55 9.26 29 3.80 3.85 5.80 0.05 7.93 … … … … … … 2 3.75 4.00 6.75 0.25 8.51 1 3.85 3.80 5.50 -0.05 7.38 销售量 (百万支) 价格差 (元) 广告费用 (百万元) 其它厂家 价格(元) 本公司价 格(元) 销售 周期
基本模型 y~公司牙膏销售量 8.5 其它厂家与本公司价格差 x2公司广告费用 7.5 =B0+B1x1+B2x2+月2x2+6y=B+B1x1+B y被解释变量(因变量) 10 95 xr,x2解释变量回归变量自变量) 8 8.5 B1,月2,月~回归系数 75 8 8~随机误差(均值为零的 55 正态分布随机变量) Bo+Bx2+B2x2+8
基本模型 y ~公司牙膏销售量 x1~其它厂家与本公司价格差 x2~公司广告费用 = β + β + ε 0 1 1 y x -0.2 0 0.2 0.4 0.6 7 7.5 8 8.5 9 9.5 10 x1 y = β + β + β + β + ε 2 0 1 1 2 2 3 2 y x x x = β + β + β + ε 2 0 1 2 2 2 y x x 5 5.5 6 6.5 7 7.5 7 7.5 8 8.5 9 9.5 10 x2 y x1, x2~解释变量(回归变量, 自变量) y~被解释变量(因变量) β0, β1 , β2 , β3 ~回归系数 ε~随机误差(均值为零的 正态分布随机变量)
模型求解 MATLAB统计工具箱 +Bx1+B2x2+月x2+6由数据xx2估计 [b,bint r,rint, stats]=regress(y,x, alpha) 输入y~m维数据向量输出bm的估计值 x=xx2-mx4数bint-b的置信区间 据矩阵,第1列为全向量x~残差向量yx alpha(置信水平,0.05) inter的置信区间 参数参数估计值 置信区间 17,3244157282289201 stats B, 13070063919311检验统计量 B2 -3.6956 7.49890.1077 RiF B3 0.3486 0.03790.6594 R2=09054F-829409p=0.000
模型求解 MATLAB 统计工具箱 [b,bint,r,rint,stats]=regress(y,x,alpha) 输入 = β + β + β + β + ε 2 0 1 1 2 2 3 2 y x x x b~β的估计值 由数据 y,x1,x2估计β bint~b的置信区间 y~n维数据向量 输出 x= ~n×4数 据矩阵, 第1列为全1向量 [1 ]2 1 2 2 x x x r ~残差向量y-xb alpha(置信水平,0.05) rint~r的置信区间 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000 β0 β1 β2 β3 Stats~ 检验统计量 R2,F, p
结果分析y=B+Bx1+B2x2+1x2+E 参数参数估计值置信区间 173244 57282289206 13070 0.68291.9311l β 3.6956 -7.49890.1077 0.3486 10.0379065941 R2=0.9054F829409 0.0000 y的90.54%可由模型确定F远超过F检验的临界值 p远小于a=0.05 模型从整体上看成立 A2的置信区间包含零点x2对因变量y的 (右端点距零点很近) 影响不太显著 x2项显著 可将x,保留在模型中
结果分析 y的90.54%可由模型确定 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R2=0.9054 F=82.9409 p=0.0000 β0 β1 β2 β3 = β + β + β + β + ε 2 0 1 1 2 2 3 2 y x x x F远超过F检验的临界值 p远小于α=0.05 β2的置信区间包含零点 (右端点距零点很近) 模型从整体上看成立 x2对因变量y 的 影响不太显著 可将x x22项显著 2保留在模型中
销售量预测户=十x+Bx2+月x 价格差x:=其它厂家价格x3本公司价格x4 估计x3调整x控制x1口通过x,x2预测 控制价格差x1=0.2元,投入广告费x2=650万元 j=B0+月x1+B2x2+B3x2=8.2933(百万支) 销售量预测区间为7.8230,8.7636](置信度95%) 上限用作库存管理的目标值下限用来把握公司的现金流 若估计x3=39,设定x=37,则可以95%的把握 知道销售额在78320×37≈29(百万元)以上
销售量预测 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ yˆ = β + β x + β x + β x 价格差x1=其它厂家价格x3-本公司价格x4 通过x1, x 估计x 2预测y 3 调整x4 控制x1 控制价格差x1=0.2元,投入广告费x2=650万元 8.2933 ˆ ˆ ˆ ˆ ˆ 2 y = β 0 + β 1 x1 + β 2 x 2 + β 3 x 2 = (百万支) 销售量预测区间为 [7.8230,8.7636](置信度95%) 上限用作库存管理的目标值 下限用来把握公司的现金流 若估计x3=3.9,设定x4=3.7,则可以95%的把握 知道销售额在 7.8320×3.7≈ 29(百万元)以上
模型改进y=B0+B1x1+B2x2+B3x2+E x和x对y参数参数估计值信区间 的影响独立 17.3244 5.7282289206 3070 0.68291.9311l 3.6956 F-7.49890.10771 x1和x2对y3 0.3486 10.03790.65941 的影响有 R=0.9054F=829409p=0.0000 交互作用y=B+月x1+A2x2+B3x2+xx2+E 参数 参数估计值 置信区间 29.1133 137013445252 AA 11.1342 1977820.2906 7.6080 126932-2.5228 0.6712 0.25381.0887] 1.4777 -2.8518-0.10371 R2=0.9209F=727771p=00000
模型改进 x 1 和 x 2 对y 的影响独立 = β + β + β + β + ε 2 0 1 1 2 2 3 2 y x x x = β + β + β + β + β + ε 4 1 2 2 0 1 1 2 2 3 2 y x x x x x 参数 参数估计值 置信区间 17.3244 [5.7282 28.9206] 1.3070 [0.6829 1.9311 ] -3.6956 [-7.4989 0.1077 ] 0.3486 [0.0379 0.6594 ] R 2=0.9054 F=82.9409 p=0.0000 β0 β1 β2 β3 参数 参数估计值 置信区间 29.1133 [13.7013 44.5252] 11.1342 [1.9778 20.2906 ] -7.6080 [-12.6932 -2.5228 ] 0.6712 [0.2538 1.0887 ] -1.4777 [-2.8518 -0.1037 ] R 2=0.9209 F=72.7771 p=0.0000 β3 β0 β1 β2 β4 x 1 和 x 2 对y 的影响有 交互作用
两模型销售量预测比较 控制价格差x=02元,投入广告费x2=6.5百万元 y=0+B1x1+2x2+x2P=82933(百万支) 区间78230,8.,7636 j=8.3272(百万支) y=Bo+Bx+B2x2+Bx2+B4xx2 区间[78953,8.7592 y略有增加 预测区间长度更短
两模型销售量预测比较 控制价格差 x 1=0.2元,投入广告费 x 2=6.5百万元 yˆ = 8.2933 (百万支 ) 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ yˆ = β + β x + β x + β x 区间 [7.8230 ,8.7636] yˆ = 8.3272 (百万支 ) 4 1 2 2 0 1 1 2 2 3 2 ˆ ˆ ˆ ˆ yˆ = β + β x + β x + β x + β x x 区间 [7.8953 ,8.7592] yˆ 略有增加 预测区间长度更短