系，我们用其他的非线性模型来进行分析就会显得更合适。在 P瀌瀇濻瀂瀁中

点击下载：《数据科学引论——Python之道》课程教学资源（教案讲义）09 机器学习

正在加载图片...

系，我们用其他的非线性模型来进行分析就会显得更合适。在Python中如何来做线性回归的残差分析吗？下面是一段脚本，我们简单解释一下。 test_x=np.asanyarray(test[['ENGINESIZE']] test y=np.asanyarray(test[['CO2EMISSIONS']] test_y_=regr.predict(test_x) print("Residual sum of squares:8.2f" snp.mean((test_y_-test_y)**2)) Explained variance score:1 is perfect prediction print('variance score:8.2f'&regr.score(test_x,test_y)) plot outputs plt.scatter(test_x,test_y,color='blue') plt.plot(test_x,test_y_color='black',linewidth=3) plt.xlabel("Engine size") plt.ylabel("Emission") plt.show() Residual sum of squares:874.93 Variance score:0.81 之前我们就提到过数据集分成了训练集和测试集，我们使用测试集来进行评估。首先，我们获取测试集中发动机的大小和二氧化碳排放量这两个数据列的数据，数据集分别是test_y和test_x。然后，我们用训练出来的模型，也就是说我们的线性回归模型来预测二氧化碳排放量，所以调用了线性回归对象上的预测方法，传递了test×数据集，得到了一个新的预测集，就是test_y_,注意它又加了一个下划线，和刚才我们看到实测值test_y是不一样的。然后，我们用test_y.预测值减去tsty实际观测值，得到一个残差数据集。对于每一个残差求平方，然后取它的平均数，我们就知道了残差的平均值。之后，我们可以绘制散点图，对实际观测到的数据，也就是test×和test_y,用蓝色的圆点来绘制，然后绘制一条线性回归线，也就是对test_x和test_y_,用黑色的颜色来绘制一条宽度为3的线性回归线。这样我们就能得到一张回归图。通过这样的分析，我们就可以得知这二者之间是否存在相关关系，以及它们的相关度是多少。系，我们用其他的非线性模型来进行分析就会显得更合适。在 P瀌瀇濻瀂瀁中如何来做线性回归的残差分析吗？下面是一段脚本，我们简单解释一下。之前我们就提到过数据集分成了训练集和测试集，我们使用测试集来进行评估。首先，我们获取测试集中发动机的大小和二氧化碳排放量这两个数据列的数据，数据集分别是瀇濸瀆瀇_瀌和瀇濸瀆瀇_瀋。然后，我们用训练出来的模型，也就是说我们的线性回归模型来预测二氧化碳排放量，所以调用了线性回归对象上的预测方法，传递了瀇濸瀆瀇_瀋数据集，得到了一个新的预测集，就是瀇濸瀆瀇_瀌_，注意它又加了一个下划线，和刚才我们看到实测值瀇濸瀆瀇_瀌是不一样的。然后，我们用瀇濸瀆瀇_瀌_预测值减去瀇濸瀆瀇_瀌实际观测值，得到一个残差数据集。对于每一个残差求平方，然后取它的平均数，我们就知道了残差的平均值。之后，我们可以绘制散点图，对实际观测到的数据，也就是瀇濸瀆瀇_瀋和瀇濸瀆瀇_瀌，用蓝色的圆点来绘制，然后绘制一条线性回归线，也就是对瀇濸瀆瀇_瀋和瀇濸瀆瀇_瀌_，用黑色的颜色来绘制一条宽度为 3 的线性回归线。这样我们就能得到一张回归图。通过这样的分析，我们就可以得知这二者之间是否存在相关关系，以及它们的相关度是多少

<<向上翻页向下翻页>>

点击下载：《数据科学引论——Python之道》课程教学资源（教案讲义）09 机器学习