《数据科学引论——Python之道》课程教学资源（教案讲义）09 机器学习

团购合买资源类别：文库，文档格式：PDF，文档页数：44，文件大小：9.63MB

为了表示这条直线能够最好地拟合所有的点，我们把这些正误差和负误差通通平方一下，然后累加，方差和最小的那条直线，就是拟合最好的直线，所以实际上在这里我们用到了最小二乘法。最小二乘法的数学描述就是把所有的β值表示成一个向量，如果每一个实际的瀌的取值与通过瀋的取值与β向量的乘积产生的预测值之间的方差累加起来最小，那么这就是我们要找得这条向量，所以我们可以看到最佳拟合直线产生的残值残差平方和是最小的。怎样计算简单线性模型中的β向量呢？下面是最小二乘法给出的计算公式，用每一个瀋的值与瀋的平均值的差和瀌的值与瀌的平均值的差的积累加起来，除以瀋与瀋的平均值的方差的累加和就得到了β1。β0 是基于β1 计算的，它等于瀌的平均值减去β1 乘以瀋的平均值。它的数学原理在这里我们就不用去深究了。感兴趣的同学可以自己去查看它的证明和推导过程。为什么不用深究呢？因为 P瀌瀇濻瀂瀁已经帮我们把这些功能实现了。例如，下面是一个通过最小二乘法来计算刚才我们看到的β0 和β1 的脚本。首先，我们从瀆濾濿濸濴瀅瀁这个库里面导入线性模型，然后在线性模型这个对象上获取线性回归模型对象。我们抽取训练集当中的两列：发动机的大小和二氧化碳的排放量，分别放到瀇瀅濴濼瀁_瀋、瀇瀅濴濼瀁_瀌中，然后调用刚才的线性回归模型对象上的濹濼瀇方法，传递进去自变量数组和因变量数组，也就是瀇瀅濴濼瀁_瀋、瀇瀅濴濼瀁_瀌，那么它就会自动地帮我们计算出来相应的β0 和β1，也就是说它会自动地产生拟合出来的直线。我们最后可以通过两个瀃瀅濼瀁瀇的方法得到β1 是 38.68021623，而β0，也就是截距，是

点击进入文档下载页（PDF格式）

共44页，可试读15页，点击继续阅读 ↓↓

点击下载（PDF格式）

浏览记录