为了表示这条直线能够最好地拟合所有的点，我们把这些正误差和负误差通通平方

点击下载：《数据科学引论——Python之道》课程教学资源（教案）09 机器学习

正在加载图片...

为了表示这条直线能够最好地拟合所有的点，我们把这些正误差和负误差通通平方一下，然后累加，方差和最小的那条直线，就是拟合最好的直线，所以实际上在这里我们用到了最小二乘法。最小二乘法的数学描述就是把所有的β值表示成一个向量，如果每一个实际的y的取值与通过x的取值与β向量的乘积产生的预测值之间的方差累加起来最小，那么这就是我们要找得这条向量，所以我们可以看到最佳拟合直线产生的残值残差平方和是最小的。 MIN) 怎样计算简单线性模型中的β向量呢？下面是最小二乘法给出的计算公式，用每一个x的值与x的平均值的差和y的值与y的平均值的差的积累加起来，除以×与x的平均值的方差的累加和就得到了B1。B0是基于B1计算的，它等于y 的平均值减去β1乘以×的平均值。它的数学原理在这里我们就不用去深究了。感兴趣的同学可以自己去查看它的证明和推导过程。 B。=y-月x 为什么不用深究呢？因为Python已经帮我们把这些功能实现了。例如，下面是一个通过最小二乘法来计算刚才我们看到的β0和β1的脚本。首先，我们从 sklearn这个库里面导入线性模型，然后在线性模型这个对象上获取线性回归模型对象。我们抽取训练集当中的两列：发动机的大小和二氧化碳的排放量，分别放到train_x、train_y中，然后调用刚才的线性回归模型对象上的ft方法，传递进去自变量数组和因变量数组，也就是train_x、train_y,那么它就会自动地帮我们计算出来相应的β0和β1，也就是说它会自动地产生拟合出来的直线。我们最后可以通过两个print的方法得到β1是38.68021623，而β0，也就是截距，是为了表示这条直线能够最好地拟合所有的点，我们把这些正误差和负误差通通平方一下，然后累加，方差和最小的那条直线，就是拟合最好的直线，所以实际上在这里我们用到了最小二乘法。最小二乘法的数学描述就是把所有的β值表示成一个向量，如果每一个实际的瀌的取值与通过瀋的取值与β向量的乘积产生的预测值之间的方差累加起来最小，那么这就是我们要找得这条向量，所以我们可以看到最佳拟合直线产生的残值残差平方和是最小的。怎样计算简单线性模型中的β向量呢？下面是最小二乘法给出的计算公式，用每一个瀋的值与瀋的平均值的差和瀌的值与瀌的平均值的差的积累加起来，除以瀋与瀋的平均值的方差的累加和就得到了β1。β0 是基于β1 计算的，它等于瀌的平均值减去β1 乘以瀋的平均值。它的数学原理在这里我们就不用去深究了。感兴趣的同学可以自己去查看它的证明和推导过程。为什么不用深究呢？因为 P瀌瀇濻瀂瀁已经帮我们把这些功能实现了。例如，下面是一个通过最小二乘法来计算刚才我们看到的β0 和β1 的脚本。首先，我们从瀆濾濿濸濴瀅瀁这个库里面导入线性模型，然后在线性模型这个对象上获取线性回归模型对象。我们抽取训练集当中的两列：发动机的大小和二氧化碳的排放量，分别放到瀇瀅濴濼瀁_瀋、瀇瀅濴濼瀁_瀌中，然后调用刚才的线性回归模型对象上的濹濼瀇方法，传递进去自变量数组和因变量数组，也就是瀇瀅濴濼瀁_瀋、瀇瀅濴濼瀁_瀌，那么它就会自动地帮我们计算出来相应的β0 和β1，也就是说它会自动地产生拟合出来的直线。我们最后可以通过两个瀃瀅濼瀁瀇的方法得到β1 是 38.68021623，而β0，也就是截距，是

<<向上翻页向下翻页>>

点击下载：《数据科学引论——Python之道》课程教学资源（教案）09 机器学习