创建一个小于这个总长度 0.8 的随机数，实际上这个值会非常接近 0.8，

点击下载：《数据科学引论——Python之道》课程教学资源（教案讲义）09 机器学习

正在加载图片...

创建一个小于这个总长度0.8的随机数，实际上这个值会非常接近0.8，然后拿这个值作为百分比，获取整个汽车数据中80%的数据作为训练集，剩下的数据就是测试集。在真正进行预测的时候，我们可以用到的算法有很多选择，首先是回归分析，然后是K近邻方法、神经网络和支持向量机。 Creating train and test dataset msk np.random.rand(len(df))<0.8 train cdf[msk] test cdf[-msk] 我们将重点关注回归分析。在回归分析中，根据自变量的数量多少，我们又可以分为简单回归和多元回归。根据构建出来的模型的类型，又可以分为线性回归和非线性回归。所谓简单回归，就是指我们要预测的值只和单个的自变量相关。例如，我们认为二氧化碳的排放量和汽车的大小相关，并且只和汽车大小相关。这时，我们就可以使用到简单回归。这时预测的因变量就是二氧化碳的排放量，而自变量就是发动机的大小。如果我们认为二氧化碳的排放量和发动机的大小之外的其他变量也存在着关联，那么就要使用到多元回归，此时因变量仍然是二氧化碳的排放量，但自变量就包含了发动机的尺寸、发动机的缸数等等其他的多个因素。所以我们看什么是回归分析？回归分析就是要找到一个变量与其他变量之间的关系，也就是说我们认为一个变量是依赖于其他变量的，如果这个被依赖的变量也就是自变量只有一个，就是我们所谓的简单回归分析，如果自变量有多个，那就是多元回归分析。回归分析的应用场景很多，包括市场销量的预测，心理学上的满意度分析等等。简单线性模型是最简单的一类回归分析模型，它的目标值预期是输入变量的创建一个小于这个总长度 0.8 的随机数，实际上这个值会非常接近 0.8，然后拿这个值作为百分比，获取整个汽车数据中 80%的数据作为训练集，剩下的数据就是测试集。在真正进行预测的时候，我们可以用到的算法有很多选择，首先是回归分析，然后是 K 近邻方法、神经网络和支持向量机。我们将重点关注回归分析。在回归分析中，根据自变量的数量多少，我们又可以分为简单回归和多元回归。根据构建出来的模型的类型，又可以分为线性回归和非线性回归。所谓简单回归，就是指我们要预测的值只和单个的自变量相关。例如，我们认为二氧化碳的排放量和汽车的大小相关，并且只和汽车大小相关。这时，我们就可以使用到简单回归。这时预测的因变量就是二氧化碳的排放量，而自变量就是发动机的大小。如果我们认为二氧化碳的排放量和发动机的大小之外的其他变量也存在着关联，那么就要使用到多元回归，此时因变量仍然是二氧化碳的排放量，但自变量就包含了发动机的尺寸、发动机的缸数等等其他的多个因素。所以我们看什么是回归分析？回归分析就是要找到一个变量与其他变量之间的关系，也就是说我们认为一个变量是依赖于其他变量的，如果这个被依赖的变量也就是自变量只有一个，就是我们所谓的简单回归分析，如果自变量有多个，那就是多元回归分析。回归分析的应用场景很多，包括市场销量的预测，心理学上的满意度分析等等。简单线性模型是最简单的一类回归分析模型，它的目标值预期是输入变量的

<<向上翻页向下翻页>>

点击下载：《数据科学引论——Python之道》课程教学资源（教案讲义）09 机器学习