创建一个小于这个总长度0.8的随机数,实际上这个值会非常接近0.8,然后拿 这个值作为百分比,获取整个汽车数据中80%的数据作为训练集,剩下的数据就 是测试集。在真正进行预测的时候,我们可以用到的算法有很多选择,首先是回 归分析,然后是K近邻方法、神经网络和支持向量机。 Creating train and test dataset msk np.random.rand(len(df))<0.8 train cdf[msk] test cdf[-msk] 我们将重点关注回归分析。在回归分析中,根据自变量的数量多少,我们又 可以分为简单回归和多元回归。根据构建出来的模型的类型,又可以分为线性回 归和非线性回归。 所谓简单回归,就是指我们要预测的值只和单个的自变量相关。例如,我们 认为二氧化碳的排放量和汽车的大小相关,并且只和汽车大小相关。这时,我们 就可以使用到简单回归。这时预测的因变量就是二氧化碳的排放量,而自变量就 是发动机的大小。如果我们认为二氧化碳的排放量和发动机的大小之外的其他变 量也存在着关联,那么就要使用到多元回归,此时因变量仍然是二氧化碳的排放 量,但自变量就包含了发动机的尺寸、发动机的缸数等等其他的多个因素。所以 我们看什么是回归分析?回归分析就是要找到一个变量与其他变量之间的关系, 也就是说我们认为一个变量是依赖于其他变量的,如果这个被依赖的变量也就是 自变量只有一个,就是我们所谓的简单回归分析,如果自变量有多个,那就是多 元回归分析。回归分析的应用场景很多,包括市场销量的预测,心理学上的满意 度分析等等。 简单线性模型是最简单的一类回归分析模型,它的目标值预期是输入变量的创建一个小于这个总长度 0.8 的随机数,实际上这个值会非常接近 0.8,然后拿 这个值作为百分比,获取整个汽车数据中 80%的数据作为训练集,剩下的数据就 是测试集。在真正进行预测的时候,我们可以用到的算法有很多选择,首先是回 归分析,然后是 K 近邻方法、神经网络和支持向量机。 我们将重点关注回归分析。在回归分析中,根据自变量的数量多少,我们又 可以分为简单回归和多元回归。根据构建出来的模型的类型,又可以分为线性回 归和非线性回归。 所谓简单回归,就是指我们要预测的值只和单个的自变量相关。例如,我们 认为二氧化碳的排放量和汽车的大小相关,并且只和汽车大小相关。这时,我们 就可以使用到简单回归。这时预测的因变量就是二氧化碳的排放量,而自变量就 是发动机的大小。如果我们认为二氧化碳的排放量和发动机的大小之外的其他变 量也存在着关联,那么就要使用到多元回归,此时因变量仍然是二氧化碳的排放 量,但自变量就包含了发动机的尺寸、发动机的缸数等等其他的多个因素。所以 我们看什么是回归分析?回归分析就是要找到一个变量与其他变量之间的关系, 也就是说我们认为一个变量是依赖于其他变量的,如果这个被依赖的变量也就是 自变量只有一个,就是我们所谓的简单回归分析,如果自变量有多个,那就是多 元回归分析。回归分析的应用场景很多,包括市场销量的预测,心理学上的满意 度分析等等。 简单线性模型是最简单的一类回归分析模型,它的目标值预期是输入变量的