四、回归分析案例 让我们通过一个notebook来看一看线性回归。我们使用的数据集就是前面 提到的汽车的二氧化碳排放量和汽车指标之间的关系的数据集。我们把这个数据 集分成训练集和测试集,用训练集训练模型,用测试集评估模型。 首先,我们要加载所需要的库,然后可以去下载这个数据集,下载好以后装 载它。下载数据的数据集中包含了汽车的各种各样的技术指标以及汽车的二氧化 碳排放量。我们加载数据,看一看这个数据集,看到数据集里面包括了汽车各种 各样的参数,包括它的制造商、发动机的大小、气缸数、百公里油耗以及二氧化 碳排放量。 n【2]i urces/data/ #take a look at the dataset df.head Out[2): MODELYEAR MAKE MODEL VEHICLECLASS ENGINESIZE CYLINDERS TRANSMISSION FUELTYPE FUELCONSUMPTION_CITY FUELCON 02014 ACURA ILX COMPACT 2.0 4 AS5 9.9 6.7 12014 ACURA ILX COMPACT 24 M6 112 7.7 IX 2014 ACURA HYBRID COMPACT 1.5 60 5.8 2014 ACURA MDX SUV-SMALL 3.5 12.7 4WD AS6 97 RDX 2014 ACURA 3.5 AWD SUV-SMALL AS6 和往常一样,我们可以探索一下这个数据。首先, 我们得到所有数值型数据 列上的汇总,包括了行数、平均值、标准差等等,这是我们非常熟悉的内容。 1decbha Out[3]: MODELYEAR ENGINESIZE CYLINDERS FUELCONSUMPTION_CITY FUELCONSUMPTION_HWY FUELCONSUMPTION_COMB FUELCON: count 1067.0 1067.0000001087.0000001087,000000 1067.000000 1067.000000 1067.00000 mean2014.0 3.346298 5,794752 13298532 9.474602 11.580BBt 26.441425 std 0.0 1.415895 1,797447 4.101253 2.794510 3.485595 7.488702 min 2014.0 1.000000 3.000000 4.600000 4.00000 4.700000 11.000000 25%2014.0 2.000000 4.000000 10.250000 7.500000 g.000000 21.000000 50%2014.0 3.400000 6.000000 12.600000 8.800000 10.900000 26.000000 75%2014.0 4.300000 8.000000 15.550000 10.850000 13.350000 31.000000 max2014.0 8.40000012.00000030200000 20.500000 25.800000 60.000000 我们可以取出我们认为跟汽车二氧化碳排放量相关的这些列来看一看。我们 认为发动机的大小、气缸数和百公里综合油耗与二氧化碳排放量相关,所以我们四、回归分析案例 让我们通过一个 瀁瀂瀇濸濵瀂瀂濾 来看一看线性回归。我们使用的数据集就是前面 提到的汽车的二氧化碳排放量和汽车指标之间的关系的数据集。我们把这个数据 集分成训练集和测试集,用训练集训练模型,用测试集评估模型。 首先,我们要加载所需要的库,然后可以去下载这个数据集,下载好以后装 载它。下载数据的数据集中包含了汽车的各种各样的技术指标以及汽车的二氧化 碳排放量。我们加载数据,看一看这个数据集,看到数据集里面包括了汽车各种 各样的参数,包括它的制造商、发动机的大小、气缸数、百公里油耗以及二氧化 碳排放量。 和往常一样,我们可以探索一下这个数据。首先,我们得到所有数值型数据 列上的汇总,包括了行数、平均值、标准差等等,这是我们非常熟悉的内容。 我们可以取出我们认为跟汽车二氧化碳排放量相关的这些列来看一看。我们 认为发动机的大小、气缸数和百公里综合油耗与二氧化碳排放量相关,所以我们