正在加载图片...
Average delay per hours and day? 2 3 4 67891011121314151617181920212223 Hour of Day 接下来我们要做数据准备工作,数据准备工作通常包含四个部分: 第一是数据清洗。在前面我们也反复提到过,我们要把一些缺失了数据的数 据行,也就是数据记录,全部删除掉。数据清洗的目的是要是使所有的数据都是 完整的,符合需求的。 第二是合并数据。由于我们的数据源可能来自于不同的地方,它们的数据可 能需要做一些合并。例如,我们之前谈到的两个DataFrame做merge操作,将 两个不同的DataFrame合并成一个DataFrame,以方便后续的操作。 第三是转换数据。我们把数据的格式转换成我们想要的格式或者是类型,例 如,在数据集中记录了每一位乘客的出生日期,但实际上我们经常做的统计是在 统计乘客的年龄,那么我们就应该把出生日期转换成年龄进行存储 第四是特征工程。还记得刚才我们说的吗?在原始的数据中我们并没有看到 直接把一个航班定义为延误或者是没有延误,只是将航班的实际起飞时间和预计 起飞时间之间的延误的分钟数做了一个记录。现在我们就要通过特征工程来定义 什么样的航班算延误的航班。例如,我们提出延误时间超过15分钟的就被归类 为被延误的航班,于是我们在数据集中增加一个新的列,这一列就在标识每一个 航班是被延误了还是没有被延误,它的类型是bool类型,这一列的名字叫接下来我们要做数据准备工作,数据准备工作通常包含四个部分: 第一是数据清洗。在前面我们也反复提到过,我们要把一些缺失了数据的数 据行,也就是数据记录,全部删除掉。数据清洗的目的是要是使所有的数据都是 完整的,符合需求的。 第二是合并数据。由于我们的数据源可能来自于不同的地方,它们的数据可 能需要做一些合并。例如,我们之前谈到的两个 DataFra瀀e 做 瀀erge 操作,将 两个不同的 DataFra瀀e 合并成一个 DataFra瀀e,以方便后续的操作。 第三是转换数据。我们把数据的格式转换成我们想要的格式或者是类型,例 如,在数据集中记录了每一位乘客的出生日期,但实际上我们经常做的统计是在 统计乘客的年龄,那么我们就应该把出生日期转换成年龄进行存储, 第四是特征工程。还记得刚才我们说的吗?在原始的数据中我们并没有看到 直接把一个航班定义为延误或者是没有延误,只是将航班的实际起飞时间和预计 起飞时间之间的延误的分钟数做了一个记录。现在我们就要通过特征工程来定义 什么样的航班算延误的航班。例如,我们提出延误时间超过 15 分钟的就被归类 为被延误的航班,于是我们在数据集中增加一个新的列,这一列就在标识每一个 航班是被延误了还是没有被延误,它的类型是 b瀂瀂濿 类型,这一列的名字叫
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有