正在加载图片...
我们可以通过历史的航班信息来进行预测,于是我们确定,我们要根据历史数据, 通过某种数理统计或者是机器学习的方法来进行预测。数理统计和机器学习的方 法有很多种,我们可以选择其中的一种,比如可以选择逻辑回归。紧接着,我们 要去考虑要做这种预测到底需要哪些航班数据?这些数据是什么格式的?我们 可以想象一下,我们需要某一年的所有航班的起降数据,这些数据最好都是纯文 本的,以方便我们去处理。确定了数据的需求之后,我们要去收集这些数据,这 些数据有可能是开放数据,可以在网络上下载,也有可能是一些私有数据,需要 购买。无论怎样,得到数据之后,要对这些数据做一些理解,比如说这些数据看 起来怎么样,是不是很完整?我们对这些数据会产生一些什么样的初步见解?这 些数据能不能可视化?除了这些数据,我们是不是还遗漏了一些东西? 在当前这个例子中,我们可以看到,一旦拿到航班的历史数据,我们就可以 判断出哪些机场最繁忙,哪些航班最容易延误,而哪些机场延误的情况是最糟糕 的。我们来观察一下我们得到的航班数据,这里我们只取了2007年的有关700 万个航班的数据,其中我们最关注的一列是Departure Delay,也就是飞机实际 起飞时间和预计起飞之间之间的一个延误分钟数。要注意的是,这个数据里面并 没有直接去定义某一个航班是否延误了,它只给出了这个延误的分钟数,这一点 很重要。 ArrTime|CRSArrTime CRSDepTime DayofWeek DayofMonth DepDelay DepTimeDest Distance MonthOrigin| 1341 1340 1225 1232 ONT 389 NN|2007 2043 2035 1905 13 191日 PDX 479 SMP |2007 2334 2300 2130 6 2206 PDX 479 SMF N|2007 1356 1330 1200 1 1230 PDX 479 SMP N|2007 957 1000 B30 1 1 B31 PDX 479 11 SMP N2007 通过可视化,我们可以知道哪些机场最繁忙。我们把所有的机场起降的飞机 的航班的数量通过热图呈现出来,就可以看到面积越大的圆圈,颜色越深的圆圈, 表示机场越繁忙。我们可以通过历史的航班信息来进行预测,于是我们确定,我们要根据历史数据, 通过某种数理统计或者是机器学习的方法来进行预测。数理统计和机器学习的方 法有很多种,我们可以选择其中的一种,比如可以选择逻辑回归。紧接着,我们 要去考虑要做这种预测到底需要哪些航班数据?这些数据是什么格式的?我们 可以想象一下,我们需要某一年的所有航班的起降数据,这些数据最好都是纯文 本的,以方便我们去处理。确定了数据的需求之后,我们要去收集这些数据,这 些数据有可能是开放数据,可以在网络上下载,也有可能是一些私有数据,需要 购买。无论怎样,得到数据之后,要对这些数据做一些理解,比如说这些数据看 起来怎么样,是不是很完整?我们对这些数据会产生一些什么样的初步见解?这 些数据能不能可视化?除了这些数据,我们是不是还遗漏了一些东西? 在当前这个例子中,我们可以看到,一旦拿到航班的历史数据,我们就可以 判断出哪些机场最繁忙,哪些航班最容易延误,而哪些机场延误的情况是最糟糕 的。我们来观察一下我们得到的航班数据,这里我们只取了 2007 年的有关 700 万个航班的数据,其中我们最关注的一列是 De瀃arture De濿ay,也就是飞机实际 起飞时间和预计起飞之间之间的一个延误分钟数。要注意的是,这个数据里面并 没有直接去定义某一个航班是否延误了,它只给出了这个延误的分钟数,这一点 很重要。 通过可视化,我们可以知道哪些机场最繁忙。我们把所有的机场起降的飞机 的航班的数量通过热图呈现出来,就可以看到面积越大的圆圈,颜色越深的圆圈, 表示机场越繁忙
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有