《数据科学引论——Python之道》课程教学资源（教案讲义）07 数据科学方法学.pdf_大学文库

我们可以通过历史的航班信息来进行预测，于是我们确定，我们要根据历史数据，通过某种数理统计或者是机器学习的方法来进行预测。数理统计和机器学习的方法有很多种，我们可以选择其中的一种，比如可以选择逻辑回归。紧接着，我们要去考虑要做这种预测到底需要哪些航班数据？这些数据是什么格式的？我们可以想象一下，我们需要某一年的所有航班的起降数据，这些数据最好都是纯文本的，以方便我们去处理。确定了数据的需求之后，我们要去收集这些数据，这些数据有可能是开放数据，可以在网络上下载，也有可能是一些私有数据，需要购买。无论怎样，得到数据之后，要对这些数据做一些理解，比如说这些数据看起来怎么样，是不是很完整？我们对这些数据会产生一些什么样的初步见解？这些数据能不能可视化？除了这些数据，我们是不是还遗漏了一些东西？在当前这个例子中，我们可以看到，一旦拿到航班的历史数据，我们就可以判断出哪些机场最繁忙，哪些航班最容易延误，而哪些机场延误的情况是最糟糕的。我们来观察一下我们得到的航班数据，这里我们只取了2007年的有关700 万个航班的数据，其中我们最关注的一列是Departure Delay,也就是飞机实际起飞时间和预计起飞之间之间的一个延误分钟数。要注意的是，这个数据里面并没有直接去定义某一个航班是否延误了，它只给出了这个延误的分钟数，这一点很重要。 ArrTime|CRSArrTime CRSDepTime DayofWeek DayofMonth DepDelay DepTimeDest Distance MonthOrigin| 1341 1340 1225 1232 ONT 389 NN|2007 2043 2035 1905 13 191日 PDX 479 SMP |2007 2334 2300 2130 6 2206 PDX 479 SMF N|2007 1356 1330 1200 1 1230 PDX 479 SMP N|2007 957 1000 B30 1 1 B31 PDX 479 11 SMP N2007 通过可视化，我们可以知道哪些机场最繁忙。我们把所有的机场起降的飞机的航班的数量通过热图呈现出来，就可以看到面积越大的圆圈，颜色越深的圆圈，表示机场越繁忙

Delayed,True就表示是延误的航班，False是没有延误的航班。所以我们看到特征工程是从数据集中抽取出一些特征，并标记在数据集中。到这里为止，数据就准备好了，下面就可以去做数据的分析了。在前面的这几个步骤中，我们是可以不断地进行迭代的。不断地迭代就可以不断地提高数据的质量，就可以有助于最后数据分析质量的提高。紧接着，我们来建模。建模就是要确定在数据分析过程中的输入是什么？输出是什么？中间使用的是什么样的算法或技术。在建模时，我们确定输入是航班的起飞时间，包括年月日和出发时间以及目标机场，输出期望是预测这个航班是否会延误，就是一个bool值，即True或False。中间我们希望使用逻辑回归的方式来进行处理。建模实际上是一个高度迭代化的过程。也就是说，我们会拿航班的历史数据中的一部分，不断地作为输入去产生输出，拿输出和实际的值进行比较，然后不断地校正中间逻辑回归模型中的参数。所以我们可以看到建模过程是一个高度迭代化的过程，在这个过程中，模型是在不断地被修正的。当我们确定好一个模型之后，就要去对这个模型进行评估。例如，我们拿出历史数据集中没有去训练这个模型的那一部分数据进行校验，来判断这个模型是否准确。我们不断地拿这种测试用例输入到建立的模型中，根据模型的输出值和实际值之间的差异来评估模型的准确性。如果用户对数据分析的性能也很在意，那么在评估过程中还要去评估模型的性能。毕竟，对于模型的准确性而言，高性能虽然是用户所希望的，但是如果模型过于费时，它的计算复杂度过高，性能很差，也并不是用户希望的。所以在模型评估的阶段，我们可能会涉及到多个目标或者是多个约束条件的测试和评估

De濿ayed，True 就表示是延误的航班，Fa濿se 是没有延误的航班。所以我们看到特征工程是从数据集中抽取出一些特征，并标记在数据集中。到这里为止，数据就准备好了，下面就可以去做数据的分析了。在前面的这几个步骤中，我们是可以不断地进行迭代的。不断地迭代就可以不断地提高数据的质量，就可以有助于最后数据分析质量的提高。紧接着，我们来建模。建模就是要确定在数据分析过程中的输入是什么？输出是什么？中间使用的是什么样的算法或技术。在建模时，我们确定输入是航班的起飞时间，包括年月日和出发时间以及目标机场，输出期望是预测这个航班是否会延误，就是一个 b瀂瀂濿值，即 True 或 Fa濿se。中间我们希望使用逻辑回归的方式来进行处理。建模实际上是一个高度迭代化的过程。也就是说，我们会拿航班的历史数据中的一部分，不断地作为输入去产生输出，拿输出和实际的值进行比较，然后不断地校正中间逻辑回归模型中的参数。所以我们可以看到建模过程是一个高度迭代化的过程，在这个过程中，模型是在不断地被修正的。当我们确定好一个模型之后，就要去对这个模型进行评估。例如，我们拿出历史数据集中没有去训练这个模型的那一部分数据进行校验，来判断这个模型是否准确。我们不断地拿这种测试用例输入到建立的模型中，根据模型的输出值和实际值之间的差异来评估模型的准确性。如果用户对数据分析的性能也很在意，那么在评估过程中还要去评估模型的性能。毕竟，对于模型的准确性而言，高性能虽然是用户所希望的，但是如果模型过于费时，它的计算复杂度过高，性能很差，也并不是用户希望的。所以在模型评估的阶段，我们可能会涉及到多个目标或者是多个约束条件的测试和评估

为了方便这种评估，我们可以创建一个可交互的原型系统，方便用户输入各种各样的测试用例，然后根据执行的结果产生对模型准确的评估，评估结束之后就意味着所建立的分析模型符合预期。紧接着，我们就可以去部署了。部署就是要将训练好的模型部署到生产环境或者是受限的测试环境中。在部署时，我们可能会与很多其他的人员打交道，比如市场部门、解决方案的所有者、应用的开发者和设计者等等。在系统部署好之后，就会投入实际使用，这时用户会对这个模型进行再度评估，他们的评估会反馈回开发人员，作为数据分析模型的开发者会拿到这些反馈信息，对模型进行不断地求精，然后重新部署，通过不断的迭代来继续提高模型准确性。这就是我们看到的数据分析的10个步骤，这些步骤在任何一个阶段都可以不断地迭代，以提高数据分析的准确性和性能。如果你是一个新手怎么办？最好的训练方式就是从一个实际的数据科学的项目入手，你可以考虑一些你身边的问题，例如交通问题、贫困问题、污染问题、健康问题等等。联合国确立的可持续发展的17个目标当中的任何一个，都是一个很好的主题。我们甚至可以去查找联合国提供的一些开放数据，然后遵循数据科学方法学的这个指南来做出一些有意义的数据科学的实际项目。二、数据科学方法学-应用案例让我们通过一个简单的实例来看一看数据科学方法学是如何得到应用的。假设你得到了一个食谱，这个食谱表示这种美食需要使用的原材料，包含了米饭、海藻、芥末和酱油。在这种情况下，你是否能猜出这是什么美食呢？也许吃过寿司的人马上就可以猜出这是寿司，但是更一般的情况是我们可能有很多种食物都没有吃过，甚至都没有见过，在这种情况下，仅仅根据食谱是否

为了方便这种评估，我们可以创建一个可交互的原型系统，方便用户输入各种各样的测试用例，然后根据执行的结果产生对模型准确的评估，评估结束之后就意味着所建立的分析模型符合预期。紧接着，我们就可以去部署了。部署就是要将训练好的模型部署到生产环境或者是受限的测试环境中。在部署时，我们可能会与很多其他的人员打交道，比如市场部门、解决方案的所有者、应用的开发者和设计者等等。在系统部署好之后，就会投入实际使用，这时用户会对这个模型进行再度评估，他们的评估会反馈回开发人员，作为数据分析模型的开发者会拿到这些反馈信息，对模型进行不断地求精，然后重新部署，通过不断的迭代来继续提高模型准确性。这就是我们看到的数据分析的 10 个步骤，这些步骤在任何一个阶段都可以不断地迭代，以提高数据分析的准确性和性能。如果你是一个新手怎么办？最好的训练方式就是从一个实际的数据科学的项目入手，你可以考虑一些你身边的问题，例如交通问题、贫困问题、污染问题、健康问题等等。联合国确立的可持续发展的 17 个目标当中的任何一个，都是一个很好的主题。我们甚至可以去查找联合国提供的一些开放数据，然后遵循数据科学方法学的这个指南来做出一些有意义的数据科学的实际项目。二、数据科学方法学-应用案例让我们通过一个简单的实例来看一看数据科学方法学是如何得到应用的。假设你得到了一个食谱，这个食谱表示这种美食需要使用的原材料，包含了米饭、海藻、芥末和酱油。在这种情况下，你是否能猜出这是什么美食呢？也许吃过寿司的人马上就可以猜出这是寿司，但是更一般的情况是我们可能有很多种食物都没有吃过，甚至都没有见过，在这种情况下，仅仅根据食谱是否