正在加载图片...
Delayed,True就表示是延误的航班,False是没有延误的航班。所以我们看到特 征工程是从数据集中抽取出一些特征,并标记在数据集中。 到这里为止,数据就准备好了,下面就可以去做数据的分析了。在前面的这 几个步骤中,我们是可以不断地进行迭代的。不断地迭代就可以不断地提高数据 的质量,就可以有助于最后数据分析质量的提高。 紧接着,我们来建模。建模就是要确定在数据分析过程中的输入是什么?输 出是什么?中间使用的是什么样的算法或技术。在建模时,我们确定输入是航班 的起飞时间,包括年月日和出发时间以及目标机场,输出期望是预测这个航班是 否会延误,就是一个bool值,即True或False。中间我们希望使用逻辑回归的 方式来进行处理。 建模实际上是一个高度迭代化的过程。也就是说,我们会拿航班的历史数据 中的一部分,不断地作为输入去产生输出,拿输出和实际的值进行比较,然后不 断地校正中间逻辑回归模型中的参数。所以我们可以看到建模过程是一个高度迭 代化的过程,在这个过程中,模型是在不断地被修正的。 当我们确定好一个模型之后,就要去对这个模型进行评估。例如,我们拿出 历史数据集中没有去训练这个模型的那一部分数据进行校验,来判断这个模型是 否准确。我们不断地拿这种测试用例输入到建立的模型中,根据模型的输出值和 实际值之间的差异来评估模型的准确性。如果用户对数据分析的性能也很在意, 那么在评估过程中还要去评估模型的性能。毕竟,对于模型的准确性而言,高性 能虽然是用户所希望的,但是如果模型过于费时,它的计算复杂度过高,性能很 差,也并不是用户希望的。所以在模型评估的阶段,我们可能会涉及到多个目标 或者是多个约束条件的测试和评估。De濿ayed,True 就表示是延误的航班,Fa濿se 是没有延误的航班。所以我们看到特 征工程是从数据集中抽取出一些特征,并标记在数据集中。 到这里为止,数据就准备好了,下面就可以去做数据的分析了。在前面的这 几个步骤中,我们是可以不断地进行迭代的。不断地迭代就可以不断地提高数据 的质量,就可以有助于最后数据分析质量的提高。 紧接着,我们来建模。建模就是要确定在数据分析过程中的输入是什么?输 出是什么?中间使用的是什么样的算法或技术。在建模时,我们确定输入是航班 的起飞时间,包括年月日和出发时间以及目标机场,输出期望是预测这个航班是 否会延误,就是一个 b瀂瀂濿 值,即 True 或 Fa濿se。中间我们希望使用逻辑回归的 方式来进行处理。 建模实际上是一个高度迭代化的过程。也就是说,我们会拿航班的历史数据 中的一部分,不断地作为输入去产生输出,拿输出和实际的值进行比较,然后不 断地校正中间逻辑回归模型中的参数。所以我们可以看到建模过程是一个高度迭 代化的过程,在这个过程中,模型是在不断地被修正的。 当我们确定好一个模型之后,就要去对这个模型进行评估。例如,我们拿出 历史数据集中没有去训练这个模型的那一部分数据进行校验,来判断这个模型是 否准确。我们不断地拿这种测试用例输入到建立的模型中,根据模型的输出值和 实际值之间的差异来评估模型的准确性。如果用户对数据分析的性能也很在意, 那么在评估过程中还要去评估模型的性能。毕竟,对于模型的准确性而言,高性 能虽然是用户所希望的,但是如果模型过于费时,它的计算复杂度过高,性能很 差,也并不是用户希望的。所以在模型评估的阶段,我们可能会涉及到多个目标 或者是多个约束条件的测试和评估
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有