正在加载图片...
的内部的数据彼此之间比较相似,而类之间的数据差异比较大,常用的算法有K 均值和分层聚类方法。 第五是序列模式挖掘,就是按照时间发生的顺序对一系列的事件进行挖掘, 例如,我们想分析某个网页或者是某个视频被浏览和观看的模型,常用的算法有 马尔可夫模型和隐马尔可夫模型。 第六是降维,当问题特别复杂时,我们是难以对其进行处理的,所以我们希 望通过降维来降低问题的复杂性,从而解决问题,主要使用的方法有主成分分析。 第七是可视化,就像我们前面课中所提到的,数据可视化之后,可以方便人 们对数据的理解,更容易产生对数据的洞察。 第八是概括,也就是对数据集产生概括性的描述。之前我们提到的在 DataFrame上调用describe方法就可以得到所有数值型列的统计数据,包括最 大值、最小值、平均值、中位值等等。 第九是偏差检测,也就要找到一系列数据集中的数据变点,例如,在拟合一 条符合正关联或负关联的直线时,我们总会发现有一些点会远离这条直线,这些 点就属于变点。 最后是链接或者是图分析。如果把节点之间的链接关系画出来也是一张图, 所以它们本质是一样的,就是通过对图的分析来发现一些数据之间的关联关系。 机器学习领域非常广泛,本节课将挑选其中几种加以描述,并通过notebook 让大家掌握在Python框架下如何使用它们。 二、预测 下面让我们来看看预测方法。我们举一个例子,假设我们想根据一辆汽车的 各项技术指标来预测它的二氧化碳的排放量,那么我们该怎么做呢?的内部的数据彼此之间比较相似,而类之间的数据差异比较大,常用的算法有 K 均值和分层聚类方法。 第五是序列模式挖掘,就是按照时间发生的顺序对一系列的事件进行挖掘, 例如,我们想分析某个网页或者是某个视频被浏览和观看的模型,常用的算法有 马尔可夫模型和隐马尔可夫模型。 第六是降维,当问题特别复杂时,我们是难以对其进行处理的,所以我们希 望通过降维来降低问题的复杂性,从而解决问题,主要使用的方法有主成分分析。 第七是可视化,就像我们前面课中所提到的,数据可视化之后,可以方便人 们对数据的理解,更容易产生对数据的洞察。 第八是概括,也就是对数据集产生概括性的描述。之前我们提到的在 D濴瀇濴F瀅濴瀀濸 上调用 濷濸瀆濶瀅濼濵濸 方法就可以得到所有数值型列的统计数据,包括最 大值、最小值、平均值、中位值等等。 第九是偏差检测,也就要找到一系列数据集中的数据变点,例如,在拟合一 条符合正关联或负关联的直线时,我们总会发现有一些点会远离这条直线,这些 点就属于变点。 最后是链接或者是图分析。如果把节点之间的链接关系画出来也是一张图, 所以它们本质是一样的,就是通过对图的分析来发现一些数据之间的关联关系。 机器学习领域非常广泛,本节课将挑选其中几种加以描述,并通过 瀁瀂瀇濸濵瀂瀂濾 让大家掌握在 P瀌瀇濻瀂瀁 框架下如何使用它们。 二、预测 下面让我们来看看预测方法。我们举一个例子,假设我们想根据一辆汽车的 各项技术指标来预测它的二氧化碳的排放量,那么我们该怎么做呢?
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有