正在加载图片...
7.1.3大数据处理与分析 数据分析包含两个要素,即理论和技术。在理论层面,需要统计学、机 器学习和数据挖掘等知识;在技术层面,包括单机分析工具(比如sPSS、 SAs等)或单机编程语言(比如 Python、R),以及大数据处理与分析技 术(比如 MapReduce、 Spark、Hive等)。 数据分析可以是针对小规模数据的分析,也可以是针对大规模数据的分 析(这时被称为“大数据分析”)。在大数据时代到来之前,数据分析 主要以小规模的抽样数据为主,一般使用统计学、机器学习和数据挖掘 的相关方法,以单机分析工具(比如SPSs和SAS)或者单机编程(比如 Python、R)的方式来实现分析程序。但是,到了大数据时代,数据量爆 炸式地增长,很多时候需要对规模巨大的全量数据而不是小规模的抽样 数据进行分析,这时,单机工具和单机程序已经显得“无能为力”,就 需要釆用分布式实现技术,比如使用 Map Reduce、 Spark或Fink编写分 布式分析程序,借助于集群的多台机器进行并行数据处理分析,这个过 程就被称为“大数据处理与分析” 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.3大数据处理与分析 数据分析包含两个要素,即理论和技术。在理论层面,需要统计学、机 器学习和数据挖掘等知识;在技术层面,包括单机分析工具(比如SPSS、 SAS等)或单机编程语言(比如Python、R),以及大数据处理与分析技 术(比如MapReduce、Spark、Hive等)。 数据分析可以是针对小规模数据的分析,也可以是针对大规模数据的分 析(这时被称为“大数据分析”)。在大数据时代到来之前,数据分析 主要以小规模的抽样数据为主,一般使用统计学、机器学习和数据挖掘 的相关方法,以单机分析工具(比如SPSS和SAS)或者单机编程(比如 Python、R)的方式来实现分析程序。但是,到了大数据时代,数据量爆 炸式地增长,很多时候需要对规模巨大的全量数据而不是小规模的抽样 数据进行分析,这时,单机工具和单机程序已经显得“无能为力”,就 需要采用分布式实现技术,比如使用MapReduce、Spark或Flink编写分 布式分析程序,借助于集群的多台机器进行并行数据处理分析,这个过 程就被称为“大数据处理与分析
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有