《大数据导论》 教材官网:htp/ dblab. xmu. edu. cn/ post/bigdata-introduction 湿馨提示:编幻灯片母版,可以修改每页PPT的厦大校傲和底部文字 第7章数据处理与分析 (PPT版本号:2020年秋季学期) 林子雨博士教授 厦门大学计算机科学系 口 扫一扫访问教材官网 E-mail:ziyulin@xmu.edu.cnA 主页:http:/ldblab.xmu.edu.cn/post/linziyu 厦门大学计算机科学系 2020版
《大数据导论 厦门大学计算机科学系 》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 2020版 林子雨 博士/副教授 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页:http://dblab.xmu.edu.cn/post/linziyu 第7章 数据处理与分析 (PPT版本号:2020年秋季学期) 《大数据导论》 教材官网: http://dblab.xmu.edu.cn/post/bigdata-introduction/ 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 扫一扫访问教材官网
课程教材 林子雨编著《大数据导论》 ·人民邮电出版社,2020年8月第1版 SBN:978-7-115-54446-9定价:4980元 教材官网:http:/dblab.xmu.edu.cn/post/bigdata-introduction 大数感爱回 DDUCnON TO 回中出服划品想 扫一扫访问教材官网 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 课程教材 • 林子雨 编著《大数据导论》 • 人民邮电出版社,2020年8月第1版 • ISBN:978-7-115-54446-9 定价:49.80元 教材官网:http://dblab.xmu.edu.cn/post/bigdata-introduction/ 扫一扫访问教材官网
提纲 71数据处理与分析的概念 7.2机器学习和数据挖掘算法 73大数据处理与分析技术 74大数据处理与分析代表性产品 G DAS 高校大数据课程 公共服务平台 百度搜索厦门大学数据库实验室网站访问平台 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 7.1 数据处理与分析的概念 7.2机器学习和数据挖掘算法 7.3 大数据处理与分析技术 7.4大数据处理与分析代表性产品 百度搜索厦门大学数据库实验室网站访问平台
通71数据处理与分析的概念 数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分 析就包括狭义的数据分析和数据挖掘。广义的数据分析是指用适当的 分析方法(来自统计学、机器学习和数据挖掘等领域),对收集来的 数据进行分析,提取有用信息和形成结论的过程。可以看出,在广义 的数据分析中,可以使用复杂的机器学习和数据挖掘算法,也可以根 本不使用这些算法,而只使用一些简单的统计分析方法,比如汇总求 和、求平均值、求均方差等。狭义的数据分析是指根据分析目的,用 适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取 有价值的信息,发挥数据的作用。 7.1.1数据分析与数据挖掘 7.1.2数据分析与数据处理 7.1.3大数据处理与分析 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1 数据处理与分析的概念 7.1.1 数据分析与数据挖掘 7.1.2数据分析与数据处理 7.1.3大数据处理与分析 数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分 析就包括狭义的数据分析和数据挖掘。广义的数据分析是指用适当的 分析方法(来自统计学、机器学习和数据挖掘等领域),对收集来的 数据进行分析,提取有用信息和形成结论的过程。可以看出,在广义 的数据分析中,可以使用复杂的机器学习和数据挖掘算法,也可以根 本不使用这些算法,而只使用一些简单的统计分析方法,比如汇总求 和、求平均值、求均方差等。狭义的数据分析是指根据分析目的,用 适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取 有价值的信息,发挥数据的作用
7.1.1数据分析与数据挖掘 狭义的数据分析和数据挖掘是有着明显的区分的,具体如下 (1)在定义层面。狭义的数据分析,在上面已经定义过。而数据挖掘是指 从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知 的、且有价值的信息和知识的过程。 (2)在作用层面。数据分析主要实现三大作用:现状分析、原因分析、预 测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来 验证假设是否正确,从而得到相应的结论。数据挖掘主要侧重解决四类问 题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未 知的模式与规律;如著名的数据挖掘案例—啤酒与尿布,就是事先未知 的,但又是非常有价值的信息。 (3)在方法层面。数据分析主要采用对比分析、分组分析、交叉分析、回 归分析等常用分析方法;数据挖掘主要采用决策树、神经网络、关联规则、 聚类分析等统计学、人工智能、机器学习等方法进行挖掘; (4)在结果层面。数据分析一般都是得到一个指标统计量结果,如总和 平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的 价值与作用。数据挖掘则是输岀模型或规则,并且可相应得到模型得分或 标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高 中低价值用户、流失与非流失、信用优良中差等。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.1 数据分析与数据挖掘 狭义的数据分析和数据挖掘是有着明显的区分的,具体如下: (1)在定义层面。狭义的数据分析,在上面已经定义过。而数据挖掘是指 从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知 的、且有价值的信息和知识的过程。 (2)在作用层面。数据分析主要实现三大作用:现状分析、原因分析、预 测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来 验证假设是否正确,从而得到相应的结论。数据挖掘主要侧重解决四类问 题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未 知的模式与规律;如著名的数据挖掘案例——啤酒与尿布,就是事先未知 的,但又是非常有价值的信息。 (3)在方法层面。数据分析主要采用对比分析、分组分析、交叉分析、回 归分析等常用分析方法;数据挖掘主要采用决策树、神经网络、关联规则、 聚类分析等统计学、人工智能、机器学习等方法进行挖掘; (4)在结果层面。数据分析一般都是得到一个指标统计量结果,如总和、 平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的 价值与作用。数据挖掘则是输出模型或规则,并且可相应得到模型得分或 标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高 中低价值用户、流失与非流失、信用优良中差等
7.1.1数据分析与数据挖掘 综上所述,数据分析(狭义)与数据挖掘的本质都是一样的,都是从 数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、 改进产品以及帮助企业做更好的决策。所以,数据分析(狭义)与数 据挖掘构成广义的数据分析。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.1 数据分析与数据挖掘 综上所述,数据分析(狭义)与数据挖掘的本质都是一样的,都是从 数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、 改进产品以及帮助企业做更好的决策。所以,数据分析(狭义)与数 据挖掘构成广义的数据分析
7.1.2数据分析与数据处理 数据分析过程通常会伴随着发生数据处理(或者说伴随着大量数据计 算),因此,数据分析和数据处理是一对关系紧密的概念,很多时候, 二者是融合在一起的,很难割裂开来。也就是说,当用户在进行数据 分析的时候,底层的计算机系统会根据数据分析任务的要求,使用程 序进行大量的数据处理(或者说发生大量的数据计算)。例如,当用 户进行决策树分析时,需要事先根据决策树算法编写分析程序,当分 析开始以后,决策树分析程序就会从磁盘读取数据进行大量计算,最 终给出计算结果(也就是决策树分析结果)。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.2数据分析与数据处理 数据分析过程通常会伴随着发生数据处理(或者说伴随着大量数据计 算),因此,数据分析和数据处理是一对关系紧密的概念,很多时候, 二者是融合在一起的,很难割裂开来。也就是说,当用户在进行数据 分析的时候,底层的计算机系统会根据数据分析任务的要求,使用程 序进行大量的数据处理(或者说发生大量的数据计算)。例如,当用 户进行决策树分析时,需要事先根据决策树算法编写分析程序,当分 析开始以后,决策树分析程序就会从磁盘读取数据进行大量计算,最 终给出计算结果(也就是决策树分析结果)
7.1.3大数据处理与分析 数据分析包含两个要素,即理论和技术。在理论层面,需要统计学、机 器学习和数据挖掘等知识;在技术层面,包括单机分析工具(比如sPSS、 SAs等)或单机编程语言(比如 Python、R),以及大数据处理与分析技 术(比如 MapReduce、 Spark、Hive等)。 数据分析可以是针对小规模数据的分析,也可以是针对大规模数据的分 析(这时被称为“大数据分析”)。在大数据时代到来之前,数据分析 主要以小规模的抽样数据为主,一般使用统计学、机器学习和数据挖掘 的相关方法,以单机分析工具(比如SPSs和SAS)或者单机编程(比如 Python、R)的方式来实现分析程序。但是,到了大数据时代,数据量爆 炸式地增长,很多时候需要对规模巨大的全量数据而不是小规模的抽样 数据进行分析,这时,单机工具和单机程序已经显得“无能为力”,就 需要釆用分布式实现技术,比如使用 Map Reduce、 Spark或Fink编写分 布式分析程序,借助于集群的多台机器进行并行数据处理分析,这个过 程就被称为“大数据处理与分析” 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.3大数据处理与分析 数据分析包含两个要素,即理论和技术。在理论层面,需要统计学、机 器学习和数据挖掘等知识;在技术层面,包括单机分析工具(比如SPSS、 SAS等)或单机编程语言(比如Python、R),以及大数据处理与分析技 术(比如MapReduce、Spark、Hive等)。 数据分析可以是针对小规模数据的分析,也可以是针对大规模数据的分 析(这时被称为“大数据分析”)。在大数据时代到来之前,数据分析 主要以小规模的抽样数据为主,一般使用统计学、机器学习和数据挖掘 的相关方法,以单机分析工具(比如SPSS和SAS)或者单机编程(比如 Python、R)的方式来实现分析程序。但是,到了大数据时代,数据量爆 炸式地增长,很多时候需要对规模巨大的全量数据而不是小规模的抽样 数据进行分析,这时,单机工具和单机程序已经显得“无能为力”,就 需要采用分布式实现技术,比如使用MapReduce、Spark或Flink编写分 布式分析程序,借助于集群的多台机器进行并行数据处理分析,这个过 程就被称为“大数据处理与分析
7.1.3大数据处理与分析 本章后续内容中,在数据分析理论层面,只介绍属于数据挖掘的理论知 识(即机器学习和数据挖掘算法),对于使用统计学方法的狭义的数据 分析理论知识(如对比分析、分组分析、交叉分析、预测分析、漏斗分 析、AB测试分析、结构分析、因素分析、矩阵分析、相关分析、回归 分析、聚类分析、判断分析、成分分析等)不做介绍,感兴趣的读者可 以参考相关的统计学书籍。在数据分析技术层面,介绍面向大规模数据 的大数据处理与分析技术(如 Map Reduce、 Spark、 Flink、Hive等) 对于单机工具和单机编程不做介绍,感兴趣的读者可以参考与SPSS、 SAs、 Python和R等相关的书籍 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.3大数据处理与分析 本章后续内容中,在数据分析理论层面,只介绍属于数据挖掘的理论知 识(即机器学习和数据挖掘算法),对于使用统计学方法的狭义的数据 分析理论知识(如对比分析、分组分析、交叉分析、预测分析、漏斗分 析、A/B测试分析、结构分析、因素分析、矩阵分析、相关分析、回归 分析、聚类分析、判断分析、成分分析等)不做介绍,感兴趣的读者可 以参考相关的统计学书籍。在数据分析技术层面,介绍面向大规模数据 的大数据处理与分析技术(如MapReduce、Spark、Flink、Hive等), 对于单机工具和单机编程不做介绍,感兴趣的读者可以参考与SPSS、 SAS、Python和R等相关的书籍
7.2机器学习和数据挖掘算法 72.1概述 722分类 72.3聚类 72.4回归分析 72.5关联规则 72.6协同过滤 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn
《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2机器学习和数据挖掘算法 7.2.1概述 7.2.2 分类 7.2.3聚类 7.2.4 回归分析 7.2.5关联规则 7.2.6协同过滤