当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

厦门大学:《大数据导论》课程讲义(PPT教学课件)第7章 数据处理与分析

资源类别:文库,文档格式:PPT,文档页数:122,文件大小:6.16MB,团购合买
7.1 数据处理与分析的概念 7.1.1 数据分析与数据挖掘 7.1.2数据分析与数据处理 7.1.3大数据处理与分析 7.2机器学习和数据挖掘算法 7.2.1概述 7.2.2 分类 7.2.3聚类 7.2.4 回归分析 7.2.5关联规则 7.2.6协同过滤 7.3 大数据处理与分析技术 7.3.1技术分类 7.3.2 流计算 7.3.3 图计算 7.4大数据处理与分析代表性产品 7.4.1 分布式计算框架MapReduce 7.4.2 数据仓库Hive 7.4.3数据仓库Impala 7.4.4 基于内存的分布式计算框架Spark 7.4.5 TensorFlowOnSpark 7.4.6 流计算框架Storm 7.4.7 流计算框架Flink 7.4.8大数据编程框架Beam 7.4.9查询分析系统Dremel
点击下载完整版文档(PPT)

《大数据导论》 教材官网:htp/ dblab. xmu. edu. cn/ post/bigdata-introduction 湿馨提示:编幻灯片母版,可以修改每页PPT的厦大校傲和底部文字 第7章数据处理与分析 (PPT版本号:2020年秋季学期) 林子雨博士教授 厦门大学计算机科学系 口 扫一扫访问教材官网 E-mail:ziyulin@xmu.edu.cnA 主页:http:/ldblab.xmu.edu.cn/post/linziyu 厦门大学计算机科学系 2020版

《大数据导论 厦门大学计算机科学系 》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 2020版 林子雨 博士/副教授 厦门大学计算机科学系 E-mail: ziyulin@xmu.edu.cn 主页:http://dblab.xmu.edu.cn/post/linziyu 第7章 数据处理与分析 (PPT版本号:2020年秋季学期) 《大数据导论》 教材官网: http://dblab.xmu.edu.cn/post/bigdata-introduction/ 温馨提示:编辑幻灯片母版,可以修改每页PPT的厦大校徽和底部文字 扫一扫访问教材官网

课程教材 林子雨编著《大数据导论》 ·人民邮电出版社,2020年8月第1版 SBN:978-7-115-54446-9定价:4980元 教材官网:http:/dblab.xmu.edu.cn/post/bigdata-introduction 大数感爱回 DDUCnON TO 回中出服划品想 扫一扫访问教材官网 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn

《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 课程教材 • 林子雨 编著《大数据导论》 • 人民邮电出版社,2020年8月第1版 • ISBN:978-7-115-54446-9 定价:49.80元 教材官网:http://dblab.xmu.edu.cn/post/bigdata-introduction/ 扫一扫访问教材官网

提纲 71数据处理与分析的概念 7.2机器学习和数据挖掘算法 73大数据处理与分析技术 74大数据处理与分析代表性产品 G DAS 高校大数据课程 公共服务平台 百度搜索厦门大学数据库实验室网站访问平台 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn

《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 提纲 7.1 数据处理与分析的概念 7.2机器学习和数据挖掘算法 7.3 大数据处理与分析技术 7.4大数据处理与分析代表性产品 百度搜索厦门大学数据库实验室网站访问平台

通71数据处理与分析的概念 数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分 析就包括狭义的数据分析和数据挖掘。广义的数据分析是指用适当的 分析方法(来自统计学、机器学习和数据挖掘等领域),对收集来的 数据进行分析,提取有用信息和形成结论的过程。可以看出,在广义 的数据分析中,可以使用复杂的机器学习和数据挖掘算法,也可以根 本不使用这些算法,而只使用一些简单的统计分析方法,比如汇总求 和、求平均值、求均方差等。狭义的数据分析是指根据分析目的,用 适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取 有价值的信息,发挥数据的作用。 7.1.1数据分析与数据挖掘 7.1.2数据分析与数据处理 7.1.3大数据处理与分析 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn

《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1 数据处理与分析的概念 7.1.1 数据分析与数据挖掘 7.1.2数据分析与数据处理 7.1.3大数据处理与分析 数据分析可以分为广义的数据分析和狭义的数据分析,广义的数据分 析就包括狭义的数据分析和数据挖掘。广义的数据分析是指用适当的 分析方法(来自统计学、机器学习和数据挖掘等领域),对收集来的 数据进行分析,提取有用信息和形成结论的过程。可以看出,在广义 的数据分析中,可以使用复杂的机器学习和数据挖掘算法,也可以根 本不使用这些算法,而只使用一些简单的统计分析方法,比如汇总求 和、求平均值、求均方差等。狭义的数据分析是指根据分析目的,用 适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取 有价值的信息,发挥数据的作用

7.1.1数据分析与数据挖掘 狭义的数据分析和数据挖掘是有着明显的区分的,具体如下 (1)在定义层面。狭义的数据分析,在上面已经定义过。而数据挖掘是指 从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知 的、且有价值的信息和知识的过程。 (2)在作用层面。数据分析主要实现三大作用:现状分析、原因分析、预 测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来 验证假设是否正确,从而得到相应的结论。数据挖掘主要侧重解决四类问 题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未 知的模式与规律;如著名的数据挖掘案例—啤酒与尿布,就是事先未知 的,但又是非常有价值的信息。 (3)在方法层面。数据分析主要采用对比分析、分组分析、交叉分析、回 归分析等常用分析方法;数据挖掘主要采用决策树、神经网络、关联规则、 聚类分析等统计学、人工智能、机器学习等方法进行挖掘; (4)在结果层面。数据分析一般都是得到一个指标统计量结果,如总和 平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的 价值与作用。数据挖掘则是输岀模型或规则,并且可相应得到模型得分或 标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高 中低价值用户、流失与非流失、信用优良中差等。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn

《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.1 数据分析与数据挖掘 狭义的数据分析和数据挖掘是有着明显的区分的,具体如下: (1)在定义层面。狭义的数据分析,在上面已经定义过。而数据挖掘是指 从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知 的、且有价值的信息和知识的过程。 (2)在作用层面。数据分析主要实现三大作用:现状分析、原因分析、预 测分析(定量)。数据分析的目标明确,先做假设,然后通过数据分析来 验证假设是否正确,从而得到相应的结论。数据挖掘主要侧重解决四类问 题:分类、聚类、关联和预测(定量、定性),数据挖掘的重点在寻找未 知的模式与规律;如著名的数据挖掘案例——啤酒与尿布,就是事先未知 的,但又是非常有价值的信息。 (3)在方法层面。数据分析主要采用对比分析、分组分析、交叉分析、回 归分析等常用分析方法;数据挖掘主要采用决策树、神经网络、关联规则、 聚类分析等统计学、人工智能、机器学习等方法进行挖掘; (4)在结果层面。数据分析一般都是得到一个指标统计量结果,如总和、 平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的 价值与作用。数据挖掘则是输出模型或规则,并且可相应得到模型得分或 标签,模型得分如流失概率值、总和得分、相似度、预测值等,标签如高 中低价值用户、流失与非流失、信用优良中差等

7.1.1数据分析与数据挖掘 综上所述,数据分析(狭义)与数据挖掘的本质都是一样的,都是从 数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、 改进产品以及帮助企业做更好的决策。所以,数据分析(狭义)与数 据挖掘构成广义的数据分析。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn

《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.1 数据分析与数据挖掘 综上所述,数据分析(狭义)与数据挖掘的本质都是一样的,都是从 数据里面发现关于业务的知识(有价值的信息),从而帮助业务运营、 改进产品以及帮助企业做更好的决策。所以,数据分析(狭义)与数 据挖掘构成广义的数据分析

7.1.2数据分析与数据处理 数据分析过程通常会伴随着发生数据处理(或者说伴随着大量数据计 算),因此,数据分析和数据处理是一对关系紧密的概念,很多时候, 二者是融合在一起的,很难割裂开来。也就是说,当用户在进行数据 分析的时候,底层的计算机系统会根据数据分析任务的要求,使用程 序进行大量的数据处理(或者说发生大量的数据计算)。例如,当用 户进行决策树分析时,需要事先根据决策树算法编写分析程序,当分 析开始以后,决策树分析程序就会从磁盘读取数据进行大量计算,最 终给出计算结果(也就是决策树分析结果)。 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn

《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.2数据分析与数据处理 数据分析过程通常会伴随着发生数据处理(或者说伴随着大量数据计 算),因此,数据分析和数据处理是一对关系紧密的概念,很多时候, 二者是融合在一起的,很难割裂开来。也就是说,当用户在进行数据 分析的时候,底层的计算机系统会根据数据分析任务的要求,使用程 序进行大量的数据处理(或者说发生大量的数据计算)。例如,当用 户进行决策树分析时,需要事先根据决策树算法编写分析程序,当分 析开始以后,决策树分析程序就会从磁盘读取数据进行大量计算,最 终给出计算结果(也就是决策树分析结果)

7.1.3大数据处理与分析 数据分析包含两个要素,即理论和技术。在理论层面,需要统计学、机 器学习和数据挖掘等知识;在技术层面,包括单机分析工具(比如sPSS、 SAs等)或单机编程语言(比如 Python、R),以及大数据处理与分析技 术(比如 MapReduce、 Spark、Hive等)。 数据分析可以是针对小规模数据的分析,也可以是针对大规模数据的分 析(这时被称为“大数据分析”)。在大数据时代到来之前,数据分析 主要以小规模的抽样数据为主,一般使用统计学、机器学习和数据挖掘 的相关方法,以单机分析工具(比如SPSs和SAS)或者单机编程(比如 Python、R)的方式来实现分析程序。但是,到了大数据时代,数据量爆 炸式地增长,很多时候需要对规模巨大的全量数据而不是小规模的抽样 数据进行分析,这时,单机工具和单机程序已经显得“无能为力”,就 需要釆用分布式实现技术,比如使用 Map Reduce、 Spark或Fink编写分 布式分析程序,借助于集群的多台机器进行并行数据处理分析,这个过 程就被称为“大数据处理与分析” 大数据导论 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn

《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.3大数据处理与分析 数据分析包含两个要素,即理论和技术。在理论层面,需要统计学、机 器学习和数据挖掘等知识;在技术层面,包括单机分析工具(比如SPSS、 SAS等)或单机编程语言(比如Python、R),以及大数据处理与分析技 术(比如MapReduce、Spark、Hive等)。 数据分析可以是针对小规模数据的分析,也可以是针对大规模数据的分 析(这时被称为“大数据分析”)。在大数据时代到来之前,数据分析 主要以小规模的抽样数据为主,一般使用统计学、机器学习和数据挖掘 的相关方法,以单机分析工具(比如SPSS和SAS)或者单机编程(比如 Python、R)的方式来实现分析程序。但是,到了大数据时代,数据量爆 炸式地增长,很多时候需要对规模巨大的全量数据而不是小规模的抽样 数据进行分析,这时,单机工具和单机程序已经显得“无能为力”,就 需要采用分布式实现技术,比如使用MapReduce、Spark或Flink编写分 布式分析程序,借助于集群的多台机器进行并行数据处理分析,这个过 程就被称为“大数据处理与分析

7.1.3大数据处理与分析 本章后续内容中,在数据分析理论层面,只介绍属于数据挖掘的理论知 识(即机器学习和数据挖掘算法),对于使用统计学方法的狭义的数据 分析理论知识(如对比分析、分组分析、交叉分析、预测分析、漏斗分 析、AB测试分析、结构分析、因素分析、矩阵分析、相关分析、回归 分析、聚类分析、判断分析、成分分析等)不做介绍,感兴趣的读者可 以参考相关的统计学书籍。在数据分析技术层面,介绍面向大规模数据 的大数据处理与分析技术(如 Map Reduce、 Spark、 Flink、Hive等) 对于单机工具和单机编程不做介绍,感兴趣的读者可以参考与SPSS、 SAs、 Python和R等相关的书籍 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn

《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.1.3大数据处理与分析 本章后续内容中,在数据分析理论层面,只介绍属于数据挖掘的理论知 识(即机器学习和数据挖掘算法),对于使用统计学方法的狭义的数据 分析理论知识(如对比分析、分组分析、交叉分析、预测分析、漏斗分 析、A/B测试分析、结构分析、因素分析、矩阵分析、相关分析、回归 分析、聚类分析、判断分析、成分分析等)不做介绍,感兴趣的读者可 以参考相关的统计学书籍。在数据分析技术层面,介绍面向大规模数据 的大数据处理与分析技术(如MapReduce、Spark、Flink、Hive等), 对于单机工具和单机编程不做介绍,感兴趣的读者可以参考与SPSS、 SAS、Python和R等相关的书籍

7.2机器学习和数据挖掘算法 72.1概述 722分类 72.3聚类 72.4回归分析 72.5关联规则 72.6协同过滤 大数据导论》厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn

《大数据导论》 厦门大学计算机科学系 林子雨 ziyulin@xmu.edu.cn 7.2机器学习和数据挖掘算法 7.2.1概述 7.2.2 分类 7.2.3聚类 7.2.4 回归分析 7.2.5关联规则 7.2.6协同过滤

点击下载完整版文档(PPT)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共122页,可试读30页,点击继续阅读 ↓↓
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有