当前位置:高等教育资讯网  >  中国高校课件下载中心  >  大学文库  >  浏览文档

重庆大学:《大数据技术基础》课程教学资源(课件讲稿)02 大数据关键技术与挑战

资源类别:文库,文档格式:PDF,文档页数:162,文件大小:3.89MB,团购合买
 大数据处理的基本流程  大数据处理模型  大数据关键技术  大数据处理工具  大数据时代面临的新挑战 WordCount 关联规则基本模型 聚类 本章内容首先介绍了大数据处理的基本流程和大数据处理模型,接着介绍了大数据的关键技术,其中,云计算是大数据的基础平台和支撑技术,本章以Google 的相关技术为主线,详细介绍Google 以及其他众多学者和研究机构在大数据技术方面已有的一些工作,包括文件系统、数据库系统、索引和查询技术、数据分析技术等;接下来,介绍了大数据处理平台和工具,就目前技术发展现状而言,Hadoop 已经成为了大数据处理工具事实上的标准。最后,介绍大数据时代面临的新挑战,包括大数据集成、大数据分析、大数据隐私问题、大数据能耗问题、大数据处理与硬件的协同、大数据管理易用性问题以及性能测试基准。 大数据采集架构 预测模型
点击下载完整版文档(PDF)

第2章大数据关键技术与挑战 《大数据技术基础》

《大数据技术基础》 第2章 大数据关键技术与挑战

提纲 大数据处理的基本流程 口大数据处理模型 口大数据关键技术 口大数据处理工具 口大数据时代面临的新挑战 《大数据技术基础》

《大数据技术基础》 提纲  大数据处理的基本流程  大数据处理模型  大数据关键技术  大数据处理工具  大数据时代面临的新挑战

大数据处理的基本流程 Users Researcher) Enterpnse Dserntnenr 整个大数据的处理流 fluman-cormpurer Vesualizanon lua Proven Interpretation 程可以定义为:在合 适工具的辅助下,对 广泛异构的数据源进 Prediction Data 行抽取和集成,结果 按照一定的标准进行 (Dits Miming )(Autistic 统一存储,并利用合 适的数据分析技术对 存储的数据进行分析 从中提取有益的知识 I Schema Evolution Credibility 并利用恰当的方式将 Anginal Data Extra Dat_ Data. 结果展现给终端用户 nd integra 具体来说,可以分为 数据抽取与集成、数 据分析以及数据解释。 Data 《大数据技术基础》

《大数据技术基础》 大数据处理的基本流程 整个大数据的处理流 程可以定义为:在合 适工具的辅助下,对 广泛异构的数据源进 行抽取和集成,结果 按照一定的标准进行 统一存储,并利用合 适的数据分析技术对 存储的数据进行分析, 从中提取有益的知识 并利用恰当的方式将 结果展现给终端用户。 具体来说,可以分为 数据抽取与集成、数 据分析以及数据解释

数据抽取与集成 大数据的一个重要特点就是多样性,这就意味着数据来源 极其广泛,数据类型极为繁杂。这种复杂的数据环境给大 数据的处理带来极大的挑战。 要想处理大数据,首先必须对所需数据源的数据进行抽取 和集成,从中提取出关系和实体,经过关联和聚合之后采 用统一定义的结构来存储这些数据。 在薮据集成和提取时需要对数据进行清洗,保证薮据质量 及可信性。 现有的数据抽取与集成方式可以大致分为以下四种类型 数据整合、数据联邦、数据传播和混合方法等。 《大数据技术基础》

《大数据技术基础》 数据抽取与集成 • 大数据的一个重要特点就是多样性,这就意味着数据来源 极其广泛,数据类型极为繁杂。这种复杂的数据环境给大 数据的处理带来极大的挑战。 • 要想处理大数据,首先必须对所需数据源的数据进行抽取 和集成,从中提取出关系和实体,经过关联和聚合之后采 用统一定义的结构来存储这些数据。 • 在数据集成和提取时需要对数据进行清洗,保证数据质量 及可信性。 • 现有的数据抽取与集成方式可以大致分为以下四种类型: 数据整合、数据联邦、数据传播和混合方法等

数据分析 传统的分析技术如数据挖掘、机器学习、统计分析等在大 数据时代需要做出调整,因为这些技术在大数据时代面临 着一些新的挑战,主要有 数据量大并不一定意味着数据价值的增加,相反这往往意味着数 据噪音的增多 大薮据时代的算法需要进行调整(邦弗朗尼原理) 数据结果好坏的衡量 《大数据技术基础》

《大数据技术基础》 数据分析 • 传统的分析技术如数据挖掘、机器学习、统计分析等在大 数据时代需要做出调整,因为这些技术在大数据时代面临 着一些新的挑战,主要有: – 数据量大并不一定意味着数据价值的增加,相反这往往意味着数 据噪音的增多 – 大数据时代的算法需要进行调整(邦弗朗尼原理) – 数据结果好坏的衡量

数据解释 数据分析是大数据处理的核心,但是用户往往更关心结果 的展示。如果分析的结果正确但是没有采用适当的解释方 法,则所得到的结果很可能让用户难以理解,极端情况下 甚至会误导用户 ·大数据时代的数据分析结果往往也是海量的,同时结果之 间的关联关系极其复杂,采用传统的解释方法基本不可行 ·可以考虑从下面两个方面提升数据解释能力: 引入可视化技术 让用户能够在一定程度上了解和参与具体的分析过程 《大数据技术基础》

《大数据技术基础》 数据解释 • 数据分析是大数据处理的核心,但是用户往往更关心结果 的展示。如果分析的结果正确但是没有采用适当的解释方 法,则所得到的结果很可能让用户难以理解,极端情况下 甚至会误导用户。 • 大数据时代的数据分析结果往往也是海量的,同时结果之 间的关联关系极其复杂,采用传统的解释方法基本不可行 • 可以考虑从下面两个方面提升数据解释能力: – 引入可视化技术 – 让用户能够在一定程度上了解和参与具体的分析过程

提纲 口大数据处理的基本流程 口大数据处理模型 口大数据关键技术 口大数据处理工具 口大数据时代面临的新挑战 《大数据技术基础》

《大数据技术基础》 提纲  大数据处理的基本流程  大数据处理模型  大数据关键技术  大数据处理工具  大数据时代面临的新挑战

大数据之“快”从何说起 时间就是金钱 时间在分母上,越小,单位价值就越大。 像其它商品一样,数据的价值会折旧 过去一天的数据,比过去一个月的数据可能都更有价值 数据跟新闻和金融行情一样,具有时效性 《大数据技术基础》

《大数据技术基础》 大数据之“快”从何说起 •时间就是金钱 时间在分母上,越小,单位价值就越大。 •像其它商品一样,数据的价值会折旧 过去一天的数据,比过去一个月的数据可能都更有价值。 •数据跟新闻和金融行情一样,具有时效性

大数据的三种状态 静止数据 动态数据 正使用数据 大数据的三种状态如上图所示,按照数据的三状态定义, 水库里一平如镜(非活跃)的水是“静止数据( data at rest)” 水处理系统中上下翻动的水是“正使用数据( data inuse)”, 汹涌而来的新水流就是“动态数据( data in motion)”。 《大数据技术基础》

《大数据技术基础》 大数据的三种状态 大数据的三种状态如上图所示,按照数据的三状态定义, 水库里一平如镜(非活跃)的水是“静止数据(data at rest)”, 水处理系统中上下翻动的水是“正使用数据(data inuse)”, 汹涌而来的新水流就是“动态数据(data in motion)

大数据的“快”说的是两个层面 ·“动态数据”来得快 动态数据有不同的产生模式。有的是 burst模式,极 端的例子如欧洲核子研究中心(CERN)的大型强子对撞 机( Large Hadron Collider,简称LHC),此机不撞则已, 撞惊人,工作状态下每秒产生PB级的数据。也有的动态 数据是涓涓细流的模式,典型的如 clickstream,日 心, RFID数据,GPS位置信息, Twitter的 firehose流数据等。 “正使用数据”处理得快 水处理系统可以从水库调出水来进行处理(“静止数 据3转变为“正使用数据”),也可以直接对涌进来的新水流 处理(动态数据转变为“正使用数据”)。这对应着两种大 相迥异的处理范式:批处理和流处理。 《大数据技术基础》

《大数据技术基础》 大数据的“快”说的是两个层面 • “动态数据”来得快 动态数据有不同的产生模式。有的是burst模式,极 端的例子如欧洲核子研究中心(CERN)的大型强子对撞 机(Large Hadron Collider,简称LHC),此机不撞则已, 一撞惊人,工作状态下每秒产生PB级的数据。也有的动态 数据是涓涓细流的模式,典型的如 clickstream,日志, RFID数据,GPS位置信息,Twitter的firehose流数据等。 • “正使用数据”处理得快 水处理系统可以从水库调出水来进行处理(“静止数 据”转变为“正使用数据”),也可以直接对涌进来的新水流 处理(“动态数据”转变为“正使用数据”)。这对应着两种大 相迥异的处理范式:批处理和流处理

点击下载完整版文档(PDF)VIP每日下载上限内不扣除下载券和下载次数;
按次数下载不扣除下载券;
24小时内重复下载只扣除一次;
顺序:VIP每日次数-->可用次数-->下载券;
共162页,可试读30页,点击继续阅读 ↓↓
相关文档

关于我们|帮助中心|下载说明|相关软件|意见反馈|联系我们

Copyright © 2008-现在 cucdc.com 高等教育资讯网 版权所有