第2章大数据关键技术与挑战 《大数据技术基础》
《大数据技术基础》 第2章 大数据关键技术与挑战
提纲 大数据处理的基本流程 口大数据处理模型 口大数据关键技术 口大数据处理工具 口大数据时代面临的新挑战 《大数据技术基础》
《大数据技术基础》 提纲 大数据处理的基本流程 大数据处理模型 大数据关键技术 大数据处理工具 大数据时代面临的新挑战
大数据处理的基本流程 Users Researcher) Enterpnse Dserntnenr 整个大数据的处理流 fluman-cormpurer Vesualizanon lua Proven Interpretation 程可以定义为:在合 适工具的辅助下,对 广泛异构的数据源进 Prediction Data 行抽取和集成,结果 按照一定的标准进行 (Dits Miming )(Autistic 统一存储,并利用合 适的数据分析技术对 存储的数据进行分析 从中提取有益的知识 I Schema Evolution Credibility 并利用恰当的方式将 Anginal Data Extra Dat_ Data. 结果展现给终端用户 nd integra 具体来说,可以分为 数据抽取与集成、数 据分析以及数据解释。 Data 《大数据技术基础》
《大数据技术基础》 大数据处理的基本流程 整个大数据的处理流 程可以定义为:在合 适工具的辅助下,对 广泛异构的数据源进 行抽取和集成,结果 按照一定的标准进行 统一存储,并利用合 适的数据分析技术对 存储的数据进行分析, 从中提取有益的知识 并利用恰当的方式将 结果展现给终端用户。 具体来说,可以分为 数据抽取与集成、数 据分析以及数据解释
数据抽取与集成 大数据的一个重要特点就是多样性,这就意味着数据来源 极其广泛,数据类型极为繁杂。这种复杂的数据环境给大 数据的处理带来极大的挑战。 要想处理大数据,首先必须对所需数据源的数据进行抽取 和集成,从中提取出关系和实体,经过关联和聚合之后采 用统一定义的结构来存储这些数据。 在薮据集成和提取时需要对数据进行清洗,保证薮据质量 及可信性。 现有的数据抽取与集成方式可以大致分为以下四种类型 数据整合、数据联邦、数据传播和混合方法等。 《大数据技术基础》
《大数据技术基础》 数据抽取与集成 • 大数据的一个重要特点就是多样性,这就意味着数据来源 极其广泛,数据类型极为繁杂。这种复杂的数据环境给大 数据的处理带来极大的挑战。 • 要想处理大数据,首先必须对所需数据源的数据进行抽取 和集成,从中提取出关系和实体,经过关联和聚合之后采 用统一定义的结构来存储这些数据。 • 在数据集成和提取时需要对数据进行清洗,保证数据质量 及可信性。 • 现有的数据抽取与集成方式可以大致分为以下四种类型: 数据整合、数据联邦、数据传播和混合方法等
数据分析 传统的分析技术如数据挖掘、机器学习、统计分析等在大 数据时代需要做出调整,因为这些技术在大数据时代面临 着一些新的挑战,主要有 数据量大并不一定意味着数据价值的增加,相反这往往意味着数 据噪音的增多 大薮据时代的算法需要进行调整(邦弗朗尼原理) 数据结果好坏的衡量 《大数据技术基础》
《大数据技术基础》 数据分析 • 传统的分析技术如数据挖掘、机器学习、统计分析等在大 数据时代需要做出调整,因为这些技术在大数据时代面临 着一些新的挑战,主要有: – 数据量大并不一定意味着数据价值的增加,相反这往往意味着数 据噪音的增多 – 大数据时代的算法需要进行调整(邦弗朗尼原理) – 数据结果好坏的衡量
数据解释 数据分析是大数据处理的核心,但是用户往往更关心结果 的展示。如果分析的结果正确但是没有采用适当的解释方 法,则所得到的结果很可能让用户难以理解,极端情况下 甚至会误导用户 ·大数据时代的数据分析结果往往也是海量的,同时结果之 间的关联关系极其复杂,采用传统的解释方法基本不可行 ·可以考虑从下面两个方面提升数据解释能力: 引入可视化技术 让用户能够在一定程度上了解和参与具体的分析过程 《大数据技术基础》
《大数据技术基础》 数据解释 • 数据分析是大数据处理的核心,但是用户往往更关心结果 的展示。如果分析的结果正确但是没有采用适当的解释方 法,则所得到的结果很可能让用户难以理解,极端情况下 甚至会误导用户。 • 大数据时代的数据分析结果往往也是海量的,同时结果之 间的关联关系极其复杂,采用传统的解释方法基本不可行 • 可以考虑从下面两个方面提升数据解释能力: – 引入可视化技术 – 让用户能够在一定程度上了解和参与具体的分析过程
提纲 口大数据处理的基本流程 口大数据处理模型 口大数据关键技术 口大数据处理工具 口大数据时代面临的新挑战 《大数据技术基础》
《大数据技术基础》 提纲 大数据处理的基本流程 大数据处理模型 大数据关键技术 大数据处理工具 大数据时代面临的新挑战
大数据之“快”从何说起 时间就是金钱 时间在分母上,越小,单位价值就越大。 像其它商品一样,数据的价值会折旧 过去一天的数据,比过去一个月的数据可能都更有价值 数据跟新闻和金融行情一样,具有时效性 《大数据技术基础》
《大数据技术基础》 大数据之“快”从何说起 •时间就是金钱 时间在分母上,越小,单位价值就越大。 •像其它商品一样,数据的价值会折旧 过去一天的数据,比过去一个月的数据可能都更有价值。 •数据跟新闻和金融行情一样,具有时效性
大数据的三种状态 静止数据 动态数据 正使用数据 大数据的三种状态如上图所示,按照数据的三状态定义, 水库里一平如镜(非活跃)的水是“静止数据( data at rest)” 水处理系统中上下翻动的水是“正使用数据( data inuse)”, 汹涌而来的新水流就是“动态数据( data in motion)”。 《大数据技术基础》
《大数据技术基础》 大数据的三种状态 大数据的三种状态如上图所示,按照数据的三状态定义, 水库里一平如镜(非活跃)的水是“静止数据(data at rest)”, 水处理系统中上下翻动的水是“正使用数据(data inuse)”, 汹涌而来的新水流就是“动态数据(data in motion)
大数据的“快”说的是两个层面 ·“动态数据”来得快 动态数据有不同的产生模式。有的是 burst模式,极 端的例子如欧洲核子研究中心(CERN)的大型强子对撞 机( Large Hadron Collider,简称LHC),此机不撞则已, 撞惊人,工作状态下每秒产生PB级的数据。也有的动态 数据是涓涓细流的模式,典型的如 clickstream,日 心, RFID数据,GPS位置信息, Twitter的 firehose流数据等。 “正使用数据”处理得快 水处理系统可以从水库调出水来进行处理(“静止数 据3转变为“正使用数据”),也可以直接对涌进来的新水流 处理(动态数据转变为“正使用数据”)。这对应着两种大 相迥异的处理范式:批处理和流处理。 《大数据技术基础》
《大数据技术基础》 大数据的“快”说的是两个层面 • “动态数据”来得快 动态数据有不同的产生模式。有的是burst模式,极 端的例子如欧洲核子研究中心(CERN)的大型强子对撞 机(Large Hadron Collider,简称LHC),此机不撞则已, 一撞惊人,工作状态下每秒产生PB级的数据。也有的动态 数据是涓涓细流的模式,典型的如 clickstream,日志, RFID数据,GPS位置信息,Twitter的firehose流数据等。 • “正使用数据”处理得快 水处理系统可以从水库调出水来进行处理(“静止数 据”转变为“正使用数据”),也可以直接对涌进来的新水流 处理(“动态数据”转变为“正使用数据”)。这对应着两种大 相迥异的处理范式:批处理和流处理