大数据分析与应用 Big data analytics and applications EE data COMPLEX DATABASES STORAGE BLIR TURn ABLT SETS PiS
大数据分析与应用 Big data analytics and applications
议程 大数据基础 大数据核心技术 大数据应用 商务智能 商务智能(第 JB. COM
议程 • 大数据基础 • 大数据核心技术 • 大数据应用
大数据时代到来 随着以社交网络、基于位置的服务(LBS)为代表的新型信息交流渠道 的不断涌现,以及物联网、云计算等技术的蓬勃发展,人类产生的数 据量正在以前所未有的速度增加。每天,遍布世界的传感器、移动设 备、在线交易和社交网络生成上百万兆字节的数据。 据统计,全球90%的数据都是在过去两年产生的。大数据( big data) 时代已经到来。 大薮据催生一些新的商务模式,这些模式反过来也产生了大量的数据 大数据是工业4.0强有力的引擎。 INDUSTRIE
大数据时代到来 • 随着以社交网络、基于位置的服务(LBS)为代表的新型信息交流渠道 的不断涌现,以及物联网、云计算等技术的蓬勃发展,人类产生的数 据量正在以前所未有的速度增加。每天,遍布世界的传感器、移动设 备、在线交易和社交网络生成上百万兆字节的数据。 • 据统计,全球 90% 的数据都是在过去两年产生的。大数据(big data) 时代已经到来。 • 大数据催生一些新的商务模式,这些模式反过来也产生了大量的数据。 • 大数据是工业4.0强有力的引擎
大数据浪潮的兴起 ·全球每秒钟发送29百万封电子邮件,每天会有288万个小 时的视频上传到 Youtube,推特上每天发布5千万条消息每 天亚马逊上将产生63百万笔订单 Google上每天需要处理 24PB的数据。新浪微博每秒产生1000多条消息。 ·在2006年,个人用户才刚刚迈进TB时代,全球一共新产生 约180EB的数据;在2011年,这个数字达到了18ZB。而 有市场研究机构预测:到2020年,整个世界的数据总量将 会增长44倍,达到3522B(1ZB=10亿TB)! 大交易数据 大交互数据 ONLINE ONUNE ANALYICAL 企业Ps0A ⑤. 互联网 EB ZB 消费者 PB 大数据融合 TB 物联网 供应链 移动终端 大数据处理
大数据浪潮的兴起 • 全球每秒钟发送 2.9 百万封电子邮件,每天会有 2.88 万个小 时的视频上传到Youtube,推特上每天发布 5 千万条消息每 天亚马逊上将产生 6.3 百万笔订单Google上每天需要处理 24PB 的数据。新浪微博每秒产生1000多条消息。 • 在2006 年,个人用户才刚刚迈进TB时代,全球一共新产生 了约180EB的数据;在2011 年,这个数字达到了1.8ZB。而 有市场研究机构预测:到2020 年,整个世界的数据总量将 会增长44 倍,达到35.2ZB(1ZB=10亿TB)!
数据量的迅速增长 ZB 40 TB(1024GB=1TB) PB(1024TB=1PB EB(1024PB-1E ZB(1024EB=1ZB 11.8 10 5.9 2.8 1.82 0490.8 12 200820092010 0 2o 20122014201620182020年份 IDC
数据量的迅速增长 IDC
数据分析的发展史 大数据项目实际上是传统B项目在数据的外延和分析上的深挖 Advanced Analytics Business Im Analysis understand business challenges Effectiveness Benchmarking Basic Reporting Standard reporting that is reasonably automated Sice and dce data based on standard variables Data Management Consolidation of data Deta quality and accuracy Time and Resources
数据分析的发展史 • 大数据项目实际上是传统BI项目在数据的外延和分析上的深挖
大数据概念由来 ·2011年5月以“与计算相遇大数据”为主题的EMC世界大 会上,EMC提出了 Big data的概念 主题 Big data cloud computing +添加字词 金素字词 热度随时间变化的趋势
大数据概念由来 • 2011年5月以“与计算相遇大数据”为主题的EMC世界大 会上,EMC提出了Big data的概念
大数据百度指数 Ba指数大数据云计算 百度一下 5」 大数据分享和探索平台 ,指数探素 指行业指数 我的指数 需求图 接地 20140700蓝20140007金 云计算 2,996 74曹 12善 53寓曹 -12 1,926 6% 0%-3%善 用:近30天 热点趋势20140700至20140807全 < c整体趟势PC口移动 费近7天兼近30天费近0天费近半年全 大数据云计算 头条□平均值
大数据百度指数
什么是大数据 最早提出“大数据”的机构是麦肯锡公司,这引起了全球广 泛的反响。2011,EMC、BM和麦肯锡等众多国外企业发布 了大数据的研究报告,阐述了大数据的特征 且前大 无统,的定义,通常被认为是数据量很大、数 据形式 的非结构化薮据。 EMC公司认为“大”是指大型数据集,一般在10TB规模左右 BM天数搪括为个V下量花lume)老样飞3 ( variety.)、快速化( velocity)和真实性( verity),强 数据呈现价值稀疏性的特点 維基百科讼为大据是掮和用常思软件工具捕获、管理和 雜基百科 自由的百科全書
什么是大数据 • 最早提出“大数据”的机构是麦肯锡公司,这引起了全球广 泛的反响。2011年,EMC、IBM和麦肯锡等众多国外企业发布 了大数据的研究报告,阐述了大数据的特征。 • 目前大数据尚无统一的定义,通常被认为是数据量很大、数 据形式多样化的非结构化数据。 • EMC公司认为“大”是指大型数据集,一般在10TB规模左右。 同时这些数据来自多种数据源,以实时、迭代的方式实现。 IBM把大数据概括为三个V:大量化(volume)、多样化 (variety)、快速化(velocity)和真实性(verity),强调大 数据呈现价值稀疏性的特点。 • 维基百科认为:大数据是指利用常用软件工具捕获、管理和 处理数据所耗时间超过可忍时间的数据集
大数据的特征 數擔规庞大型鼋缨的昇劉级 别。 数据种类繁多。大数据种类繁多,在编码方式、 数据格式和应用特征等多个方面存在差异性, 冬晕源张約瘡枹数輕结耨径討 2012年,非结构化数据占有比例达到互联网整 个数据量的75%以上。 处理速度快。大数据对实时处理有着较高的要 求,在海量数据面前,处理数据的效率就是企 业的竞争 构化和非结 价值密度低。价值密度的高低与数据总量的大 构化批量数据 小成反比。在现实应用中,数据量大的数据并 Big 菥的姦磊铿娈箬集的忑階雀时有效处理分 结构化 Data 流数据
大数据的特征 • 数据量巨大。通过各种设备产生的海量数据, 数据规模庞大。数据量从TB级别,跃升到PB级 别。 • 数据种类繁多。大数据种类繁多,在编码方式、 数据格式和应用特征等多个方面存在差异性, 多信息源并发形成大量的异构数据。据统计, 企业中80%的数据是非结构化或半结构化的。到 2012年,非结构化数据占有比例达到互联网整 个数据量的75%以上。 • 处理速度快。大数据对实时处理有着较高的要 求,在海量数据面前,处理数据的效率就是企 业的竞争力。 • 价值密度低。价值密度的高低与数据总量的大 小成反比。在现实应用中,数据量大的数据并 不一定有很大的价值,不能被及时有效处理分 析的数据也没有很大的应用价值