大数据的定义理解 1 大数据时代的背景 什么是大数据(2)大数据的“4特征 大数据的构成 COMPANY LOGOTYPE INSERT
什么是大数据 1 大数据时代的背景 大数据的定义理解 2 大数据的“4V”特征 3 大数据的构成
大数据时代的背景 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到 了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其 增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物 联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银 行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。 VIDEO DATA PEI TWEETS TOTAL MINUTES DATA SENT PRODUCTS UPLOADEn 真 ND RICLIVED口DERE菲 TOUTUHE I THE WORLD OF FACEBOOK AMA0NPE对 EVERY BEGONO EACH DAY G自DLE DATA 1ERET以sR3 ECOND 293752024 5070013729 MILLIO M石A下E 丁A 食白[c COMPANY LOGOTYPE INSERT
大数据时代的背景 半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到 了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其 增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物 联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银 行、股市、保险)、电信(通话、短信)都在疯狂产生着数据
全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话, 足够一个人昼夜不息的读5.5年 每天会有2.88万个小时的视频上传到 Youtube,足够一个 人昼夜不息的观看3.3年 推特上每天发布5千万条消息,假设10秒钟浏览一条信息, 这些消息足够一个人昼夜不息的浏览16年 每天亚马逊上将产生63百万笔订单 每个月网民在 Facebook上要花费7干亿分钟,被移动互联 网使用者发送和接收的数据高达1.3EB. Google上每天需要处理24PB的数据 COMPANY LOGOTYPE INSERT
全球每秒钟发送 2.9 百万封电子邮件,一分钟读一篇的话, 足够一个人昼夜不息的读5.5 年… 每天会有 2.88 万个小时的视频上传到Youtube,足够一个 人昼夜不息的观看3.3 年… 推特上每天发布 5 千万条消息,假设10 秒钟浏览一条信息, 这些消息足够一个人昼夜不息的浏览16 年… 每天亚马逊上将产生 6.3 百万笔订单… 每个月网民在Facebook 上要花费7 千亿分钟,被移动互联 网使用者发送和接收的数据高达1.3EB… Google 上每天需要处理24PB 的数据…
大数据时代的背景 数据量增加 数据结构日趋复杂 大量新数据源的出现则导致了非结构化、 0s0 半结构化数据爆发式的增长 2010 根据IDC监测,人类产生的数据量正在呈指数级 增长,大约每两年翻一番,这个速度在2020年 前会继续保持下去。这意味着人类在最近两年产生 的数据量相当于之前产生的全部数据量。 TB→PB= EBBZB 这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理 的范畴 大数据时代正在来临
数据量增加 TB PB EB ZB 根据IDC 监测,人类产生的数据量正在呈指数级 增长,大约每两年翻一番,这个速度在2020 年之 前会继续保持下去。这意味着人类在最近两年产生 的数据量相当于之前产生的全部数据量。 数据结构日趋复杂 大量新数据源的出现则导致了非结构化、 半结构化数据爆发式的增长 ▪这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理 的范畴 ▪大数据时代正在来临… 大数据时代的背景
大数据时代的背景 20世纪90年代,数据仓库之父的 Bill Inmon就经常 提及 Big Data EMC 2011年5月,在“云计算相遇大数据”为主题的EMC whore information livor World2011会议中,EMC抛出了 Big Data概念。 COMPANY LOGOTYPE INSERT
20世纪90年代,数据仓库之父的Bill Inmon就经常 提及Big Data。 2011年5月,在“云计算相遇大数据”为主题的EMC World 2011 会议中,EMC 抛出了Big Data概念。 大数据时代的背景
大数据的4V特征 非结构化数据的超大规模和增长 体量 Volume ·占总数据量的80~90% 比结构化数据增长快10倍到50倍 是传统数据仓库的10倍到50倍 大数据的异构和多样性 多样性 Variety ·很多不同形式(文本、图像、视频、机器数据 无模式或者模式不明显 不连贯的语法或句义 大量的不相关信息 价值密度vaue 对未来趋势与模式的可预测分析 深度复杂分析(机器学习、人工智能Vs传统商务 智能(咨询、报告等) 实时分析而非批量式分析 速度 Velocity 数据输入、处理与丢弃 立竿见影而非事后见效 大量化(oume)、多样化 Variety)、快速化( elocity)、价值密度低(vaue)”就是 大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据 COMPANY LOGOTYPE INSERT
体量Volume 多样性Variety 价值密度Value 速度Velocity 非结构化数据的超大规模和增长 •占总数据量的80~90% •比结构化数据增长快10倍到50倍 •是传统数据仓库的10倍到50倍 大数据的异构和多样性 • 很多不同形式(文本、图像、视频、机器数据) • 无模式或者模式不明显 • 不连贯的语法或句义 • 大量的不相关信息 • 对未来趋势与模式的可预测分析 • 深度复杂分析(机器学习、人工智能Vs传统商务 智能(咨询、报告等) 实时分析而非批量式分析 • 数据输入、处理与丢弃 • 立竿见影而非事后见效 大数据的4V特征 “大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是 “大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据