正在加载图片...
(3)巨量机器产生的数据 如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形 码(条码)扫描数据等。 2、按数据来源的行业划分 (1)以BAT为代表的互联网公司 百度公司数据总量超过了千PB级别,阿里巴巴公司保存的数据量超过了百 PB级别,拥有90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然 超过了百PB级别,数据量月增加达到10%。 (2)电信、金融、保险、电力、石化系统 电信行业数据年度用户数据增长超过10%,金融每年产生的数据超过数十PB, 保险系统的数据量也超过了PB级别,电力与石化方面,仅国家电网采集获得的 数据总量就达到了数十PB,石油化工领域每年产生和保存下来的数据量也将近 百PB级别。 (3)公共安全、医疗、交通领域 个中、大型城市,一个月的交通卡口记录数可以达到3亿条;整个医疗卫 生行业一年能够保存下来的数据就可达到数百PB级别;航班往返一次产生的数 据就达到TB级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存 下来的也达到数十PB。 (4)气象、地理、政务等领域 中国气象局保存的数据将近10PB,每年约增数百TB;各种地图和地理位置 信息每年约数十PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且 多为结构化数据。 (5)制造业和其他传统行业 制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控 数据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间 较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数 据量非常大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食 品、科研、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都 不算大,多则达到PB级别,少则数十TB或数百TB级别 3、按数据存储的形式划分 大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中, 仅有20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网 电子商务等领域的非结构化数据 (1)结构化数据 简单来说就是数据库,如企业ERP、财务系统、医疗HIS数据库、教育一卡 通、政府行政审批、其他核心数据库等数据。 (2)非结构化数据(3)巨量机器产生的数据 如应用服务器日志、各类传感器数据、图像和视频监控数据、二维码和条形 码(条码)扫描数据等。 2、按数据来源的行业划分 (1)以 BAT 为代表的互联网公司 百度公司数据总量超过了千 PB 级别,阿里巴巴公司保存的数据量超过了百 PB 级别,拥有 90%以上的电商数据,腾讯公司总存储数据量经压缩处理以后仍然 超过了百 PB 级别,数据量月增加达到 10%。 (2)电信、金融、保险、电力、石化系统 电信行业数据年度用户数据增长超过 10%,金融每年产生的数据超过数十 PB, 保险系统的数据量也超过了 PB 级别,电力与石化方面,仅国家电网采集获得的 数据总量就达到了数十 PB,石油化工领域每年产生和保存下来的数据量也将近 百 PB 级别。 (3)公共安全、医疗、交通领域 一个中、大型城市,一个月的交通卡口记录数可以达到 3 亿条;整个医疗卫 生行业一年能够保存下来的数据就可达到数百 PB 级别;航班往返一次产生的数 据就达到 TB 级别;列车、水陆路运输产生的各种视频、文本类数据,每年保存 下来的也达到数十 PB。 (4)气象、地理、政务等领域 中国气象局保存的数据将近 10PB,每年约增数百 TB;各种地图和地理位置 信息每年约数十 PB;政务数据则涵盖了旅游、教育、交通、医疗等多个门类,且 多为结构化数据。 (5)制造业和其他传统行业 制造业的大数据类型以产品设计数据、企业生产环节的业务数据和生产监控 数据为主。其中产品设计数据以文件为主,非结构化,共享要求较高,保存时间 较长;企业生产环节的业务数据主要是数据库结构化数据,而生产监控数据则数 据量非常大。在其他传统行业,虽然线下商业销售、农林牧渔业、线下餐饮、食 品、科研、物流运输等行业数据量剧增,但是数据量还处于积累期,整体体量都 不算大,多则达到 PB 级别,少则数十 TB 或数百 TB 级别。 3、按数据存储的形式划分 大数据不仅仅体现在数据量大,还体现在数据类型多。如此海量的数据中, 仅有 20%左右属于结构化的数据,80%的数据属于广泛存在于社交网络、物联网、 电子商务等领域的非结构化数据。 (1)结构化数据 简单来说就是数据库,如企业 ERP、财务系统、医疗 HIS 数据库、教育一卡 通、政府行政审批、其他核心数据库等数据。 (2)非结构化数据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有