１．１大数据特点和界定从２１世纪初开始，产业界开始意识到数据产生的

点击下载：《智能系统学报》：大数据与深度学习综述（北京航空航天大学：马世龙、乌尼日其其格、李小平）

正在加载图片...

第6期马世龙，等：大数据与深度学习综述 .729. 1.1大数据特点和界定特点，但最早的3个V仍被视作大数据应具备的3 从21世纪初开始，产业界开始意识到数据产生的个特征，贯穿于大数据生命周期中的各个阶段[) 规模和速度可能会对基础设施特别是存储设备造成压从而也形成了学术界和产业界认同趋于一致的大数力)。根据Martin Hilbert的一项统计人类信息总量的据定义，如表2所示。研究，在2000年，数字存储信息只占全球数据量的表2大数据定义 1/4,其他75%的信息尚都存储在报纸、胶片、黑胶唱片 Table 2 Big data definitions 和盒式磁带这类媒介上：但经过短短的几年时间，到了机构定义 2007年，人类大约存储了300EB的数据，其中只有7% 需要新处理模式才能具有更强的决策力、是存储在报纸、书籍、图片等媒介上的模拟数据，其余 Gartner 洞察发现力和流程优化能力的海量、全部是数字数据。数字数据的总量以每40个月翻一高增长率和多样化的信息资产( 番的速度积累。注：PB(PetaBytes拍字节)=1024TB= 种规模大到在获取、存储、管理、分析方面大 20字节，EB(ExaBytes艾字节)=1024PB=20字节，ZB 大超出了传统数据库软件工具能力范围的数据麦肯锡 (ZettaBytes泽字节)=1024EB=2"字节，YB(Yotta- 集合，具有海量数据规模、快速数据流转、多样 Bytes尧字节)=1024ZB=20字节。数据类型和价值密度低等四大特征大数据是指利用常用软件工具捕获，管理和处然而有了规模和速度就是大数据吗？研究人员在 Wiki 理数据所耗时间超过可容忍时间的数据集[) 不同时期对大数据的特点进行了总结。首当其冲的是 1.2大数据存储与处理现状 2O01年，META集团分析师Doug Laney给出大数据的 3V特征)，分别为规模性(Volume)、多样性(Variety) 早在2000年，美国斯隆数字巡天项目启动，其位于新墨西哥州的望远镜，在短短几周内收集到的和高速性(Velocity)。10年后，DC在此基础上又提出第4个特征，即数据的价值(Value)[o。2012年BM则数据比天文学历史上总共收集的数据还要多。云平认为大数据的第4个特征是指真实性(Veracity)[-】。台D0M0公司从2010年开始做过一份有趣的统后来，有人将上述所有特征合起来称为大数据的5V特计一“数据从不休息”，将不同社交网络每分钟产征，也有人从不同的应用视角和需求出发，又提出了粘生的数据进行比较，并形象地给出了它们的数据总性(Viscosity)、邻近性(Vicinity)、模糊性(Vague)等多量[)。据统计，某社交网络产生的评论数在种不同的特征，形成了3+xV的大数据特征[)。这些特 2010一2011年期间为每分钟60余万条，而在征的具体含义，如表1。 2013一2015期间迅速增长为每分钟410余万条。表1大数据特征据另一个统计，2015年美国股市每天的成交量可高 Table 1 Big data characteristics 达70亿股。Google每天要处理超过24PB的数据，名称含义这个数据处理量是美国国家图书馆所有纸质出版物规模可从数百TB到数十数百PB、所含数据量的千倍之多4。由此说明，除了互联网规模性(Volume) 甚至到EB规模之外，物联网、移动终端乃至传统的产业都在迅速产包括各种格式和形态的数据，生大量的数据。研究人员对大数据的产生方式进行多样性(Variety) 如文本、图像、音频、视频了分类)，并指出大数据产生方式经历了被动生需要在一定的时间限度下实效性(Velocity) 成、主动生成、自动生成3个阶段]，如表3所示。得到及时处理表3大数据产生阶段价值密度低，需要通过分析挖掘价值密度(Value) Table 3 Big data generating 和利用产生商业价值阶段方式特点采集的数据的质量影响分析真实性(Veracity) 运营式系统阶段，伴随一定的运结果的准确性被动营活动数据被动产生并保存易变性(Variability) 指数据流的格式变化多样用户原创内容阶段，尤其是在Web2.0 粘性(Viscosity) 指数据流之间的关联性是否强时代，社交网络的出现以及以智能手机邻近性(Vicinity) 获取数据资源的距离 2 主动平板电脑为代表的新型移动设备的使传播性(Virality) 数据在网络中传播的速度用率上升，爆炸式地、主动地产生UGC 有效性(Volatility) 数据的有效性及存储期限 (user generated content)数据因采集手段的多样性和局限性模糊性(Vague) 感知式系统阶段，随着带有处理获取的数据具有模糊性自动功能的传感器广泛布置于社会各处，随着应用的不同研究人员给出了众多的大数据源源不断地、自动地产生新的数据１．１大数据特点和界定从２１世纪初开始，产业界开始意识到数据产生的规模和速度可能会对基础设施特别是存储设备造成压力［２］。根据ＭａｒｔｉｎＨｉｌｂｅｒｔ的一项统计人类信息总量的研究［４］，在２０００年，数字存储信息只占全球数据量的１／４，其他７５％的信息尚都存储在报纸、胶片、黑胶唱片和盒式磁带这类媒介上；但经过短短的几年时间，到了２００７年，人类大约存储了３００ＥＢ的数据，其中只有７％是存储在报纸、书籍、图片等媒介上的模拟数据，其余全部是数字数据。数字数据的总量以每４０个月翻一番的速度积累。注：ＰＢ（ＰｅｔａＢｙｔｅｓ拍字节）＝１０２４ＴＢ＝２５０字节，ＥＢ（ＥｘａＢｙｔｅｓ艾字节）＝１０２４ＰＢ＝２６０字节，ＺＢ（ＺｅｔｔａＢｙｔｅｓ泽字节）＝１０２４ＥＢ＝２７０字节，ＹＢ（Ｙｏｔｔａ⁃ Ｂｙｔｅｓ尧字节）＝１０２４ＺＢ＝２８０字节。然而有了规模和速度就是大数据吗？研究人员在不同时期对大数据的特点进行了总结。首当其冲的是２００１年，ＭＥＴＡ集团分析师ＤｏｕｇＬａｎｅｙ给出大数据的３Ｖ特征［５］，分别为规模性（Ｖｏｌｕｍｅ）、多样性（Ｖａｒｉｅｔｙ）和高速性（Ｖｅｌｏｃｉｔｙ）。１０年后，ＩＤＣ在此基础上又提出第４个特征，即数据的价值（Ｖａｌｕｅ）［６］。２０１２年ＩＢＭ则认为大数据的第４个特征是指真实性（Ｖｅｒａｃｉｔｙ）［７－８］。后来，有人将上述所有特征合起来称为大数据的５Ｖ特征，也有人从不同的应用视角和需求出发，又提出了粘性（Ｖｉｓｃｏｓｉｔｙ）、邻近性（Ｖｉｃｉｎｉｔｙ）、模糊性（Ｖａｇｕｅ）等多种不同的特征，形成了３＋ｘＶ的大数据特征［９］。这些特征的具体含义，如表１。表１大数据特征Ｔａｂｌｅ１Ｂｉｇｄａｔａｃｈａｒａｃｔｅｒｉｓｔｉｃｓ名称含义规模性（Ｖｏｌｕｍｅ）规模可从数百ＴＢ到数十数百ＰＢ、甚至到ＥＢ规模多样性（Ｖａｒｉｅｔｙ）包括各种格式和形态的数据，如文本、图像、音频、视频实效性（Ｖｅｌｏｃｉｔｙ）需要在一定的时间限度下得到及时处理价值密度（Ｖａｌｕｅ）价值密度低，需要通过分析挖掘和利用产生商业价值真实性（Ｖｅｒａｃｉｔｙ）采集的数据的质量影响分析结果的准确性易变性（Ｖａｒｉａｂｉｌｉｔｙ）指数据流的格式变化多样粘性（Ｖｉｓｃｏｓｉｔｙ）指数据流之间的关联性是否强邻近性（Ｖｉｃｉｎｉｔｙ）获取数据资源的距离传播性（Ｖｉｒａｌｉｔｙ）数据在网络中传播的速度有效性（Ｖｏｌａｔｉｌｉｔｙ）数据的有效性及存储期限模糊性（Ｖａｇｕｅ）因采集手段的多样性和局限性，获取的数据具有模糊性随着应用的不同研究人员给出了众多的大数据特点，但最早的３个Ｖ仍被视作大数据应具备的３个特征，贯穿于大数据生命周期中的各个阶段［９］，从而也形成了学术界和产业界认同趋于一致的大数据定义，如表２所示。表２大数据定义Ｔａｂｌｅ２Ｂｉｇｄａｔａｄｅｆｉｎｉｔｉｏｎｓ机构定义Ｇａｒｔｎｅｒ需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产［１０］麦肯锡一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合，具有海量数据规模、快速数据流转、多样数据类型和价值密度低等四大特征［１１］Ｗｉｋｉ大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集［１２］１．２大数据存储与处理现状早在２０００年，美国斯隆数字巡天项目启动，其位于新墨西哥州的望远镜，在短短几周内收集到的数据比天文学历史上总共收集的数据还要多。云平台ＤＯＭＯ公司从２０１０年开始做过一份有趣的统计———“数据从不休息”，将不同社交网络每分钟产生的数据进行比较，并形象地给出了它们的数据总量［１３］。据统计，某社交网络产生的评论数在２０１０—２０１１年期间为每分钟６０余万条，而在２０１３—２０１５期间迅速增长为每分钟４１０余万条。据另一个统计，２０１５年美国股市每天的成交量可高达７０亿股。Ｇｏｏｇｌｅ每天要处理超过２４ＰＢ的数据，这个数据处理量是美国国家图书馆所有纸质出版物所含数据量的千倍之多［１４］。由此说明，除了互联网之外，物联网、移动终端乃至传统的产业都在迅速产生大量的数据。研究人员对大数据的产生方式进行了分类［１５］，并指出大数据产生方式经历了被动生成、主动生成、自动生成３个阶段［１５］，如表３所示。表３大数据产生阶段Ｔａｂｌｅ３Ｂｉｇｄａｔａｇｅｎｅｒａｔｉｎｇ阶段方式特点１被动运营式系统阶段，伴随一定的运营活动数据被动产生并保存２主动用户原创内容阶段，尤其是在Ｗｅｂ２．０时代，社交网络的出现以及以智能手机、平板电脑为代表的新型移动设备的使用率上升，爆炸式地、主动地产生ＵＧＣ（ｕｓｅｒｇｅｎｅｒａｔｅｄｃｏｎｔｅｎｔ）数据３自动感知式系统阶段，随着带有处理功能的传感器广泛布置于社会各处，源源不断地、自动地产生新的数据第６期马世龙，等：大数据与深度学习综述 ·７２９·

<<向上翻页向下翻页>>

点击下载：《智能系统学报》：大数据与深度学习综述（北京航空航天大学：马世龙、乌尼日其其格、李小平）