正在加载图片...
6期 黄哲学等:面向大数据的海云数据系统关键技术研究 21 011年5月,EMC公司在美国拉斯维加斯举办了第11届 EMC World年度大会,设定的主题为“云计算 相遇大数据”,大会正式提出了“大数据”( Big data)概念。随后,IBM和麦肯锡等众多国外机构发布了“大数 据”相关研究报告,阐述了大数据的特征,给社会经济发展带来的机遇和对当前信息技术的挑战。可以预 测,大数据将成为继云计算和物联网之后,信息技术产业又一次颠覆性的技术变革 在学术界,国际顶级期刊cae》和 <Sciences》近期针对大数据分别出版了专刊 Big data》的和el ing with data》向,从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处 理面临的各种问题。2012年8月12~16日在北京举办的第18届知识发现与数据挖掘(KDD)国际会议,大 数据成为重要议题,其暑期培训班( KDD Summer School on Mining the Big Data)和专家论坛( Panel discus- sion)都是集中讨论大数据问题。2011年11月26日,中国软件开发联盟(CSDN)在北京成功举办了中国大 数据技术大会。为推动大数据这个交叉学科的发展,中国计算机学会(CCF)成立了大数据专家委员会(CCF Big data task force,简称 CCF TFBD)。 大数据的机遇与挑战已经从商业领域上升到国家战略层面。2012年3月29日,美国政府发布了“大数 据研究和发展倡议”。随后,美国国家科学基金委员会(NSF)、美国国家卫生研究院(NIH)、美国能源部 (DOE)、美国国防部(DOD)、美国国防部高级研究计划局( DARPA)、美国地质勘探局(USGS)六个部门联合 推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力。 为探讨中国大数据的发展战略,由中国科学院计算技术研究所牵头,2012年5月22~24日在北京成功 举办了以“网络数据科学与工程 门新兴的交叉学科?”为主题的第424次香山科学会议,与会国内外知 名专家学者为中国大数据发展战略建言献计。2012年8月14~15日,中国科学院启动了“面向感知中国的 新一代信息技术研究”战略性先导科技专项,任务之一是研制用于大数据采集、存储、处理、分析和挖掘的未 来数据系统 信息时代万物数化,大数据的重要性已成行业共识,针对大数据技术和应用的创新,其发展趋势不可阻 挡。如何对大数据进行充分和有效的分析和挖掘,使之转换为有价值的信息和知识,用于解决各种各样的 科学和应用问题,成为大数据时代信息技术发展的重大挑战,同时也是信息技术创新的新的制高点。 本文首先对大数据的概念、特征及其价值作简要概述,然后阐述大数据分析与挖掘的三个科学问题,最 后介绍中国科学院“面向感知中国的新一代信息技术研究”战略性先导科技专项“海云数据系统关键技术研 究与系统研制”课题的一些前期研究成果。 2大数据 2.1什么是大数据? 对于什么样的数据是大数据目前还没有明确的定义,对数据的使用者来讲,如果数据集超出了使用者 所拥有的信息处理和分析的能力,就给使用者带来了大数据问题。 根据麦肯锡预计,至200年,美国超过1000雇员的公司,平均每个公司存有200TB的数据,很多行业 的公司,如银行、电讯、互联网、政府部门等,平均存储的数据超过1个PB。尽管大量的数据存储在各大公司 和政府机构的数据中心,但数据的价值都没有充分发挥出来。缺少有效的数据整合和数据分析与挖掘技术 及方法是其主要的技术障碍,更深层次的原因是对数据潜在价值的认识不足和缺少可以挖掘出数据价值的 技术手段及人才 2.2大数据特征 在2011年10月美国拉斯维加斯举办的IOD2011大会上,BM给出了大数据的“3V”特征,即多样性 ( variety))、体量( volume)、速度( velocity)。多样性是指数据来自多种数据源,并且数据类型包含结构化和非 结构化数据。体量是指整合在一起供分析与挖掘的数据量非常庞大的。速度则是指数据生成和处理的速 度必须很快,也包含数据内容的变化也快。 大数据的这些特征对现有的数据分析与挖掘方法、技术、算法和软件带来新的挑战,使基于传统服务器 进行数据挖掘的方式产生极大的瓶颈。用户为提高大数据分析与挖掘的能力,必须提高服务器的性能,包 o1994-2013CHinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net6 期 黄哲学 等: 面向大数据的海云数据系统关键技术研究 2011 年 5 月,EMC 公司在美国拉斯维加斯举办了第 11 届 EMC World 年度大会,设定的主题为“云计算 相遇大数据”,大会正式提出了“大数据”( Big Data) 概念。随后,IBM 和麦肯锡等众多国外机构发布了“大数 据”相关研究报告,阐述了大数据的特征,给社会经济发展带来的机遇和对当前信息技术的挑战。可以预 测,大数据将成为继云计算和物联网之后,信息技术产业又一次颠覆性的技术变革。 在学术界,国际顶级期刊《Nature》和《Sciences》近期针对大数据分别出版了专刊《Big Data》[3]和《Deal￾ing with Data》[4],从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处 理面临的各种问题。2012 年 8 月 12 ~ 16 日在北京举办的第 18 届知识发现与数据挖掘( KDD) 国际会议,大 数据成为重要议题,其暑期培训班( KDD Summer School on Mining the Big Data) 和专家论坛( Panel Discus￾sion) 都是集中讨论大数据问题。2011 年 11 月 26 日,中国软件开发联盟( CSDN) 在北京成功举办了中国大 数据技术大会。为推动大数据这个交叉学科的发展,中国计算机学会( CCF) 成立了大数据专家委员会( CCF Big Data Task Force,简称 CCF TFBD) 。 大数据的机遇与挑战已经从商业领域上升到国家战略层面。2012 年 3 月 29 日,美国政府发布了“大数 据研究和发展倡议”。随后,美国国家科学基金委员会( NSF) 、美国国家卫生研究院( NIH) 、美国能源部 ( DOE) 、美国国防部( DOD) 、美国国防部高级研究计划局( DARPA) 、美国地质勘探局( USGS) 六个部门联合 推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力。 为探讨中国大数据的发展战略,由中国科学院计算技术研究所牵头,2012 年 5 月 22 ~ 24 日在北京成功 举办了以“网络数据科学与工程 ─ 一门新兴的交叉学科?”为主题的第 424 次香山科学会议,与会国内外知 名专家学者为中国大数据发展战略建言献计。2012 年 8 月 14 ~ 15 日,中国科学院启动了“面向感知中国的 新一代信息技术研究”战略性先导科技专项,任务之一是研制用于大数据采集、存储、处理、分析和挖掘的未 来数据系统。 信息时代万物数化,大数据的重要性已成行业共识,针对大数据技术和应用的创新,其发展趋势不可阻 挡。如何对大数据进行充分和有效的分析和挖掘,使之转换为有价值的信息和知识,用于解决各种各样的 科学和应用问题,成为大数据时代信息技术发展的重大挑战,同时也是信息技术创新的新的制高点。 本文首先对大数据的概念、特征及其价值作简要概述,然后阐述大数据分析与挖掘的三个科学问题,最 后介绍中国科学院“面向感知中国的新一代信息技术研究”战略性先导科技专项“海云数据系统关键技术研 究与系统研制”课题的一些前期研究成果。 2 大数据 2. 1 什么是大数据? 对于什么样的数据是大数据目前还没有明确的定义,对数据的使用者来讲,如果数据集超出了使用者 所拥有的信息处理和分析的能力,就给使用者带来了大数据问题。 根据麦肯锡预计[5],至2009 年,美国超过1000 雇员的公司,平均每个公司存有200TB 的数据,很多行业 的公司,如银行、电讯、互联网、政府部门等,平均存储的数据超过 1 个 PB。尽管大量的数据存储在各大公司 和政府机构的数据中心,但数据的价值都没有充分发挥出来。缺少有效的数据整合和数据分析与挖掘技术 及方法是其主要的技术障碍,更深层次的原因是对数据潜在价值的认识不足和缺少可以挖掘出数据价值的 技术手段及人才。 2. 2 大数据特征 在 2011 年 10 月美国拉斯维加斯举办的 IOD2011 大会上,IBM 给出了大数据的“3V”特征[6],即多样性 ( variety) 、体量( volume) 、速度( velocity) 。多样性是指数据来自多种数据源,并且数据类型包含结构化和非 结构化数据。体量是指整合在一起供分析与挖掘的数据量非常庞大的。速度则是指数据生成和处理的速 度必须很快,也包含数据内容的变化也快。 大数据的这些特征对现有的数据分析与挖掘方法、技术、算法和软件带来新的挑战,使基于传统服务器 进行数据挖掘的方式产生极大的瓶颈。用户为提高大数据分析与挖掘的能力,必须提高服务器的性能,包 21
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有