正在加载图片...
6期 黄哲学等:面向大数据的海云数据系统关键技术研究 23 衡问题,属性相关问题等。这些问题虽然在一般性数据分析中普遍存在,但超高维数据使得这些问题更难 处理。网络社会化文本数据,如微博数据,就属于这类大数据,表达微博内容的关键词属性可以有几万个, 而处理的微博数量也是百万或千万级。 超高维数据不适合用传统的全空间方法来分析,因为超高维数据带有很大的稀疏性,对象簇和类别的表达 体现在部分属性子集,较有效的分析方法是采用子空间方法。同时,由于数据的复杂性,单一的数据挖掘模型, 如决策树模型,难以满足应用的精度要求,必须采用多个模型的集成学习方法建立聚类或分类的集成模型,通 过多个单一模型的综合结果做出最后的决策。目前子空间方法和集成学习方法在国内外已经有大量研究8 3.2数据量问题 大数据分析的另一科学问题是当图1的对象一属性矩阵的行数超过千万或亿的数量级后,其整个矩阵 的数据量将达到上百个GB至TB级,这样大的输入数据远远超出大多数服务器的内存,更不用说在单一服 务器上用复杂的迭代或递归数据挖掘算法进行建模和挖掘。因此,现有的数据挖掘软件和大多数传统的分 类和聚类等算法无法处理这个规模的数据。 解决TB级规模输入数据建模问题的一个可行方法是将对象一属性矩阵切分成大量的子矩阵,然后将 子矩阵文件分布到多个服务器节点上。同时对薮据挖掘算法作并行分布式改造,使每次迭代运算分两步进 行,第一步是在每个计算节点上对子矩阵进行运算,取得子矩阵的局部结果;第二步是将所有子矩阵的局部 结果集中运算,计算出整个对象一属性矩阵的全局结果,然后进入下一次迭代直到得出最后模型。 Hadoop 平台上的Map- reduce计算模型通常用来实现上述分布式算法。 对复杂的数据挖掘算法进行分布式改造需要解决一个算法上的数学问题,即证明这种分解计算再综合 的两步式方法得出的结果要同直接对整个矩阵一步运算的结果等价。如果采用近似计算方法,需要证明两 步式方法得出结果的偏差在可控范围内。在 Hadoop上实现分布式数据挖掘算法的一个技术问题是Map reduce计算模型本身的局限性。Map- reduce最初是为词频统计设计的,适合数据一次性处理,而多数数据 挖掘算法具有迭代、递归、层次等特性,用Map- reduce实现分布式算法经常产生很多额外开销,极大影响运 算效率。因此,设计适合大数据分析与挖掘分布式算法的新型计算模型也是一个重要的科学问题。 当前,许多常用的机器学习和数据挖掘算法都有了Map- reduce分布式版本,最流行的是 Apache的 Mahout开源系统呵,但其算法的执行效率还远远达不到TB级大数据的水平0。 3.3大数据分析方法 大薮据分析与挖掘的另一科学问题是分析方法和分析手段落后。当前普遍采用的数据挖掘建模方法 是样本->建模->测试三步骤方法,建模的过程由算法自动完成,模型建好后,用户对模型进行测试,结 果不满意,改变训练数据和算法参数,由算法自动产生新的模型。这种方法不适用于大数据分析,因为数据 大,算法建模的时间较长,多次重复建模步骤使计算成本和能耗加大。因此,必须硏究新的大数据分析方法。 提高大数据分析与挖掘的效率和效果的方法之一是改变建模的全自动过程,实现大数据建模人机交 互,让专业分析人员的领域知识融入到建模过程中,通过人机交互获得优化模型。实现大数据建模过程人 机交互需要解决两大关键技术’,交互式数据挖掘算法和数据及模型可视化。交互式算法在建模过程中生成 大量中间结果,用可视化技术展现给分析人员,分析人员可以通过观察分析建模的阶段性结果,调整算法参 数或输入数据,指引交互式算法向优化模型的方向计算 大数据可视分析已经成为图形学和可视化领域的研究热点,目前大规模超高维数据可视化方法和技术 还不多,数据挖掘模型和知识可视化研究也在起始阶段,可用的成果很少。 4海云数据系统 海云数据系统是中国科学院“面向感知中国的新一代信息技术”战略性先导科技专项“海云数据系统关 键技术研究与系统研制”课题硏究的重要内容。其目标是研制面向海量数据存储与挖掘的互联网服务平 台,为“海云创新实验环境”用户提供大规模数据存储、处理、挖掘与可视化分析服务,创新数据挖掘互联网 服务模式。 o1994-2013CHinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net6 期 黄哲学 等: 面向大数据的海云数据系统关键技术研究 衡问题,属性相关问题等。这些问题虽然在一般性数据分析中普遍存在,但超高维数据使得这些问题更难 处理。网络社会化文本数据,如微博数据,就属于这类大数据,表达微博内容的关键词属性可以有几万个, 而处理的微博数量也是百万或千万级。 超高维数据不适合用传统的全空间方法来分析,因为超高维数据带有很大的稀疏性,对象簇和类别的表达 体现在部分属性子集,较有效的分析方法是采用子空间方法。同时,由于数据的复杂性,单一的数据挖掘模型, 如决策树模型,难以满足应用的精度要求,必须采用多个模型的集成学习方法建立聚类或分类的集成模型,通 过多个单一模型的综合结果做出最后的决策。目前子空间方法和集成学习方法在国内外已经有大量研究[7,8]。 3. 2 数据量问题 大数据分析的另一科学问题是当图 1 的对象—属性矩阵的行数超过千万或亿的数量级后,其整个矩阵 的数据量将达到上百个 GB 至 TB 级,这样大的输入数据远远超出大多数服务器的内存,更不用说在单一服 务器上用复杂的迭代或递归数据挖掘算法进行建模和挖掘。因此,现有的数据挖掘软件和大多数传统的分 类和聚类等算法无法处理这个规模的数据。 解决 TB 级规模输入数据建模问题的一个可行方法是将对象—属性矩阵切分成大量的子矩阵,然后将 子矩阵文件分布到多个服务器节点上。同时对数据挖掘算法作并行分布式改造,使每次迭代运算分两步进 行,第一步是在每个计算节点上对子矩阵进行运算,取得子矩阵的局部结果; 第二步是将所有子矩阵的局部 结果集中运算,计算出整个对象—属性矩阵的全局结果,然后进入下一次迭代直到得出最后模型。Hadoop 平台上的 Map - reduce 计算模型通常用来实现上述分布式算法。 对复杂的数据挖掘算法进行分布式改造需要解决一个算法上的数学问题,即证明这种分解计算再综合 的两步式方法得出的结果要同直接对整个矩阵一步运算的结果等价。如果采用近似计算方法,需要证明两 步式方法得出结果的偏差在可控范围内。在 Hadoop 上实现分布式数据挖掘算法的一个技术问题是 Map - reduce 计算模型本身的局限性。Map - reduce 最初是为词频统计设计的,适合数据一次性处理,而多数数据 挖掘算法具有迭代、递归、层次等特性,用 Map - reduce 实现分布式算法经常产生很多额外开销,极大影响运 算效率。因此,设计适合大数据分析与挖掘分布式算法的新型计算模型也是一个重要的科学问题。 当前,许多常用的机器学习和数据挖掘算法都有了 Map - reduce 分布式版本,最流行的是 Apache 的 Mahout 开源系统[9],但其算法的执行效率还远远达不到 TB 级大数据的水平[10,11]。 3. 3 大数据分析方法 大数据分析与挖掘的另一科学问题是分析方法和分析手段落后。当前普遍采用的数据挖掘建模方法 是样本– > 建模– > 测试三步骤方法,建模的过程由算法自动完成,模型建好后,用户对模型进行测试,结 果不满意,改变训练数据和算法参数,由算法自动产生新的模型。这种方法不适用于大数据分析,因为数据 大,算法建模的时间较长,多次重复建模步骤使计算成本和能耗加大。因此,必须研究新的大数据分析方法。 提高大数据分析与挖掘的效率和效果的方法之一是改变建模的全自动过程,实现大数据建模人机交 互,让专业分析人员的领域知识融入到建模过程中,通过人机交互获得优化模型。实现大数据建模过程人 机交互需要解决两大关键技术,交互式数据挖掘算法和数据及模型可视化。交互式算法在建模过程中生成 大量中间结果,用可视化技术展现给分析人员,分析人员可以通过观察分析建模的阶段性结果,调整算法参 数或输入数据,指引交互式算法向优化模型的方向计算。 大数据可视分析已经成为图形学和可视化领域的研究热点,目前大规模超高维数据可视化方法和技术 还不多,数据挖掘模型和知识可视化研究也在起始阶段,可用的成果很少。 4 海云数据系统 海云数据系统是中国科学院“面向感知中国的新一代信息技术”战略性先导科技专项“海云数据系统关 键技术研究与系统研制”课题研究的重要内容。其目标是研制面向海量数据存储与挖掘的互联网服务平 台,为“海云创新实验环境”用户提供大规模数据存储、处理、挖掘与可视化分析服务,创新数据挖掘互联网 服务模式。 23
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有