正在加载图片...
网络新媒体技术 2012年 4.1系统架构 海云数据系统的设计理念是以 统至 分布式运算平百 区域性智能数据中心和高速互联网 为基础设施,以互联网服务体系为 架构,以大规模海量数据存储、处 专业用户 路由防火墙 理、挖掘和可视化分析等关键技术 为支撑,通过多样化智能终端及互 联网为用户提供数据存储、管理及 运算集群 分析服务。 了“面 海云数据系统的拓扑架构如图 平台服务器 所示。区域智能数据中心提供基 于云计算的大规模数据存储及数据 挖掘平台,通过平台服务器对外接 口提供数据存储、分析与挖掘服务。 用户使用Web浏览器或智能终端移动设备 区域智能数据中心 数据存储集群 应用程序提出数据存储和分析的服 务请求,经Web服务器通过互联网 图2海云数据系统拓扑示意图 将服务请求发送给数据中心平台服务器,平台服务器对服务请求进行解析,发送给工作流引擎调度执行,执 行结果通过互联网发送给用户终端。 4.2关键技术 为支持海云数据系统的研制,课题组己经搭建了由110台高性能服务器组成,具有500TB存储能力和 840CPU核运算能力的云存储系统和云计算平台。海云数据系统的研制主 要包括下面6个关键技术 (1)云存储系统。为海云数据系统的大数据分析提供海量数据存储与管理服务; (2)云计算平台。为大规模海量数据处理、挖掘与分析提供高性能计算服务 (3)海量数据挖掘算法库。为海量复杂数据处理、挖掘与分析提供髙可扩展算法 (4)可视化交互分析引擎。启发式、人机交互、可视化数据挖掘新技术,提供海量数据挖掘高度人机交互功能 (5)工作流引擎。为用户创建海量数据处理、分析流程提供图形化流程设计工具,自动执行用户创建的 数据处理分析流程,提供资源调度及优化服务 (6) Open APl。提供数据挖掘平台与第三方应用系统的扩展接口 4.3算法创新 分类与聚类是数据分析与挖掘的两大主要任务,大数据的超高维问题对现有的分类和聚类技术造成很 大的挑战,很多经典算法,如决策树、k- means等,已经不能满足应用需求。针对超高维数据的分类和聚类 问题,课题组对著名的随机森林分类算法和属性加权的k- means子空间聚类算法作了改进,取得了很好的 效果,新算法对超高维数据的分类和聚类精度有了显著提高。 4.4可扩展分类算法 针对大数据建立分类模型的挑战,课题组采用Map- reduce编程模型对随机森林算法作了分布式改进, 建立随机森林模型的核心是生成大量决策树模型,经典的决策树建模方法采用深度优先的递归式算法,如 图3所示。但是,Map- reduce编程模型并不支持递归机制,决策树递归算法只能在Map内部操作实现,致 使运行Map的单个节点内存消耗随着决策树深度不断递增而增加,内存溢出风险高,不适合大数据。目前 流行的基于Map- reduce的开源项目 Mahout采用这种方式实现随机森林算法。针对这一问题,课题组采用 了广度优先的建树机制,如图4所示。这种方法的优点是构建的决策树在节点分裂后,生成更多的并行 的子任务,实现高效的并行,避免了内存过快消耗,具体执行流程见图5 o1994-2013CHinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net网 络 新 媒 体 技 术 2012 年 4. 1 系统架构 图 2 海云数据系统拓扑示意图 海云数据系统的设计理念是以 区域性智能数据中心和高速互联网 为基础设施,以互联网服务体系为 架构,以大规模海量数据存 储、处 理、挖掘和可视化分析等关键技术 为支撑,通过多样化智能终端及互 联网为用户提供数据存储、管理及 分析服务。 海云数据系统的拓扑架构如图 2 所示。区域智能数据中心提供基 于云计算的大规模数据存储及数据 挖掘平台,通过平台服务器对外接 口提供数据存储、分析与挖掘服务。 用户使用 Web 浏览器或智能终端 应用程序提出数据存储和分析的服 务请求,经 Web 服务器通过互联网 将服务请求发送给数据中心平台服务器,平台服务器对服务请求进行解析,发送给工作流引擎调度执行,执 行结果通过互联网发送给用户终端。 4. 2 关键技术 为支持海云数据系统的研制,课题组已经搭建了由 110 台高性能服务器组成,具有 500TB 存储能力和 840CPU 核运算能力的云存储系统和云计算平台。海云数据系统的研制主 要包括下面 6 个关键技术: ( 1) 云存储系统。为海云数据系统的大数据分析提供海量数据存储与管理服务; ( 2) 云计算平台。为大规模海量数据处理、挖掘与分析提供高性能计算服务; ( 3) 海量数据挖掘算法库。为海量复杂数据处理、挖掘与分析提供高可扩展算法; ( 4) 可视化交互分析引擎。启发式、人机交互、可视化数据挖掘新技术,提供海量数据挖掘高度人机交互功能; ( 5) 工作流引擎。为用户创建海量数据处理、分析流程提供图形化流程设计工具,自动执行用户创建的 数据处理分析流程,提供资源调度及优化服务; ( 6) Open API。提供数据挖掘平台与第三方应用系统的扩展接口。 4. 3 算法创新 分类与聚类是数据分析与挖掘的两大主要任务,大数据的超高维问题对现有的分类和聚类技术造成很 大的挑战,很多经典算法,如决策树、k - means 等,已经不能满足应用需求。针对超高维数据的分类和聚类 问题,课题组对著名的随机森林分类算法和属性加权的 k - means 子空间聚类算法作了改进,取得了很好的 效果,新算法对超高维数据的分类和聚类精度有了显著提高。 4. 4 可扩展分类算法 针对大数据建立分类模型的挑战,课题组采用 Map - reduce 编程模型对随机森林算法作了分布式改进。 建立随机森林模型的核心是生成大量决策树模型,经典的决策树建模方法采用深度优先的递归式算法,如 图 3 所示。但是,Map - reduce 编程模型并不支持递归机制,决策树递归算法只能在 Map 内部操作实现,致 使运行 Map 的单个节点内存消耗随着决策树深度不断递增而增加,内存溢出风险高,不适合大数据。目前 流行的基于 Map - reduce 的开源项目 Mahout 采用这种方式实现随机森林算法。针对这一问题,课题组采用 了广度优先的建树机制[16],如图 4 所示。这种方法的优点是构建的决策树在节点分裂后,生成更多的并行 的子任务,实现高效的并行,避免了内存过快消耗,具体执行流程见图 5。 24
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有