网络新媒体技术 2012 年 4. 1 系统架构图 2 海云

点击下载：《电子商务 E-business》参考资料（大数据）：面向大数据的海云数据系统关键技术研究

正在加载图片...

网络新媒体技术 2012年 4.1系统架构海云数据系统的设计理念是以统至分布式运算平百区域性智能数据中心和高速互联网为基础设施,以互联网服务体系为架构,以大规模海量数据存储、处专业用户路由防火墙理、挖掘和可视化分析等关键技术为支撑,通过多样化智能终端及互联网为用户提供数据存储、管理及运算集群分析服务。了“面海云数据系统的拓扑架构如图平台服务器所示。区域智能数据中心提供基于云计算的大规模数据存储及数据挖掘平台,通过平台服务器对外接口提供数据存储、分析与挖掘服务。用户使用Web浏览器或智能终端移动设备区域智能数据中心数据存储集群应用程序提出数据存储和分析的服务请求,经Web服务器通过互联网图2海云数据系统拓扑示意图将服务请求发送给数据中心平台服务器,平台服务器对服务请求进行解析,发送给工作流引擎调度执行,执行结果通过互联网发送给用户终端。 4.2关键技术为支持海云数据系统的研制,课题组己经搭建了由110台高性能服务器组成,具有500TB存储能力和 840CPU核运算能力的云存储系统和云计算平台。海云数据系统的研制主要包括下面6个关键技术 (1)云存储系统。为海云数据系统的大数据分析提供海量数据存储与管理服务; (2)云计算平台。为大规模海量数据处理、挖掘与分析提供高性能计算服务 (3)海量数据挖掘算法库。为海量复杂数据处理、挖掘与分析提供髙可扩展算法 (4)可视化交互分析引擎。启发式、人机交互、可视化数据挖掘新技术,提供海量数据挖掘高度人机交互功能 (5)工作流引擎。为用户创建海量数据处理、分析流程提供图形化流程设计工具,自动执行用户创建的数据处理分析流程,提供资源调度及优化服务 (6) Open APl。提供数据挖掘平台与第三方应用系统的扩展接口 4.3算法创新分类与聚类是数据分析与挖掘的两大主要任务,大数据的超高维问题对现有的分类和聚类技术造成很大的挑战,很多经典算法,如决策树、k- means等,已经不能满足应用需求。针对超高维数据的分类和聚类问题,课题组对著名的随机森林分类算法和属性加权的k- means子空间聚类算法作了改进,取得了很好的效果,新算法对超高维数据的分类和聚类精度有了显著提高。 4.4可扩展分类算法针对大数据建立分类模型的挑战,课题组采用Map- reduce编程模型对随机森林算法作了分布式改进, 建立随机森林模型的核心是生成大量决策树模型,经典的决策树建模方法采用深度优先的递归式算法,如图3所示。但是,Map- reduce编程模型并不支持递归机制,决策树递归算法只能在Map内部操作实现,致使运行Map的单个节点内存消耗随着决策树深度不断递增而增加,内存溢出风险高,不适合大数据。目前流行的基于Map- reduce的开源项目 Mahout采用这种方式实现随机森林算法。针对这一问题,课题组采用了广度优先的建树机制,如图4所示。这种方法的优点是构建的决策树在节点分裂后,生成更多的并行的子任务,实现高效的并行,避免了内存过快消耗,具体执行流程见图5 o1994-2013CHinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net网络新媒体技术 2012 年 4. 1 系统架构图 2 海云数据系统拓扑示意图海云数据系统的设计理念是以区域性智能数据中心和高速互联网为基础设施，以互联网服务体系为架构，以大规模海量数据存储、处理、挖掘和可视化分析等关键技术为支撑，通过多样化智能终端及互联网为用户提供数据存储、管理及分析服务。海云数据系统的拓扑架构如图 2 所示。区域智能数据中心提供基于云计算的大规模数据存储及数据挖掘平台，通过平台服务器对外接口提供数据存储、分析与挖掘服务。用户使用 Web 浏览器或智能终端应用程序提出数据存储和分析的服务请求，经 Web 服务器通过互联网将服务请求发送给数据中心平台服务器，平台服务器对服务请求进行解析，发送给工作流引擎调度执行，执行结果通过互联网发送给用户终端。 4. 2 关键技术为支持海云数据系统的研制，课题组已经搭建了由 110 台高性能服务器组成，具有 500TB 存储能力和 840CPU 核运算能力的云存储系统和云计算平台。海云数据系统的研制主要包括下面 6 个关键技术: ( 1) 云存储系统。为海云数据系统的大数据分析提供海量数据存储与管理服务; ( 2) 云计算平台。为大规模海量数据处理、挖掘与分析提供高性能计算服务; ( 3) 海量数据挖掘算法库。为海量复杂数据处理、挖掘与分析提供高可扩展算法; ( 4) 可视化交互分析引擎。启发式、人机交互、可视化数据挖掘新技术，提供海量数据挖掘高度人机交互功能; ( 5) 工作流引擎。为用户创建海量数据处理、分析流程提供图形化流程设计工具，自动执行用户创建的数据处理分析流程，提供资源调度及优化服务; ( 6) Open API。提供数据挖掘平台与第三方应用系统的扩展接口。 4. 3 算法创新分类与聚类是数据分析与挖掘的两大主要任务，大数据的超高维问题对现有的分类和聚类技术造成很大的挑战，很多经典算法，如决策树、k － means 等，已经不能满足应用需求。针对超高维数据的分类和聚类问题，课题组对著名的随机森林分类算法和属性加权的 k － means 子空间聚类算法作了改进，取得了很好的效果，新算法对超高维数据的分类和聚类精度有了显著提高。 4. 4 可扩展分类算法针对大数据建立分类模型的挑战，课题组采用 Map － reduce 编程模型对随机森林算法作了分布式改进。建立随机森林模型的核心是生成大量决策树模型，经典的决策树建模方法采用深度优先的递归式算法，如图 3 所示。但是，Map － reduce 编程模型并不支持递归机制，决策树递归算法只能在 Map 内部操作实现，致使运行 Map 的单个节点内存消耗随着决策树深度不断递增而增加，内存溢出风险高，不适合大数据。目前流行的基于 Map － reduce 的开源项目 Mahout 采用这种方式实现随机森林算法。针对这一问题，课题组采用了广度优先的建树机制［16］，如图 4 所示。这种方法的优点是构建的决策树在节点分裂后，生成更多的并行的子任务，实现高效的并行，避免了内存过快消耗，具体执行流程见图 5。 24

<<向上翻页向下翻页>>

点击下载：《电子商务 E-business》参考资料（大数据）：面向大数据的海云数据系统关键技术研究