正在加载图片...
·192 智能系统学报 第7卷 结点并行完成数据挖掘任务,以提高数据挖掘系统 网与国家信息安全领域.数据挖掘云服务平台 的整体性能;分布式数据挖掘实现场地自治和数据 COMS作为无锡“感知环境,智慧环保”环境监控物 的全局透明共享,而不要求利用网络中的所有结点 联网应用示范工程重要的一环,2010年7月2日通 来提高系统的处理性能。 过了环保部组织的专家论证,现正在落实中, 2)实现方式不同.并行数据挖掘中各结点间可以 在国际上,CHU等采用Map-Reduce并行编程 采用高速网络连接,结点间的数据传输代价相对较 模式实现了机器学习算法)],这是在多核环境下并 低;分布式数据挖掘的各结点间一般采用局域网或广 行算法的实现.另外,在多节点的云计算平台上的开 域网相连,网络带宽较低,点到点的通信开销较大. 源项目Apache Mahout0.5于2011年5月27日发 3)各结点的地位不同.并行数据挖掘的各结点 布8] 是非独立的,在数据处理中只能发挥协同作用,而不 6.1数据挖掘云服务平台要求 能有局部应用,适合于算法内并行:分布式数据挖掘 数据挖掘云服务平台包括以下几个方面的要 系统的各结点除了能通过网络协同完成全局事务 求9] 外,每个结点可以独立运行自己的数据挖掘任务,执 1)基础建设:专业人士成为服务的提供者,大 行局部应用,具有高度的自治性,适合不同算法之间 众和各种组织成为服务的受益方,按领域、行业进行 的并行 构建 云计算通过廉价的P心服务器,可以管理大数 2)虚拟化:计算资源自主分配和调度, 据量与大集群,其关键技术在于能够对云内的基础 3)需求:大众参与应对个性化和多样化的需求 设施进行动态按需分配与管理.云计算的任务可以 4)可信:算法通用、可查、可调和可视 被分割成多个进程在多台服务器上并行计算,然后 5)安全:隐私数据由客户自己在平台终端完成 得到最终结果,其优点是对大数据量的操作性能非 加密保护, 常好.从用户角度来看,并行计算是由单个用户完成 6.2数据挖掘云服务平台结构 的,分布式计算是由多个用户合作完成的,云计算是 数据挖掘云服务平台的结构如图1所示.可以 在可以没有用户参与指定计算结点的情况下,交给 看出,1)硬件资源管理子系统和后台并行挖掘子系 网络另一端的云计算平台的服务器结点自主完成计 统紧密结合;2)平台对用户透明,资源抽象成提供 算,这样云计算就同时具备了并行与分布式的特征。 数据挖掘服务的“云”;3)用户通过前台的Wb交 互界面定制数据挖掘任务, 6 数据挖掘云服务方式 数据挖掘在物联网中采取了云服务的方式来提 供数据挖掘的结果用于决策与控制.云计算模式是 数据挖 物联网的基石,能够保证分布式并行数据挖掘,实现 ,掘任务 高效、实时挖掘.云服务模式是数据挖掘的普适模 Web 式,能够保证挖掘技术的共享,降低数据挖掘应用的 门槛,满足海量挖掘的需求.国内中国科学院计算技 任务执 行结果 术研究所于2008年底开发完成了基于Hadoop的并 行分布式数据挖掘系统PDMiner.中国移动进一步 图1数据挖掘云服务平台 建设了256台服务器、1000个CPU、256TB存储组 Fig.1 Data mining cloud service platform 成的“大云”试验平台,并在与中国科学院计算技术 研究所合作开发的并行数据挖掘系统基础上,结合 图2是数据挖掘云服务系统架构,既包括了数 数据挖掘、用户行为分析等需求,在上海、江苏等地 据挖掘预处理云服务0,也包括了数据挖掘算法云 进行了应用试点,在提高效率、降低成本、节能减排 服务,如关联规则云服务、分类云服务[6,21]、聚 等方面取得了极为显著的效果6].在此基础上中国 类云服务4]和异常发现云服务[5),总体上还有工 科学院计算技术研究所2009年开发完成了面向云 作流子系统,对数据挖掘的任务进行多任务的组合, 计算的数据挖掘服务平台COMS,现已用于国家电 以达到数据挖掘的目标
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有