正在加载图片...
·324· 智能系统学报 第14卷 力。近年来,基于大数据技术,研究更有效的预 析系统和数据应用系统。 测模型已成为学术界和产业界共同关注的热点。 该平台是Hadoop技术的具体应用:一方面 文献[4]采用Spark平台和并行随机森林算法对短 利用Hadoop的核心组件HDFS、HBase、Hive建立 时电力负荷进行预测,改进了单机随机森林算法 大数据存储系统;另一方面,利用MapReduce并 的各方面性能:文献[5]基于随机森林算法的并行 行计算框架和Spark内存并行计算框架,构成数 化,对历史负荷数据及相关的温度、风速等一起 据计算分析系统,实现对高校招生数据的分析与 进行分析,提高了负荷预测效率,并增强了算法 计算。 对大数据的处理能力;文献[6]提出了一种基于弱 相关化特征子空间选择的离散化随机森林并行分 报表系统 招生策略 专业设置 类算法,使决策树之间相关性降低,提高了随机 数据应用系统 森林的分类效果;文献[7]在小规模集群服务器上 并行计算框架 用消息传递技术对随机森林算法进行并行化,提 内存并行计算框架 (MapReduce) (Spark) 高了模型的训练速度;文献[8]采用数据重构方法 数据分析系统 获取多维高校历史数据,利用非线性预测能力较 强的支持向量机提出了一种数据挖掘高校招生预 分布式文件系统(HDFS) 测模型;文献[9]以历年招生数据为基础,采用数 列式数据库(HBase) 数据仓库(Hive) 据挖掘手段分析校园网络数据,构建了高校招生 数据存储系统 预测系统,为学校招生带来可视化的预测信息; 文献[10]建立了高校招生数据挖掘系统,提出了 数据库接口 数据迁移工具 (Datanucleus) (sqoop) 有利于高校招生的策略预测方法。 经过众多研究学者的努力,国内对高校招生 策略的预测方法取得了一定成果,但由于相适应 数据子集 数据子集 数据子集 数据采集整合系统 的市场机制还没有形成,一些有效的预测模型, 如并行化随机森林算法在高校招生领域还没有得 图1大数据管理平台框架图 到应用。本文借助Hadoop平台,利用并行化计算 Fig.1 Architecture diagram of big data manage platform 框架对招生数据进行挖掘和分析,提出了并行化 1.3 数据采集整合系统 的随机森林算法预测高校招生策略的方法。 高校的招生人数、专业设置、生源人数、学生 成绩等招生数据构成数据子集,这些数据子集来 1大数据管理平台 源不同,数据口径不一,模态千差万别,形成了海 l.1 Hadoop技术 量异构数据。 Hadoop是云计算技术应用最广泛的平台之 数据整合过程就是将海量异构数据迁移至 一,已经成为大数据管理与并行处理的主流技 Hadoop集群,实现高效存储与管理。目前,数据 术。Hadoop是一个开源的分布式软件框架,分布式 整合过程还没有一个高效标准的方法,还需要利 文件系统(hadoop distribution file system,HDFS) 用第三方软件完成该操作,如Sqoop、Datanuc- 和并行化计算模型MapReduce是其最核心内容"。 leus等。Sqoop能够将数据在Hadoop集群和关系 HDFS提供了文件分布式存储、大数据库管理等应 型数据库之间进行相互转移。在本管理平台 用技术;而MapReduce则为大数据库提供了完善 中,利用Sqoop将各数据子集迁移到集群的数据 的并行分析计算框架。为了方便用户操作,Hadoop 仓库;Datanucleus能够支持多种主流存储系统I 还提供了一系列实用的组件供用户选择,如Hve、 屏蔽各存储系统之间的差异,提供标准的数据接 Pig、Sqoop、Datanucleus等a。 口(JDO,JPA)实现数据传送。在本管理平台中, 1.2大数据管理平台框架结构 各数据子集通过Datanucleus接口将数据导入到 参照云计算技术体系结构与数据分析处理 列数据库HBase中。 工具,并结合高校招生数据分析的实际需要,搭 1.4数据存储系统 建以数据存储、分析计算为主的高校招生数据管 数据仓库、列数据库中的数据均存储在Ha- 理平台,其基本构架如图1所示。平台自下往上 doop集群的HDFS中。采集到的原始数据经过抽 分为:数据采集整合系统、数据存储系统、数据分 取、清理、系统加工、整合等预处理后保存到数据力 [2]。近年来,基于大数据技术,研究更有效的预 测模型已成为学术界和产业界共同关注的热点[3]。 文献[4]采用 Spark 平台和并行随机森林算法对短 时电力负荷进行预测,改进了单机随机森林算法 的各方面性能;文献[5]基于随机森林算法的并行 化,对历史负荷数据及相关的温度、风速等一起 进行分析,提高了负荷预测效率,并增强了算法 对大数据的处理能力;文献[6]提出了一种基于弱 相关化特征子空间选择的离散化随机森林并行分 类算法,使决策树之间相关性降低,提高了随机 森林的分类效果;文献[7]在小规模集群服务器上 用消息传递技术对随机森林算法进行并行化,提 高了模型的训练速度;文献[8]采用数据重构方法 获取多维高校历史数据,利用非线性预测能力较 强的支持向量机提出了一种数据挖掘高校招生预 测模型;文献[9]以历年招生数据为基础,采用数 据挖掘手段分析校园网络数据,构建了高校招生 预测系统,为学校招生带来可视化的预测信息; 文献[10]建立了高校招生数据挖掘系统,提出了 有利于高校招生的策略预测方法。 经过众多研究学者的努力,国内对高校招生 策略的预测方法取得了一定成果,但由于相适应 的市场机制还没有形成,一些有效的预测模型, 如并行化随机森林算法在高校招生领域还没有得 到应用。本文借助 Hadoop 平台,利用并行化计算 框架对招生数据进行挖掘和分析,提出了并行化 的随机森林算法预测高校招生策略的方法。 1 大数据管理平台 1.1 Hadoop 技术 Hadoop 是云计算技术应用最广泛的平台之 一,已经成为大数据管理与并行处理的主流技 术。Hadoop 是一个开源的分布式软件框架,分布式 文件系统 (hadoop distribution file system,HDFS) 和并行化计算模型 MapReduce 是其最核心内容[11]。 HDFS 提供了文件分布式存储、大数据库管理等应 用技术;而 MapReduce 则为大数据库提供了完善 的并行分析计算框架。为了方便用户操作,Hadoop 还提供了一系列实用的组件供用户选择,如 Hive、 Pig、Sqoop、Datanucleus 等 [12]。 1.2 大数据管理平台框架结构 参照云计算技术体系结构[13]与数据分析处理 工具,并结合高校招生数据分析的实际需要,搭 建以数据存储、分析计算为主的高校招生数据管 理平台,其基本构架如图 1 所示。平台自下往上 分为:数据采集整合系统、数据存储系统、数据分 析系统和数据应用系统。 该平台是 Hadoop 技术的具体应用:一方面, 利用 Hadoop 的核心组件 HDFS、HBase、Hive 建立 大数据存储系统;另一方面,利用 MapReduce 并 行计算框架和 Spark 内存并行计算框架,构成数 据计算分析系统,实现对高校招生数据的分析与 计算。 数据子集 数据子集 数据子集 ... 数据采集整合系统 数据库接口 (Datanucleus) 数据迁移工具 (sqoop) 数据存储系统 并行计算框架 (MapReduce) 内存并行计算框架 (Spark) 数据分析系统 招生策略 数据应用系统 报表系统 ... 专业设置 分布式文件系统 (HDFS) 列式数据库 (HBase) 数据仓库 (Hive) 图 1 大数据管理平台框架图 Fig. 1 Architecture diagram of big data manage platform 1.3 数据采集整合系统 高校的招生人数、专业设置、生源人数、学生 成绩等招生数据构成数据子集,这些数据子集来 源不同,数据口径不一,模态千差万别,形成了海 量异构数据。 数据整合过程就是将海量异构数据迁移至 Hadoop 集群,实现高效存储与管理。目前,数据 整合过程还没有一个高效标准的方法,还需要利 用第三方软件完成该操作,如 Sqoop、Datanuc￾leus 等。Sqoop 能够将数据在 Hadoop 集群和关系 型数据库之间进行相互转移[14]。在本管理平台 中,利用 Sqoop 将各数据子集迁移到集群的数据 仓库;Datanucleus 能够支持多种主流存储系统[15] , 屏蔽各存储系统之间的差异,提供标准的数据接 口 (JDO,JPA) 实现数据传送。在本管理平台中, 各数据子集通过 Datanucleus 接口将数据导入到 列数据库 HBase 中。 1.4 数据存储系统 数据仓库、列数据库中的数据均存储在 Ha￾doop 集群的 HDFS 中。采集到的原始数据经过抽 取、清理、系统加工、整合等预处理后保存到数据 ·324· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有