第14卷第2期 智能系统学报 Vol.14 No.2 2019年3月 CAAI Transactions on Intelligent Systems Mar.2019 D0:10.11992/tis.201709011 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20180412.1032.006html 大数据背景下高校招生策略预测 杨正理,史文,陈海霞,王长鹏 (三江学院机械与电气工程学院,江苏南京210012) 摘要:在应届高中生生源不断下降、高等院校招生规模不断扩大、招生方式多元化不断发展、各院校之间招 生竞争日趋激烈的条件下,利用海量招生异构数据.准确定位生源对象,做好前期招生宣传是各高等院校需要 考虑的重要问题。结合云计算技术,利用并行化计算模型MapReduce和内存并行化计算框架Spark对高校招生 历史数据进行分析,提出采用并行化随机森林预测高校招生策略模型,缩短了模型的预测时间、提高了模型的 预测精度、增强了模型对大数据的处理能力。实验结果表明,并行化随机森林算法在不同数据集上的多方面性 能均优于常用的决策树预测方法。 关键词:大数据;机器学习;深度学习;学习算法:高校招生;策略预测:随机森林;云计算 中图分类号:TP311 文献标志码:A文章编号:1673-4785(2019)02-0323-07 中文引用格式:杨正理,史文,陈海霞,等.大数据背景下高校招生策略预测J.智能系统学报,2019,14(2):323-329 英文引用格式:YANG Zhengli,SHI Wen,,CHEN Haixia,.etal.The strategy of college enrollment predicted with big dataJl,.CAAI transactions on intelligent systems,2019,14(2):323-329. The strategy of college enrollment predicted with big data YANG Zhengli,SHI Wen,CHEN Haixia,WANG Changpeng (School of mechanical and electrical engineering,SanJiang University,Nanjing 210012,China) Abstract:Considering the decline in the enrollment of high school students and the expansion in the scale of enrollment of colleges and universities,methods of enrollment are developing continuously,and the competition among colleges and universities is becoming fierce.Under this background,an important issue that colleges and universities need to con- sider is to accurately locate the source of students by using the tremendous amount of heterogeneous enrollment data and accomplish the pre-enrollment propagation.Combined with the cloud computing technology,the parallel computing model MapReduce and the memory parallel computing framework Spark are used to analyze historical enrollment data. The paralleled random forest algorithm is proposed to predict the strategy of college enrollment.This model has a short- er prediction time,improved prediction accuracy,and improved big data processing ability.The experimental result shows that the performance of the paralleled random forest algorithm in different datasets is significantly superior to the widely used decision tree prediction method. Keywords:big data;machine learning;deep learning;learning algorithm;college enrollment;strategy prediction;ran- dom forest;cloud computing 随着计算机通信网络技术、信息技术的发 招生信息大数据山。原有的招生信息数据处理方 展,普通高校招生方式多元化,以及各院校招生 式已不能满足大数据的要求,需要研究新的数据 竞争的日趋激烈,制定精确合理的招生策略所需 分析方法。 高校招生策略预测的常用方法有:时间序 要参考的招生信息数据呈现爆炸性增长,形成了 列、灰色预测、多元统计等。这些方法具有简单 收稿日期:2017-09-11.网络出版日期:2018-04-12 基金项目:江苏省高校自然科学研究面上项目(17KB470011) 实用、预测速度快的优点,但只适用小样本、线性 通信作者:杨正理.E-mail:zhengli-yang@163.com 变化的数据集,对大规模、非线性数据则无能为
DOI: 10.11992/tis.201709011 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20180412.1032.006.html 大数据背景下高校招生策略预测 杨正理,史文,陈海霞,王长鹏 (三江学院 机械与电气工程学院,江苏 南京 210012) 摘 要:在应届高中生生源不断下降、高等院校招生规模不断扩大、招生方式多元化不断发展、各院校之间招 生竞争日趋激烈的条件下,利用海量招生异构数据,准确定位生源对象,做好前期招生宣传是各高等院校需要 考虑的重要问题。结合云计算技术,利用并行化计算模型 MapReduce 和内存并行化计算框架 Spark 对高校招生 历史数据进行分析,提出采用并行化随机森林预测高校招生策略模型,缩短了模型的预测时间、提高了模型的 预测精度、增强了模型对大数据的处理能力。实验结果表明,并行化随机森林算法在不同数据集上的多方面性 能均优于常用的决策树预测方法。 关键词:大数据;机器学习;深度学习;学习算法;高校招生;策略预测;随机森林;云计算 中图分类号:TP311 文献标志码:A 文章编号:1673−4785(2019)02−0323−07 中文引用格式:杨正理, 史文, 陈海霞, 等. 大数据背景下高校招生策略预测[J]. 智能系统学报, 2019, 14(2): 323–329. 英文引用格式:YANG Zhengli, SHI Wen, CHEN Haixia, et al. The strategy of college enrollment predicted with big data[J]. CAAI transactions on intelligent systems, 2019, 14(2): 323–329. The strategy of college enrollment predicted with big data YANG Zhengli,SHI Wen,CHEN Haixia,WANG Changpeng (School of mechanical and electrical engineering, SanJiang University, Nanjing 210012, China) Abstract: Considering the decline in the enrollment of high school students and the expansion in the scale of enrollment of colleges and universities, methods of enrollment are developing continuously, and the competition among colleges and universities is becoming fierce. Under this background, an important issue that colleges and universities need to consider is to accurately locate the source of students by using the tremendous amount of heterogeneous enrollment data and accomplish the pre-enrollment propagation. Combined with the cloud computing technology, the parallel computing model MapReduce and the memory parallel computing framework Spark are used to analyze historical enrollment data. The paralleled random forest algorithm is proposed to predict the strategy of college enrollment. This model has a shorter prediction time, improved prediction accuracy, and improved big data processing ability. The experimental result shows that the performance of the paralleled random forest algorithm in different datasets is significantly superior to the widely used decision tree prediction method. Keywords: big data; machine learning; deep learning; learning algorithm; college enrollment; strategy prediction; random forest; cloud computing 随着计算机通信网络技术、信息技术的发 展,普通高校招生方式多元化,以及各院校招生 竞争的日趋激烈,制定精确合理的招生策略所需 要参考的招生信息数据呈现爆炸性增长,形成了 招生信息大数据[1]。原有的招生信息数据处理方 式已不能满足大数据的要求,需要研究新的数据 分析方法。 高校招生策略预测的常用方法有:时间序 列、灰色预测、多元统计等。这些方法具有简单 实用、预测速度快的优点,但只适用小样本、线性 变化的数据集,对大规模、非线性数据则无能为 收稿日期:2017−09−11. 网络出版日期:2018−04−12. 基金项目:江苏省高校自然科学研究面上项目 (17KJB470011). 通信作者:杨正理. E-mail:zhengli-yang@163.com. 第 14 卷第 2 期 智 能 系 统 学 报 Vol.14 No.2 2019 年 3 月 CAAI Transactions on Intelligent Systems Mar. 2019
·324· 智能系统学报 第14卷 力。近年来,基于大数据技术,研究更有效的预 析系统和数据应用系统。 测模型已成为学术界和产业界共同关注的热点。 该平台是Hadoop技术的具体应用:一方面 文献[4]采用Spark平台和并行随机森林算法对短 利用Hadoop的核心组件HDFS、HBase、Hive建立 时电力负荷进行预测,改进了单机随机森林算法 大数据存储系统;另一方面,利用MapReduce并 的各方面性能:文献[5]基于随机森林算法的并行 行计算框架和Spark内存并行计算框架,构成数 化,对历史负荷数据及相关的温度、风速等一起 据计算分析系统,实现对高校招生数据的分析与 进行分析,提高了负荷预测效率,并增强了算法 计算。 对大数据的处理能力;文献[6]提出了一种基于弱 相关化特征子空间选择的离散化随机森林并行分 报表系统 招生策略 专业设置 类算法,使决策树之间相关性降低,提高了随机 数据应用系统 森林的分类效果;文献[7]在小规模集群服务器上 并行计算框架 用消息传递技术对随机森林算法进行并行化,提 内存并行计算框架 (MapReduce) (Spark) 高了模型的训练速度;文献[8]采用数据重构方法 数据分析系统 获取多维高校历史数据,利用非线性预测能力较 强的支持向量机提出了一种数据挖掘高校招生预 分布式文件系统(HDFS) 测模型;文献[9]以历年招生数据为基础,采用数 列式数据库(HBase) 数据仓库(Hive) 据挖掘手段分析校园网络数据,构建了高校招生 数据存储系统 预测系统,为学校招生带来可视化的预测信息; 文献[10]建立了高校招生数据挖掘系统,提出了 数据库接口 数据迁移工具 (Datanucleus) (sqoop) 有利于高校招生的策略预测方法。 经过众多研究学者的努力,国内对高校招生 策略的预测方法取得了一定成果,但由于相适应 数据子集 数据子集 数据子集 数据采集整合系统 的市场机制还没有形成,一些有效的预测模型, 如并行化随机森林算法在高校招生领域还没有得 图1大数据管理平台框架图 到应用。本文借助Hadoop平台,利用并行化计算 Fig.1 Architecture diagram of big data manage platform 框架对招生数据进行挖掘和分析,提出了并行化 1.3 数据采集整合系统 的随机森林算法预测高校招生策略的方法。 高校的招生人数、专业设置、生源人数、学生 成绩等招生数据构成数据子集,这些数据子集来 1大数据管理平台 源不同,数据口径不一,模态千差万别,形成了海 l.1 Hadoop技术 量异构数据。 Hadoop是云计算技术应用最广泛的平台之 数据整合过程就是将海量异构数据迁移至 一,已经成为大数据管理与并行处理的主流技 Hadoop集群,实现高效存储与管理。目前,数据 术。Hadoop是一个开源的分布式软件框架,分布式 整合过程还没有一个高效标准的方法,还需要利 文件系统(hadoop distribution file system,HDFS) 用第三方软件完成该操作,如Sqoop、Datanuc- 和并行化计算模型MapReduce是其最核心内容"。 leus等。Sqoop能够将数据在Hadoop集群和关系 HDFS提供了文件分布式存储、大数据库管理等应 型数据库之间进行相互转移。在本管理平台 用技术;而MapReduce则为大数据库提供了完善 中,利用Sqoop将各数据子集迁移到集群的数据 的并行分析计算框架。为了方便用户操作,Hadoop 仓库;Datanucleus能够支持多种主流存储系统I 还提供了一系列实用的组件供用户选择,如Hve、 屏蔽各存储系统之间的差异,提供标准的数据接 Pig、Sqoop、Datanucleus等a。 口(JDO,JPA)实现数据传送。在本管理平台中, 1.2大数据管理平台框架结构 各数据子集通过Datanucleus接口将数据导入到 参照云计算技术体系结构与数据分析处理 列数据库HBase中。 工具,并结合高校招生数据分析的实际需要,搭 1.4数据存储系统 建以数据存储、分析计算为主的高校招生数据管 数据仓库、列数据库中的数据均存储在Ha- 理平台,其基本构架如图1所示。平台自下往上 doop集群的HDFS中。采集到的原始数据经过抽 分为:数据采集整合系统、数据存储系统、数据分 取、清理、系统加工、整合等预处理后保存到数据
力 [2]。近年来,基于大数据技术,研究更有效的预 测模型已成为学术界和产业界共同关注的热点[3]。 文献[4]采用 Spark 平台和并行随机森林算法对短 时电力负荷进行预测,改进了单机随机森林算法 的各方面性能;文献[5]基于随机森林算法的并行 化,对历史负荷数据及相关的温度、风速等一起 进行分析,提高了负荷预测效率,并增强了算法 对大数据的处理能力;文献[6]提出了一种基于弱 相关化特征子空间选择的离散化随机森林并行分 类算法,使决策树之间相关性降低,提高了随机 森林的分类效果;文献[7]在小规模集群服务器上 用消息传递技术对随机森林算法进行并行化,提 高了模型的训练速度;文献[8]采用数据重构方法 获取多维高校历史数据,利用非线性预测能力较 强的支持向量机提出了一种数据挖掘高校招生预 测模型;文献[9]以历年招生数据为基础,采用数 据挖掘手段分析校园网络数据,构建了高校招生 预测系统,为学校招生带来可视化的预测信息; 文献[10]建立了高校招生数据挖掘系统,提出了 有利于高校招生的策略预测方法。 经过众多研究学者的努力,国内对高校招生 策略的预测方法取得了一定成果,但由于相适应 的市场机制还没有形成,一些有效的预测模型, 如并行化随机森林算法在高校招生领域还没有得 到应用。本文借助 Hadoop 平台,利用并行化计算 框架对招生数据进行挖掘和分析,提出了并行化 的随机森林算法预测高校招生策略的方法。 1 大数据管理平台 1.1 Hadoop 技术 Hadoop 是云计算技术应用最广泛的平台之 一,已经成为大数据管理与并行处理的主流技 术。Hadoop 是一个开源的分布式软件框架,分布式 文件系统 (hadoop distribution file system,HDFS) 和并行化计算模型 MapReduce 是其最核心内容[11]。 HDFS 提供了文件分布式存储、大数据库管理等应 用技术;而 MapReduce 则为大数据库提供了完善 的并行分析计算框架。为了方便用户操作,Hadoop 还提供了一系列实用的组件供用户选择,如 Hive、 Pig、Sqoop、Datanucleus 等 [12]。 1.2 大数据管理平台框架结构 参照云计算技术体系结构[13]与数据分析处理 工具,并结合高校招生数据分析的实际需要,搭 建以数据存储、分析计算为主的高校招生数据管 理平台,其基本构架如图 1 所示。平台自下往上 分为:数据采集整合系统、数据存储系统、数据分 析系统和数据应用系统。 该平台是 Hadoop 技术的具体应用:一方面, 利用 Hadoop 的核心组件 HDFS、HBase、Hive 建立 大数据存储系统;另一方面,利用 MapReduce 并 行计算框架和 Spark 内存并行计算框架,构成数 据计算分析系统,实现对高校招生数据的分析与 计算。 数据子集 数据子集 数据子集 ... 数据采集整合系统 数据库接口 (Datanucleus) 数据迁移工具 (sqoop) 数据存储系统 并行计算框架 (MapReduce) 内存并行计算框架 (Spark) 数据分析系统 招生策略 数据应用系统 报表系统 ... 专业设置 分布式文件系统 (HDFS) 列式数据库 (HBase) 数据仓库 (Hive) 图 1 大数据管理平台框架图 Fig. 1 Architecture diagram of big data manage platform 1.3 数据采集整合系统 高校的招生人数、专业设置、生源人数、学生 成绩等招生数据构成数据子集,这些数据子集来 源不同,数据口径不一,模态千差万别,形成了海 量异构数据。 数据整合过程就是将海量异构数据迁移至 Hadoop 集群,实现高效存储与管理。目前,数据 整合过程还没有一个高效标准的方法,还需要利 用第三方软件完成该操作,如 Sqoop、Datanucleus 等。Sqoop 能够将数据在 Hadoop 集群和关系 型数据库之间进行相互转移[14]。在本管理平台 中,利用 Sqoop 将各数据子集迁移到集群的数据 仓库;Datanucleus 能够支持多种主流存储系统[15] , 屏蔽各存储系统之间的差异,提供标准的数据接 口 (JDO,JPA) 实现数据传送。在本管理平台中, 各数据子集通过 Datanucleus 接口将数据导入到 列数据库 HBase 中。 1.4 数据存储系统 数据仓库、列数据库中的数据均存储在 Hadoop 集群的 HDFS 中。采集到的原始数据经过抽 取、清理、系统加工、整合等预处理后保存到数据 ·324· 智 能 系 统 学 报 第 14 卷
第2期 杨正理,等:大数据背景下高校招生策略预测 ·325· 仓库,预处理过程是为了保证数据仓库中的数据 类精度不高,且泛化能力较差。 信息是一致的全局信息u6。Hadoop提供了一款 随机森林是一种集成了多棵分类回归树的综 管理数据仓库组件Hive,其作用是将结构化的数 合分类预测算法。当输入训练样本时,每一棵决 据文件映射成数据库,并为用户提供简单的 策树都会产生一个分类结果,通过对所有分类结 SQL查询功能7。HDFS中的数据块(Block)采用 果进行投票得到随机森林的最终分类结果。随 冗余多备份机制存储,能有效的处理单点故障。 机森林吸收了决策树的所有优点,同时克服了决 1.5数据挖掘分析系统 策树的缺点。又因为便于实现并行化,提高了数 平台采用并行化计算模型MapReduce对数据 据分析效率,同时也提高了算法对大数据的处理 进行挖掘分析,利用基于内存的并行化计算模型 能力。 Spark对对密集型数据完成迭代式计算。MapReduce 由于高校招生策略的输出为实数,只需要讨 向用户提供了庞大但设计精良的并行计算软件框 论随机森林的回归过程,其实现步骤如下(设集 架,在集群内能实现计算任务和数据的自动划 成的决策树棵数为R): 分,并能根据集群节点所能提供的资源自动完成 1)从原始数据集S中采用Bagging方法有放 任务的分配,并有效监控任务的完成过程,最后 回的抽取大小为N的训练子集TS,(i=0,1,…,R): 还能自动完成各集群节点计算结果的收集。 2)对TS:重复①~③步骤,直到节点的样本数 MapReduce将数据分布式存储、数据通信、容错 不超过预设的最小值Lm,得到一棵决策树T: 处理等复杂的底层细节全交由系统处理,大大减 ①从M个属性样本集中随机抽取m个属性样 轻了用户软件开发负担1,;Spark是在Hadoop基 本;在回归模型中,m值取M的13。 础上进行改良的基于内存的集群计算系统。系统 ②从m个属性样本中选择最佳的变量j和切 的中间数据全部存放在内存中,对迭代等复杂的 计算过程具有很高的效率。 分点s得到j,): ③将该节点j,)切分成两个内部节点。 1.6数据应用系统 3)所有决策树集合T构成随机森林。 根据云服务中应用即服务的概念,数据应用 决策树中内部节点进行分支的样本属性选择 系统就是向高校招生策略预测系统的应用者提供 所需要的服务,如以文件的形式提供各省市招生 依据采用最小二乘偏差算法。采用“平方误差最 计划投放数据列表、指导本校专业设置建议、招 小原则”来度量决策树的分支偏差,节点t的拟合 生生源选择提示、招生宣传策略等可视化服务。 偏差公式为 数据应用系统还为用户提供与高校招生有关的、 Em0=元∑0-k2 (1) 能够与其他系统进行数据交换的操作接口。 式中:,为节点t中所包含的实例个数,k为每个内 2并行随机森林预测高校招生策略 部节点中由实例目标值计算所得到的平均值。 节点按属性值s进行分支的最小二乘偏差值 2.1随机森林算法原理 计算公式为 在大数据背景下,常用的分类预测算法有极 限学习、神经网络、遗传算法、支持向量机、决策 Er,)="LEmt)+”Emt) (2) n. 17. 树等。决策树在传统的分类预测算法基础上得到 为了在训练过程中减少遍历属性值的计算, 了广泛研究,也取得了不错的应用效果,但由于 对式(2)进行化简得到: 其自身原因,仍然存在以下不足。 (3) 1)在建树初始需要将所有的分类规则读入内 存,限制了决策树处理更多数据,因此其处理大 式中:SL=∑,SR=∑,划分的标准是使式(3) 数据的能力有限。 2)实际应用中,当数据中有噪声或训练样本 的计算值最大。 过少时,会出现过度拟合现象。过度拟合的决策 2.2 随机森林算法的并行化 树对训练样本的分类效果表现良好,但对新样本 随机森林集成了多个决策树,这是随机森林 的分类效果则明显不佳。 算法能够实现并行化的物理条件。而袋装(Bag 3)决策树在选择属性时不进行回归运算,因 ging)算法和随机子空间思想为随机森林算法的 此其结果仅能收敛于局部最优解,造成决策树分 并行化提供了基本理论依据:
仓库,预处理过程是为了保证数据仓库中的数据 信息是一致的全局信息[16]。Hadoop 提供了一款 管理数据仓库组件 Hive,其作用是将结构化的数 据文件映射成数据库,并为用户提供简单 的 SQL 查询功能[17]。HDFS 中的数据块 (Block) 采用 冗余多备份机制存储,能有效的处理单点故障。 1.5 数据挖掘分析系统 平台采用并行化计算模型 MapReduce 对数据 进行挖掘分析,利用基于内存的并行化计算模型 Spark 对对密集型数据完成迭代式计算。MapReduce 向用户提供了庞大但设计精良的并行计算软件框 架,在集群内能实现计算任务和数据的自动划 分,并能根据集群节点所能提供的资源自动完成 任务的分配,并有效监控任务的完成过程,最后 还能自动完成各集群节点计算结果的收集。 MapReduce 将数据分布式存储、数据通信、容错 处理等复杂的底层细节全交由系统处理,大大减 轻了用户软件开发负担[18] ;Spark 是在 Hadoop 基 础上进行改良的基于内存的集群计算系统。系统 的中间数据全部存放在内存中,对迭代等复杂的 计算过程具有很高的效率[19]。 1.6 数据应用系统 根据云服务中应用即服务的概念,数据应用 系统就是向高校招生策略预测系统的应用者提供 所需要的服务,如以文件的形式提供各省市招生 计划投放数据列表、指导本校专业设置建议、招 生生源选择提示、招生宣传策略等可视化服务。 数据应用系统还为用户提供与高校招生有关的、 能够与其他系统进行数据交换的操作接口。 2 并行随机森林预测高校招生策略 2.1 随机森林算法原理 在大数据背景下,常用的分类预测算法有极 限学习、神经网络、遗传算法、支持向量机、决策 树等。决策树在传统的分类预测算法基础上得到 了广泛研究,也取得了不错的应用效果[20] ,但由于 其自身原因,仍然存在以下不足。 1) 在建树初始需要将所有的分类规则读入内 存,限制了决策树处理更多数据,因此其处理大 数据的能力有限。 2) 实际应用中,当数据中有噪声或训练样本 过少时,会出现过度拟合现象。过度拟合的决策 树对训练样本的分类效果表现良好,但对新样本 的分类效果则明显不佳。 3) 决策树在选择属性时不进行回归运算,因 此其结果仅能收敛于局部最优解,造成决策树分 类精度不高,且泛化能力较差。 随机森林是一种集成了多棵分类回归树的综 合分类预测算法。当输入训练样本时,每一棵决 策树都会产生一个分类结果,通过对所有分类结 果进行投票得到随机森林的最终分类结果。随 机森林吸收了决策树的所有优点,同时克服了决 策树的缺点。又因为便于实现并行化,提高了数 据分析效率,同时也提高了算法对大数据的处理 能力。 R 由于高校招生策略的输出为实数,只需要讨 论随机森林的回归过程,其实现步骤如下 (设集 成的决策树棵数为 ): S N TSi(i = 0,1,··· ,R) 1) 从原始数据集 中采用 Bagging 方法有放 回的抽取大小为 的训练子集 ; TSi Lmin Ti 2) 对 重复①~③步骤,直到节点的样本数 不超过预设的最小值 ,得到一棵决策树 : M m m M ① 从 个属性样本集中随机抽取 个属性样 本;在回归模型中, 值取 的 1/3。 m j s θ(j,s) ② 从 个属性样本中选择最佳的变量 和切 分点 得到 ; ③ 将该节点 θ(j,s) 切分成两个内部节点。 {Ti} R 3) 所有决策树集合 1构成随机森林。 t 决策树中内部节点进行分支的样本属性选择 依据采用最小二乘偏差算法。采用“平方误差最 小原则”来度量决策树的分支偏差,节点 的拟合 偏差公式为 Err(t) = 1 nt ∑ Dt (yi −kt) 2 (1) nt 式中: 为节点 t 中所包含的实例个数, kt为每个内 部节点中由实例目标值计算所得到的平均值。 节点 t 按属性值 s 进行分支的最小二乘偏差值 计算公式为 Err(s,t) = ntL nt Err(tL)+ ntR nt Err(tR) (2) 为了在训练过程中减少遍历属性值的计算, 对式 (2) 进行化简得到: Err(s,t) = S 2 L ntL + S 2 R ntR (3) S L = ∑ DiL yi S R = ∑ DiR 式中: , yi,划分的标准是使式 (3) 的计算值最大。 2.2 随机森林算法的并行化 随机森林集成了多个决策树,这是随机森林 算法能够实现并行化的物理条件。而袋装 (Bagging) 算法和随机子空间思想为随机森林算法的 并行化提供了基本理论依据: 第 2 期 杨正理,等:大数据背景下高校招生策略预测 ·325·
·326· 智能系统学报 第14卷 Bagging算法是一种根据概率分布原理从数 随机森林的最终结果。 据集中有放回的抽样技术。Bagging算法进行每 采用并行化随机森林算法预测高校招生策略 轮抽样时,数据集中约有36.8%的样本不能被抽 的具体流程如图2所示。该流程基于Hadoop集 中,没有被抽中的数据样本不能参加算法训练, 群强大的存储能力和数据处理能力,对招生数据 但可以用来检测训练模型的泛化能力。Bagging 进行挖掘和分析处理,有效的提高了算法的预测 算法使每个训练样本的内容不同,但所包含原始 精度和数据处理能力。 数据集的知识规模是相同的,从而使随机森林中 样本总训练集S 的每个决策树的构建过程相互独立,可以并行完 成训练过程。 MapReduce MapReduce 随机子空间思想是指决策树在每个节点进行 Map并行计算 属性样本抽取时,随机的从属性样本中抽取若干 Bagging Bagging 个属性的方法。由于抽取过程随机,所以多个节点 典 可以并行化地同步抽取,使各决策树可以独立生成。 TS, TS Bagging思想和随机子空间思想保证了随机 「计算属性值 森林能够并行运行,使其具有较高的预测精度、 计算属性值 较快的数据分析效率和较强的数据处理能力。因 选择最佳属性值 选择最佳属性值 此,本文提出了基于MapReduce的并行化随机森 林算法(MapReduce-paralleled random forests,MR- 无子树 无子树 N PRF)进行高校招生策略预测方法。 Y Y 生成决策树 生成决策树 3并行随机森林算法实现 预测时段相关数据 并行随机森林预测模型 3.1算法的预测流程 高校招生策略预测的原始数据量巨大,开启 预测结果 3个MapReduce作业类来完成数据处理过程。每 图2并行化随机森林招生策略预测流程图 个MapReduce类的输出作为下一个MapReduce Fig.2 Flow chart of paralleled random forests for enroll- 类的输入,3个MapReduce类分别完成生成数据 ment strategy 字典、生成决策树和构建随机森林模型。 3.2 高校招生大数据实验平台 生成数据字典就是以文件的形式解析参于训 课题组在实验室采用46台计算机建立了一 练的样本数据,由第l个MapReduce作业类完成。 个高校招生策略预测实验平台。计算机集群采用 在Map过程,首先读取一部分招生样本数据,然 典型的主/从结构,也称为Master/Salve结构。其 后提取样本数据的属性类型、属性值、以及模型 中一台计算机作为Master(管理节点),负责集群内 的类型(是回归还是分类),得到key/value数据对 的资源管理和任务分配;其他计算机作为Salve 传递给Reduce过程;在Reduce过程,将Map过程 (数据节点),负责保存各数据块,并完成与数据块 得到的key/value数据对按key值进行合并,并通 相对应的任务。当MapReduce作业提交至Master 过Datanucleus数据库接口写入到HBase中。所 节点时,Master将数据文件进行分块,并记录与各 有的key/value数据对以文件形式进行记录,保存 数据块相对应的名字空间与元数据。然后将各数 在集群的HDFS中,作为第2个MapReduce作业 据块冗余的保存在各数据节点并分配相应的作业 类的输入。 任务,并负责监控MapReduce作业的执行过程, 生成决策树由第2个MapReduce作业类完 实验平台的拓扑结构如图3所示。 成。随机森林算法中集成的决策树是并行产生 图3中,大数据库以关系型数据库方式保存, 的,一个Map过程生成一个决策树。该MapReduce 应用Sqoop软件将本地文件或数据库表与HDFS 作业只有Map过程,没有Reduce过程。 文件进行相互迁移。Sqoop软件是基于MapReduce 生成随机森林由第3个MapReduce作业类完 实现的,用户无需过多关注MapReduce的实现和 成。在回归预测模型中,该过程的主要功能就是 优化过程。实验中,将约20万条测试数据整合 将所有决策树的结果进行统计,求取平均值得到 到HBase列式数据库中,大约需要2min时间
Bagging 算法是一种根据概率分布原理从数 据集中有放回的抽样技术。Bagging 算法进行每 轮抽样时,数据集中约有 36.8% 的样本不能被抽 中,没有被抽中的数据样本不能参加算法训练, 但可以用来检测训练模型的泛化能力。Bagging 算法使每个训练样本的内容不同,但所包含原始 数据集的知识规模是相同的,从而使随机森林中 的每个决策树的构建过程相互独立,可以并行完 成训练过程。 随机子空间思想是指决策树在每个节点进行 属性样本抽取时,随机的从属性样本中抽取若干 个属性的方法。由于抽取过程随机,所以多个节点 可以并行化地同步抽取,使各决策树可以独立生成。 Bagging 思想和随机子空间思想保证了随机 森林能够并行运行,使其具有较高的预测精度、 较快的数据分析效率和较强的数据处理能力。因 此,本文提出了基于 MapReduce 的并行化随机森 林算法 (MapReduce-paralleled random forests,MRPRF) 进行高校招生策略预测方法。 3 并行随机森林算法实现 3.1 算法的预测流程 高校招生策略预测的原始数据量巨大,开启 3 个 MapReduce 作业类来完成数据处理过程。每 个 MapReduce 类的输出作为下一个 MapReduce 类的输入,3 个 MapReduce 类分别完成生成数据 字典、生成决策树和构建随机森林模型。 生成数据字典就是以文件的形式解析参于训 练的样本数据,由第 1 个 MapReduce 作业类完成。 在 Map 过程,首先读取一部分招生样本数据,然 后提取样本数据的属性类型、属性值、以及模型 的类型 (是回归还是分类),得到 key/value 数据对 传递给 Reduce 过程;在 Reduce 过程,将 Map 过程 得到的 key/value 数据对按 key 值进行合并,并通 过 Datanucleus 数据库接口写入到 HBase 中。所 有的 key/value 数据对以文件形式进行记录,保存 在集群的 HDFS 中,作为第 2 个 MapReduce 作业 类的输入。 生成决策树由第 2 个 MapReduce 作业类完 成。随机森林算法中集成的决策树是并行产生 的,一个 Map 过程生成一个决策树。该 MapReduce 作业只有 Map 过程,没有 Reduce 过程。 生成随机森林由第 3 个 MapReduce 作业类完 成。在回归预测模型中,该过程的主要功能就是 将所有决策树的结果进行统计,求取平均值得到 随机森林的最终结果。 采用并行化随机森林算法预测高校招生策略 的具体流程如图 2 所示。该流程基于 Hadoop 集 群强大的存储能力和数据处理能力,对招生数据 进行挖掘和分析处理,有效的提高了算法的预测 精度和数据处理能力。 样本总训练集 S MapReduce … MapReduce 数据 字典 Bagging Bagging 计算属性值 计算属性值 选择最佳属性值 选择最佳属性值 无子树 无子树 生成决策树 生成决策树 Y Y N N 预测时段相关数据 并行随机森林预测模型 预测结果 TSi TSi Map并行计算 图 2 并行化随机森林招生策略预测流程图 Fig. 2 Flow chart of paralleled random forests for enrollment strategy 3.2 高校招生大数据实验平台 课题组在实验室采用 46 台计算机建立了一 个高校招生策略预测实验平台。计算机集群采用 典型的主/从结构,也称为 Master/Salve 结构。其 中一台计算机作为 Master(管理节点),负责集群内 的资源管理和任务分配;其他计算机作为 Salve (数据节点),负责保存各数据块,并完成与数据块 相对应的任务。当 MapReduce 作业提交至 Master 节点时,Master 将数据文件进行分块,并记录与各 数据块相对应的名字空间与元数据。然后将各数 据块冗余的保存在各数据节点并分配相应的作业 任务,并负责监控 MapReduce 作业的执行过程。 实验平台的拓扑结构如图 3 所示。 图 3 中,大数据库以关系型数据库方式保存, 应用 Sqoop 软件将本地文件或数据库表与 HDFS 文件进行相互迁移。Sqoop 软件是基于 MapReduce 实现的,用户无需过多关注 MapReduce 的实现和 优化过程。实验中,将约 20 万条测试数据整合 到 HBase 列式数据库中,大约需要 2 min 时间。 ·326· 智 能 系 统 学 报 第 14 卷
第2期 杨正理,等:大数据背景下高校招生策略预测 ·327· 算法、决策树算法、单机随机森林算法的性能。 考生人数、考 、数据节点 客户端 原始数据集取2014一2016年某大学的历史招生 生来源、招生 人数、报到 数据(文件大小为104MB,共1.2×10°条数据),分 率、录取成绩 别采用MR-PRF算法(集成决策树数量R=24O) 决策树算法、单机随机森林算法对2017年的招生 策略进行预测,各类实验均进行多次,并取实验 考生人数、考 生来源、招生 结果的平均值作为最终结果,实验结果如表1 人数、报到 所示。 率、录取成绩 主节点 表1各类算法的预测性能比较 Table 1 Prediction performance of all kinds of algorithms 考生人数、考 预测算法 MAPE值% 运行时间/s 生来源、招生 人数、报到 MR-PRF算法 1.39 7.5 率、录取成绩 数据 整合 决策树算法 2.15 241 图3实验平台拓扑结构 单机随机森林 4.19 369 Fig.3 Topology map of experimental platform 由表I可见,MR-PRF算法的预测性能最好, 3.3实验数据、属性值、实验评价指标选取 且执行效率最高。这是因为MR-PRF算法吸取了 实验数据来自某高校近3年的招生数据,包 决策树的优点而克服了其缺点,在预测精度上才 括:该年各省考生人数、考生来源(毕业中学、中 有更好的表现。而且由于MR-PRF算法的并行 学所在地)、各专业在各省的招生人数、报到率、 化,使其执行效率得到较大提高。 录取志愿排名、男女比例、学生当年录取成绩(总 实验2在同样的数据集下,MR-PRF算法集 分、选测成绩)、录取成绩在本省排名等。已有的数 成决策树的数量R与算法的性能表现之间的关 据远没有达到大数据库的规模,但采用这些数据 系。采用实验1数据集,MR-PRF集成决策树数 足以验证算法的正确性。后期通过人为的补充数 量R取不同值时,得到的实验结果如表2所示。 据操作,使实验数据达到大数据的规模,然后验 证算法的数据处理能力。根据大量文献[21-24]的 表2MR-PF算法的预测精度受决策树数量的影响 Table 2 The prediction accuracy of the MR-PRF algori- 研究成果,将预测当年的招生数据进行归一化处 thm is affected by the number of decision trees 理,形成预测高校招生策略的样本属性。 MAPE值% 算法的预测精度采用平均绝对百分比误差 决策树数量 运行时间/s (mean absolute percentage error,,MAPE)来评价,MAPE 120 2.16 2.8 的计算方法为 180 1.93 4.7 240 1.61 7.3 MAPE (Y,-ya/y /n×100% (4) =1 300 1.58 9.6 式中:Y,为算法的预测值;y,为真实值;n为预测结 360 1.59 12.9 果的个数;MAPE值越小时,说明算法的预测精度 越高。 由表2可见,MR-PRF算法的集成决策树数 算法的加速比(speedup)是指单位任务在单 量取值过小时,算法精度较低,这是因为不能充 处理器系统下执行完成所消耗时间与该任务在并 分体现MR-PRF的并行优势;当MR-PRF算法的 行处理器系统下执行完成所消耗时间的比值,其 集成决策树数量取值过大时,算法的复杂程度 作用是用来评价并行系统或程序并行化的性能和 加大,预测时间加长;当MR-PRF算法的集成决 效果,speedup的计算公式为 策树数量取值达到一定程度时,算法的精度变 Sp=t/T (5) 化不大。这说明在实际应用时,R取值应合理。 式中:t为单台计算机的运行时间,T为集群模型的 实验3MR-PRF算法的集成决策树数量 运行时间 R取值一定时(R=240),其预测性能和数据集大 4实验结果分析 小的关系。人为补充数据集至不同大小,对每组 数据集分别进行多次实验,取多次实验的平均值 实验1在相同的数据集下,比较MR-PRF 作为最终结果,实验数据如表3所示
3.3 实验数据、属性值、实验评价指标选取 实验数据来自某高校近 3 年的招生数据,包 括:该年各省考生人数、考生来源 (毕业中学、中 学所在地)、各专业在各省的招生人数、报到率、 录取志愿排名、男女比例、学生当年录取成绩 (总 分、选测成绩)、录取成绩在本省排名等。已有的数 据远没有达到大数据库的规模,但采用这些数据 足以验证算法的正确性。后期通过人为的补充数 据操作,使实验数据达到大数据的规模,然后验 证算法的数据处理能力。根据大量文献[21-24]的 研究成果,将预测当年的招生数据进行归一化处 理,形成预测高校招生策略的样本属性。 算法的预测精度采用平均绝对百分比误差 (mean absolute percentage error,MAPE) 来评价,MAPE 的计算方法为 MAPE = ∑n t=1 (|Yt −yt |/yt) /n×100% (4) 式中: Yt为算法的预测值; yt为真实值;n为预测结 果的个数;MAPE 值越小时,说明算法的预测精度 越高。 算法的加速比 (speedup) 是指单位任务在单 处理器系统下执行完成所消耗时间与该任务在并 行处理器系统下执行完成所消耗时间的比值,其 作用是用来评价并行系统或程序并行化的性能和 效果,speedup 的计算公式为 S p = t/T (5) 式中: t 为单台计算机的运行时间, T 为集群模型的 运行时间 4 实验结果分析 实验 1 在相同的数据集下,比较 MR-PRF R = 240 算法、决策树算法、单机随机森林算法的性能。 原始数据集取 2014—2016 年某大学的历史招生 数据 (文件大小为 104 MB,共 1.2×106 条数据),分 别采用 MR-PRF 算法 (集成决策树数量 )、 决策树算法、单机随机森林算法对 2017 年的招生 策略进行预测,各类实验均进行多次,并取实验 结果的平均值作为最终结果,实验结果如表 1 所示。 表 1 各类算法的预测性能比较 Table 1 Prediction performance of all kinds of algorithms 预测算法 MAPE 值/% 运行时间/s MR-PRF 算法 1.39 7.5 决策树算法 2.15 241 单机随机森林 4.19 369 由表 1 可见,MR-PRF 算法的预测性能最好, 且执行效率最高。这是因为 MR-PRF 算法吸取了 决策树的优点而克服了其缺点,在预测精度上才 有更好的表现。而且由于 MR-PRF 算法的并行 化,使其执行效率得到较大提高。 R R 实验 2 在同样的数据集下,MR-PRF 算法集 成决策树的数量 与算法的性能表现之间的关 系。采用实验 1 数据集,MR-PRF 集成决策树数 量 取不同值时,得到的实验结果如表 2 所示。 表 2 MR-PRF 算法的预测精度受决策树数量的影响 Table 2 The prediction accuracy of the MR-PRF algorithm is affected by the number of decision trees 决策树数量 MAPE 值/% 运行时间/s 120 2.16 2.8 180 1.93 4.7 240 1.61 7.3 300 1.58 9.6 360 1.59 12.9 R R R R 由表 2 可见,MR-PRF 算法的集成决策树数 量 取值过小时,算法精度较低,这是因为不能充 分体现 MR-PRF 的并行优势;当 MR-PRF 算法的 集成决策树数量 取值过大时,算法的复杂程度 加大,预测时间加长;当 MR-PRF 算法的集成决 策树数量 取值达到一定程度时,算法的精度变 化不大。这说明在实际应用时, 取值应合理。 R = 240 实验 3 MR-PRF 算法的集成决策树数量 R 取值一定时 ( ),其预测性能和数据集大 小的关系。人为补充数据集至不同大小,对每组 数据集分别进行多次实验,取多次实验的平均值 作为最终结果,实验数据如表 3 所示。 …… …… 数据 整合 数据节点 主节点 客户端 考生人数、考 生来源、招生 人数、报到 率、录取成绩 考生人数、考 生来源、招生 人数、报到 率、录取成绩 考生人数、考 生来源、招生 人数、报到 率、录取成绩 大数据库 图 3 实验平台拓扑结构 Fig. 3 Topology map of experimental platform 第 2 期 杨正理,等:大数据背景下高校招生策略预测 ·327·
·328· 智能系统学报 第14卷 由表3可见,原始数据集的大小对MR-PRF 充操作,提高了实验的真实性。因此,本文的结 算法的预测性能影响不大,没有明显的规律可 论仍然具有较强的可参考性。 寻。但随着原始数据集的增加,运行时间加大, 参考文献: 这是符合算法规律的。该实验结果表明MR-PRF 算法是适合处理大数据集的。 [1]TOLLE K M,TANSLEY DS W,HEY A JG.The fourth 表3MR-PRF算法的预测性能受数据集大小的影响 paradigm:data-intensive scientific discovery[J].Proceed- Table 3 The prediction property of the MR-PRF algori- ings of the IEEE,2011,99(8:1334-1337. thm is affected by the data set size [2]MAYER-SCHONBERGER V,CUKIER K.Big data:a re- volution that will transform how we live,work and 文件大小(MB)/元组数 MAPE值/% 运行时间/s think[M].Boston:Hodder Press,2013. 340/4.3×10 1.74 36.3 [3]RUSITSCHKA S,EGER K,GERDES C.Smart grid data cloud:a model for utilizing cloud computing in the smart 680/8.6×10 1.72 88.1 grid domain[C]//Proceedings of the First IEEE Internation- 1020/12.9×10 1.67 129.6 al Conference on Smart Grid Communications.Gaithers- 1360/17.2×10 burg,MD,USA,2010:483-488 1.71 177.8 [4]刘琪琛,雷景生,郝珈玮,等.基于Spak平台和并行随机 1700/21.5×10 1.65 241.7 森林回归算法的短期电力负荷预测[.电力建设,2017, 实验4通过计算加速比值来评价MR-PRF 38(10):8492 LIU Qichen,LEI Jingsheng,HAO Jiawei,et al.Short- 算法的并行性能。人为补充数据集至3.6、13.6、 Term power load forecasting based on spark platform and 136GB,分别由1、5、15、25、35台计算机构成集 parallel random forest regression algorithm model[J].Elec- 群,选择MR-PRF算法集成决策树数量R=240进 tric power construction,2017,38(10):84-92. 行预测实验,结果如图4所示。由图4可见,在相 [5]王德文,孙志伟.电力用户侧大数据分析与并行负荷预 同规模集群下,数据集越大,加速比越大,并行性 测中国电机工程学报,2015,35(3):527-537 能越好;在相同的原始数据集下,加速比随集群 WANG Dewen.SUN Zhiwei.Big data analysis and paral- lel load forecasting of electric power user side[J].Proceed- 的增加而增加,并行性能也越好。 ings of the CSEE,2015,35(3):527-537. 5.0 .3.6GB [6]陈旻骋,袁景凌,王啸岩,等.基于弱相关化特征子空间 4.5 13.6GB 4.0 136GB 选择的离散化随机森林并行分类算法几.计算机科学 35 2016.43(6):55-58.90 y3.0 CHEN Mincheng,YUAN Jingling,WANG Xiaoyan,et al. 2.5 Parallelization of random forest algorithm based on discret- 2.0 ization and selection of weak-correlation feature sub- 1.5 1.0 spaces[J].Computer science,2016,43(6):55-58,90. 0.5 [7]程光,王贵锦,何礼,等.人体姿势估计中随机森林训练 10152025 3035 算法的并行化[J.计算机应用研究,2014,31(5): 规模/台 1558-1561,1576. CHENG Guang,WANG Guijin,HE Li,et al.Paralleliza- 图4MR-PRF算法的加速比 tion for randomized forests used in human pose estimation Fig.4 Speedup of MR-PRF algorithm [J].Application research of computers,2014,31(5): 5结束语 1558-1561,1576. [8]孙晓莹,郭飞燕.数据挖掘在高校招生预测中的应用研 在国内外大数据研究基础上,针对高校招生 究.计算机仿真,2012,294):387-391 SUN Xiaoying,GUO Feiyan.Research on data mining for 数据集的特点,提出了一种基于Hadoop的分布式 college enrolment prediction[J].Computer simulation, 并行随机森林算法模型,并利用该模型处理高校 2012,29(4):387-391. 招生大数据,实现对未来招生策略进行预测。经 [9]韩娜,廖晨,许杰维,等.基于大数据的高校招生预测系 多次不同类型的实验进行验证,并与使用广泛的 统的设计与实现[J.信息技术,2016(12):80-83. 决策树预测算法进行比较,证明并行随机森林算 HAN Na,LIAO Chen,XU Jiewei,et al.Design and imple- 法模型具有更快的数据分析速度,更高的预测性 mentation of college enrollment forecasting system based on big data[J].Information technology,2016(12):80-83. 能以及更好的大数据处理能力。 [10]朱丽丽.数据挖掘在高校招生中的应用研究.计算机 受实验条件限制,原始招生数据集在数量上 与现代化.2012(8):190-194 远没有达到大数据的规模,但通过人为的数据补 ZHU Lili.Research on application of data mining techno-
由表 3 可见,原始数据集的大小对 MR-PRF 算法的预测性能影响不大,没有明显的规律可 寻。但随着原始数据集的增加,运行时间加大, 这是符合算法规律的。该实验结果表明 MR-PRF 算法是适合处理大数据集的。 R = 240 实验 4 通过计算加速比值来评价 MR-PRF 算法的并行性能。人为补充数据集至 3.6、13.6、 136 GB,分别由 1、5、15、25、35 台计算机构成集 群,选择 MR-PRF 算法集成决策树数量 进 行预测实验,结果如图 4 所示。由图 4 可见,在相 同规模集群下,数据集越大,加速比越大,并行性 能越好;在相同的原始数据集下,加速比随集群 的增加而增加,并行性能也越好。 0 5 10 15 20 25 35 规模/台 加速比 30 3.6 GB 13.6 GB 136 GB 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 图 4 MR-PRF 算法的加速比 Fig. 4 Speedup of MR-PRF algorithm 5 结束语 在国内外大数据研究基础上,针对高校招生 数据集的特点,提出了一种基于 Hadoop 的分布式 并行随机森林算法模型,并利用该模型处理高校 招生大数据,实现对未来招生策略进行预测。经 多次不同类型的实验进行验证,并与使用广泛的 决策树预测算法进行比较,证明并行随机森林算 法模型具有更快的数据分析速度,更高的预测性 能以及更好的大数据处理能力。 受实验条件限制,原始招生数据集在数量上 远没有达到大数据的规模,但通过人为的数据补 充操作,提高了实验的真实性。因此,本文的结 论仍然具有较强的可参考性。 参考文献: TOLLE K M, TANSLEY D S W, HEY A J G. The fourth paradigm: data-intensive scientific discovery[J]. Proceedings of the IEEE, 2011, 99(8): 1334–1337. [1] MAYER-SCHONBERGER V, CUKIER K. Big data: a revolution that will transform how we live, work and think[M]. Boston: Hodder Press, 2013. [2] RUSITSCHKA S, EGER K, GERDES C. Smart grid data cloud: a model for utilizing cloud computing in the smart grid domain[C]//Proceedings of the First IEEE International Conference on Smart Grid Communications. Gaithersburg, MD, USA, 2010: 483–488. [3] 刘琪琛, 雷景生, 郝珈玮, 等. 基于 Spark 平台和并行随机 森林回归算法的短期电力负荷预测[J]. 电力建设, 2017, 38(10): 84–92. LIU Qichen, LEI Jingsheng, HAO Jiawei, et al. ShortTerm power load forecasting based on spark platform and parallel random forest regression algorithm model[J]. Electric power construction, 2017, 38(10): 84–92. [4] 王德文, 孙志伟. 电力用户侧大数据分析与并行负荷预 测[J]. 中国电机工程学报, 2015, 35(3): 527–537. WANG Dewen, SUN Zhiwei. Big data analysis and parallel load forecasting of electric power user side[J]. Proceedings of the CSEE, 2015, 35(3): 527–537. [5] 陈旻骋, 袁景凌, 王啸岩, 等. 基于弱相关化特征子空间 选择的离散化随机森林并行分类算法[J]. 计算机科学, 2016, 43(6): 55–58, 90. CHEN Mincheng, YUAN Jingling, WANG Xiaoyan, et al. Parallelization of random forest algorithm based on discretization and selection of weak-correlation feature subspaces[J]. Computer science, 2016, 43(6): 55–58, 90. [6] 程光, 王贵锦, 何礼, 等. 人体姿势估计中随机森林训练 算法的并行化[J]. 计算机应用研究, 2014, 31(5): 1558–1561, 1576. CHENG Guang, WANG Guijin, HE Li, et al. Parallelization for randomized forests used in human pose estimation [J]. Application research of computers, 2014, 31(5): 1558–1561, 1576. [7] 孙晓莹, 郭飞燕. 数据挖掘在高校招生预测中的应用研 究[J]. 计算机仿真, 2012, 29(4): 387–391. SUN Xiaoying, GUO Feiyan. Research on data mining for college enrolment prediction[J]. Computer simulation, 2012, 29(4): 387–391. [8] 韩娜, 廖晨, 许杰维, 等. 基于大数据的高校招生预测系 统的设计与实现[J]. 信息技术, 2016(12): 80–83. HAN Na, LIAO Chen, XU Jiewei, et al. Design and implementation of college enrollment forecasting system based on big data[J]. Information technology, 2016(12): 80–83. [9] 朱丽丽. 数据挖掘在高校招生中的应用研究[J]. 计算机 与现代化, 2012(8): 190–194. ZHU Lili. Research on application of data mining techno- [10] 表 3 MR-PRF 算法的预测性能受数据集大小的影响 Table 3 The prediction property of the MR-PRF algorithm is affected by the data set size 文件大小 (MB)/元组数 MAPE 值/% 运行时间/s 340/4.3×106 1.74 36.3 680/8.6×106 1.72 88.1 1 020/12.9×106 1.67 129.6 1 360/17.2×106 1.71 177.8 1 700/21.5×106 1.65 241.7 ·328· 智 能 系 统 学 报 第 14 卷
第2期 杨正理,等:大数据背景下高校招生策略预测 ·329· logy in enrollment of vocational colleges[J].Computer tion of Bayesian decision tree method in admission data and modernization,2012(8):190-194. mining[J].Computer technology and development,2016, [11]马世龙.乌尼日其其格,李小平.大数据与深度学习综 26(4:114-118. 述[).智能系统学报,2016,11(6):728-742 [21]李战怀.王国仁,周傲英.从数据库视角解读大数据的 MA Shilong,WUNIRI Qiqige,LI Xiaoping.Deep learn- 研究进展与趋势.计算机工程与科学,2013.35(10:1-11 ing with big data:State of the art and development[J]. LI Zhanhuai,WANG Guoren,ZHOU Aoying.Research CAAI transactions on intelligent systems,2016,11(6): progress and trends of big data from a database perspect- 728-742. ive[J].Computer engineering&science,2013,35(10):1-11. [12]龚冬颖,黄敏,张洪博,等.RGBD人体行为识别中的自 [22]吴倩红,高军,侯广松,等.实现影响因素多源异构融合 适应特征选择方法.智能系统学报,2017,12(1)少:1-7. 的短期负荷预测支持向量机算法叮.电力系统自动化, GONG Dongying,HUANG Min,ZHANG Hongbo,et al. 2016,40(15):67-72,92. Adaptive feature selection method for action recognition WU Qianhong,GAO Jun,HOU Guangsong,et al.Short- of human body in RGBD data[J].CAAI transactions on term load forecasting support vector machine algorithm intelligent systems,2017,12(1):1-7. based on multi-source heterogeneous fusion of load [13]张钢,谢晓珊,黄英,等.面向大数据流的半监督在线多 factors[J.Automation of electric power systems,2016, 核学习算法[.智能系统学报,2014,9(3):355-363. 40(15):67-72,92. ZHANG Gang,XIE Xiaoshan,HUANG Ying,et al.An [23]陶永才,丁雷道,石磊,等.MapReduce在线抽样分区负 online multi-kernel learning algorithm for big data[J]. 载均衡研究[J】.小型微型计算机系统,2017,38(2): CAAI transactions on intelligent systems,2014,9(3):355-363. 238-242. [14]RADFORD A,METZ L,CHINTALA S.Unsupervised TAO Yongcai,DING Leidao,SHI Lei,et al.Research on representation learning with deep convolutional generat- MapReduce on-line load balancing based on sample parti- ive adversarial networks[J].Computer science,2015. tion[J].Journal of Chinese computer systems,2017, [l5]孟祥萍,周来.基于hadoop云平台的智能电网HD: 38(2):238-242. FS资源存储技术研究.电测与仪表,2014,51(19)23-30. MENG Xiangping,ZHOU Lai.Research on resource stor- [24]黄有福.数据挖掘技术在招生数据平台的应用研究], 电脑知识与技术,2015,11(31):3-4 age technologies of HDFS for smart grid based on ha- doop cloud platform[J].Electrical measurement&instru- HUANG Youfu.Application of data mining technology mentation,2014,51(19y:23-30. in the enrollment data platform[J].Computer knowledge [16]SILVER D.HUANG A.MADDISON C J,et al.Master- and technology,2015,11(31):3-4. ing the game of go with deep neural networks and tree 作者简介: search[J].Nature,2016,529(7587):484-489. 杨正理,男,1971年生,副教授 [17]冯兴杰,吴稀钰,赵杰,等.QAR数据仓库在Hive中的 主要研究方向为复杂系统与计算智 构建J.计算机工程与应用,2017,53(11):90-94 能、软件工程。参与2个省部级项 FENG Xingjie,WU Xiyu,ZHAO Jie,et al.Data ware- 目。发表学术论文40余篇。 house of QAR based on hive[J].Computer engineering and applications,2017,53(11):90-94. [18]马学森,王晓洁,韩江洪,等.MapReduce框架下的Sky- 1ie结果优化算法U.传感器与微系统,2017,36(2):146-149. MA Xuesen,WANG Xiaojie,HAN Jianghong,et al.Sky- 史文,女,1983年生,讲师,主要 line result optimization algorithm based on MapReduce 研究方向为云计算与大数据、计算机 framework[J].Transducer and microsystem technologies, 软件形式化方法。参与2个省部级项 2017,36(2):146-149. 目。发表10余篇学术论文。 [19]李帅,吴斌,杜修明,等.基于Spark的BIRCH算法并行 化的设计与实现U.计算机工程与科学,2017,39(1):35 41. LI Shuai,WU Bin,DU Xiuming,et al.Design and imple- 陈海霞,女,1978年生,副教授 mentation of BIRCH algorithm parallelization based on 主要研究方向为海量信息处理的计算 Spark[J].Computer engineering science,2017,39(1):35-41. 模型、自动推理。参与3个省部级项 [20]黄春华,陈忠伟,李石君.贝叶斯决策树方法在招生数 目。发表20余篇学术论文。 据挖掘中的应用[.计算机技术与发展,2016,26(4): 114-118 HUANG Chunhua,CHEN Zhongwei,LI Shijun.Applica-
logy in enrollment of vocational colleges[J]. Computer and modernization, 2012(8): 190–194. 马世龙, 乌尼日其其格, 李小平. 大数据与深度学习综 述[J]. 智能系统学报, 2016, 11(6): 728–742. MA Shilong, WUNIRI Qiqige, LI Xiaoping. Deep learning with big data: State of the art and development[J]. CAAI transactions on intelligent systems, 2016, 11(6): 728–742. [11] 龚冬颖, 黄敏, 张洪博, 等. RGBD 人体行为识别中的自 适应特征选择方法[J]. 智能系统学报, 2017, 12(1): 1–7. GONG Dongying, HUANG Min, ZHANG Hongbo, et al. Adaptive feature selection method for action recognition of human body in RGBD data[J]. CAAI transactions on intelligent systems, 2017, 12(1): 1–7. [12] 张钢, 谢晓珊, 黄英, 等. 面向大数据流的半监督在线多 核学习算法[J]. 智能系统学报, 2014, 9(3): 355–363. ZHANG Gang, XIE Xiaoshan, HUANG Ying, et al. An online multi-kernel learning algorithm for big data[J]. CAAI transactions on intelligent systems, 2014, 9(3): 355–363. [13] RADFORD A, METZ L, CHINTALA S. Unsupervised representation learning with deep convolutional generative adversarial networks[J]. Computer science, 2015. [14] 孟祥萍, 周来. 基于 hadoop 云平台的智能电网 HDFS 资源存储技术研究[J]. 电测与仪表, 2014, 51(19): 23–30. MENG Xiangping, ZHOU Lai. Research on resource storage technologies of HDFS for smart grid based on hadoop cloud platform[J]. Electrical measurement & instrumentation, 2014, 51(19): 23–30. [15] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of go with deep neural networks and tree search[J]. Nature, 2016, 529(7587): 484–489. [16] 冯兴杰, 吴稀钰, 赵杰, 等. QAR 数据仓库在 Hive 中的 构建[J]. 计算机工程与应用, 2017, 53(11): 90–94. FENG Xingjie, WU Xiyu, ZHAO Jie, et al. Data warehouse of QAR based on hive[J]. Computer engineering and applications, 2017, 53(11): 90–94. [17] 马学森, 王晓洁, 韩江洪, 等. MapReduce 框架下的 Skyline 结果优化算法[J].传感器与微系统, 2017, 36(2): 146–149. MA Xuesen, WANG Xiaojie, HAN Jianghong, et al. Skyline result optimization algorithm based on MapReduce framework[J]. Transducer and microsystem technologies, 2017, 36(2): 146–149. [18] 李帅, 吴斌, 杜修明, 等. 基于 Spark 的 BIRCH 算法并行 化的设计与实现[J]. 计算机工程与科学, 2017, 39(1): 35– 41. LI Shuai, WU Bin, DU Xiuming, et al. Design and implementation of BIRCH algorithm parallelization based on Spark[J]. Computer engineering & science, 2017, 39(1): 35–41. [19] 黄春华, 陈忠伟, 李石君. 贝叶斯决策树方法在招生数 据挖掘中的应用[J]. 计算机技术与发展, 2016, 26(4): 114–118. HUANG Chunhua, CHEN Zhongwei, LI Shijun. Applica- [20] tion of Bayesian decision tree method in admission data mining[J]. Computer technology and development, 2016, 26(4): 114–118. 李战怀, 王国仁, 周傲英. 从数据库视角解读大数据的 研究进展与趋势[J]. 计算机工程与科学, 2013, 35(10): 1–11. LI Zhanhuai, WANG Guoren, ZHOU Aoying. Research progress and trends of big data from a database perspective[J]. Computer engineering & science, 2013, 35(10): 1–11. [21] 吴倩红, 高军, 侯广松, 等. 实现影响因素多源异构融合 的短期负荷预测支持向量机算法[J]. 电力系统自动化, 2016, 40(15): 67–72, 92. WU Qianhong, GAO Jun, HOU Guangsong, et al. Shortterm load forecasting support vector machine algorithm based on multi-source heterogeneous fusion of load factors[J]. Automation of electric power systems, 2016, 40(15): 67–72, 92. [22] 陶永才, 丁雷道, 石磊, 等. MapReduce 在线抽样分区负 载均衡研究[J]. 小型微型计算机系统, 2017, 38(2): 238–242. TAO Yongcai, DING Leidao, SHI Lei, et al. Research on MapReduce on-line load balancing based on sample partition[J]. Journal of Chinese computer systems, 2017, 38(2): 238–242. [23] 黄有福. 数据挖掘技术在招生数据平台的应用研究[J]. 电脑知识与技术, 2015, 11(31): 3–4. HUANG Youfu. Application of data mining technology in the enrollment data platform[J]. Computer knowledge and technology, 2015, 11(31): 3–4. [24] 作者简介: 杨正理,男,1971 年生,副教授, 主要研究方向为复杂系统与计算智 能、软件工程。参与 2 个省部级项 目。发表学术论文 40 余篇。 史文,女,1983 年生,讲师,主要 研究方向为云计算与大数据、计算机 软件形式化方法。参与 2 个省部级项 目。发表 10 余篇学术论文。 陈海霞,女,1978 年生,副教授, 主要研究方向为海量信息处理的计算 模型、自动推理。参与 3 个省部级项 目。发表 20 余篇学术论文。 第 2 期 杨正理,等:大数据背景下高校招生策略预测 ·329·