正在加载图片...
6期 黄哲学等:面向大数据的海云数据系统关键技术研究 采用广度优先决策树生成方法实现的分布式随机森林算法,课题组在30台服务器的云平台上实现了 100分钟内对100个属性、1000万个纪录的输入矩阵,规模达到110GB的数据建立随机森林模型的能力。 Nodel Leafl Leaf)(Leaf 2 Leaf2 Leaf2 Leaf3 图3深度优先构建随机森林决策树 图4广度优先构建随机森林决策树 O00000Q0 Time 图5随机森林的层次构造流程 4.5交互式可视化 为探索交互式可视化数据挖掘新方法,课题组针 对随机森林建模设计开发了随机森林交互视可视化分 析平台。给定一个输入训练数据和一组随机森林算法 参数该平台启动随机在林法生成最初随机森林模, 型,然后计算树与树之间的相互关系,确定树的空间坐 标并用模拟树的形式在三维空间展示,如图6所示 随机森林模型精度和每棵树的精度在右边的窗口 用数字展示。用户可以根据每棵树的精度,用鼠标选 择其中任何一棵树,并将选择的树在新的窗口显示,如 6随机森林交互式可视化分析平 图7所示。在所选择的树中,顶部端点的球表示决策树叶结点对象的数量,对象越多,球越大。球的颜色表 示叶结点的主要类别,深蓝色表示NO类,浅蓝色表示YES类。根据决策树的特点,用户可以通过鼠标对树 进行如下操作:剪切树叶,使叶结点归并到更低的节点,相当于树剪枝操作;如果树的精度很低,用户可以将 树砍掉,重新启动决策树算法,用不同的输入参数生成新的树,并更新随机森林模型,重新计算树与树的关 系,产生新的随机森林可视化模型;用户也可以将树砍掉,重新生成训练数据,调用决策树算法生成新的决 策树。通过对决策树的交互操作,用户可以逐渐逼近最优的随机森林模型,充分利用交互式可视化的分析 功能,提高大数据挖掘的建模效率。 5结束语 大数据已经成为行业共识,大数据中的潜在价值已经引起了产业界和学术界的高度关注,并将对国家 o1994-2013CHinaAcademicJournalElectronicpUblishingHouse.Allrightsreservedhttp://www.cnki.net6 期 黄哲学 等: 面向大数据的海云数据系统关键技术研究 采用广度优先决策树生成方法实现的分布式随机森林算法,课题组在 30 台服务器的云平台上实现了 100 分钟内对 100 个属性、1000 万个纪录的输入矩阵,规模达到 110 GB 的数据建立随机森林模型的能力。 图 3 深度优先构建随机森林决策树 图 4 广度优先构建随机森林决策树 图 5 随机森林的层次构造流程 图 6 随机森林交互式可视化分析平台 4. 5 交互式可视化 为探索交互式可视化数据挖掘新方法,课题组针 对随机森林建模设计开发了随机森林交互视可视化分 析平台。给定一个输入训练数据和一组随机森林算法 参数,该平台启动随机森林算法生成最初随机森林模 型,然后计算树与树之间的相互关系,确定树的空间坐 标并用模拟树的形式在三维空间展示,如图 6 所示。 随机森林模型精度和每棵树的精度在右边的窗口 用数字展示。用户可以根据每棵树的精度,用鼠标选 择其中任何一棵树,并将选择的树在新的窗口显示,如 图 7 所示。在所选择的树中,顶部端点的球表示决策树叶结点对象的数量,对象越多,球越大。球的颜色表 示叶结点的主要类别,深蓝色表示 NO 类,浅蓝色表示 YES 类。根据决策树的特点,用户可以通过鼠标对树 进行如下操作: 剪切树叶,使叶结点归并到更低的节点,相当于树剪枝操作; 如果树的精度很低,用户可以将 树砍掉,重新启动决策树算法,用不同的输入参数生成新的树,并更新随机森林模型,重新计算树与树的关 系,产生新的随机森林可视化模型; 用户也可以将树砍掉,重新生成训练数据,调用决策树算法生成新的决 策树。通过对决策树的交互操作,用户可以逐渐逼近最优的随机森林模型,充分利用交互式可视化的分析 功能,提高大数据挖掘的建模效率。 5 结束语 大数据已经成为行业共识,大数据中的潜在价值已经引起了产业界和学术界的高度关注,并将对国家 25
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有