
机器学习与智能金融第六讲条件判断思想的精华决策树及随机森林
机器学习与智能金融 第六讲条件判断思想的精华 决策树及随机森林

本讲主要内容树类分析方法概述决策树算法的原理三随机森林四金融案例
本讲主要内容 一 树类分析方法概述 二 决策树算法的原理 三 随机森林 四 金融案例

树类分析方法概述
一 树类分析方法概述

决策树色泽=?决策树(DecisionTree)是一种十分常用的分类青绿方法,属于监督学习(SupervisedLearning)根蒂=?基于树结构来进行决策,这恰是人类在面临决媳缩策问题时一种很自然的处理机制。敲声=?实现对数据的探索,能对数据轮廓进行描述浊响能进行预测和分类,了解哪些变量最重要。好瓜
决策树(Decision Tree)是一种十分常用的分类 方法,属于监督学习(Supervised Learning)。 基于树结构来进行决策,这恰是人类在面临决 策问题时一种很自然的处理机制。 实现对数据的探索,能对数据轮廓进行描述, 能进行预测和分类,了解哪些变量最重要。 决策树

树类分析回归类方法和树类分树类分析主要包括析均能用于预测分析回归类:基于有参估计来实现对变量决策树:一棵树映射关系的拟合。随机森林:许多树树类分析:基于多层次判断决策的非参估计
树类分析 回归类:基于有参 估计来实现对变量 映射关系的拟合。 树类分析:基于多 层次判断决策的非 参估计。 决策树:一棵树 随机森林:许多树 树类分析主要包括 回归类方法和树类分 析均能用于预测分析

>》》一个身边的例子成绩成绩等级评定决策树N=90?优秀成绩N?=80?这是一个由分支/选择判断构成的良好成绩判定流程。N>=70?中等基于“分数”的多重二叉树判定。成绩N?=60?也可以转换成多叉树的一重判定。及格不及格成绩判定决策树
一个身边的例子 成绩等级评定决策树 这是一个由分支/选择判断构成的 判定流程。 基于“分数”的多重二叉树判定。 也可以转换成多叉树的一重判定。 成绩 >=90? 优秀 Y 成绩 >=80? 良好 成绩 >=70? 中等 成绩 >=60? 及格 不及格 N Y N Y Y N N 成绩判定决策树

>》》一个身边的例子成绩N=90?上述过程可抽象为:优秀成绩2=80?输入成绩+判定规则→判定结果良好成绩N=70?数据挖掘的目的在于,逆向寻找判定规则中等成绩N?=60?输入成绩+判定结果→判定树/决策树及格不及格成绩判定决策树
一个身边的例子 上述过程可抽象为: 成绩 >=90? 优秀 Y 成绩 >=80? 良好 成绩 >=70? 中等 成绩 >=60? 及格 不及格 N Y N Y Y N N 成绩判定决策树 • 输入成绩 + 判定规则 → 判定结果 数据挖掘的目的在于,逆向寻找判定规则 • 输入成绩 + 判定结果 → 判定树/决策树

回归类方法vS.树类分析树类分析是对一个一个特征进行处理,采用分割的方法能够深入数据细部,但同时失去了对全局的把握。一个分层一旦形成,它和别的层面或节点的关系就被切断了,以后的挖掘只能在局部中进行。同时由于切分,样本数量不断萎缩,所以无法支持对多变量的同时检验。回归类模型,始终着眼整个数据的拟合对全局把握较好无法兼顾局部数据,或者说缺乏探查局部结构的内在机制
树类分析是对一个一个特征进行处理,采用分割的方法 回归类方法 vs. 树类分析 回归类模型,始终着眼整个数据的拟合 • 能够深入数据细部,但同时失去了对全局的把握。一个分层一旦形成,它和别的层面或节点的 关系就被切断了,以后的挖掘只能在局部中进行。 • 同时由于切分,样本数量不断萎缩,所以无法支持对多变量的同时检验。 • 对全局把握较好 • 无法兼顾局部数据,或者说缺乏探查局部结构的内在机制

决策树算法的原理
二 决策树算法的原理

决策树算法的基本流程分裂准则选择合理的根节点划分结点分类树:信息增益,信息增益率,基尼系数条件1回归树:最小方差决策结果分支节点(叶子节点)判断划分停剪枝:预剪枝,后剪枝条件2止点决策结果分支节点(叶子节点)条件3分类树:取叶节点中数量最多的类叶节点的输决策结果决策结果回归树:取响应变量的均值/预测值出值(叶子节点)(叶子节点)
决策树算法的基本流程