数据分析与数据挖掘 二、模型评估与选择
典型的机器学习过程 使用学习算法(learning algorithm) 类别标记 训练数据 (label) 模型 什么模型好? 训练 色泽 根蒂 敲声 好瓜 青绿 蜷缩 浊响 是 决策树,神经网络,支持向量机 乌黑 蜷缩 浊响 Boosting,贝叶斯网, 青绿 硬挺 清脆 否 乌黑 稍蜷 沉闷 否 ?=是 新数据样本 (浅白,蜷缩,浊响,?) 类别标记 未知 泛化能力强! 能很好地适用于 unseen instance 例如,错误率低、精度高 然而,我们手上没有unseen instance
! unseen instance 柺廐䙨 侟ㆇ" 㾼◷叞╼㈛猳 unseen instance……
泛化误差VS.经验误差 错误率(error rate):e=a/m;m个样本中错误a个. 准确率(精度,accuracy.):a=1-e. 误差(error):实际预测输出与样本的真实输出之间的差异. 泛化误差(generalization error):在“未来”样本上的误差; 经验误差(empirical error):在训练集上的误差,亦称“ 训练误差”(training error). 口泛化误差越小越好 口经验误差是否越小越好? NO!因为会出现“过拟合”(overfitting)
/#6) vs. 496) )11/1 1 ) ) - - ((1 ( ) )11/1 /#6) ).)1 /. )11/1&+-.,;16) 496))-1( )11/1&538;16)=2 536)1 .. )11/1 p /#6)7(7' p 496)*$7(7': NO! %!"0抨㗀⛩(overfitting)
经验误差与过拟合 口过拟合: 学习器把训练样本学习的“"太好”,将训练样本本身的特点当 做所有样本的一般性质,导致泛化性能下降 ● 优化目标加正则项 ●early stop,dropout 口欠拟合: 对训练样本的一般性质尚未学好 ●决策树:拓展分支 ●神经网络:增加训练轮数
p H, !*D=41!9:$D=411F987' )/419eC(E#B6(AI l :25d l p L,, "D=419eC(E%0!: l @? D=a.
过拟合(overfitting)VS.欠拟合(underfitting) 过拟合模型分类结果: →不是树叶 树叶训练样本 (误以为树叶必须有锯齿) 新样本 欠拟合模型分类结果: →是树叶 误以为绿色的都是树叶) 图2.1过拟合、欠拟合的直观类比
(overfitting) vs. (underfitting)
过拟合(overfitting)VS.欠拟合(underfitting) How Overfitting affects Prediction Underfitting Overfitting Predictive Error Error on Test Data Error on Training Data Model Complexity Ideal Range for Model Complexity
(overfitting) vs. (underfitting)
模型选择(model selection) 三个关键问题: ▣如何获得测试结果? 〉 评估方法 ▣如何评估性能优劣? 〉 性能度量 ▣如何判断实质差别? 比较检验
" (model selection) $%&: p p p # !'