典型的机器学习过程 使用学习算法(learning algorithm) 类别标记 训练数据 (label) 模型 什么模型好? 训练 色泽 根蒂 敲声 好瓜 青绿 蜷缩 浊响 是 决策树,神经网络,支持向量机 乌黑 蜷缩 浊响 Boosting,贝叶斯网, 青绿 硬挺 清脆 否 乌黑 稍蜷 沉闷 否 ?=是 新数据样本 (浅白,蜷缩,浊响,?) 类别标记 未知 泛化能力强! 能很好地适用于 unseen instance 例如,错误率低、精度高 然而,我们手上没有unseen instance
! unseen instance 柺廐䙨 侟ㆇ" 㾼◷叞╼㈛猳 unseen instance……
泛化误差VS.经验误差 错误率(error rate):e=a/m;m个样本中错误a个. 准确率(精度,accuracy.):a=1-e. 误差(error):实际预测输出与样本的真实输出之间的差异. 泛化误差(generalization error):在“未来”样本上的误差; 经验误差(empirical error):在训练集上的误差,亦称“ 训练误差”(training error). 口泛化误差越小越好 口经验误差是否越小越好? NO!因为会出现“过拟合”(overfitting)
/#6) vs. 496) )11/1 1 ) ) - - ((1 ( ) )11/1 /#6) ).)1 /. )11/1&+-.,;16) 496))-1( )11/1&538;16)=2 536)1 .. )11/1 p /#6)7(7' p 496)*$7(7': NO! %!"0抨㗀⛩(overfitting)
经验误差与过拟合 口过拟合: 学习器把训练样本学习的“"太好”,将训练样本本身的特点当 做所有样本的一般性质,导致泛化性能下降 ● 优化目标加正则项 ●early stop,dropout 口欠拟合: 对训练样本的一般性质尚未学好 ●决策树:拓展分支 ●神经网络:增加训练轮数
p H, !*D=41!9:$D=411F987' )/419eC(E#B6(AI l :25d l p L,, "D=419eC(E%0!: l @? D=a.
过拟合(overfitting)VS.欠拟合(underfitting) 过拟合模型分类结果: →不是树叶 树叶训练样本 (误以为树叶必须有锯齿) 新样本 欠拟合模型分类结果: →是树叶 误以为绿色的都是树叶) 图2.1过拟合、欠拟合的直观类比
(overfitting) vs. (underfitting)