第二章:模型评估 与选择
第二章:模型评估 与选择
大纲 口经验误差与过拟合 口评估方法 口性能度量 口比较检验 口偏差与方 口阅读材料
大纲 经验误差与过拟合 评估方法 性能度量 比较检验 偏差与方差 阅读材料
经验误差与过拟合 口错误率&误差 ●错误率:错分样本的占比:E=a/m ●误差:样本真实输出与预测输出之间的差异 训练(经验)误差:训练集上 测试误差:测试集 泛化误差:除训练集外所有样本 由于事先并不知道新样本的特征,我们只能努力使经验 误差最小化; 很多时候虽然能在训练集上做到分类错误率为零,但多 数情况下这样的学习器并不好
经验误差与过拟合 错误率&误差: ⚫ 错误率: 错分样本的占比: ⚫ 误差:样本真实输出与预测输出之间的差异 ⚫ 训练(经验)误差:训练集上 ⚫ 测试误差:测试集 ⚫ 泛化误差:除训练集外所有样本 由于事先并不知道新样本的特征,我们只能努力使经验 误差最小化; 很多时候虽然能在训练集上做到分类错误率为零,但多 数情况下这样的学习器并不好
经验误差与过拟合 口过拟合: 学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有样本的一般性质,导致泛化性能下降 优化目标加正则项 early stop 口欠拟合 对训练样本的一般性质尚未学好 ●决策树:拓展分支 ●神经网络:增加训练轮数
经验误差与过拟合 过拟合: 学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有样本的一般性质,导致泛化性能下降 ⚫ 优化目标加正则项 ⚫ early stop 欠拟合: 对训练样本的一般性质尚未学好 ⚫ 决策树:拓展分支 ⚫ 神经网络:增加训练轮数
经验误差与过拟合 过拟合模型分类结果: →不是树叶 树叶训练样本 (误以为树叶必须有锯齿) 新样本 欠拟合模型分类结果: →是树叶 (误以为绿色的都是树叶) 过拟合、欠拟合的直观类比 苯都紧自堂习器把训练样本本身特点当做所有潜在样 具有的一般性质 欠拟合:训练样本的一般性质尚未被学习器学好
经验误差与过拟合 过拟合:学习器把训练样本本身特点当做所有潜在样 本都会具有的一般性质. 欠拟合:训练样本的一般性质尚未被学习器学好
大纲 口经验误差与过拟合 口评估方法 口性能度量 口比较检验 口偏差与方 口阅读材料
大纲 经验误差与过拟合 评估方法 性能度量 比较检验 偏差与方差 阅读材料
评估方法 现实任务中往往会对学习器的泛化性能、时间开销、存 储开销、可解释性等方面的因素进行评估并做出选择 我们假设测试集是从样本真实分布中独立采样获得, 将测试集上的“测试误差”作为泛化误差的近似,所 以测试集要和训练集中的样本尽量互斥
评估方法 现实任务中往往会对学习器的泛化性能、时间开销、存 储开销、可解释性等方面的因素进行评估并做出选择 我们假设测试集是从样本真实分布中独立采样获得, 将测试集上的“测试误差”作为泛化误差的近似,所 以测试集要和训练集中的样本尽量互斥
评估方法 通常将包含个m样本的数据集D={(x1,y),(x2,v),…,(xm,m)} 拆分成训练集S和测试集T: 口留出法: ●直接将数据集划分为两个互斥集合 ●训练/测试集划分要尽可能保持数据分布的一致性 ●一般若干次随机划分、重复实验取平均值 ●训练/测试样本比例通常为2:1~4:1
评估方法 留出法: ⚫ 直接将数据集划分为两个互斥集合 ⚫ 训练/测试集划分要尽可能保持数据分布的一致性 ⚫ 一般若干次随机划分、重复实验取平均值 ⚫ 训练/测试样本比例通常为2:1~4:1 通常将包含个 样本的数据集 拆分成训练集 和测试集 :
评估方法 口交叉验证法: 将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子 集的并集作为训练集,余下的子集作为测试集,最终返回k个测试 结果的均值,k最常用的取值是10 L DiDaDa. D D- Ds DoDid 训练集 测试集 D1D2D3DDDD-DD][Da→测试结果1 D,D,D, DA DS Do D,DD[D]一测试结果2平均返回 结果 DaD, D: Ds Da Ds D Did[一测试结果10 10折交叉验证示意图
评估方法 交叉验证法: 将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子 集的并集作为训练集,余下的子集作为测试集,最终返回k个测试 结果的均值,k最常用的取值是10
评估方法 与留出法类似,将数据集D划分为k个子集同样存在多种划分方式, 为了減小因样本划分不同而引入的差别,k折交叉验证通常随机使用 值,例如常宽的“10次10折交叉验证”次k折交叉验证结果的均 不同的划分重复p次,最终的评估结果是 假设数据集D包含m个样本,若k=m,则得到留一法: ●不受随机样本划分方式的影响 ●结果往往比较准确 ●当数据集比较大时,计算开销难以忍受
评估方法 与留出法类似,将数据集D划分为k个子集同样存在多种划分方式, 为了减小因样本划分不同而引入的差别,k折交叉验证通常随机使用 不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均 值,例如常见的“10次10折交叉验证” 假设数据集D包含m个样本,若令 ,则得到留一法: ⚫ 不受随机样本划分方式的影响 ⚫ 结果往往比较准确 ⚫ 当数据集比较大时,计算开销难以忍受