电子科技大学研究生《机器学习》课程 第2讲模型评估与选择 Lecture2 Evaluation and Selection of Models 郝家胜(Jiasheng Hao) Ph.D.,Associate Professor Email:hao@uestc.edu.cn School of Automation Engineering,Center for Robotics University of Electronics and Science of China,Chengdu 611731 参考:《机器学习》周志华
电子科技大学研究生《机器学习》课程 Email: hao@uestc.edu.cn School of Automation Engineering, Center for Robotics University of Electronics and Science of China, Chengdu 611731 郝家胜 (Jiasheng Hao) Ph.D., Associate Professor 参考:《机器学习》周志华 第2讲 模型评估与选择 Lecture2 Evaluation and Selection of Models
回顾:典型的机器学习过程 更用字习算法(earing aigorithm 类别标记 训练数据 (label) 训练 模型 什么模型好 姓名 职业 年收入 华 好题客 张目 教丽 6万 快策柄,神经网络,支特向量机, 香 至四 公务员 7万 是 Boosting,贝叶斯网络 ? 王五 学生 2 + 否 手六 企业氢 15万 e+0 例如:错误率低、精度高.… 董士 漂灵 ?=是 13万 新数抵样本 教师 8万 是 (刘三,公务员,8万, 能很好地适用于 类别标记 unseen instance 未知 泛化能力强! 然而,我们手上没有unseen instance,怎么办? 电子科技大学研究生《机器学习》课程
电子科技大学研究生《机器学习》课程 什么模型好 ? 能很好地适用于 unseen instance 例如:错误率低、精度高… 然而,我们手上没有unseen instance,怎么办? 泛化能力强!
模型选择(model selection) 三个关键问题: 口如何获得测试结果? 评估方法 ▣如何评估性能优劣? 性能度量 口如何判断实质差别?二→ 比较检验 电子科技大学研究生《机器学习》课程
电子科技大学研究生《机器学习》课程 模型选择(model selection) 三个关键问题: q 如何获得测试结果? q 如何评估性能优劣? q 如何判断实质差别? 评估方法 性能度量 比较检验
本章标 口理解经验误差与过拟合 口了解常用的性能度量 口理解常用的比较检验 口掌握偏差与方差 口灵活运用评估方法
q 了解常用的性能度量 q 理解常用的比较检验 q 理解经验误差与过拟合 q 掌握偏差与方差 q 灵活运用评估方法
大纲 经验误差与过拟合 评估方法 性能度量 ▣ 比较检验 ▣ 偏差与方差 电子科技大学研究生《机器学习》课程
电子科技大学研究生《机器学习》课程 大纲 o 经验误差与过拟合 o 评估方法 o 性能度量 o 比较检验 o 偏差与方差
经验误差与过拟合 口错误率&误差: 错误率:错分样本的占E=a/m 误差:样本真实输出与预测输出之间的差异 口训练(经验)误差:训练集上 口测试误差:测试集 口泛化误差: 除训练集外所有样本 冬泛化误差越小越好! 由于事先并不知道新样本的特征,我门只能努力使经验误差最小 化; 冬经验误差是否越小越好? Nol因为会出现“过拟合”(Overfitting) 电子科技大学研究生《机器学习》课程
电子科技大学研究生《机器学习》课程 经验误差与过拟合 o 错误率&误差: n 错误率: 错分样本的占比: n 误差:样本真实输出与预测输出之间的差异 p 训练(经验)误差:训练集上 p 测试误差:测试集 p 泛化误差:除训练集外所有样本 由于事先并不知道新样本的特征,我们只能努力使经验误差最小 化; v 泛化误差越小越好! v 经验误差是否越小越好? No! 因为会出现“过拟合”(Overfitting)
经验误差与过拟合 过拟合: 学习器把训练样本学习的“太好”,将训练样本本身的特点 当做所有 样本的一般性质,导致泛化性能下降 口优化目标加正则项 ▣ early stop 口欠拟合: 对训练样本的一般性质尚未学好 ▣决策树:拓展分支 ▣神经网络:增加训练轮数 过拟合是无法彻底避免的,我们只能缓解 电子科技大学研究生《机器学习》课程
电子科技大学研究生《机器学习》课程 经验误差与过拟合 o 过拟合: 学习器把训练样本学习的“太好” ,将训练样本本身的特点 当做所有 样本的一般性质,导致泛化性能下降 p 优化目标加正则项 p early stop o 欠拟合: 对训练样本的一般性质尚未学好 p 决策树:拓展分支 p 神经网络:增加训练轮数 过拟合是无法彻底避免的,我们只能缓解
经验误差与过拟合 过拟合模型分类结果: >不是树叶 树叶训练样本 (误以为树叶必须有锯齿) 新样本 欠拟合模型分类结果: >是树叶 (误以为绿色的都是树叶) 过拟合、欠拟合的直观类比 我门无法直接获得泛化误差,而训练误差又由于过 拟合的存在而不适合作为标准,那现实中如何进行 模型评估与选择呢? 电子科技大学研究生《机器学习》 课程
电子科技大学研究生《机器学习》课程 经验误差与过拟合 我们无法直接获得泛化误差,而训练误差又由于过 拟合的存在而不适合作为标准,那现实中如何进行 模型评估与选择呢?
大纲 经验误差与过拟合 评估方法 性能度量 比较检验 偏差与方差 电子科技大学研究生《机器学习》课程
电子科技大学研究生《机器学习》课程 大纲 o 经验误差与过拟合 o 评估方法 o 性能度量 o 比较检验 o 偏差与方差
评估方法 通过实险测试来对学习器的泛化误差进行评估并进而做出选 择 我们假设测试集是从样本真实分布中独立采样获得,将测试集 上的测试误差”作为泛化误差的近似,所以测试集要和训练 集中的样本尽量互斥。 关键:怎么获得“测试集”(test set)? 电子科技大学研究生《机器学习》课程
电子科技大学研究生《机器学习》课程 评估方法 通过实验测试来对学习器的泛化误差进行评估并进而做出选 择 我们假设测试集是从样本真实分布中独立采样获得,将测试集 上的“测试误差”作为泛化误差的近似,所以测试集要和训练 集中的样本尽量互斥。 关键:怎么获得“测试集”(test set)?