电子科技大学研究生《模式识别与机器学习》课程 第6讲近邻法与Logist回归 Nearest Neighbors Logist Regression 郝家胜(Jiasheng Hao) Ph.D.,Associate Professor Email:hao@uestc.edu.cn School of Automation Engineering,Center for Robotics University of Electronic Science and Technology of China,Chengdu 611731
电子科技大学研究生《模式识别与机器学习》课程 Email: hao@uestc.edu.cn School of Automation Engineering, Center for Robotics University of Electronic Science and Technology of China, Chengdu 611731 郝家胜 (Jiasheng Hao) Ph.D., Associate Professor 第6讲 近邻法与Logist回归 Nearest Neighbors & Logist Regression
引言 线性判别函数:简单、实用、经济,但线性不可分时错误率可能较大 噪声影响 问题线性不可分 采用非线性分类器 问题本身 新特征 改变特征,使线性可分 非线性变换 本章介绍几种非线性分类器:分段线性,神经网络和支持问量机
引言 本章介绍几种非线性分类器:分段线性,神经网络和支持向量机
回顾:最小距离分类器 。它将各类训练样本划分成若干子类 。并在每个子类中确定代表点 。用子类的质心或邻近质心的某一样本为代表点 测试样本的类别测以其与这些代表点距离最 近作决策 缺点: 。所选择的代表点并不一定能很好地代表各类,其 后果将使错误率增加 3
回顾:最小距离分类器 3
回顾:最小距离分类器 最小距离分类器 。每个类别只有一个”代表点” X g(x)=0 4
4 回顾:最小距离分类器
回顾:最小距离分类器 基于距离的分段线性函数 ■每个类别用多个”代表点”表示 1:钱性距离判别 Ⅱ:分段线性距离判别 5
5 回顾:最小距离分类器
回顾:最小距离分类器 分析:增加代表点的数量有没有可能获得 性能好的分类器呢? 一种极端的情况是以全部训练样本作为“代 表点”,也称为”模板 99 。分类方法:(也是一种模板匹配算法) ·测试样本与每个”代表点”做比较 与哪个模板最相似(即为近邻),就按最近似的”代 表点”的类别作为分类的类别 这种方法就是近邻法的基本思想 6
6 回顾:最小距离分类器
近邻法 ·K-近邻算法(KNN算法)是一种用于分类和回归的非 参数统计方法。 最近邻方法在1970年代初被用于统计估计和模式识 别领域。 ·该方法仍然是十大数据挖掘算法之一。 7
近邻法 7
eaverage or tne 5 peopie you spend the most time 網易公开裸 “你是你最常接触的五个人的平均值。” "You are the average of the five people you spend the most time with." You are the average of the five people you spend most time with. -Jim Rohn Scott Dinsmore::How to find work you love|TED Talk 8
8
·近朱者赤近墨者黑 游静 ·把这种思想用于数据方面 9
9
内容提要 9.1最近邻法 9.2k-近邻法 9.3近邻法快速算法 9.4剪辑近邻法与压缩近邻法
9.1 最近邻法 9.2 k-近邻法 9.3 近邻法快速算法 9.4 剪辑近邻法与压缩近邻法 内容提要