模式识别系统 第一章模式识别引论 2010.9.15 特征提取与选择 分类方法 食想反取 样延报取 与选年 模式识别系统 模式识别系统 o特征选择和提取(feature extraction and 口分类决策(classification decision) selection) ■在特征空间根据判决规则将被识别的对象分类。 ·实现从测量空间到特征空间的转换: 口原则:最小化所引发的损失或者错误识别率。 ■将所获取的原始量测数据转换成能反映事物本质 。一般的工作过程: 并能将其最有效分类的特征表示: 口训练:在确定的特征空间,对一定数量的训练样 ■输入:原始的测量数据(经过必要的预处理): 本数据进行特征选择与提取,得到它们在特征空 间的分布,依据这些分布设计分类器(即确定判 ■输出:将原始测量数据转换成有效方式表示的信 决规则)。 息,从而使分类器能根据这些信息决定样本的类 口决策:分类器在分界形式及其具体参数都确定 别。 后,对待分类样本进行分类决策的过程。 模式识别系统示例 模式识别系统示例 口自动按品种分类传送带上的鱼类(鲈鱼和鲑鱼) 口自动按品种分类传送带上的鱼类(鲈鱼和鲑鱼) 图:训练样本的长度特征直方图 图:训练样本的光泽度特征直方图 1
1 第一章 模式识别引论 2010.9.15 2 模式识别系统 3 模式识别系统 特征选择和提取(feature extraction and selection) 实现从测量空间到特征空间的转换; 将所获取的原始量测数据转换成能反映事物本质 并能将其最有效分类的特征表示; 输入:原始的测量数据(经过必要的预处理); 输出:将原始测量数据转换成有效方式表示的信 息,从而使分类器能根据这些信息决定样本的类 别。 4 模式识别系统 分类决策(classification decision) 在特征空间根据判决规则将被识别的对象分类。 原则:最小化所引发的损失或者错误识别率。 一般的工作过程: 训练:在确定的特征空间,对一定数量的训练样 本数据进行特征选择与提取,得到它们在特征空 间的分布,依据这些分布设计分类器(即确定判 决规则)。 决策:分类器在分界形式及其具体参数都确定 后,对待分类样本进行分类决策的过程。 5 模式识别系统示例 自动按品种分类传送带上的鱼类(鲈鱼和鲑鱼) 6 模式识别系统示例 自动按品种分类传送带上的鱼类(鲈鱼和鲑鱼) 图:训练样本的长度特征直方图 图:训练样本的长度特征直方图 图:训练样本的光泽度特征直方图
模式识别系统示例 模式识别的一些基本问题 口自动按品种分类传送带上的鱼类(鲈鱼和鲑鱼) 口学习 口模式类的紧致性 口相似和分类 口特征生成 图:训练样本的光泽度特征和宽度特征的散布图 模式识别的一些基本问题 模式识别的一些基本问题 口学习:确定分类决策方法的过程 口模式类的紧致性 ■有监督学习(supervised learning) 。分类器设计的难易程度与模式在特征空间的分布 o给出若干已知类别的训练样本(training 方式有密切关系: samples),由机器从这些样本中进行学习(训 口临界点、内点 练training/learning),从中勾画出各类事物在 特征空间分布的规律性,从而能够对新的样本进 区×× 行判断。 X ■非监督学习(unsupervised learning) ★ 口由机器从未知类别的样本中进行学习(自学 + 习),从中发现有利于对象分类的规律。 模式识别的一些基本问题 模式识别的一些基本问题 口相似和分类 口相似和分类 ■在特征空间中,用特征向量描述样本的属性,用 ▣欧式距离 某种距离度量作为样本间相似性度量。 8xX,)=、 口相似性度量非负: m绝对值距离(absolute value distance) 口样本本身间的相似性度量应最大: c动9- 口相似性度量具对称性: ■向量夹角 口在满足紧致性的条件下,相似性度量应是点间距 5(Xx.X)-cos XIX XK 离的单调函数。 2
2 7 图:训练样本的光泽度特征和宽度特征的散布图 自动按品种分类传送带上的鱼类(鲈鱼和鲑鱼) 模式识别系统示例 8 模式识别的一些基本问题 学习 模式类的紧致性 相似和分类 特征生成 9 模式识别的一些基本问题 学习:确定分类决策方法的过程 有监督学习(supervised learning) 给出若干已知类别的训练样本(training samples),由机器从这些样本中进行学习(训 练 training/learning),从中勾画出各类事物在 特征空间分布的规律性,从而能够对新的样本进 行判断。 非监督学习(unsupervised learning) 由机器从未知类别的样本中进行学习(自学 习),从中发现有利于对象分类的规律。 10 模式识别的一些基本问题 模式类的紧致性 分类器设计的难易程度与模式在特征空间的分布 方式有密切关系; 临界点、内点 11 模式识别的一些基本问题 相似和分类 在特征空间中,用特征向量描述样本的属性,用 某种距离度量作为样本间相似性度量。 相似性度量非负; 样本本身间的相似性度量应最大; 相似性度量具对称性; 在满足紧致性的条件下,相似性度量应是点间距 离的单调函数。 12 相似和分类 欧式距离 绝对值距离(absolute value distance) 向量夹角 模式识别的一些基本问题
模式识别的一些基本问题 模式识别的一些基本问题 口相似和分类 口特征生成 ·分类具有主观性 ■低层特征:最靠近信息输入端。 口目的不同,分类不同,常缺乏纯客观的分类标 ■中层特征:经过计算,变换得到的特征。 准。依据哪些特征决定相似并进行分类,取决于 行为的目的和方法。 。高层特征:在中层特征的基础上有目的的经过运 算形成。 ■分类的客观性 ■例:椅子的重量=体积*比重(体积与长,宽, 口科学性,判断分类必须有客观标准。 高有关:比重与材料,纹理,颜色有关。因此包 含了低、中、高三层特征。) 模式识别的一些基本问题 模式识别的方法 口特征生成 口模版匹配法(template matching) o统计方法(statistical pattern recognition): 果 1950s- 亨经爱绿 想的 口神经网络方法(neural network):1980s 如绸根据这些 口结构方法(句法方法):1970s 特征将这些样 (structural pattern recognition 本分类? 口支持向量机、核方法:1990s 根什么分? 口多分类器、集成学习:1990s Bayes学习:1990s 口1990s-:模式识别技术大规模应用 模式识别的方法 模式识别的方法 口模版匹配 口统计方法 ■方法: ■原理:基于模式类的统计描述。 口首先对每个类别建立一个或多个模版: ■方法: 口测试样本和数据库中每个类别的模版进行比 口有监督:基于训练样本,建立决策边界: 较,例如求相关或距离: ·统计决策理论一根据每一类总体的概率分布决定 口根据相似性(相关性或距离)大小进行决策: 决策边界: ■优点:直接、简单 ·判别式分析方法一给出带参数的决策边界,根据 ■缺点:适应性差 某种准则,由训练样本决定“最优”的参数: 口无监督:聚类分析 ■扩展:弹性模版法、多模版匹配 ■应用:生物特征识别、条码识别、车牌识别… ■优/缺点 3
3 13 模式识别的一些基本问题 相似和分类 分类具有主观性 目的不同,分类不同,常缺乏纯客观的分类标 准。依据哪些特征决定相似并进行分类,取决于 行为的目的和方法。 分类的客观性 科学性,判断分类必须有客观标准。 14 模式识别的一些基本问题 特征生成 低层特征:最靠近信息输入端。 中层特征:经过计算,变换得到的特征。 高层特征:在中层特征的基础上有目的的经过运 算形成。 例:椅子的重量=体积*比重 (体积与长,宽, 高有关;比重与材料,纹理,颜色有关。因此包 含了低、中、高三层特征。) 15 模式识别的一些基本问题 特征生成 16 模式识别的方法 模版匹配法(template matching) 统计方法(statistical pattern recognition): 1950s- 神经网络方法(neural network): 1980s- 结构方法(句法方法): 1970s- (structural pattern recognition ) 支持向量机、核方法:1990s- 多分类器、集成学习:1990s- Bayes学习:1990s- 1990s-: 模式识别技术大规模应用 17 模式识别的方法 模版匹配 方法: 首先对每个类别建立一个或多个模版; 测试样本和数据库中每个类别的模版进行比 较,例如求相关或距离; 根据相似性(相关性或距离)大小进行决策; 优点:直接、简单 缺点:适应性差 扩展:弹性模版法、多模版匹配 应用:生物特征识别、条码识别、车牌识别…… 18 模式识别的方法 统计方法 原理:基于模式类的统计描述。 方法: 有监督:基于训练样本,建立决策边界; 统计决策理论 — 根据每一类总体的概率分布决定 决策边界; 判别式分析方法 — 给出带参数的决策边界,根据 某种准则,由训练样本决定“最优”的参数; 无监督:聚类分析 优/缺点
模式识别的方法 模式识别的方法 口句法方法(结构方法) 口神经网络 。方法: 。模拟生物神经网络的结构和功能的计算模型: 口许多复杂的模式可以分解为简单的子模式,这些 。能进行大规模并行计算的数学模型: 子模式组成所谓“基元”: ■由大量互相联系的单元(神经元)组成,相互间 口每个模式都可以由基元根据一定的关系来组成: 的联系可以在不同的神经元之间传递增强或抑制 ·基元可以认为是语言中的词语,每个模式都可以 信号: 认为是一个句子,关系可以认为是语法: 口模式的相似性由句子的相似性来决定: ▣优点:可以有效的解决一些复杂的非线性问题: 具有学习、推广、自适应、容错、分布表达和计 ■优点:适合结构性强的模式: 算的能力: ■缺点:抗噪声能力差,计算复杂度高。 ■缺点:缺少有效的学习理论。 模式识别的方法 模式识别的应用 口神经网络和统计模式识别的关系 口光学字符识别一手写体英文识别 统计模式识别 人工神经网络 标感 的公 线性决策函数 感知器 PCA 自相关网络,PCA网络 发 后验概率估计 多层感知器 非线性决策分析 多层感知器 Parzen窗密度估计分类器 径向基函数网络 批六7:r4 K近邻 Kohonen's LVQ 模式识别的应用 模式识别的应用 口光学字符识别一手写体汉字识别 口信函分拣 改天将降大任子具人也,公先 展志,其防置,域某体肤 空生其身,行拂乱具所为,所以 巾5巴性,营益及所不有化。 间afaa 故天将降大任于是人也,必先苦 其心志,劳其筋骨,饿其体肤, 空乏其身,行拂乱其所为,所以 动心忍性,曾益其所不能。 4
4 19 模式识别的方法 句法方法(结构方法) 方法: 许多复杂的模式可以分解为简单的子模式,这些 子模式组成所谓 “基元”; 每个模式都可以由基元根据一定的关系来组成; 基元可以认为是语言中的词语,每个模式都可以 认为是一个句子,关系可以认为是语法; 模式的相似性由句子的相似性来决定; 优点:适合结构性强的模式; 缺点:抗噪声能力差,计算复杂度高。 20 模式识别的方法 神经网络 模拟生物神经网络的结构和功能的计算模型; 能进行大规模并行计算的数学模型; 由大量互相联系的单元(神经元)组成,相互间 的联系可以在不同的神经元之间传递增强或抑制 信号; 优点:可以有效的解决一些复杂的非线性问题; 具有学习、推广、自适应、容错、分布表达和计 算的能力; 缺点:缺少有效的学习理论。 21 非线性决策分析 多层感知器 Parzen窗密度估计分类器 径向基函数网络 后验概率估计 多层感知器 K近邻 Kohonen’s LVQ PCA 自相关网络,PCA网络 线性决策函数 感知器 统计模式识别 人工神经网络 神经网络和统计模式识别的关系 模式识别的方法 22 模式识别的应用 光学字符识别 — 手写体英文识别 23 模式识别的应用 光学字符识别 — 手写体汉字识别 24 模式识别的应用 信函分拣
模式识别的应用 模式识别的应用 口指纹识别 口生物特征识别 模式识别的应用 模式识别的应用 口人脸跟踪 口癌细胞识别 Cancer detection and grading using microscopic tissue data 0 模式识别的应用 模式识别的应用 口遥感图像地表分类 口车牌识别 京AA0729 京A77255 C7070g 5
5 25 模式识别的应用 指纹识别 26 模式识别的应用 生物特征识别 27 模式识别的应用 人脸跟踪 28 模式识别的应用 癌细胞识别 29 模式识别的应用 遥感图像地表分类 30 模式识别的应用 车牌识别
模式识别的应用 总结 Panern Ciasses 大保利后十天 里种轴与中 5 相两 hg标a可 平海数与重 的中共者 6
6 31 模式识别的应用 32 总结