电子科技大学研究生《模式识别与机器学习》课程 第9讲特征选择 9 Feature Selection 郝家胜(Jiasheng Hao) Ph.D.,Associate Professor Email:hao@uestc.edu.cn School of Automation Engineering,Center for Robotics University of Electronic Science and Technology of China,Chengdu 611731
电子科技大学研究生《模式识别与机器学习》课程 Email: hao@uestc.edu.cn School of Automation Engineering, Center for Robotics University of Electronic Science and Technology of China, Chengdu 611731 郝家胜 (Jiasheng Hao) Ph.D., Associate Professor 第9讲 特征选择 9 Feature Selection
引言 956 口模式识别系统的典型构成 ·有已知样本情况:监督模式识别 分类器设计(训练) 信息获取与预处理 特征提取与选择 分类决策(识别) ·无已知样本情况:非监督模式识别 聚类(自学习) 信息获取与预处理 特征提取与选择 结果解释 电子科技大学研究生《模式识别与机器学习》
电子科技大学研究生《模式识别与机器学习》 o 模式识别系统的典型构成 引言
引言 好瓜还是坏瓜? 特征是否适合 我们的任务? 分类任务 好瓜 西瓜特征 分类器 (SVM,Beyes,KNN.....) 坏瓜 原始特征:西瓜{颜色,根蒂,敲声,纹理,触感.} 以往研究,是特征固定,研究重点是分类器 电于科技大字研究生《梗式识别与机器宇习》
电子科技大学研究生《模式识别与机器学习》 引言
引言 口为什么要做特征选择和特征提取? 口二者有何区别? ▣怎么做好特征选择和特征提取? 电子科技大学研究生《模式识别与机器学习》
电子科技大学研究生《模式识别与机器学习》 o 为什么要做特征选择和特征提取? o 二者有何区别? o 怎么做好特征选择和特征提取? 引言
主要内容 /956 ■模式特征 ■类别可分离性判据 ■特征的选择 ■讨论 电子科技大学研究生《模式识别与机器学习》
电子科技大学研究生《模式识别与机器学习》 主要内容 n模式特征 n类别可分离性判据 n特征的选择 n讨论
1模式特征 特征的选择与提取是模式识别中重要而困难的一个 环节: 分析各种特征的有效性并选出最有代表性的特征是模式 识别的关键一步 降低特征维数在很多情况下是有效设计分类器的重要课 题 三大类特征:物理、结构和数学特征 物理和结构特征:易于为人的直觉感知,但有时难于定 量描述,因而不易用于机器判别 数学特征:易于用机器定量描述和判别,如基于统计的 特征 电子科技大学研究生《模式识别与机器学习》
电子科技大学研究生《模式识别与机器学习》 1 模式特征 o 特征的选择与提取是模式识别中重要而困难的一个 环节: n 分析各种特征的有效性并选出最有代表性的特征是模式 识别的关键一步 n 降低特征维数在很多情况下是有效设计分类器的重要课 题 o 三大类特征:物理、结构和数学特征 n 物理和结构特征:易于为人的直觉感知,但有时难于定 量描述,因而不易用于机器判别 n 数学特征:易于用机器定量描述和判别,如基于统计的 特征
1模式特征 56 举例:对于一个有经验的瓜农,怎么判断西瓜是好还是坏? 特征 结果 颜色:绿色 根蒂:蜷缩 敲声:清脆 好瓜 纹理:清晰 触感:光滑 根蒂:蜷缩 敲声:清脆 好瓜 纹理:清晰 ③ 颜色:绿色 ①相比②,部分特征冗余,需要选择特征 电于科技大字研究生《模式识别与机器字习》
电子科技大学研究生《模式识别与机器学习》 1 模式特征
1模式特征:形成 模式识别系统的输入时传感器对实物或过程进行测量所得到 的数据,其中有些数据可以直接作为特征,有一些需要经过 处理之后作为特征,这样的一组特征一般为原始特征。 原始特征特点: ■ 原始测量不能直观反映对象本质 高维原始特征不利于分类器设计:计算量大,冗余,样 本分布十分稀疏 电子科技大学研究生《模式识别与机器学习》
电子科技大学研究生《模式识别与机器学习》 1 模式特征:形成 原始特征特点: n 原始测量不能直观反映对象本质 n 高维原始特征不利于分类器设计:计算量大,冗余,样 本分布十分稀疏
1模式特征:为何要选择? 在机器学习的实际应用中,特征数量往往较多,其中可能 存在不相关的特征,特征之间也可能存在相互依赖,容易 导致如下的后果: 特征个数越多,分析特征、训练模型所需的时间就越长。 特征个数越多,容易引起“维度灾难”,模型也会越复 杂,其推广能力会下降。 特征选择能剔除不相关(irrelevant)或亢余(redundant)的特 征,从而达到减少特征个数,提高模型精确度,减少运行 时间的目的。另一方面,选取出真正相关的特征简化了模 型,使研究人员易于理解数据产生的过程 电子科技大学研究生《模式识别与机器学习》
电子科技大学研究生《模式识别与机器学习》 1 模式特征:为何要选择?
1模式特征:选择与提取 两类提取有效信息、压缩特征空间的方法:特征特 征选择和提取 特征选择(selection):从原始特征中挑选出一些最有代表 性,分类性能最好的特征; 特征提取(extraction):用映射( 或变换)的方法把原始 特征变换为较少的新特征; 特征的选择与提取与具体问题有很大关系,目前没 有理论能给出对任何问题都有效的特征选择与提取 方法。 电子科技大学研究生《模式识别与机器学习》
电子科技大学研究生《模式识别与机器学习》 o 两类提取有效信息、压缩特征空间的方法:特征特 征选择和提取 n 特征选择(selection) :从原始特征中挑选出一些最有代表 性,分类性能最好的特征; n 特征提取 (extraction):用映射(或变换)的方法把原始 特征变换为较少的新特征; o 特征的选择与提取与具体问题有很大关系,目前没 有理论能给出对任何问题都有效的特征选择与提取 方法。 1 模式特征:选择与提取