北京大学：《模式识别》课程教学资源（课件讲稿）特征的选择和提取（第一部分）.pdf_大学文库

7.1引言 7.1引言口优化特征空间的两种基本方法口优化特征空间的两种基本方法 ■特征选择(selection):从原始特征中挑选出最有 ■特征选择(selection):从原始特征中挑选出最有代表性，分类性能最好的特征：代表性，分类性能最好的特征： ■特征提取(extraction:用映射（或变换）的方法 ■特征提取(extraction):用映射（或变换）的方法把原始特征变换为较少的新特征。把原蛤特征变换为较少的新特征。 ■特征的选择与提取与具体问题有很大关系，目前没有理论能给出对任何问题都有效的特征选择与提取方法。 7.1引言 7.2类别可分离性判据口特征选择与提取举例一细胞自动识别口类别可分离性判据：衡量不同特征及其组合对分 ■原始测量：（正常与异常）细胞的数字图像：类是否有效的定量准则： ■原始特征（特征的形成，找到一组代表细胞性质口理想准则：某组特征使分类器错误概率最小；的特征)：细胞面积，胞核面积，形状系数，光密度，核内纹理，和浆比；口常见类别可分离性判据： ■压缩特征：原始特征的维数仍很高，需压缩以便于分类； ■基于距离的可分性判据： ▣特征选择：挑选最有分类信息的特征： ■基于概率分布的判据； ▣特征提取：数学变换； ■傅立叶变换或小波变换： ■熵函数的可分性判据。 ■用PCA方法作特征压编， 11 7.2类别可分离性判据 7.3.1基于距离的可分性判据口实际的类别可分离性判据应满足的条件：口实质：综合考虑不同类样本的类内聚合程度与类间离散程度两个因素。 1. 度量特性：J,>0,ifi≠方J,=0,ifi=方J,=J 2. 与错误率有单调关系：J大一P小： 3. 当特征独立时有可加性：，化，。)产会 4. 单调性：J,(,x2,x)≤J(,x2,,x4X4月 Figure:Projection of the same set of samples onto two difterent lines in the directions marked as w.The figure on the right shows greater separation between the red and black projected points

7 7.1 引言  优化特征空间的两种基本方法  特征选择 (selection)：从原始特征中挑选出最有代表性，分类性能最好的特征；  特征提取 (extraction)：用映射（或变换）的方法把原始特征变换为较少的新特征。 8 7.1 引言  优化特征空间的两种基本方法  特征选择 (selection)：从原始特征中挑选出最有代表性，分类性能最好的特征；  特征提取 (extraction)：用映射（或变换）的方法把原始特征变换为较少的新特征。  特征的选择与提取与具体问题有很大关系，目前没有理论能给出对任何问题都有效的特征选择与提取方法。 9 7.1 引言  特征选择与提取举例 — 细胞自动识别  原始测量：（正常与异常）细胞的数字图像；  原始特征（特征的形成，找到一组代表细胞性质的特征）：细胞面积，胞核面积，形状系数，光密度，核内纹理，和浆比；  压缩特征：原始特征的维数仍很高，需压缩以便于分类； 特征选择：挑选最有分类信息的特征； 特征提取：数学变换；  傅立叶变换或小波变换；  用PCA方法作特征压缩。 10 7.2 类别可分离性判据  类别可分离性判据：衡量不同特征及其组合对分类是否有效的定量准则；  理想准则：某组特征使分类器错误概率最小；  常见类别可分离性判据：  基于距离的可分性判据；  基于概率分布的判据；  熵函数的可分性判据。 11  实际的类别可分离性判据应满足的条件： 1. 度量特性： 2. 与错误率有单调关系： 3. 当特征独立时有可加性： 4. 单调性： 0, if ; 0, if ; ; ij ij ij ji J    i jJ i jJ J 1 2 1 ( , ,..., ) ( ); d ij d ij k k J xx x J x    12 12 1 ( , ,..., ) ( , ,..., , ). ij d ij d d J xx x J xx x x   ij e J P 大小;  7.2 类别可分离性判据 12 7.3.1 基于距离的可分性判据  实质：综合考虑不同类样本的类内聚合程度与类间离散程度两个因素

13 7.3.1 基于距离的可分性判据  描述母体的离散程度 1 1 : [ ]; : [ ]; ( )( ) ; ( )( ) ; i i c T b ii i i c T w ii i i i E E P PE           μ x μ x S μ μμ μ S x μ x μ 母体类均值母体总体均值母体类间离散度矩阵：母体类内离散度矩阵: 14 7.3.1 基于距离的可分性判据  有限样本集下离散度矩阵的估计 ( ) 1 1 1 () () 1 1 1 1 : ; : ; ( )( ) ; 1 ( )( ) ( : ). i i n i i k i k c i i i c T b ii i i c n i iT w i k ik i i k i c ii i i n P P P n P                     m x m m S m mm m S x mx m   样本类均值向量样本总体均值向量样本类间离散度矩阵：样本类内离散度矩阵: 样本类内协方差阵 15 7.3.1 基于距离的可分性判据  基于各类特征向量间平均距离的判据  采用欧式距离： JD 为各类之间的平均平方距离。 () ( ) 1 1 11 ( ) ( ) 1 1 ( ) ( , ); 2 , 1, , , , 1, , , , : , ( , ) : ; j i n n c c i j d i j kl i j kl i j i ki i j lj j i j kl k l J PP n n k n l n P P             x xx    x x xx x x   其中，先验概率和之间的距离度量 ( , ) ( ) ( ), T kl k l k l  xx x x x x   度量ωi，ωj两类之间的（平均）分离程度 16 7.3.1 基于距离的可分性判据  基于各类特征向量间平均距离的判据  代入欧式距离及 , : m mi () () 1 1 1 1 () ( )( ) ( )( ); i c n i Ti d i k ik i i k i c T ii i i J P n P                     x xmxm mmmm 类内平均平方距离各类均值与总体均值的平方距离 1 1 1 ( )( ) 2 c c T i j i j i j i j P P       mm mm ，即各类均值向量的平均平方距离。 17 7.3.1 基于距离的可分性判据  基于各类特征向量间平均距离的判据  代入欧式距离及 , : m mi () () 1 1 1 1 () ( )( ) ( )( ); i c n i Ti d i k ik i i k i c T ii i i J P n P                     x xmxm mmmm ( ) tr( ). d wb J x SS     18 7.3.1 基于距离的可分性判据  常用的基于类内类间距离的可分性判据 1( ) ( ); w b J tr x SS   1 2 ( ) ( ); w b J tr  x SS  3 | | ( ) ln ; | | b w J  S x S 4 ( ) () ; ( ) b w tr J tr  S x S 5 | | () . | | w b w J   S S x S 基于距离的准则概念直观，计算方便；但与错误率没有直接联系；当各类协差相差不大时，用此判据较好

25 7.3.3 按距离度量的特征提取方法  特征提取：把 D 个特征（原始特征 x）通过变换变为 d 个新特征（y），即  目的：更好的分类和/或减少计算量；  线性变换：  A 是 D×d 维矩阵，通常 D>d  特征压缩，特征变换；  非线性情况下，可能希望 D≤d，如广义线性分类器 SVM，NN。 ; T y  A x y  A x ; 26 7.3.3 按距离度量的特征提取方法  按欧式距离的特征提取准则函数            1 1 2 3 4 5 () ; () ; ( ) ln ; () ; ( ) , . T w b T T w b T b T w T b T w T T w b w J tr J tr J tr J tr J               A AS SA A ASA ASA ASA A ASA ASA A ASA A A A SS ASA 目标：求A*, 使得   { } ( ) max . T J J  A y A x 27 7.3.3 按距离度量的特征提取方法  基于J2判据的特征提取 — 线性判别分析 (LDA)  结论：J2 对线性非奇异变换具有不变性。      *1* 2 1 1 1 1 1 1 1 1 1 2 () ( ) ( ) ( ). w b T T w b T T w b w b w b w b J tr tr tr tr tr tr J                                      y SS ASA ASA A S A ASA A S SA S SA A SS x 28 7.3.3 按距离度量的特征提取方法  基于 J2 判据的特征提取 — LDA  求 J2 的最大值              1 2 2 1 11 1 1 ( ) ( ) 0 2 20 ; Tx Tx w b x Tx Tx Tx x Tx ww b w bw xx yy wb wb J tr J                              A ASA ASA A A SA ASA ASA ASA SA ASA S SAAS S 29 7.3.3 按距离度量的特征提取方法  基于 J2 判据的特征提取 — LDA  求 J2 的最大值 对称矩阵可被一个非奇异线性变换 B （d×d 维）同时对角化，且其中，I 和 Λ 分别是将 y 空间进行线性变换后所得特征空间 z 的类内离散度矩阵和类间离散度矩阵，即且有 , y y S S w b B S B  I, B S B  Λ; y b y T w T ; T TT z B  y BAx 2 2 J J ( ) ( ). z y  30 7.3.3 按距离度量的特征提取方法  基于 J2 判据的特征提取 — LDA  求 J2 的最大值               1 1 1 1 1 1 , 1,2, , , ( ) xx xx wb wb x x w b i ii x x ii w b x x w b i D d d                              S S A ABΛB S S AB AB Λ S S φ φ φ S S Λ S S AB  分别是的特征值和特征向量; 的对角元素是的个特征值；矩阵由相应的个特征向量组成；

31 7.3.3 按距离度量的特征提取方法  基于 J2 判据的特征提取 — LDA  求 J2 的最大值          1 1 * 2 1 1 * * 1 2 () ; , ( ) x x Tx Tx wb b w d Tx Tx wb i i x x d wb J tr tr D d J                             C = AB S SCCΛ CSC CSCΛ y CSC CSC Λ S S y  令，，是的个特征值中最大的个，达到最大值。当 32 7.3.3 按距离度量的特征提取方法  基于 J2 判据的特征提取 — LDA  J3, J5 对线性非奇异变换具有不变性，J1, J4 与坐标系相关，但求解极值的结论相同。设矩阵的特征值为且则取前 d 个特征值对应的特征向量组成的线性变换矩阵则 A 能使降维后的特征空间的 J2(y) 判据值最大 1 w b  S S , , , , 1 2   D 1 2 ,      D 1 2 ,,, , φφ φ  d A  φφ φ 1 2 ,,, ,  d  33 7.3.3 按距离度量的特征提取方法收集样本根据判据条件计算特征矩阵计算特征值确定变换矩阵求特征向量  特征提取流程图 34 7.3.3 按距离度量的特征提取方法  LDA 的局限性 35 7.3.3 按距离度量的特征提取方法  例：给定先验概率相等的两类，其均值向量分别为：μ1=[1,3,-1]T，μ2=[-1,-1,-1]T，协方差矩阵是：求用 J2 判据的最优特征提取。  思路：应先求 Sw -1 Sb，再求此矩阵的特征矩阵。 1 2 410 210 1 4 0, 1 2 0 001 001      Σ Σ ； 36 7.3.3 按距离度量的特征提取方法  解： 1 2   2 1 21 2 1 1 2 1 1 ( ) 0,1,0 2 1 1 ( )( ) ( )( ) 2 4 310 1 ( ) 130 2 001 3 10 1 1 3 0 ; 8 0 08 T T T b ii i w w                                   μ μμ S μ μμ μ μ μ μ μ S Σ Σ S 混合均值：；类间离散度矩阵：；类内离散度矩阵：；