7.4基于概率分布的可分性判据 第七章 口考查两类分布密度之间的交叠程度 特征的选择与提取 p(da) 完全可分 2009-12-1 P)=P) p(x@)=p(x@2) 完全不可分 P()=P() 7.4基于概率分布的可分性判据 7.4.1常用的概率距离度量 口定义:两个密度函数之间的距离 Bhattacharyya距离 J=∫g[p(xl0).p(x|a),,h J。=--InSIp(xI0)pxa,2dk ■须满足如下条件: 1.J,是非负,即J。≥0 1)两类完全重合时,JB=0: 2)两类完全不交叠时,JB=∞ 2当两类完全不交叠时,J。达到其最大值,即 3)与错误概率的上界有直接关系: if p(xl)p(xl)=0,Vx,thenJ=J 3.当两类分布密度相同时,J。=0: P≤[P(@)P(@,exp-Ja】 if p(xla)=p(x2),Vx,then J=0. 7.4.1常用的概率距离度量 7.4.1常用的概率距离度量 口Chernoff.界 口散度(Divergence)) Jc=-InSp"(xl@)p(xI@x,se[0.I] ■利用对数似然比(或似然比),对于某特征值x )3=0.5,Jc=Ja (x)=In p(xl@) p(x @, 2)fors∈0,l]Je20; 3)fors∈0,】Je=0台pxla)=p(xo,x 口px|a)=p|o)→1,(x)=0 4)当x的各分量彼此独立时, 口p(xo)和p(xo)差异越大,,(越大: Je()(t ■考虑整个特征空间概率分布的差异,分别定义对 0,类及对四,类的平均可分性信息 5)当x的各分量彼此独立时 ,==j1eh2e,,=印,x Jc(,x,x2,…X)≤Jc(Sx,x2,…x,x) p(xlo,)
第七章 特征的选择与提取 2009-12-1 2 7.4 基于概率分布的可分性判据 考查两类分布密度之间的交叠程度 完全可分 完全不可分 3 7.4 基于概率分布的可分性判据 定义:两个密度函数之间的距离 须满足如下条件: 1. Jp是非负,即Jp ≥0; 2.当两类完全不交叠时, Jp 达到其最大值,即 3.当两类分布密度相同时, Jp =0; 1 2 12 J ( ) ( | ), ( | ), , g p p PPd xx x 1 2 max if ( | ) ( | ) 0, , then ; p p p JJ xx x 1 2 if ( | ) ( | ), , then 0. p pp J x xx 4 7.4.1 常用的概率距离度量 Bhattacharyya 距离 1) 两类完全重合时, JB = 0; 2) 两类完全不交叠时, JB =∞; 3) 与错误概率的上界有直接关系: 1/2 1 2 ln [ ( | ) ( | )] B J pp d xx x 1 2 1 2 ( ) ( ) exp( ). PP P J e B 5 7.4.1 常用的概率距离度量 Chernoff 界 1 1 2 ln ( | ) ( | ) , [0,1]; s s C J p p ds x xx 1 2 1 2 1 12 12 1 1) 0.5, ; 2) for [0,1] 0; 3) for [0,1] 0 ( | ) ( | ), ; 4) ( ; , , , ) ( ; ); 5) ( ; , , ) ( ; , , , ). C B C C n C n Ci i C k C kk s JJ s J sJp p J sx x x J sx J sx x x J sx x x x x xx x x 当 的各分量彼此独立时, 当 的各分量彼此独立时 6 7.4.1 常用的概率距离度量 散度 (Divergence) 利用对数似然比(或似然比),对于某特征值x 差异越大, 越大; 考虑整个特征空间概率分布的差异,分别定义对 ωi 类及对ωj 类的平均可分性信息 ( | ) ( ) ln ; ( | ) i ij j p l p x x x 1 2 ( | ) ( | ) ( ) 0; ij pp l xx x 1 2 p p (x x | ) ( 和 | ) ( ) ij l x (| ) [ ( )] ( | )ln [ ( )]. (| ) i ij ij i ji ji X j p I El p d I El p x xx x x x
7.4.1常用的概率距离度量 7.4.1常用的概率距离度量 口散度(Divergence) 口正态分布下的散度 ■定义区分®,类和⊙,类的总的平均信息(散度): ■设两类别都是d维正态分布,分别表示为 o1,+!=f[p(x)-pI 0(μ2),0(μj”2,则 p(xlo,) 1 p(x|o,)= 1)Jn≥0 2P1四cp-具,yx-4,月 2)Jn=0台pa)=pm,x 3)当x的各分量彼此独立时,J。:,,,x)-之JG o)2r2rp-j5x-4 4)当x的各分量彼此独立时, →对数似然比 J(2,)≤J(,2…X 6-3--3--安-r5- 5)Jn(4,2)=Jn(az,4) 7.4.1常用的概率距离度量 7.4.1常用的概率距离度量 口正态分布下的散度 口正态分布下的散度 ■利用矩阵迹的性质tr(BA=t(AB)(=AB,如 A,B是向量),似然比可改写成 nnig,+-训 6--nga-X-7 +=,+a- 2 Mahalanobis +-- ■如果两类协方差矩阵相等,则 距离的平方 → J。=(-)》Eμ,-)=J 42到+-g】 在协方差矩阵相等条件下散度与很相 +(-P/XP-PYb 似,都是对样本在特征空间分散程度的描述。 11 7.4.1常用的概率距离度量 7.4.2概率距离判据下的特征提取 口正态分布下的Bhattacharyya距离 口基本方法:类似于距离度量下的特征提取 -到 ■设 (,-μ,) y=A'x, 侣 [巴巴, 求映射后的判据表达式(JJ。JD)对A的各分 量的偏导数并令其为零,得到所需的方程式组, ■如果两类协方差矩阵相等,则 然后用相应方法求解。 ■注意:原空间中一个矩阵W经映射后变为 8Ja=(μ,-μ,Σ-(μ,-μ)=JD=JM W'=A'WA
7 7.4.1 常用的概率距离度量 散度 (Divergence) 定义区分ωi 类和ωj 类的总的平均信息(散度): ( | ) [ ( | ) ( | )]ln ; ( | ) i D ij ji i j X j p J II p p d p x xx x x 1 2 1 2 1 12 12 1 12 21 1 0; 2 0 ( | ) ( | ), ; 3 ( , , , ) ( ); 4 ( , , ) ( , , , ); 5 , ,. D D n D n Di i D k D kk D D J Jpp J xx x J x J xx x J xx xx J J x xx x x ) ) )当 的各分量彼此独立时, )当 的各分量彼此独立时, ) 8 7.4.1 常用的概率距离度量 正态分布下的散度 设两类别都是 d 维正态分布,分别表示为 ωi ~N(μi ,∑i ) ,ωj ~N(μj ,∑j ),则 1 /2 1/2 1 /2 1/2 1 1 ( | ) exp[ ( ) ( )], (2 ) | | 2 1 1 ( | ) exp[ ( ) ( )]; (2 ) | | 2 T i ii i d i T j jj j d j p p x x μ Σ x μ Σ x x μ Σ x μ Σ 11 1 1 1 ln | | ( ) ( ) ( ) ( ); 22 2 j T T ij i i i j j j i l Σ x μ Σ x μ x μ Σ x μ Σ 对数似然比 9 7.4.1 常用的概率距离度量 正态分布下的散度 利用矩阵迹的性质 tr(BAT)=tr(ATB ) (=ATB ,如 A,B是向量) ,似然比可改写成 1 1 1 1 ln | | [ ( )( ) ] 2 2 1 [ ( )( ) ]; 2 j T ij i i i i T jjj l tr tr Σ Σ x μ x μ Σ Σ x μ x μ 1 1 1 1 1 ln | | [ ( )] 2 2 1 [ ( )( ) ]; 2 j ij i j i i T ji ji j I tr tr Σ ΣΣ Σ Σ Σμ μμ μ 10 7.4.1 常用的概率距离度量 正态分布下的散度 如果两类协方差矩阵相等,则 1 1 1 1 1 [ 2] 2 1 ( ) ( )( ); 2 D i j ji T i j i j i j J tr ΣΣ ΣΣ I μμ Σ Σ μμ 1 ( )( ) ; T D ij ij M J J μ μ Σμ μ Mahalanobis 距离的平方 在协方差矩阵相等条件下散度与 Jd 很相 似,都是对样本在特征空间分散程度的描述。 11 7.4.1 常用的概率距离度量 正态分布下的 Bhattacharyya 距离 如果两类协方差矩阵相等,则 1 1/2 1 () () 8 2 1 |( )/2| ln ; 2 | || | T i j B i j i j i j i j J Σ Σ μμ μ μ Σ Σ Σ Σ 1 8( )( ) . T B ij ij DM J J J μ μ Σμ μ 12 7.4.2 概率距离判据下的特征提取 基本方法:类似于距离度量下的特征提取 设 求映射后的判据表达式(JB, JC, JD)对 A 的各分 量的偏导数并令其为零,得到所需的方程式组, 然后用相应方法求解。 注意:原空间中一个矩阵 W 经映射后变为 , T y Ax . T W A WA
7.4.2概率距离判据下的特征提取 7.4.2概率距离判据下的特征提取 口讨论: 两类别问题,正态分布及相同的协方差阵 口讨论:两类别问题,正态分布及相同的协方差阵 J。=(4-2)2-(1-2) ■设矩阵(AT∑A)-IATMA的特征值矩阵与特征向量 =r[2-4,-,-4,] 矩阵分别是A和U,即有 =r[M(其中,M=(u-2-42))): (AA)"(AMA)U=UA: →ΣMAU-AUA=0 w-' (具有非奇异变换不变性) 令B=AU,则B是ΣM的特征向量矩阵: A(A)(AMA)(AA)"2MA(AEA)0 对于两类别问题,ramkΣlM=1,即MA=A, MA-EA(AEA)(AMA)=0. (H-2),-μ2)A=A→A=041-2) 7.5基于熵函数的可分性判决 7.5基于熵函数的可分性判决 口熵:事件不确定性的度量 口熵函数: H=J.[P(@lx)...P(@.lx) ■A事件的不确定性大(熵大),则对A事件的 观察所提供的信息量大。 规一化 很 口思路: 0sPs很} ■把各类ω,看作一系列事件,把后验概率P(ωx) 看作特征x上出现o,的概率; ②对称性 J(E.…,P)mJ(P..P) 性 ■如从x能确定⊙,;则对⊙,的观察不提供信息 质 确定性 /00….0)=J0,1….0=…=0 量,熵为0→特征x有利于分类; ④扩张性 J,(…,e)=J(,P0 ■如从x完全不能确定0,,则对0,的观察信息量 大,熵大→特征x无助于分类。 5连续性 P。,)的连续通数 份分枝性(综合性) 一分为二,则熵增加:二合为一,则熵减小 17 7.5基于熵函数的可分性判决 7.5.1基于判别熵最小化的特征提取 口常用的熵函数: 口相对熵:表示某一种分布偏离给定标准分布的程 ■Shannon捕:H=-∑Pa,Ix)logP(alx 度,两种分布重合时最大(0), r(p,9)=-∑pk)logP2s0 ■平方熵: =2-2PoI四 q飞) 口熵可分离性判据: 口判别熵:表示两类分布之间的差别 J.=∫H(x)px) W(p,q)=V(p.q)+V(q.p) ■J大,则不同类样本重叠性大,可分性不好; =-∑px,)log p(x,)-∑q(x,)logq,) ■J小,则可分性好。 +∑p(3,)log9x,)+∑9s,)logp(x,方
13 7.4.2 概率距离判据下的特征提取 讨论:两类别问题,正态分布及相同的协方差阵 1 12 12 1 1 21 2 1 1 21 2 ( )( ) ( )( ) ( )( ) T D T T J tr tr μ μ Σμ μ Σμ μμ μ Σ M M 其中, ; μμμμ 1 1 1 1 1 ( ) ( ) 2 0; 2 0 D T TT T T T D T T J tr J A A ΣA A MA A ΣA A Σ M A A MA A A ΣA ΣA MA A ΣA A A ΣA A MA (具有非奇异变换不变性) 14 7.4.2 概率距离判据下的特征提取 讨论:两类别问题,正态分布及相同的协方差阵 设矩阵 (ATΣA)-1ATMA 的特征值矩阵与特征向量 矩阵分别是 Λ 和 U,即有 1 ; T T A ΣA A MA U U Λ ; = -1 -1 Σ MAU - AUΛ = 0 令 ,则 是 的特征向量矩阵; B AU B Σ M 1 21 2 1 2 1 ( )( ) . ( ) T rank -1 -1 -1 -1 Σ M Σ MA = A Σμ μ μ μ A A A Σ μ μ 对于两类别问题, 即 , , 15 7.5 基于熵函数的可分性判决 熵:事件不确定性的度量 A 事件的不确定性大(熵大),则对 A 事件的 观察所提供的信息量大。 思路: 把各类ωi 看作一系列事件,把后验概率P(ωi | x) 看作特征 x 上出现ωi 的概率; 如从 x 能确定ωi ,则对ωi 的观察不提供信息 量,熵为0 特征 x 有利于分类; 如从 x 完全不能确定ωi ,则对ωi 的观察信息量 大,熵大 特征 x 无助于分类。 16 7.5 基于熵函数的可分性判决 熵函数: ( | ), , ( | ) ; 1 x x c P P c H J 性 质 17 7.5 基于熵函数的可分性判决 常用的熵函数: Shannon 熵: 平方熵: 熵可分离性判据: Je大,则不同类样本重叠性大,可分性不好; Je小,则可分性好。 1 2 1 ( | )log ( | ); c ci i i HP P x x 2 2 1 21 ( | ). c c i i H P x ( ) ( ) , Je H x p x dx 18 7.5.1 基于判别熵最小化的特征提取 相对熵:表示某一种分布偏离给定标准分布的程 度,两种分布重合时最大(0), 判别熵:表示两类分布之间的差别 ( ) ( , ) ( )log 0; ( ) i i i p V pq p q x x x (,) (,) (, ) ( )log ( ) ( )log ( ) ( )log ( ) ( )log ( ); i i ii ii i i W pq V pq Vqp p p qq pq qp xx xx xx xx
7.5.1基于判别熵最小化的特征提取 7.6PCA特征提取方法与KL变换 口为方便计算,判别熵可被代替 口PCA(Principle Component Analysis)方法: Up,q)=-∑(p-9,)2≤0, 进行特征降维变换,不能完全地表示原有的对 象,能量总会有损失。希望找到一种能量最为集 口目标: 中的的变换方法使损失最小。 minw(p,9))→minU(p,9)=-∑(p,-g,}≤0 ■通过变换,用较少的特征(,乃,y》近似表示 原来的对象x=(,,…,x}(m<m),并且使 口结论:使U最小的坐标系统(变换矩阵)是由 得误差尽可能的小 矩阵A=G).G2)的前d个(按特征值平方大小) 口K-L(Karhunen-Loeve)变换:最优正交线性变 特征向量组成的,其中G四)、G2是两类各自的协 换,相应的特征提取方法被称为PCA方法。 方差矩阵(估计)。 7.6PCA特征提取方法与K-L变换 7.6PCA特征提取方法与KL变换 口正交变换 口误差 ■给定n维空间中的一组标准正交基真,4,, ■用m个分量表示带来的误差 它诱导了一个线性变换: L:x→yL(☒)=y=04h,…,y) △m)=-豆A产豆 y=x4,i=12,,n, 。目标:误差平方的期望最小 x=乞y4,正交展开· c=[mf]=[交] ■反之,任何一个正交变换也确定了一组正交基。 7.6PCA特征提取方法与K-L变换 7.6PCA特征提取方法与KL变换 口求解最小均方误差正交基: 口求解最小均方误差正交基: ■首先假定随机特征向量为零均值(期望)的,否 ■目标函数:对于一个固定的m 则减掉均值即可 Ex=0; mine,'(m)=minE Σ=E(xx),1 ■找n个正交基4,4,,p,使得对任意一组正交 的协方差矩阵 基,2,…,9a,和所有的m≤n, =m =[2]se=之] s1.l=l,i=m+l,m+2,,m;
19 为方便计算,判别熵可被代替 目标: 结论:使 U 最小的坐标系统(变换矩阵)是由 矩阵 A = G(1)- G(2) 的前 d 个(按特征值平方大小) 特征向量组成的,其中G(1)、G(2)是两类各自的协 方差矩阵(估计)。 7.5.1 基于判别熵最小化的特征提取 2 ( , ) ( ) 0; i i i U pq p q 20 7.6 PCA 特征提取方法与K-L变换 PCA (Principle Component Analysis) 方法: 进行特征降维变换,不能完全地表示原有的对 象,能量总会有损失。希望找到一种能量最为集 中的的变换方法使损失最小。 通过变换,用较少的特征 近似表示 原来的对象 (m<<n),并且使 得误差尽可能的小。 K-L (Karhunen-Loeve) 变换:最优正交线性变 换,相应的特征提取方法被称为 PCA 方法。 21 7.6 PCA 特征提取方法与K-L变换 正交变换 给定 n 维空间中的一组标准正交基 它诱导了一个线性变换: 反之,任何一个正交变换也确定了一组正交基。 , , , , 1 2 n , 正交展开。 , 1,2, , , : ( ) ( , , , ) , 1 1 2 n i i i i T i T n y y i n L L y y y x x x y x y 22 7.6 PCA 特征提取方法与K-L变换 误差 用 m 个分量表示带来的误差 目标:误差平方的期望最小 ( ) ; 1 1 n i m i i m i i i x m x y y 2 2 2 1 () () , n i i m em E m E y x 23 7.6 PCA 特征提取方法与K-L变换 求解最小均方误差正交基: 首先假定随机特征向量为零均值(期望)的,否 则减掉均值即可 找 n 个正交基 使得对任意一组正交 基 和所有的 m≤n, , , , , 1 2 n 1 2 ,,,, n 2 2 2 2 1 1 () () ; n n T T i i im im em E em E x x Ex 0; 24 7.6 PCA 特征提取方法与K-L变换 求解最小均方误差正交基: 目标函数:对于一个固定的 m 2 1 1 2 min ( ) min min , . . 1, 1, 2, , ; n T T i i i m n T i i i m i em E st im m n xx Σ Σ=E(xxT),x 的协方差矩阵
7.6PCA特征提取方法与K-L变换 7.6PCA特征提取方法与KL变换 口求解最小均方误差正交基: 口协方差矩阵的所有特征根是实数,特征向量 a用Lagrange乘子法 也是实的,所有n个特征向量构成一组标准 80-2w2 2[%-奶 正交基,记作,5,…,5m,分别对应特征根 12132…210, 令@=0,1=m+1,m 8o =(51,52,…,5 52 →卫4=,4,i=m+l,…,m →·是Σ的特征向量,乃,是特征根: 口选择协方差矩阵的特征向量乐,5,“,5。作为正 且i侧-三w2)-三4 交基,可以使得均方误差最小。 7.6PCA特征提取方法与K-L变换 7.6PCA特征提取方法与KL变换 口总结 口特征向量常被叫做“主分量”,每个样本被它在前 ■当取协方差矩阵∑的m个最大特征值对应的特征 几个主分量上的投影近似表示 向量来展开飞时,此时的截断均方误差最小。这 m个特征向量组成的正交坐标系称作x所在的n -立6立城-2 维空间的m维Karhunen-Loeve(K-L)变换坐标 系,x在K-L坐标系上的展开系数向量y称作x 口特征值标记着相应特征向量上的能量: 的K-L变换。 口,52,…,5张成的空间称为原空间的子空间, ■实际应用中,协方差矩阵是未知的,用样本协方 PCA实际上是在子空间上的投影,并且 差矩阵代替。 kxf-空6-立空-2 7.6PCA特征提取方法与K-L变换 7.6PCA特征提取方法与KL变换 口KL变换的性质 口例子 。变换后空间中的各特征是互不相关的 E[yy,]=E[5xx'5,]=,5H5,=,6m, E[yy]=E[E'xx'E] =ξ725=A; K-L坐标系把矩阵∑对角化,即通过KL变换 消除原有向量x的各分量间的相关性,从而有可 能去掉那些带有较少信息的分量以达到降低特征 维数的目的
25 7.6 PCA 特征提取方法与K-L变换 求解最小均方误差正交基: 用 Lagrange 乘子法 1 1 () 1 ; n n T T i i i ii im im g Σ 2 1 1 ( ) 0, 1, , , , 1, , ; () . T i i ii i i n n ii i im im g im n im n e m Σ Σ Σ 令 是 的特征向量, 是特征根; 且, 26 7.6 PCA 特征提取方法与K-L变换 协方差矩阵的所有特征根是实数,特征向量 也是实的,所有 n 个特征向量构成一组标准 正交基,记作 分别对应特征根 选择协方差矩阵的特征向量 作为正 交基,可以使得均方误差最小。 1 2 ,,,, n 1 2 , n , , , . 2 1 2 1 1 2 T n T T n n 1 2 ,,, m 27 7.6 PCA 特征提取方法与K-L变换 总结 当取协方差矩阵Σ的 m 个最大特征值对应的特征 向量来展开 x 时,此时的截断均方误差最小。这 m 个特征向量组成的正交坐标系称作 x 所在的 n 维空间的 m 维 Karhunen-Loeve (K-L) 变换坐标 系,x 在 K-L 坐标系上的展开系数向量 y 称作 x 的 K-L 变换。 实际应用中,协方差矩阵是未知的,用样本协方 差矩阵代替。 28 7.6 PCA 特征提取方法与K-L变换 特征向量常被叫做“主分量”,每个样本被它在前 几个主分量上的投影近似表示 特征值标记着相应特征向量上的能量; 张成的空间称为原空间的子空间, PCA 实际上是在子空间上的投影,并且 ; 1 1 1 m i i i T m i i i n i i i x y y x 1 2 ,,, m 2 2 2 12 1 2 1 2 11 11 . n n mm ii ii ii ii ii ii yy yy x x 29 7.6 PCA 特征提取方法与K-L变换 K-L 变换的性质 变换后空间中的各特征是互不相关的 K-L 坐标系把矩阵Σ对角化,即通过 K-L 变换 消除原有向量 x 的各分量间的相关性,从而有可 能去掉那些带有较少信息的分量以达到降低特征 维数的目的。 , ; TT T i j i j i i j i ij T TT T E yy E E E x x y y ξ x x ξ ξ Σξ Λ 1 2 0 ; 0 d Λ 30 7.6 PCA 特征提取方法与K-L变换 例子
7.6PCA特征提取方法与K-L变换 7.6PCA特征提取方法与KL变换 口KL变换的产生矩阵 口PCA的问题 ■数据集K={x}的KL变换的产生矩阵由数据的 ■由于用样本协方差矩阵代替协方差矩阵,主分量 二阶统计量决定,即K-L坐标系的基向量为某种 与训练数据有着很大关系,用一批训练数据得到 基于数据x的二阶统计量的产生矩阵的特征向量。 的主成分,可能不反映其另外一批数据的特征。 ■KL变换的产生矩阵可以有多种选择: 口x的相关函数矩阵R=E[xx: 口x的协方差矩阵C=E[(x-u)(K-μ)门 口样本总类内离散度矩阵: ,=会2,=E[-,-,].Go 7.6PCA特征提取方法与K-L变换 7.6PCA特征提取方法与KL变换 口非监督的KL特征提取 口K-L变换在人脸识别中的应用一Eigenface ■训练样本的类别未知,无法定义可分离性指标 ■简介,详细内容阅读教材ch9.9 。可用方差作衡量指标一选择或提取总体未知样本 方差越大,越有利于分类 人脸数据库 ■可用总体协方差矩阵作为KL产生矩阵: E-容m种m宫: 口把特征值从大到小排序22≥…之。,选前m 个对应的特征向量组成特征提取器→在均方误差 意义下,用m<n维对n维样本空间的最佳表示。 7.6PCA特征提取方法与K-L变换 7.6PCA特征提取方法与KL变换 口KL变换在人脸识别中的应用一Eigenface 口K-L变换在人脸识别中的应用一Eigenface ,Tmk&Pentland1991年提出 ■把原图像表示成“特征脸的线性组合(即特征脸 一本质上与CA.KIT变换没有区别 空间中的点); ,基本思想 一任意输入图像可以表示为若干特任验”的线性组合 ■按照特征值从大到小排序,并从前向后取对应的 线性组合的系数反映了该人脸的特性—被用作~人龄特证 “特征脸”,即构成对原图像的最佳的降维表示。 y=Wix:x=Wy X输入图像,y变换后的特征,W变换矩阵通过计算训练样本协方差 矩阵的特征分解来得到 The oniginal face and the recovered face
31 7.6 PCA 特征提取方法与K-L变换 K-L 变换的产生矩阵 数据集 KN={xi } 的 K-L 变换的产生矩阵由数据的 二阶统计量决定,即 K-L 坐标系的基向量为某种 基于数据 x 的二阶统计量的产生矩阵的特征向量。 K-L 变换的产生矩阵可以有多种选择: x 的相关函数矩阵 R=E[xxT]; x 的协方差矩阵 C=E[(x-μ) (x-μ)T]; 样本总类内离散度矩阵: 1 , E ( )( ) , . c T w ii i i i i i S P Σ Σ x μ x μ x 32 7.6 PCA 特征提取方法与K-L变换 PCA 的问题 由于用样本协方差矩阵代替协方差矩阵,主分量 与训练数据有着很大关系,用一批训练数据得到 的主成分,可能不反映其另外一批数据的特征。 33 7.6 PCA 特征提取方法与K-L变换 非监督的 K-L 特征提取 训练样本的类别未知,无法定义可分离性指标; 可用方差作衡量指标 选择或提取总体未知样本 方差越大,越有利于分类。 可用总体协方差矩阵作为 K-L 产生矩阵: 把特征值从大到小排序 选前 m 个对应的特征向量组成特征提取器 在均方误差 意义下,用 m<n 维对 n 维样本空间的最佳表示。 其中 ; N i i N i T i i N 1 N 1 1 ( )( ) , 1 Σ x m x m m x 1 2 , n 34 7.6 PCA 特征提取方法与K-L变换 K-L 变换在人脸识别中的应用 — Eigenface 简介,详细内容阅读教材 ch9.9. 人脸数据库 35 7.6 PCA 特征提取方法与K-L变换 K-L 变换在人脸识别中的应用 — Eigenface 36 7.6 PCA 特征提取方法与K-L变换 K-L 变换在人脸识别中的应用 — Eigenface 把原图像表示成“特征脸”的线性组合(即特征脸 空间中的点); 按照特征值从大到小排序,并从前向后取对应的 “特征脸”,即构成对原图像的最佳的降维表示
7.6PCA特征提取方法与K-L变换 7.7特征选择 口基于PCA的人脸识别方法 口特征进择:从原始特征中挑选出一些最有代表性 。读取每个人的前M幅图像,构造矩阵X: 分类性能最好的特征来进行分类: ■计算:Σ=x'X X=1-H,…,xw- ■计算:[,D]=mdX方 口每个特征的状态是离散的:选或不选; ■计算:=XVD; 口从N个特征中选取k个,共C种组合;如不 ■按特征值从大到小排序,选择前几个最大的特征 限定个数,则共有2种组合一典型的优化 值对应的ξ作为变换矩阵W。 组合问题。 ■把所有训练样本做变换y=Wx,保留系数y。 ■对新样本也作变换,看与哪个y最接近。 ■与实际比较确定是否识别正确,统计识别率。 7.7特征选择 7.7特征选择 口特征选择的方法大体可分两大类: 口一种Filter算法:FOCUS ■Fter方法:不考虑所使用的学习算法。通常给 ■该算法致力于寻找一个能正确区分所有类别的最 出一个独立于分类器的指标J来评价所选择的特 小特征集合; 征子集S,然后在所有可能的特征子集中搜索出 ■例如:如区分每个人的特征包括姓名、性别、籍 使得J最大的特征子集作为最优特征子集。 贯、工作单位、身份证号.则该算法将选择: ■Wrapper方法:将特征选择和分类器结合在一 身份证号. 起,即特征子集的好坏标准是由分类器决定的, ■搜索时会检测一个特征能否正确区分样本;如不 在学习过程中表现优异的的特征子集会被选中。 能,则考察两个特征.…以此类推。 2 7.7特征选择 7.7特征选择 口一种Wrapper算法:OBLIVION 口许多特征选择算法力求解决搜索问题,经典搜索 ■该方法与最近邻法结合,根据特征子集的分类表 算法有: 现来选择特征; ■分支定界法:最优搜索,效率比盲目穷举法高; ■用顺序后退法搜索特征子集: ■单独最优特征组合法:次优搜索; 从全体特征开始,每次剔除一个特征,使得所保 ■顺序前进法 留的特征集合有最大的分类识别率(基于最近邻 ■顺序后退法 法)。依次迭代,直至识别率开始下降为止。 ■模拟退火法 合数CD- ■用leave-one-out方法估计平均识别率:用M-l个 D-10.2.C=40 ■Tabu搜索法 D-100,kC=16100 穷举假常最优 样本判断余下一个的类别,N次取平均。 D-10a-10C-1.731o5 非穷华摆索—次线 ■遗传算法 D-t00,4-5aC-1.00891r29 搜索方向从底肉上X。=中 D-1000d1C=499500 D-10900.d4.C=49995e01 从镇向下=X
37 7.6 PCA 特征提取方法与K-L变换 基于 PCA 的人脸识别方法 读取每个人的前 M 幅图像,构造矩阵 X; 计算: 计算: 计算: 按特征值从大到小排序,选择前几个最大的特征 值对应的ξi 作为变换矩阵 W。 把所有训练样本做变换 y=WTx,保留系数 y。 对新样本也作变换,看与哪个 y 最接近。 与实际比较确定是否识别正确,统计识别率。 ; T Σ X X V, D X svd( ); 1 2 ; ξ XVD [ , , ]; X x1 μ xM μ 38 7.7 特征选择 特征选择:从原始特征中挑选出一些最有代表性、 分类性能最好的特征来进行分类; 每个特征的状态是离散的:选或不选; 从 N 个特征中选取 k 个,共 种组合;如不 限定个数,则共有 2N 种组合 —— 典型的优化 组合问题。 k CN 39 7.7 特征选择 特征选择的方法大体可分两大类: Filter 方法:不考虑所使用的学习算法。通常给 出一个独立于分类器的指标 J 来评价所选择的特 征子集 S,然后在所有可能的特征子集中搜索出 使得 J 最大的特征子集作为最优特征子集。 Wrapper 方法:将特征选择和分类器结合在一 起,即特征子集的好坏标准是由分类器决定的, 在学习过程中表现优异的的特征子集会被选中。 40 7.7 特征选择 一种 Filter 算法:FOCUS 该算法致力于寻找一个能正确区分所有类别的最 小特征集合 ; 例如:如区分每个人的特征包括姓名、性别、籍 贯、工作单位、身份证号……则该算法将选择: 身份证号。 搜索时会检测一个特征能否正确区分样本;如不 能,则考察两个特征……以此类推。 41 7.7 特征选择 一种 Wrapper 算法:OBLIVION 该方法与最近邻法结合,根据特征子集的分类表 现来选择特征; 用顺序后退法搜索特征子集: 从全体特征开始,每次剔除一个特征,使得所保 留的特征集合有最大的分类识别率(基于最近邻 法)。依次迭代,直至识别率开始下降为止。 用 leave-one-out 方法估计平均识别率:用 N-1 个 样本判断余下一个的类别,N 次取平均。 42 7.7 特征选择 许多特征选择算法力求解决搜索问题,经典搜索 算法有: 分支定界法 : 最优搜索,效率比盲目穷举法高; 单独最优特征组合法:次优搜索; 顺序前进法 顺序后退法 模拟退火法 Tabu 搜索法 遗传算法
7.7特征选择 7.7特征选择 口单独最优特征组合 口顺序前进法 ■计算各特征单独使用时的可分性判据并加以排 序,取前d个作为选择结果, ·自下而上的搜索方法; ■不一定是最优结果: ■每次从未入选的特征中选择一个特征,使得它与 ■当可分性判据对各特征具有(广义)可加性,该 已入选的特征组合在一起时所得的准则值为最 方法可以选出一组最优的特征;例如: 大,直至特征数目增加到d为止: 口各类县有正态分布: ■该方法考虑了所选特征与已入选特征之间的相关 口各特征统计独立: 性。 ▣可分性判据基于Mahalanobis距离; J,,,)=2J,Jo=,-,-y 7.7.1特征选择一遗传算法 7.7.1特征选择一遗传算法 口该算法受进化论启迪,根据“物竞天择,适者生 口术语 存”规则演变; ■群体:若干个体的集合,也就是一些解的集合; 口术语: ■交叉:选择群体中的两个个体,以这两个个体为 ■基因链码:使用遗传算法时要把问题的每个解编 双亲作基因链码的交叉,从而产生两个新的个 码成一个基因链码。 体,作为后代:X100,J00 ◆ X,10001010 比如要从D个特征中挑选d个,就用一个D位 X20100010 X:01001100 的0或1组成的字符串表示一种特征组合;1表 ■变异:对某个体,随机选取其中一位,将其翻转 示该特征被选中。 1000010◆1001010 每个基因链码代表一个解,称作一个“个体”,其 音 中的每一位看作是一个“基因”。 ■适应度:对每个解,以给定的优化准则来评价其 性能的优劣,作为其适应度。 7.7.1特征选择一遗传算法 7.7.1特征选择一遗传算法 遗传算法的基本框架 口关于遗传算法的说明 1. 初始化进化代数0: ■由步骤3保证了最终解是所搜索过的最优解: 2. 给出初始化群体P0),并令X2为任意一个体; ■常用的终止条件是群体的世代数超过一个给定 3.对P()中每个个体估值,并将群体中最优解x 值,或连续数个世代都没有得到更优解: 与x2比较,若优于g则令X= ■群体的大小和演化代数是值得重视的参数;在一 4.如果终止条件满足,则算法结束,X2为最终结 定范围内,这两个参数大些能得到更好的解; 果。否则,转步骤5; 5.从P()选择个体并进行交又和变异操作,得到 ■对交叉的亲本选择可采用如下规则:个体的性能 新一代个体P(t什1),令1=什1,转步骤3。 越好,被选中的可能性也越大
43 7.7 特征选择 单独最优特征组合 计算各特征单独使用时的可分性判据并加以排 序,取前 d 个作为选择结果。 不一定是最优结果; 当可分性判据对各特征具有(广义)可加性,该 方法可以选出一组最优的特征;例如: 各类具有正态分布; 各特征统计独立; 可分性判据基于 Mahalanobis 距离; ( , , , ) ( ), ( ) ( ) ( ). 1 1 1 2 i j T D i j d k ij d ij k J x x x J x J x μ μ Σ μ μ 44 7.7 特征选择 顺序前进法 自下而上的搜索方法; 每次从未入选的特征中选择一个特征,使得它与 已入选的特征组合在一起时所得的准则值为最 大,直至特征数目增加到 d 为止; 该方法考虑了所选特征与已入选特征之间的相关 性。 45 7.7.1 特征选择 — 遗传算法 该算法受进化论启迪,根据“物竞天择,适者生 存”规则演变; 术语: 基因链码:使用遗传算法时要把问题的每个解编 码成一个基因链码。 比如要从 D 个特征中挑选 d个,就用一个 D 位 的 0 或 1 组成的字符串表示一种特征组合; 1 表 示该特征被选中。 每个基因链码代表一个解,称作一个“个体”,其 中的每一位看作是一个“基因”。 46 7.7.1 特征选择 — 遗传算法 术语 群体:若干个体的集合,也就是一些解的集合; 交叉:选择群体中的两个个体,以这两个个体为 双亲作基因链码的交叉,从而产生两个新的个 体,作为后代; 变异:对某个体,随机选取其中一位,将其翻转 适应度:对每个解,以给定的优化准则来评价其 性能的优劣,作为其适应度。 47 7.7.1 特征选择 — 遗传算法 遗传算法的基本框架 1. 初始化进化代数 t=0; 2. 给出初始化群体 P(t),并令 xg 为任意一个体; 3. 对 P(t) 中每个个体估值,并将群体中最优解 x’ 与 xg 比较,若优于 xg,则令 xg= x’; 4. 如果终止条件满足,则算法结束,xg 为最终结 果。否则,转步骤 5; 5. 从 P(t) 选择个体并进行交叉和变异操作,得到 新一代个体 P(t+1) ,令 t=t+1,转步骤 3。 48 7.7.1 特征选择 — 遗传算法 关于遗传算法的说明 由步骤 3 保证了最终解是所搜索过的最优解; 常用的终止条件是群体的世代数超过一个给定 值,或连续数个世代都没有得到更优解; 群体的大小和演化代数是值得重视的参数;在一 定范围内,这两个参数大些能得到更好的解; 对交叉的亲本选择可采用如下规则:个体的性能 越好,被选中的可能性也越大
7.7.2特征选择举例 7.7.2特征选择举例 口例:用于癌症分类的基因选择 口基因选择的困难 ■根据癌症患者与正常人的基因表达数据,挑选出 ■人类大约有3万个左右的基因,但与某种疾病有 与癌症相关的基因: 关的基因不多; ■这种相关基因很可能就是治病基因,它可以帮助 我们查找病源,进而可以指导设计药物; ■基因数(成千上万)远远大于实验样本数(几 十). ■在选出的基因上作病患识别,可以提高识别率, 有助于临床诊断。 7.7.2特征选择举例 7.7.2特征选择举例 口单基因选择算法 口多基因选择算法 ■基于某种准则给每个基因打分,把得分低的基因 ■与分类器相联系,采用各种搜索算法或优化算法 滤掉,选取那些得分高的基因组成特征子集。 进行特征选择: ■如G-S算法:以Fisher判别指标对每个特征打 SVM Recursive Feature Elimination(SVM-RFE) 分,即根据每维特征上两类的距离和访查来评价 法:根据训练得到的SVM线形分类器的系数来 该特征的分类能力: 判断每个特征分量的重要性和分类能力,假设由 a准则函数:GS_correlao8eg=- SVM得到的分类器为f(x)=∑",x+b, σ+ 口当",较大时,第i个特征对分类器的影响较大; 其中H,o,,o5分别是基因g在训练样本中第一 类和第二类的均值和标准差。 口当",较小时,第i个特征对分类器的影响较小 口在分类时,该分值可作为每个特征的分类权重。 口当",为0时,第1个特征对分类器几乎没有影响
49 7.7.2 特征选择举例 例:用于癌症分类的基因选择 根据癌症患者与正常人的基因表达数据,挑选出 与癌症相关的基因; 这种相关基因很可能就是治病基因,它可以帮助 我们查找病源,进而可以指导设计药物; 在选出的基因上作病患识别,可以提高识别率, 有助于临床诊断。 50 7.7.2 特征选择举例 基因选择的困难 人类大约有 3 万个左右的基因,但与某种疾病有 关的基因不多; 基因数(成千上万)远远大于实验样本数(几 十)。 51 7.7.2 特征选择举例 单基因选择算法 基于某种准则给每个基因打分,把得分低的基因 滤掉,选取那些得分高的基因组成特征子集。 如 G-S 算法:以 Fisher 判别指标对每个特征打 分,即根据每维特征上两类的距离和访查来评价 该特征的分类能力: 准则函数: 其中 分别是基因 g 在训练样本中第一 类和第二类的均值和标准差。 在分类时,该分值可作为每个特征的分类权重。 52 7.7.2 特征选择举例 多基因选择算法 与分类器相联系,采用各种搜索算法或优化算法 进行特征选择; SVM Recursive Feature Elimination (SVM-RFE) 算 法:根据训练得到的 SVM 线形分类器的系数来 判断每个特征分量的重要性和分类能力,假设由 SVM 得到的分类器为 当 wi 较大时,第 i 个特征对分类器的影响较大; 当 wi 较小时,第 i 个特征对分类器的影响较小; 当 wi 为0时,第 i 个特征对分类器几乎没有影响。 f ( ) w x b, i x i