正在加载图片...
1(X)=E[4(x)]=p(x9)n XΩ P(x2) 同样Ω,类对2类的平均可分性信息 (x)-5(xp)n2)q X 1(X)=E[ 散度J定义为区分92类和,类的总平均信息: X J=1+1=J[p(x9)-p(x9)jm P(XQ 从小的定义可以看出,当两类分不完全性同p(X9)=p(XO)时,J=0:当两 类完全可分时,Jp=+0 基于概率的可分性判据优点是直接与识别的错误率相联系,缺点是需要已知各个类别类 概率密度函数,只有当我们预先已知各类别的概率分布时,才可以利用训练样本集合估计出 概率密度函数,但是对很多实际问题来说各类别的概率分布情况我们是无法预先知道的 53特征选择 所谓特征选择,就是从一组数量为N的特征中选择出一组数量为M的最优特征, N>M)这里有两个问题要解决,1、选择一种可分性判据作为最优特征选择的标准;2、 找到一个好的算法,来选择出这组最优特征。下面我们就来介绍几种特征选择的算法。 个最简单的思路是:我们假设N个特征之间相互独立,并且使用的可分性判据满足 可加性:J(X)=∑J(x),这时候我们只要把N个特征每个单独使用时的可分性判据 J(x)计算出来,然后从大到小排序:J(x)>J(x)>…>J/(x),选择出前M个特征 就是一组最优的特征。然而问题往往没有这么简单,这种特征独立性假设多数情况下并不成 立,并且可分性判据也不一定满足可加性。 另外一个简单的思路是(穷举法):对从N中选择出M个特征的所有组合情况都计算其 可分性判据,然后选择出其中的最大者作为解决方案。当N的数值比较小时,这种方法一 定是可行的,然而当N比较大时,这个组合数会非常大,比如N=100,M=10时,组合 数的数量级是103,当N=20,M=10时,组合数为184756。将所有的组合都计算一遍 显然是不现实的。因此我们需要有一个搜索算法来进行特征选择 最优搜索算法一分支定界算法 到目前为止唯一能够找到最优解的算法是“分支定界”算法。它所利用的是可分性判据48 ( ) ( ) ( ) ( ) ( ) ln i ij ij i j p I E l p d p  = =       X X X X X X X 同样  j 类对 i 类的平均可分性信息: ( ) ( ) ( ) ( ) ( ) ln j ji ji j i p I E l p d p  = =       X X X X X X X 散度 P J 定义为区分 i 类和  j 类的总平均信息: ( ) ( ) ( ) ( ) ln i P ij ji i j j p J I I p p d p  = + =  −       X X X X X X 从 P J 的定义可以看出,当两类分不完全性同 p p (X X  =  i j ) ( ) 时, 0 P J = ;当两 类完全可分时, P J = + 。 基于概率的可分性判据优点是直接与识别的错误率相联系,缺点是需要已知各个类别类 概率密度函数,只有当我们预先已知各类别的概率分布时,才可以利用训练样本集合估计出 概率密度函数,但是对很多实际问题来说各类别的概率分布情况我们是无法预先知道的。 5.3 特征选择 所谓特征选择,就是从一组数量为 N 的特征中选择出一组数量为 M 的最优特征, ( N M )这里有两个问题要解决,1、选择一种可分性判据作为最优特征选择的标准;2、 找到一个好的算法,来选择出这组最优特征。下面我们就来介绍几种特征选择的算法。 一个最简单的思路是:我们假设 N 个特征之间相互独立,并且使用的可分性判据满足 可加性: ( ) ( ) 1 N i i J J x = X =  ,这时候我们只要把 N 个特征每个单独使用时的可分性判据 J x( i) 计算出来,然后从大到小排序: J x J x J x ( 1 2 )    ( ) ( N ) ,选择出前 M 个特征 就是一组最优的特征。然而问题往往没有这么简单,这种特征独立性假设多数情况下并不成 立,并且可分性判据也不一定满足可加性。 另外一个简单的思路是(穷举法):对从 N 中选择出 M 个特征的所有组合情况都计算其 可分性判据,然后选择出其中的最大者作为解决方案。当 N 的数值比较小时,这种方法一 定是可行的,然而当 N 比较大时,这个组合数会非常大,比如 N =100,M =10 时,组合 数的数量级是 3 10 ,当 N = 20, M =10 时,组合数为 184756。将所有的组合都计算一遍 显然是不现实的。因此我们需要有一个搜索算法来进行特征选择。 一、最优搜索算法—分支定界算法 到目前为止唯一能够找到最优解的算法是“分支定界”算法。它所利用的是可分性判据
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有