·454· 智能系统学报第4卷 I=(U,A),其中

正在加载图片...

·454· 智能系统学报第4卷 I=(U,A),其中非空有限集合U称为论域，非空有特征项集T={t1,t2,…,tm},每篇文本在特征项上限集合A称为属性集.对于任一属性a∈A,存在一的取值为1和0，分别表示该特征项在文本中出现个信息函数f:U→V.,V。称为属性a的值域.通常和不出现.将D作为论域，T作为条件属性集，文本属性集A可以划分为2个子集：条件属性集和决策类别c作为决策属性，c的值域V.={c1,c2,…,cp}, 属性集，分别用符号C和D表示，此时的信息表称构成文本分类决策表，如表1所示. 为决策表。表1文本分类决策表设属性子集BCA,称二元关系ND(B)为论域 Table 1 A decision table for text categorization U上的B-不可分辨关系，定义4] T ND(B)={(x,y）∈U2IHa∈B, D a(x)=a(y). (1) 2 如果(x,y)∈ND(B),则称对象x和y在属性集B d 0 0 上是不可分辨的.显然，ND(B)是一个等价关系， 0 1 [x]a表示包含对象x的ND(B)的等价类，设论域子集XCU和属性子集BCA,X的B-下 de 1 0 近似和B-上近似分别用BX和BX表示，定义俐 BX =xI [x]X, (2) 在文本分类中，此决策表具有如下特点： BX={x[x]anX≠0. (3) 1)条件属性集规模庞大，即m值很大，原因是前者表示根据B可以确定归入到X中的对象集合，后文本向量空间的高维性者表示根据B可能归人到X中的对象集合；而集合 2)属性取值极不均匀，即0、1分布差异大，原 POS(X)=BX (4) 因是每篇文本的项相对很少，称为X的B-正域 2.2改进的快速约简 1.2属性约简文本分类决策表的约简要求不是很严格，既不约简是保证正域不变的最小属性集合.一个信需要是最小约简，也不需要具有完备性.因此可息表可能存在多个约简.计算最小约简是NP-hard 以栖性完备性，以减少时间上的开销. 问题，因此采用启发式方法寻找最优或次优约简，如 2.2.1改进的不可分辨关系 Maudal提出的基于正域的快速约简算法[]，苗夺谦粗糙集的基础是不可分辨关系，传统意义上认等人提出的基于互信息的属性约简算法[等. 为2个对象在属性集B上不可分辨当且仅当B中快速约简(quick reduction,QR)算法]的基本所有属性的取值都相等.由于文本分类决策表中0、思想是不断选择使正域大小变化最大的属性，直到 1分布很不均匀，传统概念过于严格，使得2个文本正域大小和条件属性正域的大小相等为止，算法：快速约简(QR)算法. 在属性集上总是不可分辨的，无法进行后续的分析输入：决策表I=(U,CUD) 于是引入差异度的概念，表示在属性集上取值不相输出：约简属性R. 等的属性所占的比例 1)初始化R=0. 设对象x和y,属性子集BCT,x和y在B上的 2)令辅助集合T=R 差异度定义为 3)对每个属性x∈C-R,如果满足 Da(x,y)= card(POSRUL(D))>card(POS(D)), card({a∈Bla(x)≠a(y)}) (5) 则令T=RU{x}. card(B) 4)令R=T,如果满足设定阈值B,只要2个对象的差异度低于该阈值，就 card(POSR(D))=card(POSc(D)), 说明2个对象在给定的属性集上不可分辨.于是不则转到5)；否则转到2). 可分辨关系可修改为 5)输出约简属性R,算法终止 IND'(B)={(x,y)∈U2IDa(x,y）<B.(6) 2基于粗糙集的特征选择 2.2.2属性局部排序和筛选利用统计学的方差来衡量属性在类别间的波动 2.1模型构建情况.波动越大，属性越具有类别区分度.对于波动根据训练文本集D={d1,d2,…,dn}得到候选特别不明显的，将其删除.因此该步骤在一定程度上

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于粗糙集的文本分类特征选择算法