正在加载图片...
第5期 张志飞,等:基于粗糙集的文本分类特征选择算法 ·455· 删除了不具有类别区分度的属性.为了适合本文的 则令T=RU{x. 模型,对文献[7]中的方法做一定的修改 5)令R=T,如果满足 算法:属性局部排序和筛选算法 card(POSg(c))card(D), 输入:决策表I=(D,TU{c}). 则转到6):否则转到3). 输出:条件属性子集T, 6)初始化特征项集S=R 1)将决策表I按文本类别分割成类别矩阵. 7)根据属性局部排序和筛选算法中得到的Z 2)对每个类别矩阵,计算每个列向量的和(即 和B,将T-R中的属性按照B的值分组,组内按照 属性在该类别中的文档频率),得到向量X. Z的值从大到小排序. 3)将不同类别的向量X组成一个矩阵M,计算 8)平均从每组中按序选择属性构成N-IR|个 每个列向量的方差,得到向量Z,同时记录每个列向 属性添加到S. 量中最大值对应的文本类别,得到向量B. 9)输出特征项集S,算法终止, 4)按照Z中的值将属性从高到低排序,然后将 与快速约简QR算法的区别在于增加了第1) 大于指定阈值(一般为接近0的较小正数)的属性 步,对属性集进行局部排序和筛选,时间复杂度为 依序添加进T. O(1V。ID1),相比约简复杂度O(IT121D2)来说 5)输出条件属性子集T,算法终止 影响不大此外,属性集规模减小,能够避免盲目搜 2.2.3阙值的计算 索,有助于快速找到约简,提高整个算法的效率.算 根据训练文本计算改进的不可分辨关系中的阈 法还增加了第7和8步,得到约简之后,按照剩余属 值.原则是保证各类训练文本在T上是可分辨的, 性的类间波动及出现最多的类别补充一定数目的属 此时有card(POSr(D))=card(D). 性,构成文本分类的特征项集,时间复杂度相比约简 算法:改进不可分辨关系的阈值计算, 可以忽略.之所以这样做,是因为若约简出的特征词 输入:决策表I=(D,TU{c})和属性子集T. 较少,很多文本因不含这些特征词而表示为空,导致 输出:阈值B. 分类器无法识别,误分几率增大,分类效果降低。 1)初始化B=1. 2)对D中的每一篇文本和之后的所有文本进 3实验及其分析 行如下操作: 3.1实验设置 a)如果2篇文本的类别相同,则转d); 实验采用中科院计算所谭松波提供的语料库,共 b)计算2篇文本在T上的差异度t; 有财经、电脑、房产教育、科技、汽车、人才、体育、卫生 c)如果满足t<B,则重置B=t; 和娱乐10个类别,1500篇文本.预处理采用中科院IC d)转到2)进行下一轮循环 TCLAS进行分词,文本采用LTC权重评价方法]和向 3)对B做略微调整,如B=0.9·B. 量空间模型表示,分类器采用支持向量机川 4)输出最后的阈值B,算法终止. 文本分类一般采用查全率和查准率等指标来衡 2.2.4改进的快速约简算法 量分类系统的性能.查全率R是指分类正确的文本数 在1.2中介绍的快速约简算法基础上提出了改 与应有的分类文本数之比,反映分类的全面性;查准 进的快速约简(improved quick reduction,IQR)算 率P是指分类正确的文本数与实际分类的文本数之 法,将它作为本文进行属性约简的启发式算法 比,反映分类的准确性.通常使用宏平均和微平均作 算法:改进的快速约简(IQR)算法 为衡量性能参数,前者是先对每个类计算,然后对所 输入:决策表I=(D,TU{c}),特征数目N 有类求平均值,而后者是根据所有类计算,比前者更 输出:特征项集S. 为常用山.F,是查全率R和查准率P的综合评价: 1)对T进行局部排序和筛选,得到T. F=2PR/(P+R). (7) 2)初始化R=0. 因此,实验采用微平均F来评价算法的分类效果 3)令辅助集合T=R 3.2实验结果及分析 4)按序选择T-R中的属性,如果满足 考虑到属性约简的时间复杂度,该实验仅从10 card(POSRUIs(c))>card(POS(c)), 个类别中抽取4个类别,每个类别30篇训练文本
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有