·456 智能系统学 报 第4卷 50篇测试文本.得到在不同组合下属性约简结果如 1.00 表2所示,以及IQR和CHⅢ在不同的特征维度下的 0.95 微平均F1对比情况,如图1所示. A 0.90 表24种组合下属性约简结果 Table 2 Results of four combinations'attribute reduction 0.85 &一CH ×一1QR 属性维度 组合 微平均F 0.8040 60 80100120140160180200 原始约简 特征数 财经+教育+人才+娱乐7696 11 0.665 (c)教育/汽车/人才/卫生类组合 0.95 电脑+房产+汽车+科技6329 12 0.745 教育+汽车+人才+卫生6531 11 0.740 0.90 科技+汽车+体育+卫生653612 0.740 0.85 从表2可以看出,经过快速约简之后,特征维度 0.80 A—CHI ×—IQR 从六七千维减小到十几维,降低幅度很大,此时的微 平均F,值为70%左右,说明用粗糙集属性约简方 0.754 60 80100120140160180200 特征数 法得到的特征词具有很强的分类能力. (d)科技/汽车/体育/卫生类组合 结合表2和图1可以看出,补充适量的特征词 增大特征维度之后,例如40维时,微平均F1值为 图14种组合下IQR、CHⅢ微平均F比较 80%以上,提高的幅度很大.原因在于,当特征维度 Fig.1 Micro_F comparison of four combinations'IQR and 太小时,一部分文本因不含有这些特征词而表示为 CHI 空,导致分类器无法识别,误分几率增大 综合考虑以上4种组合的情况,如图2所示.对 从图1可以看出,特征维度增大到一定量时,微 于原始维度在7000左右的小文本集,用IQR和CHⅢ 平均F1值将达到90%以上,分类效果较佳;同时发 将维度降到200左右,均能保持相当好的分类效果, 现当特征维度继续增大时,微平均F值反而减小, 而且IQR比CⅢ的分类效果有一定程度的提高.主 说明过多的特征词会对分类产生干扰, 要原因是:IQR用快速约简得到的特征词具有很强的 0.92 分类能力,再根据波动性和类别情况补充特征词,不 0.90 0.88 仅尽可能解决了文本表示为空的问题,而且能够区分 义 0.86 有些低频词,所以分类效果比CⅢ稍好. 0.84 0.94 0.821 一IQR 0.92 0.80406080100120140160180200 特征数 0.9( &一CHI (a)财经/教育/人才/娱乐类组合 0.88 ×—IQR 0.8640 6080100120140160180200 1.00 特征数 0.95 图2IQR、C田微平均F,比较 0.90 Fig.2 Micro_F comparison of IQR and CHI 0.85 A一CHI 4 结论 X—1QB 0.8040 6080 100120140160180200 文本分类的分类效果很大程度上取决于文本特 特征数 征项的选取.在小文本集上,IQR的效果比CHⅢ稍 (b)电脑/房产/汽车/科技类组合 好,验证了QR算法的有效性.但实验仍存在不足 之处: