·456 智能系统学报第4卷 50篇测试文本.得到在不同组合

正在加载图片...

·456 智能系统学报第4卷 50篇测试文本.得到在不同组合下属性约简结果如 1.00 表2所示，以及IQR和CHⅢ在不同的特征维度下的 0.95 微平均F1对比情况，如图1所示. A 0.90 表24种组合下属性约简结果 Table 2 Results of four combinations'attribute reduction 0.85 &一CH ×一1QR 属性维度组合微平均F 0.8040 60 80100120140160180200 原始约简特征数财经+教育+人才+娱乐7696 11 0.665 (c)教育/汽车/人才/卫生类组合 0.95 电脑+房产+汽车+科技6329 12 0.745 教育+汽车+人才+卫生6531 11 0.740 0.90 科技+汽车+体育+卫生653612 0.740 0.85 从表2可以看出，经过快速约简之后，特征维度 0.80 A—CHI ×—IQR 从六七千维减小到十几维，降低幅度很大，此时的微平均F,值为70%左右，说明用粗糙集属性约简方 0.754 60 80100120140160180200 特征数法得到的特征词具有很强的分类能力. (d)科技/汽车/体育/卫生类组合结合表2和图1可以看出，补充适量的特征词增大特征维度之后，例如40维时，微平均F1值为图14种组合下IQR、CHⅢ微平均F比较 80%以上，提高的幅度很大.原因在于，当特征维度 Fig.1 Micro_F comparison of four combinations'IQR and 太小时，一部分文本因不含有这些特征词而表示为 CHI 空，导致分类器无法识别，误分几率增大综合考虑以上4种组合的情况，如图2所示.对从图1可以看出，特征维度增大到一定量时，微于原始维度在7000左右的小文本集，用IQR和CHⅢ 平均F1值将达到90%以上，分类效果较佳；同时发将维度降到200左右，均能保持相当好的分类效果，现当特征维度继续增大时，微平均F值反而减小，而且IQR比CⅢ的分类效果有一定程度的提高.主说明过多的特征词会对分类产生干扰，要原因是：IQR用快速约简得到的特征词具有很强的 0.92 分类能力，再根据波动性和类别情况补充特征词，不 0.90 0.88 仅尽可能解决了文本表示为空的问题，而且能够区分义 0.86 有些低频词，所以分类效果比CⅢ稍好. 0.84 0.94 0.821 一IQR 0.92 0.80406080100120140160180200 特征数 0.9( &一CHI (a)财经/教育/人才/娱乐类组合 0.88 ×—IQR 0.8640 6080100120140160180200 1.00 特征数 0.95 图2IQR、C田微平均F,比较 0.90 Fig.2 Micro_F comparison of IQR and CHI 0.85 A一CHI 4 结论 X—1QB 0.8040 6080 100120140160180200 文本分类的分类效果很大程度上取决于文本特特征数征项的选取.在小文本集上，IQR的效果比CHⅢ稍 (b)电脑/房产/汽车/科技类组合好，验证了QR算法的有效性.但实验仍存在不足之处：

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于粗糙集的文本分类特征选择算法