第4卷第5期 智能系统学报 VoL.4 No.5 2009年10月 CAAI Transactions on Intelligent Systems 0ct.2009 doi:10.3969/j.i8sn.16734785.2009.05.011 基于粗糙集的文本分类特征选择算法 张志飞12,苗夺谦12 (1.同济大学计算机科学与技术系,上海201804;2.同济大学嵌入式系统与服务计算教有部重点实验室,上海201804) 摘要:文本分类是根据未知文本的内容将其划分到一个或多个预先定义的类别的过程,是许多基于内容的信息管 理任务的重要组成部分.文本分类问题的难点是特征空间的高维性,通常采用特征选择作为降维的重要方法.将属 性约简和文本分类的特点相结合,提出了一种基于粗糙集的特征选择算法即改进的快速约简算法.实验表明该算法 是有效的,不仅可以降低特征空间的维度,而且能够维持高精度 关键词:文本分类;粗糙集:特征选择;快速约简 中图分类号:TP391文献标识码:A文章编号:1673-4785(2009)05045305 Feature selection for text categorization based on rough set ZHANG Zhi-fei2,MIAO Duo-qian.2 (1.Department of Computer Science and Technology,Tongji University,Shanghai 201804,China;2.The Key Laboratory of Embed- ded System and Service Computing,Ministry of Education,Shanghai 201804,China) Abstract:Text categorization assigns text documents to one or more predefined categories based on their contents. This assists content-based information management.A difficult problem in this task is the high dimensionality of the feature space.To resolve this,a feature selection method was employed to reduce the dimensions.A new approach based on rough sets,that we call it the improved quick reduction (IQR)algorithm,was proposed.It involved both attribute reduction and text categorization.The experimental results demonstrated the effectiveness of the proposed algorithm.It reduced the dimensionality of feature space,while maintaining high accuracy. Keywords:text categorization;rough set;feature selection;quick reduction 自20世纪80年代以来,信息化的浪潮席卷全 了特征项和类别的负相关程度,可能选择在某类中 球.“信息爆炸”虽然提供了丰富多彩的信息资源, 出现较少而在其他类中普遍存在的特征,这会对分 但是限制了人们有效地获取信息的能力.文本分类 类结果产生干扰 是根据给定文本的内容将其判为事先确定的若干个 粗糙集理论是20世纪80年代由波兰数学家 文本类别中的某一类或某几类的过程1],具有广 Pawlak首先提出的一个分析数据的数学理论.它不 泛的应用.但其面临的一大难题就是,文本特征空间需要任何预备的或额外的有关数据信息,能够有效 的高维性,因此需要在保证一定分类精度的同时对 地分析和处理不完备、不一致、不精确的数据4).粗 文本特征进行降维.降维的2种常用方法是特征选 糙集的核心是属性约简、删除冗余属性、获取对于决 择和特征抽取.特征选择是指从原始特征项集中选 策分类最有用的属性,与特征选择有相似之处.于 取一个子集构造新的特征空间.常用算法是基于阈 是,将粗糙集的属性约简和文本分类的特点相结合, 值的过滤,如卡方(CHI)统计、信息增益(information 提出改进的快速约简(improved quick reduction, gain,lIG)、互信息(mutual infomation,MI).Yang] IQR)算法,选择有用的特征表示文本,并通过实验 通过实验分析说明了CHⅢ的分类效果比IG和MI 验证了该算法的有效性。 好.但是CⅢⅡ也存在一个不足之处,即过多地考虑 1粗糙集的基本理论 收稿日期:2008-11-16. 基金项目:国家自然科学基金资助项目(60775036,60475019):高等 1.1基本概念 学校博士学科点专项科研基金资助项目(20060247039). 通信作者:张志飞.E-mail:2zfj01@126.com. 在粗糙集理论中,一个信息表定义为二元组