第5期 张志飞,等:基于粗糙集的文本分类特征选择算法 ·457· 1)决策表的属性值为布尔型,丢失了部分信 duction of knowledge[J].Computer Research and Develop- 息,可尝试用词频表示; ment,1999,36(6):681684. 2)IQR和CHⅢ的对比验证是在小文本集上完 [7]盛晓炜,江铭虎.基于Rough集约简算法的中文文本自 成的,没有推广到大文本集上,原因在于本实验采用 动分类研究[J].电子与信息学报,2005,27(7):1047 1052. 的属性约简算法的时间复杂度高。 SHENG Xiaowei,JIANG Minghu.Automatic classification 因此,本文下一步的工作主要在于设计时间复 of Chinese documents based on rough set and improved 杂度较小的属性约简算法,以提高约简速度,并将其 quick-reduce algorithm J].Electronics and Information 应用到大文本集上,分析其实际应用效果 Technology,2005,27(7):1047-1052. 参考文献: [8]AAS K,EIKVIL L.Text categorisation:a survey[R].Os- lo:Norwegian Computing Center,1999. [1]苗夺谦,卫志华.中文文本信息处理的原理与应用 作者简介: [M].北京:清华大学出版社,2007:214-230 张志飞,男,1986年生,硕士研究 [2]周屹.基于Naive Bayes的文本分类器的设计与实现 生,主要研究方向为文本挖掘、智能信 [J].黑龙江工程学院学报,2007,21(2):2830. 息处理, ZHOU Yi.A text classifier's design and realization based on Naive Bayes method[J].Journal of Heilongjiang Institute of Technology,2007,21(2):28-30. [3]YANG Yiming,PEDERSEN J O.A comparative study on feature selection in text categorization[C]//Proceedings of 苗夺谦,男,1964年生,教授、博士 the Fourteenth International Conference on Machine Learn- 生导师.中国计算机学会人工智能与模 ing.Nashville,USA,1997:412-420. 式识别专业委员会委员,中国人工智能 [4]王国胤.Rough集理论与知识获取[M].西安:西安交 学会理事,上海市计算机学会理论与人 通大学出版社,2001:1-100. 工智能专业委员会委员.主要研究方向 [5]MAUDAL O.Preprocessing data for neural network based 为粗糙集理论、粒计算、主曲线、网络智 classifiers:rough sets vs principal component analysis[R]. 能、数据挖掘等.已主持完成多项国家、省部级自然科学基金 Edinburgh:University of Edinburgh,1996. 与科技攻关项目,并参与完成“973”计划子项目1项,“863” [6]苗夺谦,胡桂荣.知识约简的一种启发式算法[J].计 计划项目2项.曾获国家教委科技进步三等奖、山西省科技 算机研究与发展,1999,36(6):681684. 进步二等奖、教育部科技进步一等奖等.发表学术论文120 MIAO Duogian,HU Guirong.A heuristic algorithm for re- 余篇,其中被SCI和E等收录50余篇,出版学术专著3部. 欢迎订阅《机器人技术与应用》杂志 《机器人技术与应用》是由国家863机器人技术主题专家组和北方科技信息研究所共同主办的一本综合信息 类刊物,是我国惟一一本介绍机器人信息,传播机器人知识的刊物.本刊为国际机器人联合会(FR)会员单位,创 刊于1988年,是中国学术期刊(光盘版)与《中国期刊网》全文收录期刊,在国内自动化领域享有很高的声誉. 《机器人技术与应用》主要报道工业自动化、智能化工程机械及零部件、数控机床、机器人技术领域所取得的 新技术、新成果、科技动态与信息.传播企业信息和市场行情,交流业内创新成果,推动行业技术进步 《机器人技术与应用》杂志为双月刊,大16开本,48页.国内统一刊号:CN11-3520/TP;广告经营许可证号:京 商工商广字0041号;邮发代号:82675.全国各地邮局均可订阅,也可以直接与本社联系邮购. 每期定价10.00元,全年定价60.00元. 地址:北京2413信箱41分箱《机器人技术与应用》杂志社 邮编:100089 电话传真:01068961813 网站:www.ta.org.cn E-mail robot@onet.com.cn