正在加载图片...
·266 智能系统学报 第6卷 数字,这些数值就对应着输入文件中每个样本的分 词会导致特征选择的误差,影响文本内容的表示,所 类类别经过系统分类的结果势必与理想情况有一 提出的哈萨克文词干提取规则还不够完善,仍需要 定的差距,衡量差距的方法就是不断地调试参数直 继续做详细的划分规则. 到满足一定的要求为止.最后,还要通过svmscale. 今后的研究中,在做好基础性工作的前提下,深 exe对训练数据与测试数据进行简单缩放, 入研究哈萨克文文本分类及其优化技术,利用现有 通过与文本实际类别对比统计,可得如图9所 语料库,结合其他新的文本分类方法构建混合型分 示的哈萨克文文本分类器的性能, 类器以提高文本分类效果。 35 30 ·正确分类 参考文献: -错误分类 [1]LV lin,LIU Yushu.Research of English text classification 20 15 methods based on semantic meaning[C]//2005 Internation- 10 al Conference on Information and Communication Technolo gies.Karachi,Pakistan,2005:689-700. 015 2025303540 4550 55 [2]陈立伟,井志强,葛秘蕾.基于特征项扩展的中文文本分 学习样本数 类方法[J].应用科技,2010,37(3):1-5. 图9分类正确率随学习样本数变化曲线 CHEN Liwei,JING Zhiqiang,GE Milei.A Chinese text Fig.9 Classification accuracy changes with the number classification method based on feature expansion[J].Ap- of training samples plied Science and Technology,2010,37(3):1-5. 实验结果表明,随着样本数的增加,分类器的区 [3]张彰,樊孝忠.一种改进的基于SVM的文本分类算法 分度也明显提高.当然,所增加的样本质量也是直接 [J].计算机工程与设计,2006,27(21):40784080. 影响区分度的因素,所以保证样本质量才能得到较 ZHANG Zhang,FAN Xiaozhong.Improved VSM based on Chinese text categorization[J].Computer Engineering and 理想的效果.在文献[15]的实验中还表明:选择不 Design,2006,27(21):4078-4080. 同的采样数n,可以得到近似的结果. [4]JOACHIMS T.Text categorization with support vector ma- 进一步的研究表明:n越小,分类效果越好,但 chines:leaming with many relevant features[C]//Proceed- 需要学习的次数就越多,计算的复杂度就越大.从分 ings of the 10th European Conference on Machine Learning 类正确率和计算复杂度综合考虑,需要选择一个恰 (ECML-98).Chemnitz,Germany:Springer Verlag,1998: 当的n值. 137-142. [5]VAPNIK V N.Statistical leaming theory[M].New York, 4结束语 USS:John Wiley Sons Ine,1998:375-570. 本文提出了一种基于主动学习支持向量机的哈 [6]SEBASTIANI F.Machine leaming in automated text catego- 萨克文文本分类方法.首先,实现哈萨克文词干解析 rization[J].ACM Computing Surveys,2002,34(1):1- 47. 以完成哈萨克文文本的读取预处理,然后用文本频 [7]TONG S,KOLLER D.Support vector machine active learn- 率比值法DR进行特征降维,用向量空间模型VSM ing with applications to text classification[J].Journal of 表示文本,最后采用支持向量机对文本进行训练和 Machine Learing Research,2001,2(1):45-66. 分类,给出了哈萨克文文本分类方法的实验结果与 [8]BURGES J C.A tutorial on support vector machines for pat- 分析,这也初步实现了基于支持向量机的哈萨克文 tem recognition[J].Data Mining and Knowledge Discover- 文本分类工作,达到了预期研究目标 y,1998,2(2):121-167. 根据实验结果,与其他性能较好的分类软件相 [9]朱红斌,蔡郁.基于主动学习支持向量机的文本分类 比尚有一定的差距.究其原因,主要有以下几点.1) [J].计算机工程应用,2009,45(2):134-136. 人工创建的语料库的质量和数量会直接影响最终结 ZHU Hongbin,CAI Yu.Text categorization based on active 果.从数量上说,本文使用的语料相对较小,因此影 learning support vector machines[J].Computer Engineering and Applications,2009,45(2):134-136. 响了语料的质量.通常,语料质量的提高可以通过增 [10]刘宏,屠轶清,黄上腾.一种新的支持向量机主动学习 加文本的数量来弥补,降低类别代表性不足的缺点, 策略及其在文本分类中的应用[J].计算机科学,2003, 更能提供足够的经验来强化典型和淡化例外.同时, 30(6):110-112 测试语料也会一定程度上影响最终结果的正确性 LIU Hong,TU Zhiqing,HUANG Shangteng.A new sup- 2)对哈萨克语单词的切分处理.系统错误的切分单 port vector machines active leaming approach and its appli-
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有