·266 智能系统学报第6卷数字，这些数值就对应着输入文件中

正在加载图片...

·266 智能系统学报第6卷数字，这些数值就对应着输入文件中每个样本的分词会导致特征选择的误差，影响文本内容的表示，所类类别经过系统分类的结果势必与理想情况有一提出的哈萨克文词干提取规则还不够完善，仍需要定的差距，衡量差距的方法就是不断地调试参数直继续做详细的划分规则. 到满足一定的要求为止.最后，还要通过svmscale. 今后的研究中，在做好基础性工作的前提下，深 exe对训练数据与测试数据进行简单缩放，入研究哈萨克文文本分类及其优化技术，利用现有通过与文本实际类别对比统计，可得如图9所语料库，结合其他新的文本分类方法构建混合型分示的哈萨克文文本分类器的性能，类器以提高文本分类效果。 35 30 ·正确分类参考文献： -错误分类 [1]LV lin,LIU Yushu.Research of English text classification 20 15 methods based on semantic meaning[C]//2005 Internation- 10 al Conference on Information and Communication Technolo gies.Karachi,Pakistan,2005:689-700. 015 2025303540 4550 55 [2]陈立伟，井志强，葛秘蕾.基于特征项扩展的中文文本分学习样本数类方法[J].应用科技，2010,37(3)：1-5. 图9分类正确率随学习样本数变化曲线 CHEN Liwei,JING Zhiqiang,GE Milei.A Chinese text Fig.9 Classification accuracy changes with the number classification method based on feature expansion[J].Ap- of training samples plied Science and Technology,2010,37(3):1-5. 实验结果表明，随着样本数的增加，分类器的区 [3]张彰，樊孝忠.一种改进的基于SVM的文本分类算法分度也明显提高.当然，所增加的样本质量也是直接 [J].计算机工程与设计，2006,27(21)：40784080. 影响区分度的因素，所以保证样本质量才能得到较 ZHANG Zhang,FAN Xiaozhong.Improved VSM based on Chinese text categorization[J].Computer Engineering and 理想的效果.在文献[15]的实验中还表明：选择不 Design,2006,27(21):4078-4080. 同的采样数n,可以得到近似的结果. [4]JOACHIMS T.Text categorization with support vector ma- 进一步的研究表明：n越小，分类效果越好，但 chines:leaming with many relevant features[C]//Proceed- 需要学习的次数就越多，计算的复杂度就越大.从分 ings of the 10th European Conference on Machine Learning 类正确率和计算复杂度综合考虑，需要选择一个恰 (ECML-98).Chemnitz,Germany:Springer Verlag,1998: 当的n值. 137-142. [5]VAPNIK V N.Statistical leaming theory[M].New York, 4结束语 USS:John Wiley Sons Ine,1998:375-570. 本文提出了一种基于主动学习支持向量机的哈 [6]SEBASTIANI F.Machine leaming in automated text catego- 萨克文文本分类方法.首先，实现哈萨克文词干解析 rization[J].ACM Computing Surveys,2002,34(1):1- 47. 以完成哈萨克文文本的读取预处理，然后用文本频 [7]TONG S,KOLLER D.Support vector machine active learn- 率比值法DR进行特征降维，用向量空间模型VSM ing with applications to text classification[J].Journal of 表示文本，最后采用支持向量机对文本进行训练和 Machine Learing Research,2001,2(1):45-66. 分类，给出了哈萨克文文本分类方法的实验结果与 [8]BURGES J C.A tutorial on support vector machines for pat- 分析，这也初步实现了基于支持向量机的哈萨克文 tem recognition[J].Data Mining and Knowledge Discover- 文本分类工作，达到了预期研究目标 y,1998,2(2):121-167. 根据实验结果，与其他性能较好的分类软件相 [9]朱红斌，蔡郁.基于主动学习支持向量机的文本分类比尚有一定的差距.究其原因，主要有以下几点.1) [J].计算机工程应用，2009,45(2)：134-136. 人工创建的语料库的质量和数量会直接影响最终结 ZHU Hongbin,CAI Yu.Text categorization based on active 果.从数量上说，本文使用的语料相对较小，因此影 learning support vector machines[J].Computer Engineering and Applications,2009,45(2):134-136. 响了语料的质量.通常，语料质量的提高可以通过增 [10]刘宏，屠轶清，黄上腾.一种新的支持向量机主动学习加文本的数量来弥补，降低类别代表性不足的缺点，策略及其在文本分类中的应用[J].计算机科学，2003，更能提供足够的经验来强化典型和淡化例外.同时， 30(6):110-112 测试语料也会一定程度上影响最终结果的正确性 LIU Hong,TU Zhiqing,HUANG Shangteng.A new sup- 2)对哈萨克语单词的切分处理.系统错误的切分单 port vector machines active leaming approach and its appli-

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】一种基于主动学习支持向量机哈萨克文文本分类方法