正在加载图片...
第3期 古丽娜孜,等:一种基于主动学习支持向量机哈萨克文文本分类方法 ·265 5 也 2点 图5词频统计结果 Fig.5 Statistical results of term frequency .D131378917368171 R黑 0.018152日947309421 》.01315794730湖421c 0.0131529473421 00243902439z439y 03585155155. .013157B947309421 0.06658516585316585. 0.014925373134328 .013157H9473f84213 0213424319.249 0263157894736842.节 .223B0597014925C 947368421 0.24390249902439。 0024390241902393 1.013157097362 07247115425 0a7247H15042 0.01875L 0072463711s9425se 091875 .007246378"150425 0.0187316 0SG7g710H440278 月02I7013B434T28 0.01875 07171304372自. 0.00625-3 0.012359 0298550224f378 0.03754:3 D0289855072463768 0.025450 0144275231411 0.0065.5 0.0072463701159424J 0072437611642.LL 0.0t8753-小 图6词权重计算结果 Fig.6 Term weight computed results 图7为生成的文档向量.它是文档的特征向量 svmtrain.exe、根据已有SVM模型对数据集进行预 表示,冒号前的数字表示特征词的编号,冒号后的数 测的svmpredict..exe以及对训练数据与测试数据进 字表示生成的文档的特征向量, 行简单缩放的svmscale.exe.它们都可以直接在 DOS环境中使用,也便于研究者根据需要进行改进 h.01203914i3:.0557497257h:0.0431371972767:04 1744 (譬如设计符合自己特定问题需要的核函数等) H69019441470.010295063140.301 11920.93899461944130.030电98691944104:.69205991327062 通过执行svmtrain.exe实现对训练数据集的训 019441390.900305091944240.0.005 练,可获得如图8所示的SVM模型文件, 0.00991g41T:0.1g电33ta4430:0.50300gn99101: ,G19167313-14:001567475760,4615367497237674 svmn-lype 7940413130.00711m447794641313:0.0g75109447744413140-0.C0 nr-class 3 lotat-sv 50 图7文本向量文件 n-5yn1z101010 Fig.7 Text vector files 0.903080R0130:0.90:50g000140:0.8001099141:0.9030a909142 3.2分类器的模型表示 207:0.9030p附20周E0.00303999209:0.988999Z0:.903089992 分类器在整个文本分类系统中处于核心地位, 图8分类器模型文件 本文采用了台湾大学LibSVM的开源代码.LibSVM Fig.8 Classifier model file 在给出源代码的同时还提供了Windows操作系统下 根据训练获得的模型,可对数据集进行预测.经 的可执行文件,包括:进行支持向量机训练的 svmpredict分类后,在存放结果的文件中会出现一列
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有