正在加载图片...
第5期 古丽娜孜·艾力木江,等:基于支持向量的最近邻文本分类方法 ·805· 优化改善基础上实现了本研究哈萨克语文本的预 能获得较好分类精度的优点,另外,本算法没有 处理。分类任务的实现运用了SVM、KNN与本 去定义KNN算法的k参数,也没有跟所有类所有 文提出的SV-NN算法,并对3种算法分类精度进 训练样本进行距离运算。所以,本研究提出的算 行了较全面的对比分析。通过对表2和图9上的 法无论从算法复杂度的分析还是算法收敛速度的 仿真实验数字的对比分析,发现SVM算法优于 分析都是有效的。当然,总体精度还是没有像 KNN算法,而SV-NN算法优于SVM算法。SV-NN 中、英文等其他语言文本分类精度那么理想,因 方法F,指标除了教育类和法律类以外在其他类 为涉及很多方面的因素,如研究语料库语料文档 上的F,指标都高于都SVM、KNN对应指标。SVM、 数量、每一类文档本身的质量、词干表里已录用 KNN和SV-NN平均分类精度分别为0.754、 的词干数量和质量、词干提取程序解析规则的细 0.731和0.778,这说明本文提出算法对所有类别 节等,但目前所获得的分类精度比前期系列研究 文档词的召回率和区分度较稳定。本研究提出的 成果理想,本算法的文本分类性能有了很大的提 算法模型继承了SVM算法在有限样本情况下也 升也较好地提高了召回率。 表2SVM、KNN、SVNN的分类精度对比 Table 2 SVM KNN and SV-NN comparison of classification accuracy SVM KNN SV-NN 类别名 精度 召回率 F 精度 召回率 F 精度 召回率 F 计算机 0.665 0.651 0.658 0.636 0.649 0.642 0.696 0.647 0.671 经济 0.781 0.862 0.819 0.768 0.858 0.811 0.710 0.870 0.830 教育 0.715 0.691 0.703 0.698 0.675 0.686 0.615 0.651 0.632 法律 0.889 0.891 0.895 0.860 0.865 0.862 0.879 0.881 0.878 医学 0.812 0.881 0.845 0.799 0.892 0.843 0.877 0.881 0.879 政治 0.563 0.598 0.580 0.513 0.589 0.548 0.673 0.698 0.685 交通 0.791 0.721 0.754 0.769 0.711 0.739 0.891 0.851 0.870 体育 0.811 0.785 0.796 0.801 0.726 0.762 0.791 0.711 0.749 平均 0.754 0.759 0.756 0.731 0.746 0.738 0.778 0.774 0.775 1.0 1.0 0.8 0.8 0.6 0.6 0.4 ◆SVM精度 04 ◆一KNN精度 0.2 ■一SVM召回率 0.2 一KNN召回率 KNN F, 0 0 教育 计算机 (a)SVM分类精度 (b)KNN分类精度 1.0 1.0 0.8 0.8 0.6 0.6 04 ◆-SVNN精度 0.4 ◆F,SVM ■SV-NN召回率 0.2 F KNN SV-NNF 0.2 F.SV-NN 0 香我 0 (c)SV-NN分类精度 (d)3个方法F,指标的对比 图9分类精度的对比分析(每一类别均含175篇文档) Fig.9 Comparative analysis of classification accuracy (each category contains 175 documents)优化改善基础上实现了本研究哈萨克语文本的预 处理。分类任务的实现运用了 SVM、KNN 与本 文提出的 SV-NN 算法,并对 3 种算法分类精度进 行了较全面的对比分析。通过对表 2 和图 9 上的 仿真实验数字的对比分析,发现 SVM 算法优于 KNN 算法,而 SV-NN 算法优于 SVM 算法。SV-NN 方法 F1 指标除了教育类和法律类以外在其他类 上的 F1 指标都高于都 SVM、KNN 对应指标。SVM、 KNN 和 SV-NN 平均分类精度分别 为 0.754、 0.731 和 0.778,这说明本文提出算法对所有类别 文档词的召回率和区分度较稳定。本研究提出的 算法模型继承了 SVM 算法在有限样本情况下也 能获得较好分类精度的优点,另外,本算法没有 去定义 KNN 算法的 k 参数,也没有跟所有类所有 训练样本进行距离运算。所以,本研究提出的算 法无论从算法复杂度的分析还是算法收敛速度的 分析都是有效的。当然,总体精度还是没有像 中、英文等其他语言文本分类精度那么理想,因 为涉及很多方面的因素,如研究语料库语料文档 数量、每一类文档本身的质量、词干表里已录用 的词干数量和质量、词干提取程序解析规则的细 节等,但目前所获得的分类精度比前期系列研究 成果理想,本算法的文本分类性能有了很大的提 升也较好地提高了召回率。 表 2 SVM、KNN、SV-NN 的分类精度对比 Table 2 SVM KNN and SV–NN comparison of classification accuracy 类别名 SVM KNN SV-NN 精度 召回率 F1 精度 召回率 F1 精度 召回率 F1 计算机 0.665 0.651 0.658 0.636 0.649 0.642 0.696 0.647 0.671 经济 0.781 0.862 0.819 0.768 0.858 0.811 0.710 0.870 0.830 教育 0.715 0.691 0.703 0.698 0.675 0.686 0.615 0.651 0.632 法律 0.889 0.891 0.895 0.860 0.865 0.862 0.879 0.881 0.878 医学 0.812 0.881 0.845 0.799 0.892 0.843 0.877 0.881 0.879 政治 0.563 0.598 0.580 0.513 0.589 0.548 0.673 0.698 0.685 交通 0.791 0.721 0.754 0.769 0.711 0.739 0.891 0.851 0.870 体育 0.811 0.785 0.796 0.801 0.726 0.762 0.791 0.711 0.749 平均 0.754 0.759 0.756 0.731 0.746 0.738 0.778 0.774 0.775 0 0.2 0.4 0.6 0.8 1.0 精度、召回率与 F1 SVM F1 SVM 精度 SVM 召回率 (a) SVM 分类精度 KNN 精度 KNN 召回率 KNN F1 0 0.2 0.4 0.6 0.8 1.0 精度、召回率与 F1 (b) KNN 分类精度 0 0.2 0.4 0.6 0.8 1.0 精度、召回率与 F1 SV-NN F1 SV-NN 精度 SV-NN 召回率 (c) SV-NN 分类精度 F1 SVM F1 KNN F1 SV-NN 0 0.2 0.4 0.6 0.8 1.0 F1 (d) 3 个方法 F1 指标的对比 计算机 经济 教育 法律 医学 政治 交通 体育 平均 计算机 经济 教育 法律 医学 政治 交通 体育 平均 计算机 经济 教育 法律 医学 政治 交通 体育 平均 计算机 经济 教育 法律 医学 政治 交通 体育 平均 图 9 分类精度的对比分析(每一类别均含 175 篇文档) Fig. 9 Comparative analysis of classification accuracy (each category contains 175 documents) 第 5 期 古丽娜孜·艾力木江,等:基于支持向量的最近邻文本分类方法 ·805·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有