【自然语言处理与理解】基于支持向量的最近邻文本分类方法

团购合买资源类别：文库，文档格式：PDF，文档页数：9，文件大小：1.12MB

第13卷第5期智能系统学报 Vol.13 No.5 2018年10月 CAAI Transactions on Intelligent Systems Oct.2018 D0:10.11992/tis.201711007 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.tp.20180423.1540.016.html 基于支持向量的最近邻文本分类方法古丽娜孜·艾力木江23，乎西旦·居马洪，孙铁利2，梁义 (1.伊犁师范学院电子与信息工程学院，新疆伊宁835000,2.东北师范大学计算机科学与技术学院，吉林长春130117：3.东北师范大学地理科学学院，吉林长春130024) 摘要：文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中，文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的，根据哈萨克语语法规则设计实现哈萨克语文本的词干提取，完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式，避免k参数的选定，以SVM与 KNN分类算法的特殊组合算法(SV-NN)实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验，数值实验展示了提出算法的有效性并证实了理论结果。关键词：词干提取；预处理：支持向量机：文本分类：分类精度中图分类号：TP309文献标志码：A文章编号：1673-4785(2018)05-0799-09 中文引用格式：古丽娜孜·艾力木江，乎西旦·居马洪，孙铁利，等.基于支持向量的最近邻文本分类方法.智能系统学报， 2018,13(5):799-807. 英文引用格式：GULNAZ Alimjan,HURXIDA Jumahun,SUN Tieli,etal.The nearest neighbor text classification method based on support vector[J.CAAI transactions on intelligent systems,2018,13(5):799-807. The nearest neighbor text classification method based on support vector GULNAZ Alimjan2,HURXIDA Jumahun',SUN Tieli,LIANG Yi' (1.Department of Electronics and Information Engineering,Yili Normal University,Yining 835000,China;2.School of Information Science and Technology,Northeast Normal University,Changchun 130117,China;3.Department of Geographical Science,North- east Normal University,Changchun 130024,China) Abstract:Text categorization automatically assigns a set of predefined categories or topics to a document.In text classi- fication,the representation of the document has a great influence on the learning performance of the learning machine. The aim is to achieve Kazakh text classification,according to Kazakh grammar rules,the stemming of Kazakh texts is designed to complete the preprocessing of Kazakh text.A sample distance formula based on the latest support vector machine(SVM)is proposed to avoid the selection of k-parameters.The Kazakh texts are classified by special combina- tion of SVM and KNN classification algorithms (SV-NN).Combining the corpus of Kazakh text corpora constructed by himself,text categorization simulation experiments were conducted.Numerical experiments showed the effectiveness of the proposed algorithm and confirmed the theoretical results. Keywords:stemming;preprocessing;support vector machines,text categorization,classification accuracy 文本分类(text classification,.TC)是对一个文本数据组织与处理的关键技术。数字化数据有不档自动分配一组预定义的类别或应用主题的过同的形式，它可以是文字、图像、空间形式等，其程"。随着数字图书馆的快速增长，TC已成为文中最常见和应用最多的是文本数据，阅读的新收稿日期：2017-11-02.网络出版日期：2018-04-24. 闻、社交媒体上的帖子和信息主要以文本形式出基金项目：伊犁师范学院一般项目(2016WXYB0004):国家自然科学基金项目(61663045)：新疆高校科研计划重点现。文本自动分类在网站分类2-)、自动索引研究项目(XEDU2014I043):伊犁师范学院重点项目(2016YSZD04). 电子邮件过滤6、垃圾邮件过滤？1、本体匹配通信作者：古丽娜孜艾力木江.E-mail:alay328@163.com. 超文本分类2和情感分析1等许多信息检索

DOI: 10.11992/tis.201711007 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20180423.1540.016.html 基于支持向量的最近邻文本分类方法古丽娜孜·艾力木江1,2,3，乎西旦·居马洪1 ，孙铁利2 ，梁义1 （1. 伊犁师范学院电子与信息工程学院，新疆伊宁 835000; 2. 东北师范大学计算机科学与技术学院，吉林长春 130117; 3. 东北师范大学地理科学学院，吉林长春 130024）摘要：文本分类为一个文档自动分配一组预定义的类别或主题。文本分类中，文档的表示对学习机的学习性能有很大的影响。以实现哈萨克语文本分类为目的，根据哈萨克语语法规则设计实现哈萨克语文本的词干提取，完成哈萨克语文本的预处理。提出基于最近支持向量机的样本距离公式，避免 k 参数的选定，以 SVM 与 KNN 分类算法的特殊组合算法（SV-NN）实现了哈萨克语文本的分类。结合自己构建的哈萨克语文本语料库的语料进行文本分类仿真实验，数值实验展示了提出算法的有效性并证实了理论结果。关键词：词干提取；预处理；支持向量机；文本分类；分类精度中图分类号：TP309 文献标志码：A 文章编号：1673−4785(2018)05−0799−09 中文引用格式：古丽娜孜·艾力木江, 乎西旦·居马洪, 孙铁利, 等. 基于支持向量的最近邻文本分类方法[J]. 智能系统学报, 2018, 13(5): 799–807. 英文引用格式：GULNAZ Alimjan, HURXIDA Jumahun, SUN Tieli, et al. The nearest neighbor text classification method based on support vector[J]. CAAI transactions on intelligent systems, 2018, 13(5): 799–807. The nearest neighbor text classification method based on support vector GULNAZ Alimjan1,2,3 ，HURXIDA Jumahun1 ，SUN Tieli2 ，LIANG Yi1 (1. Department of Electronics and Information Engineering, Yili Normal University, Yining 835000, China; 2. School of Information Science and Technology, Northeast Normal University, Changchun 130117, China; 3. Department of Geographical Science, Northeast Normal University, Changchun 130024, China) Abstract: Text categorization automatically assigns a set of predefined categories or topics to a document. In text classification, the representation of the document has a great influence on the learning performance of the learning machine. The aim is to achieve Kazakh text classification, according to Kazakh grammar rules, the stemming of Kazakh texts is designed to complete the preprocessing of Kazakh text. A sample distance formula based on the latest support vector machine (SVM) is proposed to avoid the selection of k-parameters. The Kazakh texts are classified by special combination of SVM and KNN classification algorithms (SV-NN) . Combining the corpus of Kazakh text corpora constructed by himself, text categorization simulation experiments were conducted. Numerical experiments showed the effectiveness of the proposed algorithm and confirmed the theoretical results. Keywords: stemming; preprocessing; support vector machines; text categorization; classification accuracy 文本分类 (text classification，TC) 是对一个文档自动分配一组预定义的类别或应用主题的过程 [1]。随着数字图书馆的快速增长，TC 已成为文本数据组织与处理的关键技术。数字化数据有不同的形式，它可以是文字、图像、空间形式等，其中最常见和应用最多的是文本数据，阅读的新闻、社交媒体上的帖子和信息主要以文本形式出现。文本自动分类在网站分类[2-3] 、自动索引[4-5] 、电子邮件过滤[6] 、垃圾邮件过滤[7-9] 、本体匹配[10] 、超文本分类[11-12]和情感分析[13-14]等许多信息检索收稿日期：2017−11−02. 网络出版日期：2018−04−24. 基金项目：伊犁师范学院一般项目 (2016WXYB0004)；国家自然科学基金项目 (61663045)；新疆高校科研计划重点研究项目 (XJEDU2014I043)；伊犁师范学院重点项目 (2016YSZD04). 通信作者：古丽娜孜·艾力木江. E-mail：alay328@163.com. 第 13 卷第 5 期智能系统学报 Vol.13 No.5 2018 年 10 月 CAAI Transactions on Intelligent Systems Oct. 2018

·800· 智能系统学报第13卷应用中起到了重要的作用。数字化时代，在线文 1文本特征提取本文档及其类别的数量越来越巨大，而TC是从数据海洋当中挖掘出具有参考价值数据的应用程 1.1文本预处理序s。文本挖掘工作是政府工作、科学研究、办文本预处理在整个文本分类工作中扮演着最公业务等许多应用领域里书面文本的分析过程。重要的角色，其处理程度直接影响到文本分类精朴素贝叶斯、k近邻、支持向量机、决策树、最大度。因为它是从文档中抽取关键词集合的过程，嫡和神经网络等基于统计与监督的模式分类算法而关键词的单独抽取因语言语法规则的不同而不在文本分类研究中已被广泛应用。提高文本分类同，所以这层工作属于技术含量较高的基础性工效率的算法研究对web数据的开发应用具有重要作，需要设计人员熟练掌握语言语法规则和计算意义。机编程能力。目前存在一个现实问题，即包括作合理的词干有助于提高文本分类的性能和效者在内的很多编程人员因研究工作的需要一般从率1，特别是对于哈萨克语这样的构词和词性事于中英文文字资料上的研究，所以对母语（哈变化较复杂语言的文本分类而言，词干的准确提萨克语)语法规则的细节不精通，对从小开始在取极其重要。从同一个词干可以派生出许多单汉语授课学校上学的编程人员情况则更严重，所词，因此通过词干提取还可以对语料库规模进行以要实现词干解析需要向语言学专家或相关人员降维。文本文档数量的巨大化和包含特征的多样全面请教，这也是影响哈萨克语文本分类工作进化，给文本挖掘工作带来一定的困难。目前，众展的一个客观问题。多文本分类研究都是基于英文或中文，基于少数哈萨克语文字由24个辅音字母和9个元音民族语言的文本分类研究相对较少叨：但是国外字母的共有33个字母组成。因为哈萨克语语法对于阿拉伯语的文本分类工作比中国少数民族语形式是在单词原形前后附加一定附加成分来完成言文本分类工作成熟-刘，投入研究的人员也较多。的，所以哈萨克语言属于黏着语，即跟英文类似哈萨克语言属于阿尔泰语系突厥语族的克普一个哈萨克语单词对应多种链接形式，因此对其恰克语支，中国境内通用的哈萨克文借用了阿拉一定要进行词干提取。伯语和部分波斯文字母，而哈萨克斯坦等国家用本文前期系列研究工作基本完成了哈萨克语的哈萨克文是斯拉夫文字。哈萨克文本跟中文不文本词干提取以及词性标注工作，已完成哈萨克同的一点是哈萨克文文本单词以空格分开的，这语文本词干表的构建。该词干表收录了如图1所点类似于英文，都需要文本词干提取过程。由于示的由新疆人民出版社出版的《哈萨克语详解词哈萨克语与英语语法体系不一样，英文词干提取典》中的60000多个哈萨克语文本词干和如图2 规则还不能直接用到哈萨克语文本分类问题上，所示的438个哈萨克语文本词干附加成分。要研究适合哈萨克语语法体系的词干提取规则之 word pos 后才能实现哈萨克语文本的分类工作。哈萨克语 025 具有丰富的形态和复杂的拼字法，因此哈萨克语 29 adj 文本分类系统的实现是有难度的。为了实现文本 3 n 分类任务需要一定规模的语料库，语料库里语料 4 59 的质量直接影响文本分类的精度。到目前为止在 6业 va 哈萨克语中还没有一个公认的哈萨克文语料库，当然，也有不少人认为新疆人民日报（哈文版）上图1 哈萨克语词干 Fig.1 Kazakh text stem 的文本可以当作文本分类语料库。本文为了保证文本分类语料库的规范化和文本分类工作的标准 index type suffix btype 化，经过认真挑选中文标准语料库里的部分语料 215ad d ge 文档并对其进行翻译和新疆人民日报上的部分文 201ad 月 gc 档来自行搭建了本研究的语料库。本文在对前期 228ad u gc 研究里词干提取程序词干解析规则222进行优化 227ad gc 改善的基础上实现本研究的文本预处理，提出新 226ad gc 的样本测度指标与距离公式，并结合SVM与图2哈萨克语附加成分 KNN分类算法实现了哈萨克语文本分类。 Fig.2 Additional components in Kazakh text

应用中起到了重要的作用。数字化时代，在线文本文档及其类别的数量越来越巨大，而 TC 是从数据海洋当中挖掘出具有参考价值数据的应用程序 [15-16]。文本挖掘工作是政府工作、科学研究、办公业务等许多应用领域里书面文本的分析过程。朴素贝叶斯、k 近邻、支持向量机、决策树、最大熵和神经网络等基于统计与监督的模式分类算法在文本分类研究中已被广泛应用。提高文本分类效率的算法研究对 web 数据的开发应用具有重要意义。合理的词干有助于提高文本分类的性能和效率 [17-18] ，特别是对于哈萨克语这样的构词和词性变化较复杂语言的文本分类而言，词干的准确提取极其重要。从同一个词干可以派生出许多单词，因此通过词干提取还可以对语料库规模进行降维。文本文档数量的巨大化和包含特征的多样化，给文本挖掘工作带来一定的困难。目前，众多文本分类研究都是基于英文或中文，基于少数民族语言的文本分类研究相对较少[19] ；但是国外对于阿拉伯语的文本分类工作比中国少数民族语言文本分类工作成熟[20–21] ，投入研究的人员也较多。哈萨克语言属于阿尔泰语系突厥语族的克普恰克语支，中国境内通用的哈萨克文借用了阿拉伯语和部分波斯文字母，而哈萨克斯坦等国家用的哈萨克文是斯拉夫文字。哈萨克文本跟中文不同的一点是哈萨克文文本单词以空格分开的，这点类似于英文，都需要文本词干提取过程。由于哈萨克语与英语语法体系不一样，英文词干提取规则还不能直接用到哈萨克语文本分类问题上，要研究适合哈萨克语语法体系的词干提取规则之后才能实现哈萨克语文本的分类工作。哈萨克语具有丰富的形态和复杂的拼字法，因此哈萨克语文本分类系统的实现是有难度的。为了实现文本分类任务需要一定规模的语料库，语料库里语料的质量直接影响文本分类的精度。到目前为止在哈萨克语中还没有一个公认的哈萨克文语料库，当然，也有不少人认为新疆人民日报 (哈文版) 上的文本可以当作文本分类语料库。本文为了保证文本分类语料库的规范化和文本分类工作的标准化，经过认真挑选中文标准语料库里的部分语料文档并对其进行翻译和新疆人民日报上的部分文档来自行搭建了本研究的语料库。本文在对前期研究里词干提取程序词干解析规则[22-24]进行优化改善的基础上实现本研究的文本预处理，提出新的样本测度指标与距离公式，并结合 SVM 与 KNN 分类算法实现了哈萨克语文本分类。 1 文本特征提取 1.1 文本预处理文本预处理在整个文本分类工作中扮演着最重要的角色，其处理程度直接影响到文本分类精度。因为它是从文档中抽取关键词集合的过程，而关键词的单独抽取因语言语法规则的不同而不同，所以这层工作属于技术含量较高的基础性工作，需要设计人员熟练掌握语言语法规则和计算机编程能力。目前存在一个现实问题，即包括作者在内的很多编程人员因研究工作的需要一般从事于中英文文字资料上的研究，所以对母语 (哈萨克语) 语法规则的细节不精通，对从小开始在汉语授课学校上学的编程人员情况则更严重，所以要实现词干解析需要向语言学专家或相关人员全面请教，这也是影响哈萨克语文本分类工作进展的一个客观问题。哈萨克语文字由 24 个辅音字母和 9 个元音字母的共有 33 个字母组成。因为哈萨克语语法形式是在单词原形前后附加一定附加成分来完成的，所以哈萨克语言属于黏着语，即跟英文类似一个哈萨克语单词对应多种链接形式，因此对其一定要进行词干提取。本文前期系列研究工作基本完成了哈萨克语文本词干提取以及词性标注工作，已完成哈萨克语文本词干表的构建。该词干表收录了如图 1 所示的由新疆人民出版社出版的《哈萨克语详解词典》中的 60 000 多个哈萨克语文本词干和如图 2 所示的 438 个哈萨克语文本词干附加成分。图 1 哈萨克语词干 Fig. 1 Kazakh text stem 图 2 哈萨克语附加成分 Fig. 2 Additional components in Kazakh text ·800· 智能系统学报第 13 卷

第5期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·801· 本文在前期准备研究工作的基础上，给出 (如体育类文档中)每一个单词（如“排球”）的总出 3种词性的有限状态自动机，并采用词法分析和现次数。图5所示的是词的权重计算结果，即统双向全切分相结合的改进方法实现哈萨克语文本计某词在判别文档类别所属关系中的隶属度，当词干的提取与单词构形附加成分的细切分。以改然隶属度越高说明该词在文档分类时的贡献越进的逐字母二分词典查询机制对词干表进行搜大。最后把文档由如图6所示的形式向量化表索，提高词干提取的效率。以概率统计的方法对示，生成分类问题的文档向量，即“X号特征词：歧义词和未记载词进行切分。在此研究基础上，该特征词的特征向量”形式向量化表示。设计实现了哈萨克语文本的词法自动分析程序，完成哈萨克语文本的读取预处理。处理结果如图3所示，上半窗体上显示的是待切分的文档原体记文，下半窗体上显示是词干切分后的结果。 85一 93U 11 工收的一记事本 12.11 E 5▣图 45? 23 s55 11 8 L 3 3 11 3 1 1 L5eu4d山1000-11 2 d4←-护-uj5-心w。 355 1 1 B I5 2 3 1 j 1 d1641h1114日.号+14144出月 -11一华”-y-0% 图4词频统计结果 Fig.4 Term frequency statistical result 5小1000 5=护-urJ5 归一一3步-如山异 a..心4一地2，心 0.0131578947368421y 开主可子 0.013157B947368421L 0.0131578947368421 5 0.024390243902439-1L- 图3哈萨克语文本词干切分结果示例 0.0131578947368421 003658536585365855:9- Fig.3 Example segmentation results of the Kazakh text 0.0131578947368421:5 0.0365853658536585,为 0.0131578947368421 stem 0.024390243902439LlL 0.02631578947368425 0 0.02439024390243914 0.0131578947368421 D.024390243902439 0.0 1.2特征处理 0.0263157894736842.=2 .0 0.0394736842105263 特征是文本分类时判别类别的尺度。模式识 0.02631578917368422 0.013157B947368421 0.0072463768115942过L 别的不同分类问题有不同的特征选择方法，而在 0.0263157894736842 0.0072463768115942- 文本分类问题中常用到的方法有互信息(MⅫ、X 0.0072463768115942-44 统计量(CH)、信息增益(IG)、文档频率(DF)、卡图5词权重计算结果方统计等21。这些方法各具优点和不足之处。 Fig.5 Term weight computed result M、IG和CHI倾向于低频词的处理，而DF则倾固回图向于高频词的处理。目前，也有许多优化改进方文件巴国特试教看四的 14:0.01220391874313445:0.04881567497253766:0.04031567497253767:01 法26-2，其中文本频率比值法(document frequency 0057563342198956851:0.012203918743134452:0.012203918743134453:0. 9194499:0.903089986991944100:0.602059991327962101:0.9030899869919 ratio,DFR)以简单、快捷等优点克服了以上几种 03089986991944146:0.90308998699194H147:0.301029995663981148:0.301 44192:0.903089986991944193:0.,903089986991944194:0.602059991327962 方法存在的问题，综合考虑了类内外文本频率， 089986991944239:0.903089986991944240:0.903089986991944241:0.90308 285:0.903089986991944286:0.903089986991944287:0.90308998699194428 其计算公式为 986991944332:0.903089986991944333:0.90308998699194H334:0.90308998 DFR(,C)=(W-mz)xDF 8:0.903089986991944379:0.903089986991944380:0.903089986991944381: (1) 14:0.01220391874313445:0.0481567497253766:0.04期1567497253767：0.4 nix DF: 2687504.53254662983912E-0551:0.012203918743134452:0.0122039187 89558928395:0.0071109447794641396:0.0067081690121619197:0.007110 式中，对于词t,N是训练文本数，n,是C,类别 77946413138:0.00711094477946413139:0.00711094477946413140:0.00 中的文本数，DF,是C,类别中包含词1的文本数，而D显然是除了C类以外的别的类别中包含词图6文本向量文件 Fig.6 Text vector files t的文本数。通过词频统计、词权重计算和文档向量化表 2SVM与KNN方法示等一系列的预处理工作之后才能运用分类算法，所以对文本分类工作而言这些都是非常重要 2.1SVM方法的阶段性基础工作。图4所示的是每类文档里支持向量机(support vector machine,SVM)是

本文在前期准备研究工作的基础上，给出 3 种词性的有限状态自动机，并采用词法分析和双向全切分相结合的改进方法实现哈萨克语文本词干的提取与单词构形附加成分的细切分。以改进的逐字母二分词典查询机制对词干表进行搜索，提高词干提取的效率。以概率统计的方法对歧义词和未记载词进行切分。在此研究基础上，设计实现了哈萨克语文本的词法自动分析程序，完成哈萨克语文本的读取预处理。处理结果如图 3 所示，上半窗体上显示的是待切分的文档原文，下半窗体上显示是词干切分后的结果。图 3 哈萨克语文本词干切分结果示例 Fig. 3 Example segmentation results of the Kazakh text stem 1.2 特征处理特征是文本分类时判别类别的尺度。模式识别的不同分类问题有不同的特征选择方法，而在文本分类问题中常用到的方法有互信息 (MI)、X 2 统计量 (CHI)、信息增益 (IG)、文档频率 (DF)、卡方统计等[ 2 5 ]。这些方法各具优点和不足之处。 MI、IG 和 CHI 倾向于低频词的处理，而 DF 则倾向于高频词的处理。目前，也有许多优化改进方法 [26-28] ，其中文本频率比值法 (document frequency ratio，DFR) 以简单、快捷等优点克服了以上几种方法存在的问题，综合考虑了类内外文本频率，其计算公式为 DFR(t,Ci) = (N −ni)×DFi ni ×DF′ i (1) DFi ′ 式中，对于词 t，N 是训练文本数，ni 是 Ci 类别中的文本数，DFi 是 Ci 类别中包含词 t 的文本数，而显然是除了 Ci 类以外的别的类别中包含词 t 的文本数。通过词频统计、词权重计算和文档向量化表示等一系列的预处理工作之后才能运用分类算法，所以对文本分类工作而言这些都是非常重要的阶段性基础工作。图 4 所示的是每类文档里 (如体育类文档中) 每一个单词 (如“排球”) 的总出现次数。图 5 所示的是词的权重计算结果，即统计某词在判别文档类别所属关系中的隶属度，当然隶属度越高说明该词在文档分类时的贡献越大。最后把文档由如图 6 所示的形式向量化表示，生成分类问题的文档向量，即“X 号特征词：该特征词的特征向量”形式向量化表示。图 4 词频统计结果 Fig. 4 Term frequency statistical result 图 5 词权重计算结果 Fig. 5 Term weight computed result 图 6 文本向量文件 Fig. 6 Text vector files 2 SVM 与 KNN 方法 2.1 SVM 方法支持向量机 (support vector machine，SVM) 是第 5 期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·801·

·802· 智能系统学报第13卷在1995年由Cortes和Vapnik首次提出来的一种分界面的法向量w只受支持向量的影响，不受非模式识别分类技术2。SVM是在统计学习理论支持向量训练点的影响。 (statistical learning theory,SLT)原理的基础上发展 2)非线性可分起来的机器学习算法。SVM方法的重点在于在 SVM通过运用合适的非线性映射，如高维特征空间中能构造函数集VC维尽可能小的 P:x→(x)把分类问题原训练样本点转变（映最优分类面，使得不同类别样本在这分类面上分射)到新的地方（新特征空间），使得原样本在这新类上界最小化，从而保证分类算法的最优推广能特征空间（目标高维空间）中能够线性可分，然后力。图7所示的是SVM方法的分类原理示意在这新的映射空间中利用线性可分问题求解原理图。SVM在有限训练样本情况下，在学习机复杂求出最终的最优分类面。度和学习机泛化能力之间找到一个平衡点，从而为此，需要在式(3)中增加一个松弛变量：和保证学习机的推广能力0。惩罚因子C,从而式(3)变为最优超平面 wx+b=0 min(,)= f+e2s,uyl+-l+6>0 00 (5) 2 分类间隔= 式中：≥0；i=1,2,,n;C为控制样本对错分的分离超平面调整因子，通常称为惩罚因子。C越大，惩罚越重。 0● 虽然原理看起来简单，然而在分类问题的训练样本不充足或不能保证训练样本质量的情形下支持向量 ●类别1 确定非线性映射是很困难的，那么如何确定非线 :分类错误 O类别2 性映射呢？SVM通过运用核函数概念解决这个图7SVM分类原理示意图问题，核函数是SVM的其他分类算法无法替代 Fig.7 SVM classification schematic diagram 的独特功能。根据样本分布情况与样本集维数，SVM算法 SVM通过引入一个核函数K(x,x),将原低维的判别函数原理大致可分为线性可分与非线性可的分类问题空间映射到高维的新问题空间中，使分两种形式。核函数代替ω()内积运算，这个高维空间就称 1)线性可分为Hilbert空间。引入核函数以后的最优分类函数为带有以式(2)所示训练样本集的SVM线性可 f (x)=sign ay.K(xx+b (6) 分分类问题的数学模型可通过式(3)来表示： S={(xy),i=1,2,…,ri,xeR,ye+1,-1}(2) 2.2KNN方法 KNN(K nearest neighbor)分类法是基于实例 minp(w）=lwl,s.ty.[ox+-1≥0，i=1,2…n 的学习算法，它需要所有的训练样本都参与分 (3) 假如，对n维空间中的分类界面为wx+b=0, 类。在分类阶段，利用欧氏距离公式，将每个测试样本与和它邻近的k个训练样本进行比较，然使得与此分类界面最近的两类样本之间的距离后将测试样本归属到票数最多的那一类里。之最大，即为最小，则该分类界面就称为最优 lll KNN算法是根据测试样本最近的k个样本点的分类界面；ω为权重向量（是x)的法向量），b为函类别信息来对该测试样本类型进行判别，所以数阈值。从而最终可得到所求的最优分类函数为 k值的选取非常重要。k值若太小，测试样本特征 f(x)=sign (4) 不能充分体现；k值若太大，与测试样本并不相似的个别样本也可能被包含进来，这样反而对分类式中对应a,0时的样本点就是支持向量。因为不利。KNN算法在分类决策上只凭k个最邻近最优化问题解a,的每一个分量都与一个训练点样本类别确定待分样本的所属类。目前，对于相对应，显然所求得的划分超平面仅仅与对应 k值的选取还没有一个全局最优的筛选方法，这 a,0时的那些训练点(c,x)相关，而跟a=O时的那也是KNN方法的弊端，具体操作时，根据先验知些训练点没有任何关系。相应于a0时的训练识先给出一个初始值，然后需要根据仿真分类实点(：x)里的输入点x就是支持向量，通常它们是验结果重新调整，调整k值的操作有时一直到分全体样本中的很少一部分。得出结论，最终分类类结果满足用户需求为止。该方法原理可由式

在 1995 年由 Cortes 和 Vapnik 首次提出来的一种模式识别分类技术[29]。SVM 是在统计学习理论 (statistical learning theory，SLT) 原理的基础上发展起来的机器学习算法。SVM 方法的重点在于在高维特征空间中能构造函数集 VC 维尽可能小的最优分类面，使得不同类别样本在这分类面上分类上界最小化，从而保证分类算法的最优推广能力。图 7 所示的是 SVM 方法的分类原理示意图。SVM 在有限训练样本情况下，在学习机复杂度和学习机泛化能力之间找到一个平衡点，从而保证学习机的推广能力[30]。 H1 H X1 H2 X2 最优超平面 w·x + b = 0 分类间隔 = 2 w 类别 1 分类错误类别 2 支持向量分离超平面图 7 SVM 分类原理示意图 Fig. 7 SVM classification schematic diagram 根据样本分布情况与样本集维数，SVM 算法的判别函数原理大致可分为线性可分与非线性可分两种形式。 1) 线性可分带有以式 (2) 所示训练样本集的 SVM 线性可分分类问题的数学模型可通过式 (3) 来表示： S = {(xi , yi),i = 1,2,··· ,r}, xi ∈ R n , yi ∈ {+1,−1} (2) minφ(ω) = 1 2 ∥ω∥ 2 ,s.t.yi[ωxi +b]−1 ⩾ 0, i = 1,2,··· ,n (3) ω· x+b = 0 2 ∥ω∥ ∥ω∥ ω 假如，对 n 维空间中的分类界面为，使得与此分类界面最近的两类样本之间的距离最大，即为最小，则该分类界面就称为最优分类界面；为权重向量 (是 f(x) 的法向量)，b 为函数阈值。从而最终可得到所求的最优分类函数为 f (x) = sign   ∑n i=1 aiyi(xi · x)+b   (4) 式中对应 ai≠0 时的样本点就是支持向量。因为最优化问题解 ai 的每一个分量都与一个训练点相对应，显然所求得的划分超平面仅仅与对应 ai≠0 时的那些训练点 (xi ·x) 相关，而跟 ai=0 时的那些训练点没有任何关系。相应于 ai≠0 时的训练点 (xi ·x) 里的输入点 xi 就是支持向量，通常它们是全体样本中的很少一部分。得出结论，最终分类分界面的法向量 ω 只受支持向量的影响，不受非支持向量训练点的影响。 2) 非线性可分 φ : xi → φ(xi) S V M 通过运用合适的非线性映射，如把分类问题原训练样本点转变 (映射) 到新的地方 (新特征空间)，使得原样本在这新特征空间 (目标高维空间) 中能够线性可分，然后在这新的映射空间中利用线性可分问题求解原理求出最终的最优分类面。为此，需要在式 (3) 中增加一个松弛变量 ξi 和惩罚因子 C，从而式 (3) 变为 minφ(ω, ξ) = 1 2 ∥ω∥ 2 +C ∑n i=1 ξi , s.t.yi[ωxi +b]−1+ξi ⩾ 0 (5) 式中：ξi ≥ 0；i = 1, 2, ···, n；C 为控制样本对错分的调整因子，通常称为惩罚因子。C 越大，惩罚越重。虽然原理看起来简单，然而在分类问题的训练样本不充足或不能保证训练样本质量的情形下确定非线性映射是很困难的，那么如何确定非线性映射呢？SVM 通过运用核函数概念解决这个问题，核函数是 SVM 的其他分类算法无法替代的独特功能。 ω·φ(x) SVM 通过引入一个核函数 K(xi ·x)，将原低维的分类问题空间映射到高维的新问题空间中，使核函数代替内积运算，这个高维空间就称为 Hilbert 空间。引入核函数以后的最优分类函数为 f (x) = sign   ∑n i=1 aiyiK(xi · x)+b   (6) 2.2 KNN 方法 KNN(K nearest neighbor) 分类法是基于实例的学习算法，它需要所有的训练样本都参与分类 [31]。在分类阶段，利用欧氏距离公式，将每个测试样本与和它邻近的 k 个训练样本进行比较，然后将测试样本归属到票数最多的那一类里[ 3 2 ]。 KNN 算法是根据测试样本最近的 k 个样本点的类别信息来对该测试样本类型进行判别，所以 k 值的选取非常重要。k 值若太小，测试样本特征不能充分体现；k 值若太大，与测试样本并不相似的个别样本也可能被包含进来，这样反而对分类不利。KNN 算法在分类决策上只凭 k 个最邻近样本类别确定待分样本的所属类。目前，对于 k 值的选取还没有一个全局最优的筛选方法，这也是 KNN 方法的弊端，具体操作时，根据先验知识先给出一个初始值，然后需要根据仿真分类实验结果重新调整，调整 k 值的操作有时一直到分类结果满足用户需求为止。该方法原理可由式 ·802· 智能系统学报第 13 卷

第5期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·803· (7表示：距离值点离得最近就把它归为该类别中。分类决 y(d)=argmax∑yc,c) (7) 策依据是各类别SVs平均距离值后对其与测试点 EKNN 之间距离的数值分析，所以简称该算法为支持向式(7)表明将测试样本d,划入到k个邻近类量与最近邻方法((the support vector of nearest neigh- 别中成员最多的那个类别里。 bor,SV-NN). 在使用KNN算法时，还可由其他策略生成测 3.1SV-NN算法描述及流程图试样本的归属类，如式（⑧）也是被广泛使用的公式：假设共有n个类别，每个类别含有m个支持 y(d)=argmaxSim(d.y() (8) 向量。 EKNN 训练集：T1={x,x2,…,xo 当x∈c,时，y(x,c)=1；当x度c,时，y(x,c)=0; 测试集：T2={x1,x2,…,xlo Sim(d,x)是测试样本d,和它最近邻x之间的余弦 SV-NN分类算法：相似度。余弦相似度测量是由一个向量空间中两 Start: 个向量之间角余弦值来定义的。式(8)说明测试 integer i,jkl; 样本d,被归到k个最近邻类里相似性最大那个类 i=1;=1;k=1;i=1,2…,mj=1,2…,m 别里。 SVM:T→sV;∥通过使用SVM定义每个类别一般情况下，不同类别训练样本的分布是不的支持向量。均匀的，同样不同类别的样本数量也可能不一 while(k<l) 样。所以，在分类任务中，KNN中k参数的一个固 {输入x: 定值可能会导致不同类别之间的偏差。例如，对利用式(9)计算x与sV之间的距离(D: 于式(T),一个较大的k值使得方法运行结果过拟利用式(10)计算x.与sV之间的平均距离合，反过来一个较小的k值使得方法模型性能不 (averD); 稳定。实际上，k的值通常由交叉验证技术来获利用式(11)计算x与sV1之间最小平均距离取。然而，像在线分类等情况，就不能用交叉验证 (min(averD:)); 技术，只能给出经验值，因此k值的选定很重要。将x划入到基于min(averDa)的最近类别； KNN虽是简单有效的分类方法，但不能忽略 =k+1 以下两方面的问题：1)由于KNN需要保留分类过程中的所有相似性计算实例，从而随着训练集规模的增多，其计算量也会增加，在处理较大规 End 模数据集分类时方法的时间复杂度会达到不可接 SV-NN分类方法的工作流程如图8所示。受的程度例，这是KNN方法的主要缺点；2)KNN方 3.2SV-NN算法实现法分类的准确性可能受到训练数据集中特性的无 1)将所有训练点映射到向量空间，并通过传关性和噪声数据的影响，若考虑这些因素其分类统SVM确定每一个类别的支持向量。效果也许更好。 SV1sV2·· SVIm SV21 SV22 3基于SV-NN的哈萨克语文本分类 SV2m i=1,2,…,j=1,2,…,m 算法 SV SV2· (9) 本文提出一种组合分类方法，把SVM算法当式中：支持向量sV,是从输人文档中提取的（共有作KNN算法的训练阶段，这样可以避免k参数的 n个类，每个类别含有m个支持向量)。确定每一选择。组合分类方法结合了SVM算法的训练和类的支持向量之后，其余的训练点可以消除。 KNN算法的学习阶段。首先运用SVM算法对所 2)使用欧氏距离公式(9)计算测试样本x与有训练样本进行一次训练获得每一类别的少量的由1)生成的每一类支持向量sv之间的距离。支持向量(support vectors,SVs),在测试阶段使用最近邻分类器进行测试并分类测试样本，即计算 -2-2月 (10) 出新测试样本与每个类别SVs平均距离值后对其进行对比分析，该测试样本与哪一类别SVs平均式中：i=1,2,…,mj=1,2,…,m:k=1,2,…,1

(7) 表示： y (di) = argmax k ∑ xj∈KNN y ( xj , ck ) (7) 式 (7) 表明将测试样本 di 划入到 k 个邻近类别中成员最多的那个类别里。在使用 KNN 算法时，还可由其他策略生成测试样本的归属类，如式 (8) 也是被广泛使用的公式： y (di) = argmax k ∑ xj∈KNN Sim( di , xj ) y ( xj , ck ) (8) y ( xj , ci ) = 1 < y ( xj , ci ) = 0 Sim( di , xj ) 当 x j∈c i时，；当 x j c i 时，；是测试样本 di 和它最近邻 xj 之间的余弦相似度。余弦相似度测量是由一个向量空间中两个向量之间角余弦值来定义的。式 (8) 说明测试样本 di 被归到 k 个最近邻类里相似性最大那个类别里。一般情况下，不同类别训练样本的分布是不均匀的，同样不同类别的样本数量也可能不一样。所以，在分类任务中，KNN 中 k 参数的一个固定值可能会导致不同类别之间的偏差。例如，对于式 (7)，一个较大的 k 值使得方法运行结果过拟合，反过来一个较小的 k 值使得方法模型性能不稳定。实际上，k 的值通常由交叉验证技术来获取。然而，像在线分类等情况，就不能用交叉验证技术，只能给出经验值，因此 k 值的选定很重要。 KNN 虽是简单有效的分类方法，但不能忽略以下两方面的问题：1) 由于 KNN 需要保留分类过程中的所有相似性计算实例，从而随着训练集规模的增多，其计算量也会增加，在处理较大规模数据集分类时方法的时间复杂度会达到不可接受的程度[33] ，这是 KNN 方法的主要缺点；2) KNN 方法分类的准确性可能受到训练数据集中特性的无关性和噪声数据的影响，若考虑这些因素其分类效果也许更好。 3 基于 SV-NN 的哈萨克语文本分类算法本文提出一种组合分类方法，把 SVM 算法当作 KNN 算法的训练阶段，这样可以避免 k 参数的选择。组合分类方法结合了 SVM 算法的训练和 KNN 算法的学习阶段。首先运用 SVM 算法对所有训练样本进行一次训练获得每一类别的少量的支持向量 (support vectors，SVs)，在测试阶段使用最近邻分类器进行测试并分类测试样本，即计算出新测试样本与每个类别 SVs 平均距离值后对其进行对比分析，该测试样本与哪一类别 SVs 平均距离值点离得最近就把它归为该类别中。分类决策依据是各类别 SVs 平均距离值后对其与测试点之间距离的数值分析，所以简称该算法为支持向量与最近邻方法 (the support vector of nearest neighbor，SV-NN)。 3.1 SV-NN 算法描述及流程图假设共有 n 个类别，每个类别含有 m 个支持向量。训练集： T1 = {x1, x2,··· , xt}。测试集： T2 = {x1, x2,··· , xl}。 SV-NN 分类算法： Start: { integer i, j,k,l； i=1; j=1; k=1；// i = 1,2,··· ,n; j = 1,2,··· ,m; SVM: T1→svij；//通过使用 SVM 定义每个类别的支持向量。 while(k<l) { 输入 xk；利用式 (9) 计算 xk 与 svij 之间的距离 (Dk )；利用式 (10) 计算 xk 与 svij 之间的平均距离 (averDk )； min k (averDk) 利用式 (11) 计算 xk 与 svij 之间最小平均距离 ( )； min k 将 x (averDk) k 划入到基于的最近类别； k=k+1; } } End SV-NN 分类方法的工作流程如图 8 所示。 3.2 SV-NN 算法实现 1) 将所有训练点映射到向量空间，并通过传统 SVM 确定每一个类别的支持向量。   sv11 sv12 ··· sv1m sv21 sv22 ··· sv2m . . . . . . . . . svn1 svn2 ··· svnm   , i = 1,2,··· ,n; j = 1,2,··· ,m (9) 式中：支持向量 svij 是从输入文档中提取的 (共有 n 个类，每个类别含有 m 个支持向量)。确定每一类的支持向量之后，其余的训练点可以消除。 2) 使用欧氏距离公式 (9) 计算测试样本 xk 与由 1) 生成的每一类支持向量 svij 之间的距离。 Dk j = ∑l k=1 vuut  ∑n i=1   xk − ∑m j=1 svi j   2   (10) 式中： i = 1,2,··· ,n; j = 1,2,··· ,m; k = 1,2,··· ,l。第 5 期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·803·

·804· 智能系统学报第13卷测试数据测试集基于欧氏距离函数的混合分类决策模块贝叶斯向量化模块转换测试计算测试点和每一类sw 转换训练数据之间的距离数据中分类结果计算测试点与每一类sv,之间的平均距离训练集训练将测试点归为具有最小平均距数据 SVM训练算法离值的类图8SV-NN分类方法工作原理 Fig.8 SV-NN classification approach working principle diagram 3)使用式(10)计算测试样本x与每一类支库还不能称得上“标准”词语，但对现阶段哈萨克持向量sv之间的平均距离：语文本分类任务的完成具有实际应用价值。本文把语料集规模扩大到由计算机、经济、教育、法律、医学、政治、交通、体育等8类共1 averD= -，j=1,2,…,mk=1,2…,l (11) 1 400个哈萨克语文档组成的小型语料集，如表1 4)计算最短平均距离minD,并将测试样本所示。数据集被分为两个部分。880个文档划入到最短平均距离对应的那一类中。 (63%)用于训练，520个文档用于测试(37%)。 min D min (averD )k=1,2.....l (12) 表1数据集即输入点被确认为与sV之间最短平均距离值对 Table 1 Data set 应的正确类。类别文档总数训练文档数测试文档数重复步骤2)~4)，直到所有的测试样本分类完计算机 175 110 65 为止。经济 175 110 65 教育 175 110 65 4实验结果与评价法律 175 110 65 通常，语料库里语料的质量与数量直接影响医学 175 110 65 政治 175 110 65 文本分类算法的分类性能。中、英文等其他语言交通 175 110 65 文本分类研究都有标准的语料库，而哈萨克语文体育 175 110 65 本分类工作却还没有一个公认的标准语料库。本总计 1400 880 520 文考虑到文本分类工作的规范性和语料的标准性，由中文标准语料部分文档的翻译和挑选新疆本文文本分类实验评价指标采用了召回率、日报（哈文版）上的部分文档来搭建了本研究的精度和F这3种评价方法。精度评价是指比较语料库。在前期研究里，同样是通过翻译收集语实际文本数据与分类结果，以确定文本分类过程料集的，只是其规模小了点，本文的语料工作算的准确程度，是文本分类结果是否可信的一种度是对前期研究语料集的补充和优化完善。前期研量。高精度意味着一个算法返回更相关的结果，究语料集语料文档只有5类文档，本文扩充到高召回率代表着一个算法返回最相关的结果，所 8类文档。通过跟语言学专家们的多次沟通，选以文本分类工作期望获得较高的精度和召回率。择具有代表性的文档，同时对词干提取程序解析本文在前期研究中搭建的哈萨克文语料集的规则也作了适当的调整。虽然本文所构建的语料补充完善以及对其词干提取程序提取规则细节的

转换测试转换训练数据数据测试数据训练数据训练集贝叶斯向量化模块 SVM 训练算法基于欧氏距离函数的混合分类决策模块计算测试点和每一类 svs 之间的距离计算测试点与每一类 svs 之间的平均距离将测试点归为具有最小平均距离值的类分类结果测试集图 8 SV-NN 分类方法工作原理 Fig. 8 SV-NN classification approach working principle diagram 3) 使用式 (10) 计算测试样本 xk 与每一类支持向量 svij 之间的平均距离： averDk = ∑m j=1 Dk j m , j = 1,2,··· ,m; k = 1,2,··· ,l (11) 4）计算最短平均距离 minD，并将测试样本 xk 划入到最短平均距离对应的那一类中。 minD = min k (averDk), k = 1,2,··· ,l (12) 即输入点被确认为与 svij 之间最短平均距离值对应的正确类。重复步骤 2)~4)，直到所有的测试样本分类完为止。 4 实验结果与评价通常，语料库里语料的质量与数量直接影响文本分类算法的分类性能。中、英文等其他语言文本分类研究都有标准的语料库，而哈萨克语文本分类工作却还没有一个公认的标准语料库。本文考虑到文本分类工作的规范性和语料的标准性，由中文标准语料部分文档的翻译和挑选新疆日报 (哈文版) 上的部分文档来搭建了本研究的语料库。在前期研究里，同样是通过翻译收集语料集的，只是其规模小了点，本文的语料工作算是对前期研究语料集的补充和优化完善。前期研究语料集语料文档只有 5 类文档，本文扩充到 8 类文档。通过跟语言学专家们的多次沟通，选择具有代表性的文档，同时对词干提取程序解析规则也作了适当的调整。虽然本文所构建的语料库还不能称得上“标准”词语，但对现阶段哈萨克语文本分类任务的完成具有实际应用价值。本文把语料集规模扩大到由计算机、经济、教育、法律、医学、政治、交通、体育等 8 类共 1 400 个哈萨克语文档组成的小型语料集，如表 1 所示。数据集被分为两个部分。 8 8 0 个文档 (63%) 用于训练，520 个文档用于测试 (37%)。表 1 数据集 Table 1 Data set 类别文档总数训练文档数测试文档数计算机 175 110 65 经济 175 110 65 教育 175 110 65 法律 175 110 65 医学 175 110 65 政治 175 110 65 交通 175 110 65 体育 175 110 65 总计 1 400 880 520 本文文本分类实验评价指标采用了召回率、精度和 F1 这 3 种评价方法。精度评价是指比较实际文本数据与分类结果，以确定文本分类过程的准确程度，是文本分类结果是否可信的一种度量。高精度意味着一个算法返回更相关的结果，高召回率代表着一个算法返回最相关的结果，所以文本分类工作期望获得较高的精度和召回率。本文在前期研究中搭建的哈萨克文语料集的补充完善以及对其词干提取程序提取规则细节的 ·804· 智能系统学报第 13 卷

第5期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·805· 优化改善基础上实现了本研究哈萨克语文本的预能获得较好分类精度的优点，另外，本算法没有处理。分类任务的实现运用了SVM、KNN与本去定义KNN算法的k参数，也没有跟所有类所有文提出的SV-NN算法，并对3种算法分类精度进训练样本进行距离运算。所以，本研究提出的算行了较全面的对比分析。通过对表2和图9上的法无论从算法复杂度的分析还是算法收敛速度的仿真实验数字的对比分析，发现SVM算法优于分析都是有效的。当然，总体精度还是没有像 KNN算法，而SV-NN算法优于SVM算法。SV-NN 中、英文等其他语言文本分类精度那么理想，因方法F,指标除了教育类和法律类以外在其他类为涉及很多方面的因素，如研究语料库语料文档上的F,指标都高于都SVM、KNN对应指标。SVM、数量、每一类文档本身的质量、词干表里已录用 KNN和SV-NN平均分类精度分别为0.754、的词干数量和质量、词干提取程序解析规则的细 0.731和0.778，这说明本文提出算法对所有类别节等，但目前所获得的分类精度比前期系列研究文档词的召回率和区分度较稳定。本研究提出的成果理想，本算法的文本分类性能有了很大的提算法模型继承了SVM算法在有限样本情况下也升也较好地提高了召回率。表2SVM、KNN、SVNN的分类精度对比 Table 2 SVM KNN and SV-NN comparison of classification accuracy SVM KNN SV-NN 类别名精度召回率 F 精度召回率 F 精度召回率 F 计算机 0.665 0.651 0.658 0.636 0.649 0.642 0.696 0.647 0.671 经济 0.781 0.862 0.819 0.768 0.858 0.811 0.710 0.870 0.830 教育 0.715 0.691 0.703 0.698 0.675 0.686 0.615 0.651 0.632 法律 0.889 0.891 0.895 0.860 0.865 0.862 0.879 0.881 0.878 医学 0.812 0.881 0.845 0.799 0.892 0.843 0.877 0.881 0.879 政治 0.563 0.598 0.580 0.513 0.589 0.548 0.673 0.698 0.685 交通 0.791 0.721 0.754 0.769 0.711 0.739 0.891 0.851 0.870 体育 0.811 0.785 0.796 0.801 0.726 0.762 0.791 0.711 0.749 平均 0.754 0.759 0.756 0.731 0.746 0.738 0.778 0.774 0.775 1.0 1.0 0.8 0.8 0.6 0.6 0.4 ◆SVM精度 04 ◆一KNN精度 0.2 ■一SVM召回率 0.2 一KNN召回率 KNN F, 0 0 教育计算机 (a)SVM分类精度 (b)KNN分类精度 1.0 1.0 0.8 0.8 0.6 0.6 04 ◆-SVNN精度 0.4 ◆F,SVM ■SV-NN召回率 0.2 F KNN SV-NNF 0.2 F.SV-NN 0 香我 0 (c)SV-NN分类精度 (d)3个方法F,指标的对比图9分类精度的对比分析（每一类别均含175篇文档） Fig.9 Comparative analysis of classification accuracy (each category contains 175 documents)

优化改善基础上实现了本研究哈萨克语文本的预处理。分类任务的实现运用了 SVM、KNN 与本文提出的 SV-NN 算法，并对 3 种算法分类精度进行了较全面的对比分析。通过对表 2 和图 9 上的仿真实验数字的对比分析，发现 SVM 算法优于 KNN 算法，而 SV-NN 算法优于 SVM 算法。SV-NN 方法 F1 指标除了教育类和法律类以外在其他类上的 F1 指标都高于都 SVM、KNN 对应指标。SVM、 KNN 和 SV-NN 平均分类精度分别为 0.754、 0.731 和 0.778，这说明本文提出算法对所有类别文档词的召回率和区分度较稳定。本研究提出的算法模型继承了 SVM 算法在有限样本情况下也能获得较好分类精度的优点，另外，本算法没有去定义 KNN 算法的 k 参数，也没有跟所有类所有训练样本进行距离运算。所以，本研究提出的算法无论从算法复杂度的分析还是算法收敛速度的分析都是有效的。当然，总体精度还是没有像中、英文等其他语言文本分类精度那么理想，因为涉及很多方面的因素，如研究语料库语料文档数量、每一类文档本身的质量、词干表里已录用的词干数量和质量、词干提取程序解析规则的细节等，但目前所获得的分类精度比前期系列研究成果理想，本算法的文本分类性能有了很大的提升也较好地提高了召回率。表 2 SVM、KNN、SV-NN 的分类精度对比 Table 2 SVM KNN and SV–NN comparison of classification accuracy 类别名 SVM KNN SV-NN 精度召回率 F1 精度召回率 F1 精度召回率 F1 计算机 0.665 0.651 0.658 0.636 0.649 0.642 0.696 0.647 0.671 经济 0.781 0.862 0.819 0.768 0.858 0.811 0.710 0.870 0.830 教育 0.715 0.691 0.703 0.698 0.675 0.686 0.615 0.651 0.632 法律 0.889 0.891 0.895 0.860 0.865 0.862 0.879 0.881 0.878 医学 0.812 0.881 0.845 0.799 0.892 0.843 0.877 0.881 0.879 政治 0.563 0.598 0.580 0.513 0.589 0.548 0.673 0.698 0.685 交通 0.791 0.721 0.754 0.769 0.711 0.739 0.891 0.851 0.870 体育 0.811 0.785 0.796 0.801 0.726 0.762 0.791 0.711 0.749 平均 0.754 0.759 0.756 0.731 0.746 0.738 0.778 0.774 0.775 0 0.2 0.4 0.6 0.8 1.0 精度、召回率与 F1 SVM F1 SVM 精度 SVM 召回率 (a) SVM 分类精度 KNN 精度 KNN 召回率 KNN F1 0 0.2 0.4 0.6 0.8 1.0 精度、召回率与 F1 (b) KNN 分类精度 0 0.2 0.4 0.6 0.8 1.0 精度、召回率与 F1 SV-NN F1 SV-NN 精度 SV-NN 召回率 (c) SV-NN 分类精度 F1 SVM F1 KNN F1 SV-NN 0 0.2 0.4 0.6 0.8 1.0 F1 (d) 3 个方法 F1 指标的对比计算机经济教育法律医学政治交通体育平均计算机经济教育法律医学政治交通体育平均计算机经济教育法律医学政治交通体育平均计算机经济教育法律医学政治交通体育平均图 9 分类精度的对比分析（每一类别均含 175 篇文档） Fig. 9 Comparative analysis of classification accuracy (each category contains 175 documents) 第 5 期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·805·

·806· 智能系统学报第13卷 5结束语 spam detection[J].Applied soft computing,2011,11(4): 3827-3845. 本文在前期系列研究中所搭建的哈萨克文语 [10]MAO Ming,PENG Yefei,SORING M.Ontology map- 料集和词干提取程序的优化完善基础上实现了哈 ping:As a binary classification problem[J].Concurrency 萨克语文本的预处理。分类任务的实现上运用了 and computation:practice and experience,2011,23(9): 模式识别的3种分类算法，并对3种分类算法分 1010-1025. 类精度进行了较全面的对比分析。通过仿真实验 [11]YANG Yiming,SLATTERY S,GHANI R.A study of 客观数字的对比分析，说明本文提出算法的优越 approaches to hypertext categorization[J].Journal of intel- 性。本文算法对所有类别文档词的召回率和区分 ligent information systems,2002,18(2/3):219-241. 度较稳定。本文算法在继承SVM算法的分类优 [12]REN Fuji,LI Chao.Hybrid Chinese text classification ap- 越性基础上，还有效避免了KNN算法设置k参数 proach using general knowledge from Baidu Baike[J]. IEEJ transactions on electrical and electronic engineering, 的麻烦和跟所有训练样本进行距离计算而带来的 2016,11(4):488-498 巨大时间复杂度，进而保证了分类算法的收敛速度。 [13]DUWAIRI R,EL-ORFALI M.A study of the effects of 本研究仍有许多待优化完善的问题，本文接 preprocessing strategies on sentiment analysis for Arabic 下来的研究工作中将系统地研究并解决影响文本 text[J].Journal of information science,2014,40(4): 分类精度的阶段性问题，获得满意的分类精度。 501-513. 参考文献 [14]张冬梅.文本情感分类及观点摘要关键问题研究D]济南：山东大学，2012 [1]SEBASTIANI F.Machine learning in automated text cat- ZHANG Dongmei.Research on key problems in text sen- egorization[J].ACM computing surveys,2002,34(1): timent classification and opinion summarization[D] 1-47 Ji'nan:Shandong University,2012 [2]AHMADI A,FOTOUHI M,KHALEGHI M.Intelligent [15]杨杰明.文本分类中文本表示模型和特征选择算法研 classification of web pages using contextual and visual fea- 究D1.长春：吉林大学，2013. tures[J].Applied soft computing,2011,11(2):1638-1647. YANG Jieming.The research of text representation and [3]MARTINEZ-CAMARA E,MARTIN-VALDIVIA M T, feature selection in text categorization[D].Changchun: URENA-LOPEZ L A,et al.Polarity classification for Jilin University,2013. Spanish tweets using the COST corpus[J].Journal of in- [16]张晓娜.CNNIC发布第37次中国互联网络发展状况统 formation science,2015,41(3):263-272 计报告N]民主与法制时报，2016-01-23(001) [4]PERCANNELLA G.SORRENTINO D,VENTO M.Auto- [17]SYIAM MM.FAYED Z T.HABIB M B.An intelligent matic indexing of news videos through text classification system for Arabic text categorization[J].International techniques[M]//SINGH S,SINGH M,APTE C,et al.Pat- journal of cooperative information systems,2006,6(1): tern Recognition and Image Analysis.Berlin:Springer, 1-19 2005:512-521. [18]DUWAIRI R.AL-REFAI M.KHASAWNEH N.Stem- [5]HU Rong,NAMEE B M,DELANY S J.Active learning ming versus light stemming as feature selection tech- for text classification with reusability[J].Expert systems niques for Arabic text categorization[C]//Proceedings of with applications,2016,45:438-449 the 4th International Conference on Innovations in In- [6]SAKURAI S,SUYAMA A.An e-mail analysis method formation Technology.Dubai,2007:446-450. based on text mining techniques[J].Applied soft comput- [19)]贺慧，王俊义.主动支持向量机的研究及其在蒙文文本 ing,2005,6(1:62-71. 分类中的应用).内蒙古大学学报：自然科学版，2006， [7]AL-KABI M,WAHSHEH H,ALSMADI I,et al.Content- 37(5)560-563 based analysis to detect Arabic web spam[J].Journal of in- HE Hui,WANG Junyi.Study of active learning support formation science,2012,38(3):284-296. vector machine and its application on mongolian text clas- [8]ZITAR R A,MOHAMMAD A H.Spam detection using sification].Acta scientiarum naturalium universitatis genetic assisted artificial immune system[J].International neimongol,2006.37(5):560-563. journal of pattern recognition and artificial intelligence, [20]ADELEKE A O.SAMSUDIN N A,MUSTAPHA A,et 2011,25(8):1275-1295. al.Comparative analysis of text classification algorithms [9]MOHAMMAD A H,ZITAR R A.Application of genetic for automated labelling of quranic verses[J].International optimized artificial immune system and neural networks in journal on advanced science engineering information

5 结束语本文在前期系列研究中所搭建的哈萨克文语料集和词干提取程序的优化完善基础上实现了哈萨克语文本的预处理。分类任务的实现上运用了模式识别的 3 种分类算法，并对 3 种分类算法分类精度进行了较全面的对比分析。通过仿真实验客观数字的对比分析，说明本文提出算法的优越性。本文算法对所有类别文档词的召回率和区分度较稳定。本文算法在继承 SVM 算法的分类优越性基础上，还有效避免了 KNN 算法设置 k 参数的麻烦和跟所有训练样本进行距离计算而带来的巨大时间复杂度，进而保证了分类算法的收敛速度。本研究仍有许多待优化完善的问题，本文接下来的研究工作中将系统地研究并解决影响文本分类精度的阶段性问题，获得满意的分类精度。参考文献： SEBASTIANI F. Machine learning in automated text categorization[J]. ACM computing surveys, 2002, 34(1): 1–47. [1] AHMADI A, FOTOUHI M, KHALEGHI M. Intelligent classification of web pages using contextual and visual features[J]. Applied soft computing, 2011, 11(2): 1638–1647. [2] MARTÍNEZ-CÁMARA E, MARTÍN-VALDIVIA M T, UREÑA-LÓPEZ L A, et al. Polarity classification for Spanish tweets using the COST corpus[J]. Journal of information science, 2015, 41(3): 263–272. [3] PERCANNELLA G, SORRENTINO D, VENTO M. Automatic indexing of news videos through text classification techniques[M]//SINGH S, SINGH M, APTE C, et al. Pattern Recognition and Image Analysis. Berlin: Springer, 2005: 512–521. [4] HU Rong, NAMEE B M, DELANY S J. Active learning for text classification with reusability[J]. Expert systems with applications, 2016, 45: 438–449. [5] SAKURAI S, SUYAMA A. An e-mail analysis method based on text mining techniques[J]. Applied soft computing, 2005, 6(1): 62–71. [6] AL-KABI M, WAHSHEH H, ALSMADI I, et al. Contentbased analysis to detect Arabic web spam[J]. Journal of information science, 2012, 38(3): 284–296. [7] ZITAR R A, MOHAMMAD A H. Spam detection using genetic assisted artificial immune system[J]. International journal of pattern recognition and artificial intelligence, 2011, 25(8): 1275–1295. [8] MOHAMMAD A H, ZITAR R A. Application of genetic optimized artificial immune system and neural networks in [9] spam detection[J]. Applied soft computing, 2011, 11(4): 3827–3845. MAO Ming, PENG Yefei, SORING M. Ontology mapping: As a binary classification problem[J]. Concurrency and computation: practice and experience, 2011, 23(9): 1010–1025. [10] YANG Yiming, SLATTERY S, GHANI R. A study of approaches to hypertext categorization[J]. Journal of intelligent information systems, 2002, 18(2/3): 219–241. [11] REN Fuji, LI Chao. Hybrid Chinese text classification approach using general knowledge from Baidu Baike[J]. IEEJ transactions on electrical and electronic engineering, 2016, 11(4): 488–498. [12] DUWAIRI R, EL-ORFALI M. A study of the effects of preprocessing strategies on sentiment analysis for Arabic text[J]. Journal of information science, 2014, 40(4): 501–513. [13] 张冬梅. 文本情感分类及观点摘要关键问题研究[D]. 济南: 山东大学, 2012. ZHANG Dongmei. Research on key problems in text sentiment classification and opinion summarization[D]. Ji’nan: Shandong University, 2012. [14] 杨杰明. 文本分类中文本表示模型和特征选择算法研究[D]. 长春: 吉林大学, 2013. YANG Jieming. The research of text representation and feature selection in text categorization[D]. Changchun: Jilin University, 2013. [15] 张晓娜. CNNIC 发布第 37 次中国互联网络发展状况统计报告[N]. 民主与法制时报, 2016-01-23(001). [16] SYIAM M M, FAYED Z T, HABIB M B. An intelligent system for Arabic text categorization[J]. International journal of cooperative information systems, 2006, 6(1): 1–19. [17] DUWAIRI R, AL-REFAI M, KHASAWNEH N. Stemming versus light stemming as feature selection techniques for Arabic text categorization[C]//Proceedings of the 4th International Conference on Innovations in Information Technology. Dubai, 2007: 446–450. [18] 贺慧, 王俊义. 主动支持向量机的研究及其在蒙文文本分类中的应用[J]. 内蒙古大学学报: 自然科学版, 2006, 37(5): 560–563. HE Hui, WANG Junyi. Study of active learning support vector machine and its application on mongolian text classification[J]. Acta scientiarum naturalium universitatis neimongol, 2006, 37(5): 560–563. [19] ADELEKE A O, SAMSUDIN N A, MUSTAPHA A, et al. Comparative analysis of text classification algorithms for automated labelling of quranic verses[J]. International journal on advanced science engineering information [20] ·806· 智能系统学报第 13 卷

第5期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·807· technology,2017,7(4:1419-1427. of rule quality for feature selection in text categorization [21]MOHAMMAD A H,ALWADA N T,AL-MOMANI O. [M/International Symposium on Advances in Intelligent. Arabic text categorization using support vector machine, Berlin:Springer,,2003:589-598. naive bayes and neural network[J].GSTF journal on com- [29]CORTES C,VAPNIK V.Support-vector networks[J]. puting,2016,5(1):1-8. Machine learning,1995,20(3):273-297. [22]古丽娜孜艾力木江，孙铁利，伊力亚尔加尔木哈，等 [30]WANG Xuesong,HUANG Fei,CHENG Yuhu.Compu- 一种基于主动学习支持向量机哈萨克文文本分类方法 tational performance optimization of support vector ma- [).智能系统学报，2011,6(3：261-267. chine based on support vectors[J].Neurocomputing,2016, GU Linazi Ai Limujiang,SUN Tieli,Yi Liyaer Jia Er- 211:66-71. muhamaiti,et al.An approach to the text categorization of [31]COVER T,HART P.Nearest neighbor pattern classifica- the Kazakh language based on an active learning support tion[J].IEEE transactions on information theory,1967, vector machine[J].CAAI transactions on intelligent sys- 13(121-27. tems,2011,6(3):261-267 [32]FRANKLIN J.The elements of statistical learning:data [23]古丽娜孜艾力木江，孙铁利，乎西旦居马洪，等.一种 mining,inference and prediction[J].The mathematical in- 基于改进KNN的哈萨克语文本分类[J].东北师大学 telligencer,2005,27(2):83-85. 报：自然科学版，2014,46(2)：63-68. GU Linazi Ai Limujiang,SUNTieli,HU Xidan Ju Ma- [33]MENG Qingmin,CIESZEWSKI C J,MADDEN M,et al. K nearest neighbor method for forest inventory using re- hong,et al.Textcategorization of kazakh text based on mote sensing data[J].GIScience remote sensing,2007, improved KNN[J].Journal of northeast normal university: natural science edition,2014,46(2):63-68. 442:149-165 [24]古丽娜孜·艾力木江，孙铁利，乎西旦·居马洪，等.一种作者简介：基于SVM修正KNN算法的哈萨克语文本分类U.西古丽娜孜·艾力木江，女，1972年北师范大学学报：自然科学版，2014,50(3：48-53. 生，副教授，博士，主要研究方向为机 GU Linazi Ai Limujiang,SUN Tieli,HU Xidan Ju Ma- 器学习、模式识别、智能信息分类与图 hong,et al.An approach to the text categorization of the 像处理。参与国家级、省部级科研项目3项，承担院级重点项目4项。发 Kazakh language based on SVM-modified KNN al- 表学术论文20余篇。 gorithm[J].Journal of northwest normal university:natur- al science,2014,50(3:48-53. [25]旺建华.中文文本分类技术研究D].长春：吉林大学，乎西旦·居马洪，女，1966年生，教 2007. 授，主要研究方向为智能信息处理、人 WANG Jianhua.Research on classification of Chinese 脸识别。承担国家级、省部级科研项目4项。发表学术论文20余篇.出版 documents[D].Changchun:Jilin University,2007 教材1部。 [26]JOACHIMS T.Text categorization with support vector machines:Learning with many relevant features[M// NEDELLEC C.ROUVEIROL C.Machine Learning: ECML-98.Berlin:Springer,1998:137-142. 孙铁利，男，1956年生，教授，博士生导师，主要研究方向为智能用户 [27]WANG Ziqiang,SUN Xia,ZHANG Dexian,et al.An op- 接口、智能信息挖掘。承担国家级、省 timal SVM-based text classification algorithm [C]//Pro- 部级科研项目12项。发表学术论文 ceedings of 2006 International Conference on Machine 150余篇，出版专著及教材10部。 Learning and Cybernetics.Dalian,China,2006:13-16. [28]MONTANES E.FERANDEZ J,DIAZ I,et al.Measures

technology, 2017, 7(4): 1419–1427. MOHAMMAD A H, ALWADA N T, AL-MOMANI O. Arabic text categorization using support vector machine, naïve bayes and neural network[J]. GSTF journal on computing, 2016, 5(1): 1–8. [21] 古丽娜孜·艾力木江, 孙铁利, 伊力亚尔·加尔木哈, 等. 一种基于主动学习支持向量机哈萨克文文本分类方法 [J]. 智能系统学报, 2011, 6(3): 261–267. GU Linazi Ai Limujiang, SUN Tieli, Yi Liyaer Jia Ermuhamaiti, et al. An approach to the text categorization of the Kazakh language based on an active learning support vector machine[J]. CAAI transactions on intelligent systems, 2011, 6(3): 261–267. [22] 古丽娜孜·艾力木江, 孙铁利, 乎西旦·居马洪, 等. 一种基于改进 KNN 的哈萨克语文本分类[J]. 东北师大学报: 自然科学版, 2014, 46(2): 63–68. GU Linazi Ai Limujiang, SUNTieli, HU Xidan Ju Mahong, et al. Textcategorization of kazakh text based on improved KNN[J]. Journal of northeast normal university: natural science edition, 2014, 46(2): 63–68. [23] 古丽娜孜·艾力木江, 孙铁利, 乎西旦·居马洪, 等. 一种基于 SVM-修正 KNN 算法的哈萨克语文本分类[J]. 西北师范大学学报: 自然科学版, 2014, 50(3): 48–53. GU Linazi Ai Limujiang, SUN Tieli, HU Xidan Ju Mahong, et al. An approach to the text categorization of the Kazakh language based on SVM-modified KNN algorithm[J]. Journal of northwest normal university: natural science, 2014, 50(3): 48–53. [24] 旺建华. 中文文本分类技术研究[D]. 长春: 吉林大学, 2007. WANG Jianhua. Research on classification of Chinese documents[D]. Changchun: Jilin University, 2007. [25] JOACHIMS T. Text categorization with support vector machines: Learning with many relevant features[M]// NÉDELLEC C, ROUVEIROL C. Machine Learning: ECML-98. Berlin: Springer, 1998: 137–142. [26] WANG Ziqiang, SUN Xia, ZHANG Dexian, et al. An optimal SVM-based text classification algorithm[C]//Proceedings of 2006 International Conference on Machine Learning and Cybernetics. Dalian, China, 2006: 13–16. [27] [28] MONTAÑÉS E, FERÁNDEZ J, DÍAZ I, et al. Measures of rule quality for feature selection in text categorization [M]//International Symposium on Advances in Intelligent. Berlin: Springer,, 2003: 589–598. CORTES C, VAPNIK V. Support-vector networks[J]. Machine learning, 1995, 20(3): 273–297. [29] WANG Xuesong, HUANG Fei, CHENG Yuhu. Computational performance optimization of support vector machine based on support vectors[J]. Neurocomputing, 2016, 211: 66–71. [30] COVER T, HART P. Nearest neighbor pattern classification[J]. IEEE transactions on information theory, 1967, 13(1): 21–27. [31] FRANKLIN J. The elements of statistical learning: data mining, inference and prediction[J]. The mathematical intelligencer, 2005, 27(2): 83–85. [32] MENG Qingmin, CIESZEWSKI C J, MADDEN M, et al. K nearest neighbor method for forest inventory using remote sensing data[J]. GIScience & remote sensing, 2007, 44(2): 149–165. [33] 作者简介：古丽娜孜·艾力木江，女，1972 年生，副教授，博士,主要研究方向为机器学习、模式识别、智能信息分类与图像处理。参与国家级、省部级科研项目 3 项，承担院级重点项目 4 项。发表学术论文 20 余篇。乎西旦·居马洪，女，1966 年生，教授，主要研究方向为智能信息处理、人脸识别。承担国家级、省部级科研项目 4 项。发表学术论文 20 余篇，出版教材 1 部。孙铁利，男，1956 年生，教授，博士生导师，主要研究方向为智能用户接口、智能信息挖掘。承担国家级、省部级科研项目 12 项。发表学术论文 150 余篇，出版专著及教材 10 部。第 5 期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·807·

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录