本文在前期准备研究工作的基础上，给出 3 种词性的有限状态自动机，并采用词

正在加载图片...

第5期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·801· 本文在前期准备研究工作的基础上，给出 (如体育类文档中)每一个单词（如“排球”）的总出 3种词性的有限状态自动机，并采用词法分析和现次数。图5所示的是词的权重计算结果，即统双向全切分相结合的改进方法实现哈萨克语文本计某词在判别文档类别所属关系中的隶属度，当词干的提取与单词构形附加成分的细切分。以改然隶属度越高说明该词在文档分类时的贡献越进的逐字母二分词典查询机制对词干表进行搜大。最后把文档由如图6所示的形式向量化表索，提高词干提取的效率。以概率统计的方法对示，生成分类问题的文档向量，即“X号特征词：歧义词和未记载词进行切分。在此研究基础上，该特征词的特征向量”形式向量化表示。设计实现了哈萨克语文本的词法自动分析程序，完成哈萨克语文本的读取预处理。处理结果如图3所示，上半窗体上显示的是待切分的文档原体记文，下半窗体上显示是词干切分后的结果。 85一 93U 11 工收的一记事本 12.11 E 5▣图 45? 23 s55 11 8 L 3 3 11 3 1 1 L5eu4d山1000-11 2 d4←-护-uj5-心w。 355 1 1 B I5 2 3 1 j 1 d1641h1114日.号+14144出月 -11一华”-y-0% 图4词频统计结果 Fig.4 Term frequency statistical result 5小1000 5=护-urJ5 归一一3步-如山异 a..心4一地2，心 0.0131578947368421y 开主可子 0.013157B947368421L 0.0131578947368421 5 0.024390243902439-1L- 图3哈萨克语文本词干切分结果示例 0.0131578947368421 003658536585365855:9- Fig.3 Example segmentation results of the Kazakh text 0.0131578947368421:5 0.0365853658536585,为 0.0131578947368421 stem 0.024390243902439LlL 0.02631578947368425 0 0.02439024390243914 0.0131578947368421 D.024390243902439 0.0 1.2特征处理 0.0263157894736842.=2 .0 0.0394736842105263 特征是文本分类时判别类别的尺度。模式识 0.02631578917368422 0.013157B947368421 0.0072463768115942过L 别的不同分类问题有不同的特征选择方法，而在 0.0263157894736842 0.0072463768115942- 文本分类问题中常用到的方法有互信息(MⅫ、X 0.0072463768115942-44 统计量(CH)、信息增益(IG)、文档频率(DF)、卡图5词权重计算结果方统计等21。这些方法各具优点和不足之处。 Fig.5 Term weight computed result M、IG和CHI倾向于低频词的处理，而DF则倾固回图向于高频词的处理。目前，也有许多优化改进方文件巴国特试教看四的 14:0.01220391874313445:0.04881567497253766:0.04031567497253767:01 法26-2，其中文本频率比值法(document frequency 0057563342198956851:0.012203918743134452:0.012203918743134453:0. 9194499:0.903089986991944100:0.602059991327962101:0.9030899869919 ratio,DFR)以简单、快捷等优点克服了以上几种 03089986991944146:0.90308998699194H147:0.301029995663981148:0.301 44192:0.903089986991944193:0.,903089986991944194:0.602059991327962 方法存在的问题，综合考虑了类内外文本频率， 089986991944239:0.903089986991944240:0.903089986991944241:0.90308 285:0.903089986991944286:0.903089986991944287:0.90308998699194428 其计算公式为 986991944332:0.903089986991944333:0.90308998699194H334:0.90308998 DFR(,C)=(W-mz)xDF 8:0.903089986991944379:0.903089986991944380:0.903089986991944381: (1) 14:0.01220391874313445:0.0481567497253766:0.04期1567497253767：0.4 nix DF: 2687504.53254662983912E-0551:0.012203918743134452:0.0122039187 89558928395:0.0071109447794641396:0.0067081690121619197:0.007110 式中，对于词t,N是训练文本数，n,是C,类别 77946413138:0.00711094477946413139:0.00711094477946413140:0.00 中的文本数，DF,是C,类别中包含词1的文本数，而D显然是除了C类以外的别的类别中包含词图6文本向量文件 Fig.6 Text vector files t的文本数。通过词频统计、词权重计算和文档向量化表 2SVM与KNN方法示等一系列的预处理工作之后才能运用分类算法，所以对文本分类工作而言这些都是非常重要 2.1SVM方法的阶段性基础工作。图4所示的是每类文档里支持向量机(support vector machine,SVM)是本文在前期准备研究工作的基础上，给出 3 种词性的有限状态自动机，并采用词法分析和双向全切分相结合的改进方法实现哈萨克语文本词干的提取与单词构形附加成分的细切分。以改进的逐字母二分词典查询机制对词干表进行搜索，提高词干提取的效率。以概率统计的方法对歧义词和未记载词进行切分。在此研究基础上，设计实现了哈萨克语文本的词法自动分析程序，完成哈萨克语文本的读取预处理。处理结果如图 3 所示，上半窗体上显示的是待切分的文档原文，下半窗体上显示是词干切分后的结果。图 3 哈萨克语文本词干切分结果示例 Fig. 3 Example segmentation results of the Kazakh text stem 1.2 特征处理特征是文本分类时判别类别的尺度。模式识别的不同分类问题有不同的特征选择方法，而在文本分类问题中常用到的方法有互信息 (MI)、X 2 统计量 (CHI)、信息增益 (IG)、文档频率 (DF)、卡方统计等[ 2 5 ]。这些方法各具优点和不足之处。 MI、IG 和 CHI 倾向于低频词的处理，而 DF 则倾向于高频词的处理。目前，也有许多优化改进方法 [26-28] ，其中文本频率比值法 (document frequency ratio，DFR) 以简单、快捷等优点克服了以上几种方法存在的问题，综合考虑了类内外文本频率，其计算公式为 DFR(t,Ci) = (N −ni)×DFi ni ×DF′ i (1) DFi ′ 式中，对于词 t，N 是训练文本数，ni 是 Ci 类别中的文本数，DFi 是 Ci 类别中包含词 t 的文本数，而显然是除了 Ci 类以外的别的类别中包含词 t 的文本数。通过词频统计、词权重计算和文档向量化表示等一系列的预处理工作之后才能运用分类算法，所以对文本分类工作而言这些都是非常重要的阶段性基础工作。图 4 所示的是每类文档里 (如体育类文档中) 每一个单词 (如“排球”) 的总出现次数。图 5 所示的是词的权重计算结果，即统计某词在判别文档类别所属关系中的隶属度，当然隶属度越高说明该词在文档分类时的贡献越大。最后把文档由如图 6 所示的形式向量化表示，生成分类问题的文档向量，即“X 号特征词：该特征词的特征向量”形式向量化表示。图 4 词频统计结果 Fig. 4 Term frequency statistical result 图 5 词权重计算结果 Fig. 5 Term weight computed result 图 6 文本向量文件 Fig. 6 Text vector files 2 SVM 与 KNN 方法 2.1 SVM 方法支持向量机 (support vector machine，SVM) 是第 5 期古丽娜孜·艾力木江，等：基于支持向量的最近邻文本分类方法 ·801·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于支持向量的最近邻文本分类方法