正在加载图片...
第5期 古丽娜孜·艾力木江,等:基于支持向量的最近邻文本分类方法 ·801· 本文在前期准备研究工作的基础上,给出 (如体育类文档中)每一个单词(如“排球”)的总出 3种词性的有限状态自动机,并采用词法分析和 现次数。图5所示的是词的权重计算结果,即统 双向全切分相结合的改进方法实现哈萨克语文本 计某词在判别文档类别所属关系中的隶属度,当 词干的提取与单词构形附加成分的细切分。以改 然隶属度越高说明该词在文档分类时的贡献越 进的逐字母二分词典查询机制对词干表进行搜 大。最后把文档由如图6所示的形式向量化表 索,提高词干提取的效率。以概率统计的方法对 示,生成分类问题的文档向量,即“X号特征词: 歧义词和未记载词进行切分。在此研究基础上, 该特征词的特征向量”形式向量化表示。 设计实现了哈萨克语文本的词法自动分析程序, 完成哈萨克语文本的读取预处理。处理结果如 图3所示,上半窗体上显示的是待切分的文档原 体 记 文,下半窗体上显示是词干切分后的结果。 85一 93U 11 工收的一记事本 12.11 E 5▣图 45? 23 s55 11 8 L 3 3 11 3 1 1 L5eu4d山1000-11 2 d4←-护-uj5-心w。 355 1 1 B I5 2 3 1 j 1 d1641h1114日.号+14144出月 -11一华”-y-0% 图4词频统计结果 Fig.4 Term frequency statistical result 5小1000 5=护-urJ5 归一一3步-如山异 a..心4一地2,心 0.0131578947368421y 开主可子 0.013157B947368421L 0.0131578947368421 5 0.024390243902439-1L- 图3哈萨克语文本词干切分结果示例 0.0131578947368421 003658536585365855:9- Fig.3 Example segmentation results of the Kazakh text 0.0131578947368421:5 0.0365853658536585,为 0.0131578947368421 stem 0.024390243902439LlL 0.02631578947368425 0 0.02439024390243914 0.0131578947368421 D.024390243902439 0.0 1.2特征处理 0.0263157894736842.=2 .0 0.0394736842105263 特征是文本分类时判别类别的尺度。模式识 0.02631578917368422 0.013157B947368421 0.0072463768115942过L 别的不同分类问题有不同的特征选择方法,而在 0.0263157894736842 0.0072463768115942- 文本分类问题中常用到的方法有互信息(MⅫ、X 0.0072463768115942-44 统计量(CH)、信息增益(IG)、文档频率(DF)、卡 图5词权重计算结果 方统计等21。这些方法各具优点和不足之处。 Fig.5 Term weight computed result M、IG和CHI倾向于低频词的处理,而DF则倾 固回图 向于高频词的处理。目前,也有许多优化改进方 文件巴国特试教看四的 14:0.01220391874313445:0.04881567497253766:0.04031567497253767:01 法26-2,其中文本频率比值法(document frequency 0057563342198956851:0.012203918743134452:0.012203918743134453:0. 9194499:0.903089986991944100:0.602059991327962101:0.9030899869919 ratio,DFR)以简单、快捷等优点克服了以上几种 03089986991944146:0.90308998699194H147:0.301029995663981148:0.301 44192:0.903089986991944193:0.,903089986991944194:0.602059991327962 方法存在的问题,综合考虑了类内外文本频率, 089986991944239:0.903089986991944240:0.903089986991944241:0.90308 285:0.903089986991944286:0.903089986991944287:0.90308998699194428 其计算公式为 986991944332:0.903089986991944333:0.90308998699194H334:0.90308998 DFR(,C)=(W-mz)xDF 8:0.903089986991944379:0.903089986991944380:0.903089986991944381: (1) 14:0.01220391874313445:0.0481567497253766:0.04期1567497253767:0.4 nix DF: 2687504.53254662983912E-0551:0.012203918743134452:0.0122039187 89558928395:0.0071109447794641396:0.0067081690121619197:0.007110 式中,对于词t,N是训练文本数,n,是C,类别 77946413138:0.00711094477946413139:0.00711094477946413140:0.00 中的文本数,DF,是C,类别中包含词1的文本数, 而D显然是除了C类以外的别的类别中包含词 图6文本向量文件 Fig.6 Text vector files t的文本数。 通过词频统计、词权重计算和文档向量化表 2SVM与KNN方法 示等一系列的预处理工作之后才能运用分类算 法,所以对文本分类工作而言这些都是非常重要 2.1SVM方法 的阶段性基础工作。图4所示的是每类文档里 支持向量机(support vector machine,SVM)是本文在前期准备研究工作的基础上,给出 3 种词性的有限状态自动机,并采用词法分析和 双向全切分相结合的改进方法实现哈萨克语文本 词干的提取与单词构形附加成分的细切分。以改 进的逐字母二分词典查询机制对词干表进行搜 索,提高词干提取的效率。以概率统计的方法对 歧义词和未记载词进行切分。在此研究基础上, 设计实现了哈萨克语文本的词法自动分析程序, 完成哈萨克语文本的读取预处理。处理结果如 图 3 所示,上半窗体上显示的是待切分的文档原 文,下半窗体上显示是词干切分后的结果。 图 3 哈萨克语文本词干切分结果示例 Fig. 3 Example segmentation results of the Kazakh text stem 1.2 特征处理 特征是文本分类时判别类别的尺度。模式识 别的不同分类问题有不同的特征选择方法,而在 文本分类问题中常用到的方法有互信息 (MI)、X 2 统计量 (CHI)、信息增益 (IG)、文档频率 (DF)、卡 方统计等[ 2 5 ]。这些方法各具优点和不足之处。 MI、IG 和 CHI 倾向于低频词的处理,而 DF 则倾 向于高频词的处理。目前,也有许多优化改进方 法 [26-28] ,其中文本频率比值法 (document frequency ratio,DFR) 以简单、快捷等优点克服了以上几种 方法存在的问题,综合考虑了类内外文本频率, 其计算公式为 DFR(t,Ci) = (N −ni)×DFi ni ×DF′ i (1) DFi ′ 式中,对于词 t,N 是训练文本数,ni 是 Ci 类别 中的文本数,DFi 是 Ci 类别中包含词 t 的文本数, 而 显然是除了 Ci 类以外的别的类别中包含词 t 的文本数。 通过词频统计、词权重计算和文档向量化表 示等一系列的预处理工作之后才能运用分类算 法,所以对文本分类工作而言这些都是非常重要 的阶段性基础工作。图 4 所示的是每类文档里 (如体育类文档中) 每一个单词 (如“排球”) 的总出 现次数。图 5 所示的是词的权重计算结果,即统 计某词在判别文档类别所属关系中的隶属度,当 然隶属度越高说明该词在文档分类时的贡献越 大。最后把文档由如图 6 所示的形式向量化表 示,生成分类问题的文档向量,即“X 号特征词: 该特征词的特征向量”形式向量化表示。 图 4 词频统计结果 Fig. 4 Term frequency statistical result 图 5 词权重计算结果 Fig. 5 Term weight computed result 图 6 文本向量文件 Fig. 6 Text vector files 2 SVM 与 KNN 方法 2.1 SVM 方法 支持向量机 (support vector machine,SVM) 是 第 5 期 古丽娜孜·艾力木江,等:基于支持向量的最近邻文本分类方法 ·801·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有