正在加载图片...
·800· 智能系统学报 第13卷 应用中起到了重要的作用。数字化时代,在线文 1文本特征提取 本文档及其类别的数量越来越巨大,而TC是从 数据海洋当中挖掘出具有参考价值数据的应用程 1.1文本预处理 序s。文本挖掘工作是政府工作、科学研究、办 文本预处理在整个文本分类工作中扮演着最 公业务等许多应用领域里书面文本的分析过程。 重要的角色,其处理程度直接影响到文本分类精 朴素贝叶斯、k近邻、支持向量机、决策树、最大 度。因为它是从文档中抽取关键词集合的过程, 嫡和神经网络等基于统计与监督的模式分类算法 而关键词的单独抽取因语言语法规则的不同而不 在文本分类研究中已被广泛应用。提高文本分类 同,所以这层工作属于技术含量较高的基础性工 效率的算法研究对web数据的开发应用具有重要 作,需要设计人员熟练掌握语言语法规则和计算 意义。 机编程能力。目前存在一个现实问题,即包括作 合理的词干有助于提高文本分类的性能和效 者在内的很多编程人员因研究工作的需要一般从 率1,特别是对于哈萨克语这样的构词和词性 事于中英文文字资料上的研究,所以对母语(哈 变化较复杂语言的文本分类而言,词干的准确提 萨克语)语法规则的细节不精通,对从小开始在 取极其重要。从同一个词干可以派生出许多单 汉语授课学校上学的编程人员情况则更严重,所 词,因此通过词干提取还可以对语料库规模进行 以要实现词干解析需要向语言学专家或相关人员 降维。文本文档数量的巨大化和包含特征的多样 全面请教,这也是影响哈萨克语文本分类工作进 化,给文本挖掘工作带来一定的困难。目前,众 展的一个客观问题。 多文本分类研究都是基于英文或中文,基于少数 哈萨克语文字由24个辅音字母和9个元音 民族语言的文本分类研究相对较少叨:但是国外 字母的共有33个字母组成。因为哈萨克语语法 对于阿拉伯语的文本分类工作比中国少数民族语 形式是在单词原形前后附加一定附加成分来完成 言文本分类工作成熟-刘,投入研究的人员也较多。 的,所以哈萨克语言属于黏着语,即跟英文类似 哈萨克语言属于阿尔泰语系突厥语族的克普 一个哈萨克语单词对应多种链接形式,因此对其 恰克语支,中国境内通用的哈萨克文借用了阿拉 一定要进行词干提取。 伯语和部分波斯文字母,而哈萨克斯坦等国家用 本文前期系列研究工作基本完成了哈萨克语 的哈萨克文是斯拉夫文字。哈萨克文本跟中文不 文本词干提取以及词性标注工作,已完成哈萨克 同的一点是哈萨克文文本单词以空格分开的,这 语文本词干表的构建。该词干表收录了如图1所 点类似于英文,都需要文本词干提取过程。由于 示的由新疆人民出版社出版的《哈萨克语详解词 哈萨克语与英语语法体系不一样,英文词干提取 典》中的60000多个哈萨克语文本词干和如图2 规则还不能直接用到哈萨克语文本分类问题上, 所示的438个哈萨克语文本词干附加成分。 要研究适合哈萨克语语法体系的词干提取规则之 word pos 后才能实现哈萨克语文本的分类工作。哈萨克语 025 具有丰富的形态和复杂的拼字法,因此哈萨克语 29 adj 文本分类系统的实现是有难度的。为了实现文本 3 n 分类任务需要一定规模的语料库,语料库里语料 4 59 的质量直接影响文本分类的精度。到目前为止在 6业 va 哈萨克语中还没有一个公认的哈萨克文语料库, 当然,也有不少人认为新疆人民日报(哈文版)上 图1 哈萨克语词干 Fig.1 Kazakh text stem 的文本可以当作文本分类语料库。本文为了保证 文本分类语料库的规范化和文本分类工作的标准 index type suffix btype 化,经过认真挑选中文标准语料库里的部分语料 215ad d ge 文档并对其进行翻译和新疆人民日报上的部分文 201ad 月 gc 档来自行搭建了本研究的语料库。本文在对前期 228ad u gc 研究里词干提取程序词干解析规则222进行优化 227ad gc 改善的基础上实现本研究的文本预处理,提出新 226ad gc 的样本测度指标与距离公式,并结合SVM与 图2哈萨克语附加成分 KNN分类算法实现了哈萨克语文本分类。 Fig.2 Additional components in Kazakh text应用中起到了重要的作用。数字化时代,在线文 本文档及其类别的数量越来越巨大,而 TC 是从 数据海洋当中挖掘出具有参考价值数据的应用程 序 [15-16]。文本挖掘工作是政府工作、科学研究、办 公业务等许多应用领域里书面文本的分析过程。 朴素贝叶斯、k 近邻、支持向量机、决策树、最大 熵和神经网络等基于统计与监督的模式分类算法 在文本分类研究中已被广泛应用。提高文本分类 效率的算法研究对 web 数据的开发应用具有重要 意义。 合理的词干有助于提高文本分类的性能和效 率 [17-18] ,特别是对于哈萨克语这样的构词和词性 变化较复杂语言的文本分类而言,词干的准确提 取极其重要。从同一个词干可以派生出许多单 词,因此通过词干提取还可以对语料库规模进行 降维。文本文档数量的巨大化和包含特征的多样 化,给文本挖掘工作带来一定的困难。目前,众 多文本分类研究都是基于英文或中文,基于少数 民族语言的文本分类研究相对较少[19] ;但是国外 对于阿拉伯语的文本分类工作比中国少数民族语 言文本分类工作成熟[20–21] ,投入研究的人员也较多。 哈萨克语言属于阿尔泰语系突厥语族的克普 恰克语支,中国境内通用的哈萨克文借用了阿拉 伯语和部分波斯文字母,而哈萨克斯坦等国家用 的哈萨克文是斯拉夫文字。哈萨克文本跟中文不 同的一点是哈萨克文文本单词以空格分开的,这 点类似于英文,都需要文本词干提取过程。由于 哈萨克语与英语语法体系不一样,英文词干提取 规则还不能直接用到哈萨克语文本分类问题上, 要研究适合哈萨克语语法体系的词干提取规则之 后才能实现哈萨克语文本的分类工作。哈萨克语 具有丰富的形态和复杂的拼字法,因此哈萨克语 文本分类系统的实现是有难度的。为了实现文本 分类任务需要一定规模的语料库,语料库里语料 的质量直接影响文本分类的精度。到目前为止在 哈萨克语中还没有一个公认的哈萨克文语料库, 当然,也有不少人认为新疆人民日报 (哈文版) 上 的文本可以当作文本分类语料库。本文为了保证 文本分类语料库的规范化和文本分类工作的标准 化,经过认真挑选中文标准语料库里的部分语料 文档并对其进行翻译和新疆人民日报上的部分文 档来自行搭建了本研究的语料库。本文在对前期 研究里词干提取程序词干解析规则[22-24]进行优化 改善的基础上实现本研究的文本预处理,提出新 的样本测度指标与距离公式,并结合 SVM 与 KNN 分类算法实现了哈萨克语文本分类。 1 文本特征提取 1.1 文本预处理 文本预处理在整个文本分类工作中扮演着最 重要的角色,其处理程度直接影响到文本分类精 度。因为它是从文档中抽取关键词集合的过程, 而关键词的单独抽取因语言语法规则的不同而不 同,所以这层工作属于技术含量较高的基础性工 作,需要设计人员熟练掌握语言语法规则和计算 机编程能力。目前存在一个现实问题,即包括作 者在内的很多编程人员因研究工作的需要一般从 事于中英文文字资料上的研究,所以对母语 (哈 萨克语) 语法规则的细节不精通,对从小开始在 汉语授课学校上学的编程人员情况则更严重,所 以要实现词干解析需要向语言学专家或相关人员 全面请教,这也是影响哈萨克语文本分类工作进 展的一个客观问题。 哈萨克语文字由 24 个辅音字母和 9 个元音 字母的共有 33 个字母组成。因为哈萨克语语法 形式是在单词原形前后附加一定附加成分来完成 的,所以哈萨克语言属于黏着语,即跟英文类似 一个哈萨克语单词对应多种链接形式,因此对其 一定要进行词干提取。 本文前期系列研究工作基本完成了哈萨克语 文本词干提取以及词性标注工作,已完成哈萨克 语文本词干表的构建。该词干表收录了如图 1 所 示的由新疆人民出版社出版的《哈萨克语详解词 典》中的 60 000 多个哈萨克语文本词干和如图 2 所示的 438 个哈萨克语文本词干附加成分。 图 1 哈萨克语词干 Fig. 1 Kazakh text stem 图 2 哈萨克语附加成分 Fig. 2 Additional components in Kazakh text ·800· 智 能 系 统 学 报 第 13 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有