正在加载图片...
262 智能系统学报 第6卷 1.1文本预处理 换最复杂的词类,是词切分中的难点.本文在上述各 文本预处理主要是从文本中提取关键词来表示 类前期准备工作的基础上,给出了这3种词性的有 文本的处理过程.在预处理过程中,要对文本进行分 限状态自动机,然后采用双向全切分和词法分析相 词处理,将连续的语句分隔为分散的有独立意义的 结合的改进方法实现哈萨克语词干提取和构形附加 词集,然后去除集合中的停用词,获得文本的关键词 成分的细切分.对于词干表搜索,首次采用了改进的 集合.文本预处理方法是影响文本分类准确度的关 逐字母二分词典查询机制来提高词干提取的效率, 键因素之一,对于不同语言,需要采用不同的预处理 对歧义词和未登陆词的切分采用概率统计的方法。 技术得到相关文本的词性信息.例如,中文需要进行 index type sulfix btype 分词,英文则需要进行词干提取 215adj Y ge 201ad igc 哈萨克文为拼音文字,属于阿尔泰语系突厥语 228ad gc 族的克普恰克语支,中国境内通用的哈萨克文借用 227 adj C 了阿拉伯语和部分波斯文字母.哈萨克文共有33个 226ad 字母,其中有24个辅音字母、9个元音字母,每个字 图2哈萨克语附加成分 母的位置有词首、词中、词末、独立4种变体,词与词 Fig.2 Additional components in Kazakh text 之间有空格分开,所以哈萨克文不需要分词处理.作 在以上研究基础上,设计实现了哈萨克语自动 为黏着语,哈萨克语的语法形式是通过在单词原形 词法分析中的附加成分的切分和词干提取程序,完 的后面或前面附加一定的附加成分来完成的.这就 成了哈萨克文文本的读取预处理.处理结果如图3 造成在哈萨克语文本中,一个哈萨克语词对应多个 所示,上半窗体显示内容是待切分的原文,下半窗体 字符串形式,因此一定要对其进行词干提取 显示内容是切分后的结果 哈萨克文预处理工作中,除了词干提取以外,还 要进行构形附加成分的切分.这是由于构形附加成 -i心4d沙护uL·为 分与词干互相黏连,构形附加成分之间也互相黏连, 而且构形附加成分往往可以表示一定意义,如果不 ·sLu 将这些黏连在一起的构形附加成分切分开,就不能 JL13s 罗-05店与中运片 l4克?+小 准确地表达整个单词的含义.因此,对于哈萨克语词 -1护心-”y-呢4为 干提取方法的研究和应用其构形语素的分析需要并 山54这 行处理.本文完成了哈萨克文词干提取以及词性标 注所需的哈萨克语词干表的构建.该词干表收录了 ·5,Ly且-+yr为 由新疆人民出版社出版的《哈萨克语详解词典》中 .i远,远:一114光,,h,玉,d心--儿 的6万多个哈萨克语词干,形式如图1所示.图2是 附加成分表的一部分,其收录了438个哈萨克语附 图3哈萨克文词干切分结果示例 加成分.整个附加成分可分为构形附加成分和构词 Fig.3 Example of segmentation results of the Ka- 附加成分两大类.其中,构形附加成分为4种,即复 zakh text stem 数附加成分、领属性人称附加成分、格附加成分和谓 1.2文本模型 语性人称.构词附加成分同样分为4种,包括动词、 文本属于一种非结构化的数据,无法被学习算 形容词、数词和副词附加成分.附加成分的详细分类 法直接用于训练或分类.通过简单而准确的方法,将 文本表示成机器可处理的形式,是进行文本分类的 有助于在附加成分切分阶段进行词法分析. id word pos 基础.向量空间模型(vector space model,VSM)是最 经典的文本形式化表示方法,它将文本表示为包含 特征项和特征项权重的向量.在VSM中,用d(doc ument)表示文本,特征项是指出现在文本d中且可 5. 6 代表该文本内容的基本语言单位,用t(tem)表示, 特征项权重是指词对文本的重要程度,用0 图1哈萨克语词干 (weight)表示.VSM将文本映射为一个特征向量 Fig.1 Kazakh text stem V(d)=((t1,01),(t2,02),…,(t,0:),…,(tn, 名词、动词和形容词是哈萨克语中数量最多、变 w)),其中(i=1,2,…,n)为一些互不相同的特征
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有