正在加载图片...
第4期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·505· 信息,没有充分结合越南语的语言和实体特点;所 别进行规则和统计分析实体识别,将得到的实体标 选的窗口大小不能满足复杂实体(如长组织机构名 记结果进行去重、组合等操作进行综合,得到越南 等)的识别需求;对语料的选取和规模都有所要求。 语命名实体识别结果:最后人工校对实体识别结果, 另外,上述研究的F值不高且未充分利用语言和实 将正确识别结果加入到实体库中,方便尽可能地制 体特点、受语料规模和类型限制等,单独使用规则 定更全的规则和抽取更有效的特征。实验表明,该 或者统计方法已不能解决上述问题。 方法能够有效地克服了以上越南语实体识别研究的 因此,本文提出一种融合实体特性识别越南语 不足;明显地提高了正确率、召回率和F值。因此, 复杂命名实体的混合方法。其主要思想是:首先用 该方法是有效可行的。 人工标记的方法构建一定规模的实体库,包含常用 1命名实体识别框架 人名、地名、组织机构名、人名姓氏等;其次根据 越南语语言特点和实体库中实体特点,制定出识别 本文提出了一种融合实体特性的越南语复杂命 越南语命名实体识别的规则集合以及选取越南语命 名实体识别的混合方法,该方法能够有效地克服单 名实体识别所用的局部特征和全局特征,使用最大 独使用统计分析或规则集合进行命名实体识别的缺 熵模型统计分析,得到越南语命名实体最大熵模型; 点,并融合越南语语言和实体库中实体特点,原理 然后将测试语料分别使用规则集合和最大熵模型分 及流程如图1所示。 规侧集合匹配 初步命名实何 以规则为主 命名实体识别 识别结果 以统计为辅 结果 制定命名 越南 实体规则 越南语实体库 人工校对 新 越南语特点 中实体特点 测试 选取特征 语料 越南新闻训练 制定特征 语料 模板 最大熵统计分析 最大嫡模型 最大嫡识别结果 图1本文越南语命名实体识别框架 Fig.1 The proposed framework for vietnamese named entity recognition 图1中,越南语命名实体库构建主要来源于中 越南语的语言特点和越南语实体库中实体特点,抽 越交流圈中新闻、经济、政治等语料进行人工标记 取命名实体识别的特征,构建语料训练格式,使用 以及从维基百科抽取得到,越南语语料来源于微信 最大嫡统计分析进行建模,得到最大熵模型;然后 中越交流圈中收集得到。首先构建越南语命名实体 对越南语实体语料进行测试:将测试语料放人已得 规则集合:根据越南语的语言特点和越南语实体库 到规则集合和最大嫡模型进行命名实体识别,分别 中实体特点,制定越南语命名实体规则集合:其次 得到规则识别结果和统计识别结果,将两者得到的 构建越南语最大熵模型的命名实体识别模型:根据 结果进行去重等操作,如果两者识别结果不一致,第 4 期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·505· 信息,没有充分结合越南语的语言和实体特点;所 选的窗口大小不能满足复杂实体(如长组织机构名 等)的识别需求;对语料的选取和规模都有所要求。 另外,上述研究的 F 值不高且未充分利用语言和实 体特点、受语料规模和类型限制等,单独使用规则 或者统计方法已不能解决上述问题。 因此,本文提出一种融合实体特性识别越南语 复杂命名实体的混合方法。其主要思想是:首先用 人工标记的方法构建一定规模的实体库,包含常用 人名、地名、组织机构名、人名姓氏等;其次根据 越南语语言特点和实体库中实体特点,制定出识别 越南语命名实体识别的规则集合以及选取越南语命 名实体识别所用的局部特征和全局特征,使用最大 熵模型统计分析,得到越南语命名实体最大熵模型; 然后将测试语料分别使用规则集合和最大熵模型分 别进行规则和统计分析实体识别,将得到的实体标 记结果进行去重、组合等操作进行综合,得到越南 语命名实体识别结果;最后人工校对实体识别结果, 将正确识别结果加入到实体库中,方便尽可能地制 定更全的规则和抽取更有效的特征。实验表明,该 方法能够有效地克服了以上越南语实体识别研究的 不足;明显地提高了正确率、召回率和 F 值。因此, 该方法是有效可行的。 1 命名实体识别框架 本文提出了一种融合实体特性的越南语复杂命 名实体识别的混合方法,该方法能够有效地克服单 独使用统计分析或规则集合进行命名实体识别的缺 点,并融合越南语语言和实体库中实体特点,原理 及流程如图 1 所示。 图 1 本文越南语命名实体识别框架 Fig.1 The proposed framework for vietnamese named entity recognition 图 1 中,越南语命名实体库构建主要来源于中 越交流圈中新闻、经济、政治等语料进行人工标记 以及从维基百科抽取得到,越南语语料来源于微信 中越交流圈中收集得到。首先构建越南语命名实体 规则集合:根据越南语的语言特点和越南语实体库 中实体特点,制定越南语命名实体规则集合;其次 构建越南语最大熵模型的命名实体识别模型:根据 越南语的语言特点和越南语实体库中实体特点,抽 取命名实体识别的特征,构建语料训练格式,使用 最大熵统计分析进行建模,得到最大熵模型;然后 对越南语实体语料进行测试:将测试语料放入已得 到规则集合和最大熵模型进行命名实体识别,分别 得到规则识别结果和统计识别结果,将两者得到的 结果进行去重等操作,如果两者识别结果不一致
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有