正在加载图片...
第4期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·507· 在确定一个词是否为实体过程中,会涉及各种 di san the gioi》其中,对于Bac Kinh”(北 因素,假设x就是一个由这些因素构成的向量,变 京)做为当前词,本文选取词的上下文信息为: 量y的值为1(属于命名实体有效特征)或者0(不 前一个词是“C6Cung”;前第2个词是“,”;后 属于命名实体有效特征)。Py)是指模型对某个词 一个词是“duoc”;后第2个词是“dura vao”作为有 是否为实体的概率。这个概率可以用上述思想来估 效特征。 计。最大嫡模型要求P()在满足一定约束的条件 2)词性上下文信息的特征:本文选取词性以 下,必须使得式()的熵取得最大值: 及上下文作为本文的词性特征,词性能够有效地 H(p)=-∑p(yx)log p(yx) 判断词在句子中所起的角色,同时也影响当前词 x.y 及周围词的大致信息。例如:“che bien//N 式中的约束条件实际上就是指所有已知的特征: thiy_san/N xuat khau/N中,词性顺序为NN )={0fx)满足一定条件, N”构成了一个组织机构名; Phuong_Thi_Thanh/Np”中Np”表示人名的名 i=1,2,,n, 词;“1M其中词性M在识别数字时,起到了 称py川x)=1 p∑x,)为最大熵模型 很明显的作用;“十亿”翻译为:“mot/MtM 等:在越南语的句子中,句子中的动词、形容词、 的特征。n为所有特征的总数。可以看到这些特征 副词等不可能成为实体的标志,这样可以减小搜 描述了向量x与变量y之间的联系。最终概率输出: 索范围,同时也降低了识别错误率,提高处理效 率。因此,本文选取词性和词性前后两个词性作 p0ly)=ep∑x,》 为本文的特征。 (x) 3)组块上下文信息特征:用组块技术处理命 式中:2是每个向量的权重,且z(x)表示为 名实体识别技术是可行的叫,因为名词性组块的 定义和命名实体名称结构有很强的相似性,所以 =(x)=∑exp(∑,fx,y) 只考虑越南语的名词性组块、时间组块、数词组 块等来分析越南语的命名实体识别问题是可行 4.2特征的选取 的,其他类型组块(形容词组块、副词组块等) 对于统计模型来说,特征的选取直接决定模型 不可能成为实体,这样可以减少识别范围和模型 的好坏,对于最大熵模型来说,好处在于选择特征 搜索范围。本文选取组块以及上下文信息特征, 的灵活性,但也要保证选择的特征能反映不同实体 组块标记能够有效地帮助识别实体的边界和类 类型之间的差异。根据对现有的越南语语言特点和 型。首先,“阮芳去学校。”翻译为 实体库中实体的特点进行分析,本文主要选取局部 "Nguyen_Minh_Phurong //B-NP "Di //B-VP Den 特征和全局特征作为本文的有效特征。 4.2.1全局特征 IB-PP Truong hoc //B-NP.IIO,在句子中 本文所选取的全局特征,针对所有的实体类型 Nguyen_Minh_Phuong”是一个名词组块,确定了 进行选取: 人名实体边界,同时也确定了名词组块的实体类 1)词上下文信息特征:本文选取词以及上下文 型;“.M6t/B-MPty-MP”可以确定数字的类 信息做为本文的特征,词字符包含丰富形态信息。 型和数字的边界等;组块的标记有利于命名实体 例如:“河南省翻译成“tinh Ha Nam'”;“阮生雄” 边界和类型的识别,同时对组块的长度可以有效 地辅助识别实体,组织机构名往往比较长;时间、 翻译为Nguyen Sinh Hùng”;“1987年,北京故宫 被列入《世界遗产名录》。”翻译为Nam1987, 数字、百分号、人名、地名往往组块长度较短。 因此,本文选取当前组块标记、前后两个词的组 C6 Cung Bac Kinh duroc dura vao Danh muc 块标记和组块长度作为本文的有效特征。第 4 期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·507· 在确定一个词是否为实体过程中,会涉及各种 因素,假设 x 就是一个由这些因素构成的向量,变 量 y 的值为 1(属于命名实体有效特征)或者 0(不 属于命名实体有效特征)。P(x|y)是指模型对某个词 是否为实体的概率。这个概率可以用上述思想来估 计。最大熵模型要求 P(y|x)在满足一定约束的条件 下,必须使得式(1)的熵取得最大值: , ( ) ( )log ( ) x y H p p y x p y x   式中的约束条件实际上就是指所有已知的特征: 1 ( ) { ( ) 0 i f x, y = f x, y 满足一定条件, i = n 1,2, , , 称 * 1 ( | ) exp( ( , )) ( ) i i i p y f y z x x   x 为最大熵模型 的特征。n 为所有特征的总数。可以看到这些特征 描述了向量 x 与变量 y 之间的联系。最终概率输出: exp( ( , )) ( ) 1 ( | ) *   i i i f y z p y x x x  式中: i 是每个向量的权重,且 z x 表示为   y i i i z(x) exp(  f (x, y)) 4.2 特征的选取 对于统计模型来说,特征的选取直接决定模型 的好坏,对于最大熵模型来说,好处在于选择特征 的灵活性,但也要保证选择的特征能反映不同实体 类型之间的差异。根据对现有的越南语语言特点和 实体库中实体的特点进行分析,本文主要选取局部 特征和全局特征作为本文的有效特征。 4.2.1 全局特征 本文所选取的全局特征,针对所有的实体类型 进行选取: 1)词上下文信息特征:本文选取词以及上下文 信息做为本文的特征,词字符包含丰富形态信息。 例如:“河南省”翻译成“tỉnh Hà_Nam”;“阮生雄” 翻译为“Nguyễn_Sinh_Hùng”;“1987 年,北京故宫 被列入《世界遗产名录》。”翻译为“Năm 1987, Cố_Cung Bắc_Kinh được đưa_vào 《Danh_mục di_sản thế_giới 》 .”其中,对于“Bắc_Kinh”(北 京)做为当前词,本文选取词的上下文信息为: 前一个词是“Cố_Cung”;前第 2 个词是“,”;后 一个词是“được”;后第 2 个词是“đưa_vào”作为有 效特征。 2)词性上下文信息的特征:本文选取词性以 及上下文作为本文的词性特征,词性能够有效地 判断词在句子中所起的角色,同时也影响当前词 及 周 围 词 的 大 致 信 息 。 例 如 : “chế_biến//N thủy_sản//N xuất_khẩu//N”中,词性顺序为“N N N” 构 成 了 一 个 组 织 机 构 名 ; “Phương_Thị_Thanh//Np”中“Np”表示人名的名 词;“1//M”其中词性“M”在识别数字时,起到了 很明显的作用;“十亿”翻译为:“một//M tỷ//M” 等;在越南语的句子中,句子中的动词、形容词、 副词等不可能成为实体的标志,这样可以减小搜 索范围,同时也降低了识别错误率,提高处理效 率。因此,本文选取词性和词性前后两个词性作 为本文的特征。 3)组块上下文信息特征:用组块技术处理命 名实体识别技术是可行的[1],因为名词性组块的 定义和命名实体名称结构有很强的相似性,所以 只考虑越南语的名词性组块、时间组块、数词组 块等来分析越南语的命名实体识别问题是可行 的,其他类型组块(形容词组块、副词组块等) 不可能成为实体,这样可以减少识别范围和模型 搜索范围。本文选取组块以及上下文信息特征, 组块标记能够有效地帮助识别实体的边界和类 型 。 首 先 , “ 阮 芳 去 学 校 。 ” 翻 译 为 “Nguyễn_Minh_Phương //B-NP ”Đi //B-VP Đến //B-PP Trường_học //B-NP . //O”, 在句子中 “Nguyễn_Minh_Phương”是一个名词组块,确定了 人名实体边界,同时也确定了名词组块的实体类 型;“... Một //B-MP tỷ//I-MP ...”可以确定数字的类 型和数字的边界等;组块的标记有利于命名实体 边界和类型的识别,同时对组块的长度可以有效 地辅助识别实体,组织机构名往往比较长;时间、 数字、百分号、人名、地名往往组块长度较短。 因此,本文选取当前组块标记、前后两个词的组 块标记和组块长度作为本文的有效特征
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有