正在加载图片...
第4期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·509· 字和时间有固定表达方式,本文采用规则匹配。 di bat dich di con durong phat trien quan doi dac sac 6举例 Trung Qu6c.”(习近平主席11月24日在会上宣 布,全面实施改革强军战略,坚定不移走中国特 对于越南语句子Ngay24 thang11,tai hoi nghi,, 色强军之路。),其中人名实体Tap Can Binh”对人 Chu tich Tap Can Binh tuyen bo thurc thi toan dien 名实体建最大熵模型特征,如表3所示。 chien luroc cai cach phat trien quan doi,kien dinh bat 表3命名实体识别特征选取示例 Table3 Sample of selecting named entity recognition features 特征 特征值 含义 Tap Can Binh 当前词 词特征及词 Chu tich 当前词的前第1个 上下文信息 当前词的前第2个 特征 tuyen_bo 当前词的后第1个 thuc 当前词的后第2个 I-NP 当前组块标记 组块特征及 B-NP 当前组块标记的前第1个 上下文信息 CH 当前组块标记的前第2个 特征 B-VP 当前组块标记的后第1个 0 当前组块标记的后第2个 组块长度 2 当前词所在组块长度 Np 当前词性 词性特征及 词性N 当前词性的前第1个 词性上下文 Mark 当前词性的前第2个 信息特征 V 当前词性的前后1个 ADJ 当前词性的后第2个 姓氏特征 1 姓氏是否在姓氏库中 指示词特征 Chutich 指示词字符 词素个数 3 当前词的词素个数 当前词的首字母大写 大写特征 其它词素的首字母是否为大写信息特 征 是否存在实 1 判断当前词是否存在实体库字典中 体字典中 大熵模型的训练文件的格式如图2所示。 列表示当前组块标记以及组块上下文信息,第17 图2的训练文件中列与列之间用制表符“” 列表示当前词的词素个数,第18列表示姓氏是否 分开。图中第1列表示各类实体的标记符号,第2 在姓氏列表中,第19列表示指示词特征,第20 列表示当前词的字符,第3列表示当前词的词性, 列表示当前词的首字母是否大写,第21列表示除 第4~7列表示当前词的上下文信息特征,第8~11 了第1个词素之外,其他的词素首字母是否大写, 列表示当前词的词性的上下文信息特征,第12~16 第22列表示组块的长度,第23列表示该实体是第 4 期 刘艳超,等:融合实体特性识别越南语复杂命名实体的混合方法 ·509· 字和时间有固定表达方式,本文采用规则匹配。 6 举例 对于越南语句子“Ngày 24 tháng 11, tại hội nghị, Chủ tịch Tập Cận Bình tuyên bố thực thi toàn diện chiến lược cải cách phát triển quân đội, kiên định bất di bất dịch đi con đường phát triển quân đội đặc sắc Trung Quốc.” (习近平主席 11 月 24 日在会上宣 布,全面实施改革强军战略,坚定不移走中国特 色强军之路。),其中人名实体“Tập Cận Bình”对人 名实体建最大熵模型特征,如表 3 所示。。 表 3 命名实体识别特征选取示例 Table3 Sample of selecting named entity recognition features 特征 特征值 含义 词特征及词 上下文信息 特征 Tập Cận Bình 当前词 Chủ tịch 当前词的前第 1 个 , 当前词的前第 2 个 tuyên_bố 当前词的后第 1 个 thực 当前词的后第 2 个 组块特征及 上下文信息 特征 I-NP 当前组块标记 B-NP 当前组块标记的前第 1 个 CH 当前组块标记的前第 2 个 B-VP 当前组块标记的后第 1 个 O 当前组块标记的后第 2 个 组块长度 2 当前词所在组块长度 词性特征及 词性上下文 信息特征 Np 当前词性 词性 N 当前词性的前第 1 个 Mark 当前词性的前第 2 个 V 当前词性的前后 1 个 ADJ 当前词性的后第 2 个 姓氏特征 1 姓氏是否在姓氏库中 指示词特征 Chủ tịch 指示词字符 词素个数 3 当前词的词素个数 大写特征 1 当前词的首字母大写 1 其它词素的首字母是否为大写信息特 征 是否存在实 体字典中 1 判断当前词是否存在实体库字典中 大熵模型的训练文件的格式如图 2 所示。 图 2 的训练文件中列与列之间用制表符“\t” 分开。图中第 1 列表示各类实体的标记符号,第 2 列表示当前词的字符,第 3 列表示当前词的词性, 第 4~7 列表示当前词的上下文信息特征,第 8~11 列表示当前词的词性的上下文信息特征,第 12~16 列表示当前组块标记以及组块上下文信息,第 17 列表示当前词的词素个数,第 18 列表示姓氏是否 在姓氏列表中,第 19 列表示指示词特征,第 20 列表示当前词的首字母是否大写,第 21 列表示除 了第 1 个词素之外,其他的词素首字母是否大写, 第 22 列表示组块的长度,第 23 列表示该实体是
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有