正在加载图片...
·506· 智能系统学报 第11卷 以规则识别为主:最后将识别得到正确的实体加入 文献23]制定的规则为基础,已取得很好的效果。 到实体库中,方便尽可能地制定更全的规则和抽取 另外,其他实体(时间、数字、百分号、货币)相 对人名、地名、组织机构名较为简单,识别正确率 更有效的特征。 也高。对于除人名、地名、组织机构名以外的实体 3规则集合制定 本文采用正则表达式和模式匹配进行识别。部分规 则表达式如表1所示。 本文人名、地名、组织机构名所使用的规则以 表1部分规则集合 Tablel Partial rules set 编号 实体规则 例子 (0*[1-9]1[012])0*[1-9][12][0-9]301])dd 2016/01/01 2 (mot hailbabonlnamlsaubayltamlchinlchucltramlnghin trieulty)lan S Hai lan 3 [0-9]+/L0-9]+$ 21/01 Ngay+Num+thang+Num+nam+Num Ngay 01 thang 1 nam 2015 Num phan tram tam muoi phan tram (80%) 6 (Nn)am +Num nam 2015 7 0-9]%$ 20% 8 (Tt)hang +Num thang I 9 [0-9]I[A-Z☑+$ 10COM 10 (NIn)gay +Num Ngay 01 11 (0d{4}d{2})/(021-9])1[12])/(0?[1-9]D[12]1-9])K301]))M1 21/01/2015-22/01/2015 12 Num+gio+(sangltrunchieultoi....) 5 gio sang 13 10 gio 20 10:20 14 (Gap+Num)(Num+lan)(Gap+Num+lan) 5 lan hai lan 5 (Tt)hur+(hailbalturlnamlsaubay...)(Clc)hu +nhats Thir hai 16 ^[0-9]+(0-9]{n)?$ 22.222. 17 mothailbalbonlnamlsaubay tam chin chuc tram]nghintrieulty Mot ty 18 Num+RURJGBPICADJUSDICHFINZDUPYITHBISEKINOKIDKKJAUDI 2.1 USD HKDSGDICNYKRWMYRLAK.. Num+gio+Num+phut +Num+giay 3 gio 4 phut 5 giay 20 Num+phan Num 12 21 (0*[1-91[012])-(0[1-9]12][0-9]3[01])-dd 2016-01-01 22 Num +titytrieulngan nghi ntram chuc... 10t垃 23 Num+(thuoc|metlcay solcantan...) 1 met 最大熵模型是最大熵分类器的理论基础,该 4 最大熵模型(ME)构建 模型基本思想就是为所有已知的因素构建模型, 4.1最大熵理论 并把未知因素排除在外。它的一个最显著的特点 最大嫡原理最早由E.T.Jaynes于1957年提出, 就是,能有效整合多种约束信息,对于越南语命 1996年被应用于自然语言处理中。目前,最大嫡广 名实体识别具有很好的适用性;同时降低了搜索 泛运用于歧义消解、句法分析、语义分析和上层机 空间并提高了处理效率。基于最大熵模型的优点, 器翻译中。 本文采用最大熵模型对越南语命名实体进行建 模。·506· 智 能 系 统 学 报 第 11 卷 以规则识别为主;最后将识别得到正确的实体加入 到实体库中,方便尽可能地制定更全的规则和抽取 更有效的特征。 3 规则集合制定 本文人名、地名、组织机构名所使用的规则以 文献[23]制定的规则为基础,已取得很好的效果。 另外,其他实体(时间、数字、百分号、货币)相 对人名、地名、组织机构名较为简单,识别正确率 也高。对于除人名、地名、组织机构名以外的实体 本文采用正则表达式和模式匹配进行识别。部分规 则表达式如表 1 所示。 表 1 部分规则集合 Table1 Partial rules set 编号 实体规则 例子 1 (0*[1-9]|1[012])/(0*[1-9]|[12][0-9]|3[01])/\d\d 2016/01/01 2 (một|hai|ba|bốn|năm|sáu|bảy|tám|chín|chuc|trâm|nghìn|triệu|tỷ)lần $ Hai lần $ 3 ^[0-9]+/[0-9]+$ 21/01 4 Ngày+Num+tháng+Num+năm+Num Ngày 01 tháng 1 năm 2015 5 Num + phần trăm tám mươi phần trăm(80%) 6 (N|n)ăm +Num năm 2015 7 ^[0-9]%$ 20% 8 (T|t)háng +Num tháng 1 9 ^([0-9]|[A-Z])+$ 10COM 10 (N|n)gày +Num Ngày 01 11 ((\d{4}|\d{2})/((0?([1-9]))|(1[1|2]))/((0?[1-9])|([12]([1-9]))|(3[0|1])))/\1 21/01/2015-22/01/2015 12 Num+giờ+(sáng|trưa|chiều|tối......) 5 giờ sáng 13 10 giờ 20 10:20 14 (Gấp+Num)|(Num+lần)|(Gấp+Num+lần) 5 lần ; hai lần 15 (T|t)hử+(hai|ba|tư|năm|sáu|bảy...)(C|c)hủ +nhặt$ Thử hai 16 ^[0-9]+(.[0-9]{n})?$ 22.222.. 17 một|hai|ba|bốn|năm|sáu|bảy|tám|chín|chuc|trâm|nghìn|triệu|tỷ... Một tỷ 18 Num+RUR|GBP|CAD|USD|CHF|NZD|JPY|THB|SEK|NOK|DKK|AUD| HKD|SGD|CNY|KRW|MYR|LAK... 2.1 USD 19 Num+giờ+Num+ phút +Num+ giây 3 giờ 4 phút 5 giây 20 Num+ phần Num 1/2 21 (0*[1-9]|1[012])-(0*[1-9]|[12][0-9]|3[01])-\d\d 2016-01-01 22 Num + tỉ|tỷ|triệu|ngàn|nghìn|trăm|chục... 10 tỷ 23 Num+(thước|mét|cây số|cân|tấn...) 1 mét … 4 最大熵模型(ME)构建 4.1 最大熵理论 最大熵原理最早由 E.T.Jaynes 于 1957 年提出, 1996 年被应用于自然语言处理中。目前,最大熵广 泛运用于歧义消解、句法分析、语义分析和上层机 器翻译中。 最大熵模型是最大熵分类器的理论基础,该 模型基本思想就是为所有已知的因素构建模型, 并把未知因素排除在外。它的一个最显著的特点 就是,能有效整合多种约束信息,对于越南语命 名实体识别具有很好的适用性;同时降低了搜索 空间并提高了处理效率。基于最大熵模型的优点, 本文采用最大熵模型对越南语命名实体进行建 模
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有