第21卷第6期 中文信息学报 Vol.21 No.6 2007年11月 JO URNAL OF CHINESE INFO RMA TION PROCESSING Nov.,2007 文章编号:1003-0077(2007)06-0017-05 中文组织机构名称与简称的识别 沈嘉懿',李芳l,徐飞玉2,Hans Uszkoreit2 (1.上海交通大学计算机系上海200240:2德国人工智能研究中心语言技术实验室) 摘要:本文提出了种基于规则识别中文组织机构全称和简称的方法,全称的识别首先借助机构后缀词库获得 其右边界然后通过规则匹配并借助贝叶斯概率模型加以决策获得其左边界。简称的识别是在全称的基础上应用 其对应的简称规则实现的。在开放性测试中,该方法的总体查全率为85.19%,查准率为83.03%,F Measure为 8410%:简称的查全率为67.18%,查准率为74.14%。目前该方法已应用于中文关系的抽取系统 关键词:计算机应用:中文信息处理:组织机构名称识别:组织机构简称识别:规则匹配:贝叶斯概率模型 中图分类号:TP391 文献标识码:A Recognition of Chinese Organization Names and Abbreviations SHEN Jiayi',LI Fang',XU Fei-yu2,Hans Uszkoreit2 (1.Department of Computer Science and Technologyp:Shanghai JiaoTong University.Shanghai 200240 China; 2.German Research Center for Artificial Intelligence) Abstract This paper proposes a method for recognizing Chinese organization names and their abbreviations based on rules.The right boundary of an organization name is identified with the help of the organization suffix lexicon.The left boundary is recognized by the optimum rules based on Bayesian probability model.After idendifying an organiza- tion name we can get candidate abbreviations based on abbreviation rules accordingly.In open test.the recall is 85.19%.the precision is 83.03%.the F Measure is 84.10%for name recognition.and the recall is 67.18%.the precision is 74.14%for abbreviation recognition.This method has been applied in the Chinese relation identification system. Key words computer application;Chinese information processing:recognition of Chinese organization names rec- ognition of Chinese organization abbreviations;rule matching bayesian probability model 1.1机构名识别的难点 1引言 1.中文机构名的用词十分广泛,并且很大部分 命名实体识别是信息抽取研究的前提。命名实 是未登录词,例如大部分的企业字号。 体主要包括人名、地名、机构名、日期、时间、百分数、 2.中文机构名的长度极其不稳定,短到两个 货币。其中人名、地名和机构名是最重要的三类。 字,多到几十个字,这就导致了机构名称的边界难以 机构泛指机关,团体或其他企事业单位,包括院校、 确定。 公私企业、政府部门、院校、宗教组织、科研部门、国 3.机构名中含有大量其他的命名实体,这些实 际组织、体育团队、音乐团体、军队等。 体也制约了机构名的识别。 收稿日期:20060914定稿日期:20070522 基金项目:本项研究工作是在中德语言技术联合实验室进行,得到了上海市科委(045107035)和德方的赞助。 作者简介:沈嘉懿(1984一),女,研究生,研究方向为自然语言处理:李芳(1963一,女,博土,副教授研究方向为自然语 言处理,信息检索与抽取:徐飞玉(1968一),Dipl.Ling.Senior Software Engineer研究方向为信息抽取,问题回答, ?1994-2015 China Academic Journal Electronic Publishing House.All rights reserved.http://www.cnki.net
第 21 卷 第 6 期 2007 年 11 月 中文信息学报 JO URNA L OF CHINESE INFO RM A TION PROCESSING Vol .21, No .6 No v., 2007 文章编号 :1003-0077(2007)06-0017-05 中文组织机构名称与简称的识别 沈嘉懿1 , 李 芳1 , 徐飞玉2 , Hans Uszkoreit 2 (1 .上海交通大学 计算机系 上海 200240;2.德国人工智能研究中心 语言技术实验室) 摘 要:本文提出了一种基于规则识别中文组织机构全称和简称的方法。 全称的识别首先借助机构后缀词库获得 其右边界, 然后通过规则匹配并借助贝叶斯概率模型加以决策获得其左边界。 简称的识别是在全称的基础上应用 其对应的简称规则实现的。 在开放性测试中, 该方法的总体查全率为 85 .19%, 查准率为 83.03%, F Measure 为 84.10 %;简称的查全率为 67 .18%, 查准率为 74 .14%。 目前该方法已应用于中文关系的抽取系统。 关键词:计算机应用;中文信息处理;组织机构名称识别;组织机构简称识别;规则匹配;贝叶斯概率模型 中图分类号:TP391 文献标识码:A Recognition of Chinese Organization Names and Abbreviations SHEN Jia-yi 1 , LI Fang 1 , XU Fei-yu 2 , Hans Uszkoreit 2 (1 .Department of Computer Science and Technolog yp ;Shanghai JiaoTong University , Shanghai 200240, China; 2 .Ge rman Resea rch Center fo r Artificial Intelligence) Abstract:This pape r pr oposes a method fo r recog nizing Chinese o rg aniza tion names and their abbrev iations based on rules .The rig ht bo undary of an o rg aniza tion name is identified w ith the help of the or ganizatio n suffix lexico n.The left boundary is reco gnized by the optimum r ules based o n Bay esian probability model.After idendify ing an o rg anization name , we can g et candida te abbr eviations based on abbreviatio n rule s acco rding ly.In open test , the recall is 85.19 %, the precisio n is 83.03 %, the F Mea sure is 84.10 % for name recog nition , and the recall is 67 .18%, the precision is 74 .14% fo r abbreviatio n reco gnition .This metho d has been applied in the Chinese relation identifica tion sy stem . Key words:computer applica tion ;Chinese informa tion pro cessing;r eco gnition of Chinese o rganizatio n name s;reco gnition of Chine se o rga nizatio n abbreviatio ns ;rule matching;bay esian pr obability model 收稿日期:2006-09-14 定稿日期:2007-05-22 基金项目:本项研究工作是在中德语言技术联合实验室进行, 得到了上海市科委(045107035)和德方的赞助。 作者简介:沈嘉懿(1984 —), 女, 研究生, 研究方向为自然语言处理;李芳(1963 —), 女, 博士, 副教授, 研究方向为自然语 言处理, 信息检索与抽取;徐飞玉(1968—), Dipl .Ling.Senior So ftwa re Eng ineer, 研究方向为信息抽取, 问题回答。 1 引言 命名实体识别是信息抽取研究的前提。命名实 体主要包括人名 、地名、机构名 、日期、时间、百分数 、 货币 。其中人名 、地名和机构名是最重要的三类 。 机构泛指机关, 团体或其他企事业单位, 包括院校 、 公私企业 、政府部门、院校、宗教组织 、科研部门、国 际组织、体育团队、音乐团体、军队等。 1 .1 机构名识别的难点 1 .中文机构名的用词十分广泛 ,并且很大部分 是未登录词 ,例如大部分的企业字号 。 2 .中文机构名的长度极其不稳定 , 短到两个 字 ,多到几十个字 ,这就导致了机构名称的边界难以 确定。 3 .机构名中含有大量其他的命名实体 ,这些实 体也制约了机构名的识别
18 中文信息学报 2007年 4.大多数机构名称都有其简称,简称的构成没 2.2中文组织机构特征词库及规则集 有稳定的规则,甚至同一机构有不同的简称,这也使 得机构名的识别变得更加困难。 本文使用的语料搜集自网上,由包含机构名称 的句子构成,共计1130句,包含1500个真实机构 1.2机构名识别研究现状 名称。先对语料库进行分词、词性标注,在此基础 目前,命名实体识别对人名!和地名?研究得 上,建立了如下的特征词词典和定语修饰词规则库: 较多,而对于机构名实体的研究较少,主要有: 1.机构后缀库:对组织机构名称的识别首先 文献3习从机构名称的语法特征和语义特征着 从确定组织机构名称的右边界开始,即通过找到“公 手,人工分析总结出机构名称的组织规律,进而识别 司”,“银行”,“集团”,“企业”之类的机构后缀,得到 机构名称。经测试正确率达到97.3%,召回率达 组织机构在文中可能出现的位置。所以,建立机构 到96.9%。 后缀库,作为识别的触发条件。 文献④针对金融领域的机构,在识别策略上综 2.地点词库:地点特征词对标识机构左边界 合考虑了机构名的结构特征和文本上下文信息,利 有很大的帮助,例如“上海玩具厂”等。在词性标注 用机器统计和人工辅助相结合的方法进行识别。在 的基础上,引入Gate①的地点词库。 3.独立机构名称库:有大量的组织机构名称 开放测试中召回率达到62.1%,精确率达到 并不包含机构后缀,比如“欧佩克”,“摩托罗拉”,“毕 62.8%。 马威”,通常这些机构是一些英译过来的组织机构名 文献[可将机构作为命名实体的七种类型之一 称。 考虑,通过模式匹配进行识别,专名识别的召回率和 4.定语修饰词规则集:根据训练语料,建立机 准确率在含有1117个NE的测试集上为46%和 构名称定语修饰词序列的规则集。 53%,在含有254个NE的测试集上为17%和 5.机构类型库:机构类型名包括“开发”,“责 29%。 任”等附加在机构后缀前的词,该词库是辅助系统在 本文通过分析组织机构名称的构成特征,建立 机构简称识别时界定机构名关键字。 了其专属的特征词库,并运用机器学习的方法总结 出构成规则,从而对机构全称和简称进行识别。 2.3中文组织机构全称识别 组织机构名称识别的整体结构如图1所示。 2中文组织机构全称识别 原始文档先进行分词②,分词过程添加了分词 专用词库:机构后缀库、地名词库、独立机构名称词 2.1中文组织机构全称特征分析 库。分词后的文本已经包含对组织机构名称识别有 通过对中文组织机构名称的构成分析可以发 用的词性信息、地名、机构后缀、独立机构名称等。 现:机构名称通常是以XY结构出现的定名型短 在识别系统的核心部分“组织机构名称识别模块” 中,先通过规则匹配得到候选规则,接着,通过贝叶 语,其中X+表示一个或多个定语修饰词,它的词性 斯概率模型对候选规则进行决策,确定最优的规则, 一般为名词、形容词、动词、序数词:Y表示机构后 从而最终确定组织机构名称的左边界。 缀,它主要集中在“公司”,“集团”等一些名词,这些 2.3.1规则匹配 词一般情况下是特定的,有限且为数不多的,所以可 定义文中出现的机构后缀集S,规则集R,候选 以通过列举或者训练这样一个集合来帮助识别机构 规则集CR,以及指针w和*P,分别指向文档中 名称的右边界。 的当前的词和规则中当前的词性,匹配过程如下: 要确定机构名称的左边界,就必须确定X的 1)对于S中下一个机构后缀s,w指向该机构 长度L,由于中文机构名的长度不确定,本文采取的 后缀前一个词: 策略是通过对大量的语料进行分词,词性标注后,统 2)对于R中下一条规则r,p指向规则r中的 计机构名称中定语修饰词的可能词性序列,形成规 则集,并对经过分词和特征词标注后的文档进行规 ①http/gate.ac.uk 则吓弱丛而确定中文机构名称的左边界co Publishing9o忠科院的分园系统eserved..1 http://www.cnki.net
中 文 信 息 学 报 2007 年 4 .大多数机构名称都有其简称, 简称的构成没 有稳定的规则, 甚至同一机构有不同的简称, 这也使 得机构名的识别变得更加困难 。 1 .2 机构名识别研究现状 目前 ,命名实体识别对人名[ 1] 和地名[ 2] 研究得 较多 ,而对于机构名实体的研究较少,主要有 : 文献[ 3] 从机构名称的语法特征和语义特征着 手,人工分析总结出机构名称的组织规律,进而识别 机构名称。经测试, 正确率达到 97 .3 %,召回率达 到 96 .9 %。 文献[ 4] 针对金融领域的机构 ,在识别策略上综 合考虑了机构名的结构特征和文本上下文信息 , 利 用机器统计和人工辅助相结合的方法进行识别。在 开放 测 试中 召回 率 达到 62 .1 %, 精 确率 达 到 62 .8 %。 文献[ 5] 将机构作为命名实体的七种类型之一 考虑 ,通过模式匹配进行识别 ,专名识别的召回率和 准确率在含有 1 117 个 NE 的测试集上为 46 %和 53 %,在含有 254 个 NE 的测试集上为 17 %和 29 %。 本文通过分析组织机构名称的构成特征, 建立 了其专属的特征词库, 并运用机器学习的方法总结 出构成规则,从而对机构全称和简称进行识别 。 2 中文组织机构全称识别 2 .1 中文组织机构全称特征分析 通过对中文组织机构名称的构成分析可以发 现:机构名称通常是以 X + Y 结构出现的定名型短 语,其中 X +表示一个或多个定语修饰词, 它的词性 一般为名词、形容词 、动词 、序数词;Y 表示机构后 缀,它主要集中在“公司” , “集团”等一些名词, 这些 词一般情况下是特定的, 有限且为数不多的, 所以可 以通过列举或者训练这样一个集合来帮助识别机构 名称的右边界。 要确定机构名称的左边界, 就必须确定 X + 的 长度 L ,由于中文机构名的长度不确定 ,本文采取的 策略是通过对大量的语料进行分词 ,词性标注后, 统 计机构名称中定语修饰词的可能词性序列, 形成规 则集 ,并对经过分词和特征词标注后的文档进行规 则匹配,从而确定中文机构名称的左边界。 2 .2 中文组织机构特征词库及规则集 本文使用的语料搜集自网上 , 由包含机构名称 的句子构成 , 共计 1 130 句, 包含 1 500 个真实机构 名称。先对语料库进行分词、词性标注, 在此基础 上 ,建立了如下的特征词词典和定语修饰词规则库: 1 .机构后缀库 :对组织机构名称的识别首先 从确定组织机构名称的右边界开始, 即通过找到“公 司” ,“银行” ,“集团” , “企业”之类的机构后缀 ,得到 组织机构在文中可能出现的位置 。所以 , 建立机构 后缀库 ,作为识别的触发条件。 2 .地点词库 :地点特征词对标识机构左边界 有很大的帮助 ,例如“上海玩具厂”等 。在词性标注 的基础上,引入 Gate ①的地点词库 。 3 .独立机构名称库 :有大量的组织机构名称 并不包含机构后缀 ,比如“欧佩克” , “摩托罗拉” ,“毕 马威” , 通常这些机构是一些英译过来的组织机构名 称 。 4 .定语修饰词规则集 :根据训练语料 ,建立机 构名称定语修饰词序列的规则集 。 5 .机构类型库 :机构类型名包括“开发” , “责 任”等附加在机构后缀前的词,该词库是辅助系统在 机构简称识别时界定机构名关键字。 2 .3 中文组织机构全称识别 组织机构名称识别的整体结构如图 1 所示 。 原始文档先进行分词②, 分词过程添加了分词 专用词库 :机构后缀库、地名词库 、独立机构名称词 库 。分词后的文本已经包含对组织机构名称识别有 用的词性信息、地名 、机构后缀 、独立机构名称等。 在识别系统的核心部分“ 组织机构名称识别模块” 中 ,先通过规则匹配得到候选规则 , 接着 , 通过贝叶 斯概率模型对候选规则进行决策 ,确定最优的规则, 从而最终确定组织机构名称的左边界 。 2 .3 .1 规则匹配 定义文中出现的机构后缀集 S , 规则集 R ,候选 规则集 CR , 以及指针 *w 和 *p , 分别指向文档中 的当前的词和规则中当前的词性 ,匹配过程如下 : 1)对于 S 中下一个机构后缀s , w 指向该机构 后缀前一个词; 2 )对于R 中下一条规则r , p 指向规则r 中的 18 ① ② http:// gate .ac .u k 。 中科院的分词系统
6期 沈嘉懿等:中文组织机构名称与简称的识别 19 组织机构名称识别模块 原始文档 分词 初加工文本 规则匹配 候选规则集 规则决策 识别结果 分词器 贝叶斯概率模型 规则集合 地点词库 独立机构名称库 组织机构后缀库 图1组织机构名称识别整体结构图 最后一个词性: =ar哭axP(Olr)P(r) (5) 3)如果w指向的词的词性与p指向的词性相 找出使得P(rO)最大的规则rMaP,将其作为 同,则w一一,p一一;转3): 最终匹配的规则,获取其长度L后,从当前机构后 4)如果p指向N山,则匹配成功,将r加入 缀向左回溯L个词,便可以得到机构名称的左边 CR,转1: 界。 5)如果p指向非空,则匹配失败,转1)。 2.3.3机构名称合并 2.3.2规则决策 在组织机构名称中,存在这样一类情况。它是由 1)模型说明 上级机构十下属机构或分支构成,比如南昌市公安 经过上述规则匹配。同一机构后缀前可能有多 局西湖分局筷子巷派出所”,经过之前的处理,可以 条规则得到匹配,因此我们就需要借助贝叶斯概率 得到南昌市公安局”,“西湖分局”,“筷子巷派出所” 模型决策出该机构最有可能由哪一条规则得到。 三个独立的机构名称。经分析,多个连续出现的机 2)先验概率的确定 构在通常情况下存在着上下隶属关系,并且在语义 首先,对于每一条规则,假设它在训练集中出现 上的重点也是落在最后的机构名称上,因此系统把 次数为:,可以计算该规则出现的频率: 这样连续出现的多个机构名称合并为一个。在本例 ni P(r)= 三 (1) 中,我们最终标识出完整的一个机构名称“南昌市公 安局西湖分局筷子巷派出所”,而不是三个。 其次,对每一条规则”:计算其得到匹配时,组 织机构名称被正确识别(即左右边界全部正确)的条 3中文组织机构简称识别 件概率P(O:)。计算方法如下: a)构造特征函数 3.1中文组织机构简称特征分析 1 f(规则的右半部分是r:) f(i)= (2) 对中文组织机构简称分析发现其构成与全称之 0 else 间存在如下关系: b) 1.取全称中每个词的首字如:华东师范大 P(O:)= ni (3) 学一华师大: ×f) 2.若全称中出现专有名词,取该专有名词,如: 3)最大后验概率 美国耐克公司一耐克: 根据贝叶斯定理: 3.若全称以地点开始,取地点十其他词的首 P(nO)= P(O ri)p(ri) P(ri)p(O Iri) 字,如:上海交通大学一上海交大: 含PP 4.取全称中除地点和机构后缀以外词的首字, 如:中国南方航空公司一南方航空: (4) 5.取全称中除地点和机构后缀的所有词的首 以及最大后验概率假定: 字,如:中国南方航空公司一南航: rMaP Farg max P (r 1O) 21994-2015 China Acmie6 mal Electronic Publishing Hu取除机构后袋其他词的直字太机,构后袋
6 期 沈嘉懿等:中文组织机构名称与简称的识别 图 1 组织机构名称识别整体结构图 最后一个词性; 3)如果 w 指向的词的词性与 p 指向的词性相 同,则 w --, p --;转 3); 4)如果 p 指向 Null , 则匹配成功 , 将 r 加入 CR ,转 1); 5)如果 p 指向非空,则匹配失败 ,转 1)。 2 .3 .2 规则决策 1)模型说明 经过上述规则匹配, 同一机构后缀前可能有多 条规则得到匹配 ,因此我们就需要借助贝叶斯概率 模型决策出该机构最有可能由哪一条规则得到。 2)先验概率的确定 首先 ,对于每一条规则,假设它在训练集中出现 次数为 ni ,可以计算该规则出现的频率: P(ri)= ni ∑ j =n j =1 nj (1) 其次 ,对每一条规则 ri 计算其得到匹配时 , 组 织机构名称被正确识别(即左右边界全部正确)的条 件概率 P(O ri)。计算方法如下: a)构造特征函数 f(j)= 1 if (规则 rj 的右半部分是 ri) 0 else (2) b) P(O|ri)= ni ∑ j =n j =1 nj ×f(j) (3) 3)最大后验概率 根据贝叶斯定理 : P(ri |O)= P(O |ri)P(ri) ∑ n j =1 P(O |rj)P(rj) ∝P(ri)P(O |ri) (4) 以及最大后验概率假定: r MAP ≡arg max r ∈CR P(r |O) =arg max r∈CR P(O |r)P(r) (5) 找出使得 P(r O)最大的规则 r MAP , 将其作为 最终匹配的规则, 获取其长度 L 后 , 从当前机构后 缀向左回溯 L 个词, 便可以得到机构名称的左边 界 。 2 .3 .3 机构名称合并 在组织机构名称中 ,存在这样一类情况,它是由 上级机构+下属机构或分支构成 ,比如“南昌市公安 局西湖分局筷子巷派出所” , 经过之前的处理 ,可以 得到“南昌市公安局” , “西湖分局” , “筷子巷派出所” 三个独立的机构名称。经分析, 多个连续出现的机 构在通常情况下存在着上下隶属关系, 并且在语义 上的重点也是落在最后的机构名称上, 因此系统把 这样连续出现的多个机构名称合并为一个 。在本例 中 ,我们最终标识出完整的一个机构名称“南昌市公 安局西湖分局筷子巷派出所” ,而不是三个 。 3 中文组织机构简称识别 3 .1 中文组织机构简称特征分析 对中文组织机构简称分析发现其构成与全称之 间存在如下关系: 1 .取全称中每个词的首字如 :华东师范大 学 ———华师大; 2 .若全称中出现专有名词, 取该专有名词, 如: 美国耐克公司———耐克 ; 3 .若全称以地点开始 , 取地点 +其他词的首 字 ,如:上海交通大学 ———上海交大 ; 4 .取全称中除地点和机构后缀以外词的首字, 如 :中国南方航空公司———南方航空; 5 .取全称中除地点和机构后缀的所有词的首 字 ,如:中国南方航空公司 ———南航 ; 6 .取除机构后缀其他词的首字 +机构后缀, 19
20 中文信息学报 2007年 如:交通银行总部一交行总部。 6)key word+type; 如上关系都是建立在己有全称的基础上,因此 7)key word-+type+suffix; 在本文的研究中,简称的识别是在全称识别的基础 8)key word-+suffix。 上进行的。 3.2.3简称筛选 经过候选简称的提取,得到候选的机构简称集 3.2中文组织机构简称识别 合CA,然后对该集合元素进行筛选,筛选方法如 3.2.1简称规则的构造 下:对于候选简称集合中的每一个候选简称在文 对于上述简称与全称之间的关系,本文采用了 中搜索是否出现若出现,就将其标识为机构简称, 一种用数字序列来表示简称中各个字在全称中某个 否则就认为这个候选简称是不存在的或者得到这个 词中的位置,从而抽象该种关系的方法。例如: 候选简称的那条简称规则是错误的。 全称:“华东师范大学”→全称规则:ns十n (地名十名词): 4实验结果与分析 1,2Y:1:1→简称规则:1,2:1:1 简称:“华东师大” 4.1实验结果 全称:“华东师范大学” 为了评估中文组织机构名称和简称的识别效 1;1;1简称规则:1:1:1 果,我们从Internet上随机抽取了含有654个机构 简称:“华师大” 名称的280篇文章(含科技、体育、金融、房产、娱乐、 于是对于全称规则ns十n,就得到了两条简称 旅游、教育题材)作为开放测试集。在不引入简称识 规则1,2:1;1和1;1;1。 别和引入简称识别的条件下,做了以下实验: 3.2.2候选简称选取 1.不引入简称识别模块: 设候选简称集合为C4,对于每一个标识出来 表1不引入简称识别模块测试结果 的机构全称: 它必定是由某条规则”得出的,对于规则与 Recall Precision F Measure 之相应有简称规则集Ar构造方法如下:对于Ar 科技 85.25% 8667% 85.95% 中的每一条简称规则ar,根据ar中每一个节点给 体育 78.18% 87.76% 82.69% 出的位置信息,在全称中找出位于该位置上的字,再 金融 87.32% 86.10% 86.71% 将所有的字相连作为候选简称,加入候选简称集合。 房产 86.00% 86.00% 86.00% 另外,在全称规则中,有这样一类规则,它是由 娱乐 81.82% 84.37% 83.08% 地点开头,机构后缀结尾的,而规则的中间部分则是 旅游 87.93% 86.44% 87.18% 机构名关键字十机构类型,比如北京凯尔科技发展 教育 83.93% 85.45% 84.68% 有限公司”,其中“科技”,“发展”,“有限”分别都是机 84.64% 构类型,这些机构类型是通过机构类型库识别出来 86.2% 85.41% 的,而剩下的“凯尔”则认为是机构名关键字。通常 2.引入简称识别模块: 此类机构全称的简称则包含机构名关键字(Key~ 根据实验结果,引入简称模块后,Recall略有提 word),而地点(Loc),机构类型(Type),机构后缀 高,但是Precision却有了较大的降低。因为引入了 (Sufx)则都是可选部分。于是将以下八条规则得 简称识别,会将原本识别不出的简称识别出来,但是 到的候选简称加入候选简称集合: 同样会产生错误的机构标识,从而使查准率降低。 1)loc+keyword; 2)loc+key word-+type; 4.2结果分析 3)loc+key word+ty pe+suffix; 对实验结果分析,全称识别错误主要在于: 4)loc+key word+suffix; 1)规则决策模型过于简单:在评价候选规则 ?1}k9 n Academic Jouml Electronic Publish时没有对规刚长度规刚的起始词性等因子入其
中 文 信 息 学 报 2007 年 如:交通银行总部 ———交行总部 。 如上关系都是建立在已有全称的基础上, 因此 在本文的研究中 ,简称的识别是在全称识别的基础 上进行的 。 3 .2 中文组织机构简称识别 3 .2 .1 简称规则的构造 对于上述简称与全称之间的关系 , 本文采用了 一种用数字序列来表示简称中各个字在全称中某个 词中的位置,从而抽象该种关系的方法 。例如 : 全称 :“华东 师范 大学” 全称规则:ns +n (地名+名词); 1 , 2 ↑; 1 ↑;1 ↑ 简称规则:1 , 2 ;1 ;1 简称 :“华东 师 大” 全称 :“华东 师范 大学” 1 ↑; 1 ↑;1 ↑ 简称规则 :1 ;1 ;1 简称 :“华 师 大” 于是对于全称规则 ns +n , 就得到了两条简称 规则 1 , 2 ;1 ;1 和 1 ;1 ;1 。 3 .2 .2 候选简称选取 设候选简称集合为 CA , 对于每一个标识出来 的机构全称: 它必定是由某条规则 r 得出的 ,对于规则 r, 与 之相应有简称规则集 Ar, 构造方法如下 :对于 Ar 中的每一条简称规则 ar , 根据 ar 中每一个节点给 出的位置信息, 在全称中找出位于该位置上的字, 再 将所有的字相连作为候选简称 ,加入候选简称集合 。 另外 ,在全称规则中 ,有这样一类规则, 它是由 地点开头 ,机构后缀结尾的,而规则的中间部分则是 机构名关键字+机构类型 ,比如“北京凯尔科技发展 有限公司” ,其中“科技” , “发展” , “有限”分别都是机 构类型,这些机构类型是通过机构类型库识别出来 的,而剩下的“凯尔” 则认为是机构名关键字。通常 此类机构全称的简称则包含机构名关键字(Keyw o rd), 而地点(Loc), 机构类型(Ty pe), 机构后缀 (Suffix)则都是可选部分。于是将以下八条规则得 到的候选简称加入候选简称集合: 1)loc+keywo rd ; 2)loc+keywo rd +ty pe ; 3)loc+keywo rd +ty pe +suffix ; 4)loc+keywo rd +suffix ; 5)keyw o rd ; 6)keyw ord +type; 7)keyw ord +type+suffix ; 8)keyw ord +suffix 。 3 .2 .3 简称筛选 经过候选简称的提取 ,得到候选的机构简称集 合 CA , 然后对该集合元素进行筛选 , 筛选方法如 下 :对于候选简称集合中的每一个候选简称, 在文 中搜索是否出现, 若出现, 就将其标识为机构简称, 否则就认为这个候选简称是不存在的或者得到这个 候选简称的那条简称规则是错误的。 4 实验结果与分析 4 .1 实验结果 为了评估中文组织机构名称和简称的识别效 果 ,我们从 Interne t 上随机抽取了含有 654 个机构 名称的 280 篇文章(含科技 、体育 、金融、房产、娱乐、 旅游、教育题材)作为开放测试集 。在不引入简称识 别和引入简称识别的条件下 ,做了以下实验: 1 .不引入简称识别模块: 表 1 不引入简称识别模块测试结果 Recall Precision F Measure 科技 85 .25% 86.67 % 85 .95% 体育 78 .18% 87.76 % 82 .69% 金融 87 .32% 86.10 % 86 .71% 房产 86 .00% 86.00 % 86 .00% 娱乐 81 .82% 84.37 % 83 .08% 旅游 87 .93% 86.44 % 87 .18% 教育 83 .93% 85.45 % 84 .68% 84 .64% 86.2% 85 .41% 2 .引入简称识别模块 : 根据实验结果 ,引入简称模块后 , Recall 略有提 高 ,但是 Precisio n 却有了较大的降低 。因为引入了 简称识别,会将原本识别不出的简称识别出来, 但是 同样会产生错误的机构标识 ,从而使查准率降低 。 4 .2 结果分析 对实验结果分析, 全称识别错误主要在于: 1)规则决策模型过于简单:在评价候选规则 时没有对规则长度, 规则的起始词性等因子引入其 20
6期 沈嘉懿等:中文组织机构名称与简称的识别 21 表2引入简称识别模块测试结果 机构名称识别整体 全 称识别 简称识别 Recall Precision F M easure Recall Precision F Measure Recall Precision F Measure 科技 89.13% 82.00% 85.42% 94.44% 85% 89.47% 70% 70% 70.00% 体育 81.25% 81.25% 81.25% 88.46% 82.14% 85.18% 50% 75% 60.00% 金融 84.44% 82.61% 83.51% 93.94% 86.11% 89.85% 5833% 70% 63.63% 房产 85.29% 82.86% 84.06% 88.89% 82.76% 85.72% 71.43% 83.33% 76.92% 娱乐 80.7% 84.00% 82.35% 82.35% 82.35% 82.35% 77.78% 87.5% 82.35% 旅游 85.11% 83.33% 84.21% 91.43% 84.2% 87.67% 66.67% 80% 72.73% 教育 87.50% 85.36% 86.42% 90.63% 87.88% 89.23% 75% 75% 75.00% 85.19% 83.03% 84.10% 90.78% 84.62% 87.59% 67.18% 74.14% 70.49% 各自的权重,因此在界定左边界时产生错误。这类 前,正开展对事件信息的抽取研究。 错误占到将近60%。 本文方法的改进可以从以下方面入手: 2)机构名称不包含后缀:当机构名称不包含 1.在规则决策过程中引入规则长度,规则的首 机构后缀,且独立机构名称库没有收录这个机构名 词性等决策因子,通过训练得到各因子的权重,并最 称时,便产生此类错误。这类错误主要发生在体育 终用这些因子的加权和作为取舍的标准。 类文章中,占20%。 2.中文机构名称的上下文用字比较集中,通常 3)机构后缀误标识:由于不考虑上下文语义, 是一些连词、动词或者表示职位的名词等。如“董事 味地将搜索到的“机构后缀”当成真实的机构后 长”、“经理”等。因此可以根据这些字词在机构名称 缀,而没有考虑到有时候这个“机构后缀”只是另一 构成中的不同作用,把它们分成各个不同的角色,然 个真正有意义词中的一部分,比如“电影业专业人 后训练得到角色集,最终在识别的过程中选取角色 士”中的“专业”,这类错误占15%。 序列概率最大的情况。 4)分词器本身存在一定的不合理,这类错误不 多,仅为5%。 参考文献: 简称识别错误原因主要在于: 1)简称规则集不够完善,即可能产生冗余也可 【刂刘秉伟。黄萱菁,郭以昆吴立德.基于统计方法的中 能产生遗漏的情况。 文姓名识别】.中文信息学报,200014(3):1624. 2)机构全称未能被正确识别从而对简称识别 【]黄德根岳广玲,杨元生.基于统计的中文地名识别 结果造成影响。 【』.中文信息学报.200317(2):3641. 3)机构类型名不像机构后缀那样特定有限,因 【3引张小衡,王玲玲.中文机构名称的识别与分析刀.中 此很难完备这样一个集合。 文信息学报.1997,11(4):2132. [4 王宁,葛瑞芳,苑春法黄锦辉李文捷.中文金融新闻 5 总结 中公司名的识别】.中文信息学报,200216(2):上6. [5]Erik Peterson.A Chinese Named Entity Extraction System[J].http://epsilon3.georgetow n.edw peter- 本文系统地分析了中文组织机构全称与简称的 see/Chinesee.htmL1999. 特点以及识别上的诸多难点,提出并实现了一种基 【可GATE使用手册删EB.http:/gate.ac.uk 于规则匹配识别中文组织机构名称和简称的方法。 [7]Kebin Liu,Fang Li,et al.Embedding the semantic 通过对大量涉及不同领域,真实语料的测试该方法 know ledge in convolution kernels J.In the proceed- 达到了较高的查准率和查全率。基于该中文机构名 ing of 24 International conference on Semantics 称的识别,实现了中文关系的月动抽取系统月blishing&6kS200,NQ,206 iki.net
6 期 沈嘉懿等:中文组织机构名称与简称的识别 表 2 引入简称识别模块测试结果 机构名称识别整体 全 称 识 别 简 称 识 别 Recall Precision F M easure Recall Precision F Measure Recall Precision F Measur e 科技 89 .13 % 82 .00% 85.42 % 94 .44% 85% 89 .47% 70% 70 % 70 .00 % 体育 81 .25 % 81 .25% 81.25 % 88 .46% 82.14 % 85 .18% 50% 75 % 60 .00 % 金融 84 .44 % 82 .61% 83.51 % 93 .94% 86.11 % 89 .85% 58.33 % 70 % 63 .63 % 房产 85 .29 % 82 .86% 84.06 % 88 .89% 82.76 % 85 .72% 71.43 % 83 .33% 76 .92 % 娱乐 80 .77 % 84 .00% 82.35 % 82 .35% 82.35 % 82 .35% 77.78 % 87 .5 % 82 .35 % 旅游 85 .11 % 83 .33% 84.21 % 91 .43% 84.2% 87 .67% 66.67 % 80 % 72 .73 % 教育 87 .50 % 85 .36% 86.42 % 90 .63% 87.88 % 89 .23% 75% 75 % 75 .00 % 85 .19 % 83 .03% 84.10 % 90 .78% 84.62 % 87 .59% 67.18 % 74 .14% 70 .49 % 各自的权重 ,因此在界定左边界时产生错误。这类 错误占到将近 60 %。 2)机构名称不包含后缀 :当机构名称不包含 机构后缀 ,且独立机构名称库没有收录这个机构名 称时, 便产生此类错误。这类错误主要发生在体育 类文章中 ,占 20 %。 3)机构后缀误标识:由于不考虑上下文语义 , 一味地将搜索到的“机构后缀” 当成真实的机构后 缀,而没有考虑到有时候这个“机构后缀”只是另一 个真正有意义词中的一部分 , 比如“电影业专业人 士”中的“专业” ,这类错误占 15 %。 4)分词器本身存在一定的不合理, 这类错误不 多,仅为 5 %。 简称识别错误原因主要在于: 1)简称规则集不够完善 ,即可能产生冗余也可 能产生遗漏的情况。 2)机构全称未能被正确识别从而对简称识别 结果造成影响。 3)机构类型名不像机构后缀那样特定有限, 因 此很难完备这样一个集合 。 5 总结 本文系统地分析了中文组织机构全称与简称的 特点以及识别上的诸多难点, 提出并实现了一种基 于规则匹配识别中文组织机构名称和简称的方法 。 通过对大量涉及不同领域 ,真实语料的测试, 该方法 达到了较高的查准率和查全率 。基于该中文机构名 称的识别 , 实现了中文关系的自动抽取系统[ 7] , 目 前 ,正开展对事件信息的抽取研究。 本文方法的改进, 可以从以下方面入手: 1 .在规则决策过程中引入规则长度,规则的首 词性等决策因子, 通过训练得到各因子的权重, 并最 终用这些因子的加权和作为取舍的标准。 2 .中文机构名称的上下文用字比较集中, 通常 是一些连词 、动词或者表示职位的名词等 。如“董事 长” 、“经理”等。因此可以根据这些字词在机构名称 构成中的不同作用 ,把它们分成各个不同的角色 ,然 后训练得到角色集, 最终在识别的过程中选取角色 序列概率最大的情况。 参考文献 : [ 1] 刘秉伟, 黄萱菁, 郭以昆, 吴立德.基于统计方法的中 文姓名识别[ J] .中文信息学报, 2000, 14(3):16-24. [ 2] 黄德根, 岳广玲, 杨元生.基于统计的中文地名识别 [ J] .中文信息学报, 2003, 17(2):36-41. [ 3] 张小衡, 王玲玲.中文机构名称的识别与分析[ J] .中 文信息学报, 1997 , 11(4):21-32. [ 4] 王宁, 葛瑞芳, 苑春法, 黄锦辉, 李文捷.中文金融新闻 中公司名的识别[ J] .中文信息学报, 2002, 16(2):1-6. [ 5] Erik Peterson .A Chinese Named Entity Ex traction Sy stem[ J] .http:// epsilon3.geo rge tow n.edu/ petersee/Chinesee.htm l, 1999. [ 6] GATE 使用手册[ EB] .http:// ga te.ac.uk [ 7] Kebin Liu , Fa ng Li , et al .Embedding the semantic know ledge in co nvo lutio n ker nels[ J] .In:the pr oceeding o f 2 nd Inte rna tional co nfere nce on Semantics, Know ledge and Grid (SKG 2006), No v.2006. 21