【自然语言处理与理解】词边界字向量的中文命名实体识别编辑部

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：1.27MB

第11卷第1期智能系统学报 Vol.11 No.1 2016年2月 CAAI Transactions on Intelligent Systems Feh.2016 D0I:10.11992/is.201507065 网络出版地址：htp:/www.cmki.net/kcms/detail/23.1538.TP.20160106.1555.002.html 词边界字向量的中文命名实体识别姚霖12,3，刘轶1，李鑫鑫4，刘宏2 (1.深港产学研基地，广东深圳518057：2.北京大学信息科学技术学院，北京100871：3.哈尔滨工业大学软件学院，黑龙江哈尔滨150001：4.哈尔滨工业大学深圳研究生院计算机科学与技术学院，广东深圳518055) 摘要：常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征，但特征提取费时费力，是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖，构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络从大量未标注数据中，自动抽取出蕴含其中的特征信息，生成字特征向量。同时考虑到汉字不是中文语义的最基本单位，单纯的字向量会由于一字多义造成语义的混淆，因此根据同一个字在词中处于不同位置大多含义不同的特点，将单个字在词语中所处的位置信息加人到字特征向量中，形成词边界字向量，将其用于深度神经网络模型训练之中。在Sighan Bakeoff.3(2006)语料中取得了F,89.18%的效果，接近当前国际先进水平，说明了该系统不仅摆脱了对特征提取的依赖，也减少了汉字一字多义产生的语义混淆。关键词：机器学习：中文命名体识别：深度神经网络：特征向量：特征提取中图分类号：TP391.1文献标志码：A文章编号：1673-4785(2016)01-0037-06 中文引用格式：姚霖，刘铁，李鑫盘，等.词边界字向量的中文命名实体识别[J].智能系统学报，2016,11(1)：37-42. 英文引用格式：YAO Lin,.LIU Yi,LI Xinxin,etal.Chinese named entity recognition via word boundary based character embed- ding[J].CAAI Transactions on Intelligent Systems,2016,11(1):37-42. Chinese named entity recognition via word boundary based character embedding YAO Lin'.2.3,LIU Yi',LI Xinxin',LIU Hong? (1.Shenzhen High-Tech Industrial Park,Shenzhen 518057,China;2.School of Electronics Engineering and Computer Science,Pe- king University,Beijing 100871,China;3.School of Software,Harbin Institute of Technology,Harbin 150001,China;4.School of Computer Science and Technology,Harbin Institute of Technology Shenzhen Graduate School,Shenzhen 518055,China) Abstract:Most Chinese named entity recognition systems based on machine learning are realized by applying a large amount of manual extracted features.Feature extraction is time-consuming and laborious.In order to remove the dependence on feature extraction,this paper presents a Chinese named entity recognition system via word boundary based character embedding.The method can automatically extract the feature information from a large number of unlabeled data and generate the word feature vector,which will be used in the training of neural network. Since the Chinese characters are not the most basic unit of the Chinese semantics,the simple word vector will be cause the semantics ambiguity problem.According to the same character on different position of the word might have different meanings,this paper proposes a character vector method with word boundary information,constructs a depth neural network system for the Chinese named entity recognition and achieves F 89.18%on Sighan Bakeoff-3 2006 MSRA corpus.The result is closed to the state-of-the-art performance and shows that the system can avoid rel- ying on feature extraction and reduce the character ambiguity. Keywords:machine learning;Chinese named entity recognition;deep neutral networks;feature vector;feature ex- traction 命名实体识别(named entity recognition,NER) 预定义的标记，如人名、地名、组织机构名等。由于是计算机理解自然语言信息的基础，其主要任务是其在自然语言处理领域中的重要作用，许多国际会从文本中识别出原子元素，并根据其所属类别，标注议，如MUC-6、MUC-7、Conll22002、Conll2003等，将命名实体识别设为共享任务(share tasks)。英文命名收稿日期：2015-08-13.网络出版日期：2016-01-06. 实体识别具有相对较长的发展历史。许多机器学习基金项目：原创项目研发与非遗产业化资助项目(YC2015057). 方法，如最大嫡14]、隐马尔可夫模型2，s)、支持向通信作者：姚霖.E-mail:1250047487@qg.com

第１１卷第１期智能系统学报Ｖｏｌ．１１ №．１２０１６年２月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＦｅｂ．２０１６ＤＯＩ：１０．１１９９２／ｔｉｓ．２０１５０７０６５网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１６０１０６．１５５５．００２．ｈｔｍｌ词边界字向量的中文命名实体识别姚霖１，２，３，刘轶１，李鑫鑫４，刘宏２（１．深港产学研基地，广东深圳５１８０５７；２．北京大学信息科学技术学院，北京１００８７１；３．哈尔滨工业大学软件学院，黑龙江哈尔滨１５０００１；４．哈尔滨工业大学深圳研究生院计算机科学与技术学院，广东深圳５１８０５５）摘要：常见的基于机器学习的中文命名实体识别系统往往使用大量人工提取的特征，但特征提取费时费力，是一件十分繁琐的工作。为了减少中文命名实体识别对特征提取的依赖，构建了基于词边界字向量的中文命名实体识别系统。该方法利用神经元网络从大量未标注数据中，自动抽取出蕴含其中的特征信息，生成字特征向量。同时考虑到汉字不是中文语义的最基本单位，单纯的字向量会由于一字多义造成语义的混淆，因此根据同一个字在词中处于不同位置大多含义不同的特点，将单个字在词语中所处的位置信息加入到字特征向量中，形成词边界字向量，将其用于深度神经网络模型训练之中。在ＳｉｇｈａｎＢａｋｅｏｆｆ⁃３（２００６）语料中取得了Ｆ１８９．１８％的效果，接近当前国际先进水平，说明了该系统不仅摆脱了对特征提取的依赖，也减少了汉字一字多义产生的语义混淆。关键词：机器学习；中文命名体识别；深度神经网络；特征向量；特征提取中图分类号：ＴＰ３９１．１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１６）０１⁃００３７⁃０６中文引用格式：姚霖，刘轶，李鑫鑫，等．词边界字向量的中文命名实体识别［Ｊ］．智能系统学报，２０１６，１１（１）：３７⁃４２．英文引用格式：ＹＡＯＬｉｎ，ＬＩＵＹｉ，ＬＩＸｉｎｘｉｎ，ｅｔａｌ．Ｃｈｉｎｅｓｅｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｖｉａｗｏｒｄｂｏｕｎｄａｒｙｂａｓｅｄｃｈａｒａｃｔｅｒｅｍｂｅｄ⁃ ｄｉｎｇ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１６，１１（１）：３７⁃４２．ＣｈｉｎｅｓｅｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｖｉａｗｏｒｄｂｏｕｎｄａｒｙｂａｓｅｄｃｈａｒａｃｔｅｒｅｍｂｅｄｄｉｎｇＹＡＯＬｉｎ１，２，３，ＬＩＵＹｉ１，ＬＩＸｉｎｘｉｎ４，ＬＩＵＨｏｎｇ２（１．ＳｈｅｎｚｈｅｎＨｉｇｈ⁃ＴｅｃｈＩｎｄｕｓｔｒｉａｌＰａｒｋ，Ｓｈｅｎｚｈｅｎ５１８０５７，Ｃｈｉｎａ；２．ＳｃｈｏｏｌｏｆＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｉｎｇａｎｄＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，Ｐｅ⁃ ｋｉｎｇＵｎｉｖｅｒｓｉｔｙ，Ｂｅｉｊｉｎｇ１００８７１，Ｃｈｉｎａ；３．ＳｃｈｏｏｌｏｆＳｏｆｔｗａｒｅ，ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙ，Ｈａｒｂｉｎ１５０００１，Ｃｈｉｎａ；４．ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＨａｒｂｉｎＩｎｓｔｉｔｕｔｅｏｆＴｅｃｈｎｏｌｏｇｙＳｈｅｎｚｈｅｎＧｒａｄｕａｔｅＳｃｈｏｏｌ，Ｓｈｅｎｚｈｅｎ５１８０５５，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：ＭｏｓｔＣｈｉｎｅｓｅｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｓｂａｓｅｄｏｎｍａｃｈｉｎｅｌｅａｒｎｉｎｇａｒｅｒｅａｌｉｚｅｄｂｙａｐｐｌｙｉｎｇａｌａｒｇｅａｍｏｕｎｔｏｆｍａｎｕａｌｅｘｔｒａｃｔｅｄｆｅａｔｕｒｅｓ．Ｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎｉｓｔｉｍｅ⁃ｃｏｎｓｕｍｉｎｇａｎｄｌａｂｏｒｉｏｕｓ．Ｉｎｏｒｄｅｒｔｏｒｅｍｏｖｅｔｈｅｄｅｐｅｎｄｅｎｃｅｏｎｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎ，ｔｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｓａＣｈｉｎｅｓｅｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｓｙｓｔｅｍｖｉａｗｏｒｄｂｏｕｎｄａｒｙｂａｓｅｄｃｈａｒａｃｔｅｒｅｍｂｅｄｄｉｎｇ．Ｔｈｅｍｅｔｈｏｄｃａｎａｕｔｏｍａｔｉｃａｌｌｙｅｘｔｒａｃｔｔｈｅｆｅａｔｕｒｅｉｎｆｏｒｍａｔｉｏｎｆｒｏｍａｌａｒｇｅｎｕｍｂｅｒｏｆｕｎｌａｂｅｌｅｄｄａｔａａｎｄｇｅｎｅｒａｔｅｔｈｅｗｏｒｄｆｅａｔｕｒｅｖｅｃｔｏｒ，ｗｈｉｃｈｗｉｌｌｂｅｕｓｅｄｉｎｔｈｅｔｒａｉｎｉｎｇｏｆｎｅｕｒａｌｎｅｔｗｏｒｋ．ＳｉｎｃｅｔｈｅＣｈｉｎｅｓｅｃｈａｒａｃｔｅｒｓａｒｅｎｏｔｔｈｅｍｏｓｔｂａｓｉｃｕｎｉｔｏｆｔｈｅＣｈｉｎｅｓｅｓｅｍａｎｔｉｃｓ，ｔｈｅｓｉｍｐｌｅｗｏｒｄｖｅｃｔｏｒｗｉｌｌｂｅｃａｕｓｅｔｈｅｓｅｍａｎｔｉｃｓａｍｂｉｇｕｉｔｙｐｒｏｂｌｅｍ．Ａｃｃｏｒｄｉｎｇｔｏｔｈｅｓａｍｅｃｈａｒａｃｔｅｒｏｎｄｉｆｆｅｒｅｎｔｐｏｓｉｔｉｏｎｏｆｔｈｅｗｏｒｄｍｉｇｈｔｈａｖｅｄｉｆｆｅｒｅｎｔｍｅａｎｉｎｇｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｃｈａｒａｃｔｅｒｖｅｃｔｏｒｍｅｔｈｏｄｗｉｔｈｗｏｒｄｂｏｕｎｄａｒｙｉｎｆｏｒｍａｔｉｏｎ，ｃｏｎｓｔｒｕｃｔｓａｄｅｐｔｈｎｅｕｒａｌｎｅｔｗｏｒｋｓｙｓｔｅｍｆｏｒｔｈｅＣｈｉｎｅｓｅｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎａｎｄａｃｈｉｅｖｅｓＦ１８９．１８％ｏｎＳｉｇｈａｎＢａｋｅｏｆｆ⁃３２００６ＭＳＲＡｃｏｒｐｕｓ．Ｔｈｅｒｅｓｕｌｔｉｓｃｌｏｓｅｄｔｏｔｈｅｓｔａｔｅ⁃ｏｆ⁃ｔｈｅ⁃ａｒｔｐｅｒｆｏｒｍａｎｃｅａｎｄｓｈｏｗｓｔｈａｔｔｈｅｓｙｓｔｅｍｃａｎａｖｏｉｄｒｅｌ⁃ ｙｉｎｇｏｎｆｅａｔｕｒｅｅｘｔｒａｃｔｉｏｎａｎｄｒｅｄｕｃｅｔｈｅｃｈａｒａｃｔｅｒａｍｂｉｇｕｉｔｙ．Ｋｅｙｗｏｒｄｓ：ｍａｃｈｉｎｅｌｅａｒｎｉｎｇ；Ｃｈｉｎｅｓｅｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ；ｄｅｅｐｎｅｕｔｒａｌｎｅｔｗｏｒｋｓ；ｆｅａｔｕｒｅｖｅｃｔｏｒ；ｆｅａｔｕｒｅｅｘ⁃ ｔｒａｃｔｉｏｎ收稿日期：２０１５⁃０８⁃１３．网络出版日期：２０１６⁃０１⁃０６．基金项目：原创项目研发与非遗产业化资助项目（ＹＣ２０１５０５７）．通信作者：姚霖．Ｅ⁃ｍａｉｌ：１２５００４７４８７＠ｑｑ．ｃｏｍ．命名实体识别（ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ，ＮＥＲ）是计算机理解自然语言信息的基础，其主要任务是从文本中识别出原子元素，并根据其所属类别，标注预定义的标记，如人名、地名、组织机构名等。由于其在自然语言处理领域中的重要作用，许多国际会议，如ＭＵＣ⁃６、ＭＵＣ⁃７、Ｃｏｎｌｌ２００２、Ｃｏｎｌｌ２００３等，将命名实体识别设为共享任务（ｓｈａｒｅｔａｓｋｓ）。英文命名实体识别具有相对较长的发展历史。许多机器学习方法，如最大熵［１⁃４］、隐马尔可夫模型［２，５⁃７］、支持向

·38 智能系统学报第11卷量机[8劉和条件随机场)]等都曾被应用于命名体识 t+1,系统接着处理句子中的下一个汉字“繁”，以别任务，并取得了较好的精确度。英语中的人名、地此类推。在句子解析层中，将针对整句生成一个由名和组织机构名具有首字母大写等特点，因此英文分值组成的网格。网格中第t列上的节点是t时刻命名实体识别相对简单。然而中文的语言特点与英待测汉字对应所有标记的分值。节点间连线上显示文大不相同，字和词之间没有明确的界限，人名、地转移概率，用来描述标记间的转换可能性。转移概名和组织机构名也都没有首字大写的特点，而且对率在全局统计的基础上产生。最后应用维特比于外国人名和组织机构名，常常会有不同的翻译。 (Viterbi)算法，在分值网格中找到分值最高的路径，上述特点使得中文命名实体识别任务更具有挑战作为最终的标记序列。性。前面提到的有监督机器学习方法，如隐马尔科滑动窗口输入长度为k 夫模型(HMM),最大熵(ME)[o,支持向量机输入句 (SVM)和条件随机场(CRF)[山算法等，也都曾被应香港的繁荣用于解决中文命名体识别问题。这类监督学习方法基于词边界特征训练过程中需要人工定义复杂不同的特征模板以获 Begin-Feature C-B C,-B C-B C-B C-B 得较好的识别率。设计和比较模板的工作不仅要求 Middle-Feature C,-M C,-M C.-M C,-M C-M 开发人员具备坚实的语言学背景，还需要花费大量 End-Feature C-E C-E C-E C-E C;-E 的时间通过实验进行筛选，是一件费时费力的工作。 Single-Feature C-S C,-S C-S C-S C-S 为了减少中文命名实体识别任务对人工构建特性模板的过度依赖，在Collobert[]工作的启发下，查找层我们搭建了一个基于词边界字向量的中文命名实体 -0 0000 识别系统。利用字在词语中所处位置不同，含义大 LT ( 不同的特点，提出了词边界字向量的概念。在一定程度上减少了一字多义产生的语义混淆。该系统在标准语料库SIGHAN Bakeoff-.3(2006)上取得了较好线性层1 的识别效果。 w.()b 本文首先介绍了中文命名实体识别领域的发展 Hidden units 现状：接着详细描述了基于词边界字向量的中文命 Sigmoid层名体识别系统的架构：其后对系统的结果和性能进行了进一步的分析：最终进行了总结和展望。线性层2 1系统架构 W()+6, #标签 Bengio首次将卷积神经网络架构(convolutional neural network,CNN)应用到概率语言模型中[uB),并整句分析成功应用于自然语言处理(natural language process- 标签 1:s-L00 ing,NLP)问题。在本系统中，我们使用CNN来 2:b-LOC 3:F10C 处理中文命名体识别问题，神经网络架构如图1 12:S-0FC 所示。首先将待测汉字通过系统的查找层，和滑动窗图1神经网络架构口中其他相邻汉字一起，被转化为实数字向量，再将 Fig.1 The neural network architecture 该向量序列输入到下层神经网络中。如图1所示， 1.1字特征向量在时刻，系统待测汉字为处于滑动窗口正中的汉字生成特征向量序列的第一步要将全部汉字存储 “的”。通过查找层后，汉字“的”以及相邻的汉字到查找层的字典D中，每个汉字由固定维度的实数 “香、港、繁、荣”（假设窗口大小为5）被转换为实数向量表示。语句在通过查找层后，被转换为字向量向量，传输到线性转换层。经过线性层和sigmoid层序列，汉字x∈D的特征向量可以通过方程LTc(·) 的处理后，系统对字符“的”对应所有可能标记进行获取，方程定义如下：打分，标注概率越大的标记，分值越高。在下一时刻 LTc(x)=C

量机［８］和条件随机场［９］等都曾被应用于命名体识别任务，并取得了较好的精确度。英语中的人名、地名和组织机构名具有首字母大写等特点，因此英文命名实体识别相对简单。然而中文的语言特点与英文大不相同，字和词之间没有明确的界限，人名、地名和组织机构名也都没有首字大写的特点，而且对于外国人名和组织机构名，常常会有不同的翻译。上述特点使得中文命名实体识别任务更具有挑战性。前面提到的有监督机器学习方法，如隐马尔科夫模型（ＨＭＭ），最大熵（ＭＥ）［１０］，支持向量机（ＳＶＭ）和条件随机场（ＣＲＦ）［１１］算法等，也都曾被应用于解决中文命名体识别问题。这类监督学习方法训练过程中需要人工定义复杂不同的特征模板以获得较好的识别率。设计和比较模板的工作不仅要求开发人员具备坚实的语言学背景，还需要花费大量的时间通过实验进行筛选，是一件费时费力的工作。为了减少中文命名实体识别任务对人工构建特性模板的过度依赖，在Ｃｏｌｌｏｂｅｒｔ［１２］工作的启发下，我们搭建了一个基于词边界字向量的中文命名实体识别系统。利用字在词语中所处位置不同，含义大不同的特点，提出了词边界字向量的概念。在一定程度上减少了一字多义产生的语义混淆。该系统在标准语料库ＳＩＧＨＡＮＢａｋｅｏｆｆ⁃３（２００６）上取得了较好的识别效果。本文首先介绍了中文命名实体识别领域的发展现状；接着详细描述了基于词边界字向量的中文命名体识别系统的架构；其后对系统的结果和性能进行了进一步的分析；最终进行了总结和展望。１系统架构Ｂｅｎｇｉｏ首次将卷积神经网络架构（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ，ＣＮＮ）应用到概率语言模型中［１３］，并成功应用于自然语言处理（ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓ⁃ ｉｎｇ，ＮＬＰ）问题［１４］。在本系统中，我们使用ＣＮＮ来处理中文命名体识别问题，神经网络架构如图１所示。首先将待测汉字通过系统的查找层，和滑动窗口中其他相邻汉字一起，被转化为实数字向量，再将该向量序列输入到下层神经网络中。如图１所示，在时刻ｔ，系统待测汉字为处于滑动窗口正中的汉字 “的”。通过查找层后，汉字“的” 以及相邻的汉字 “香、港、繁、荣”（假设窗口大小为５）被转换为实数向量，传输到线性转换层。经过线性层和ｓｉｇｍｏｉｄ层的处理后，系统对字符“的”对应所有可能标记进行打分，标注概率越大的标记，分值越高。在下一时刻ｔ＋１，系统接着处理句子中的下一个汉字“繁”，以此类推。在句子解析层中，将针对整句生成一个由分值组成的网格。网格中第ｔ列上的节点是ｔ时刻待测汉字对应所有标记的分值。节点间连线上显示转移概率，用来描述标记间的转换可能性。转移概率在全局统计的基础上产生。最后应用维特比（Ｖｉｔｅｒｂｉ）算法，在分值网格中找到分值最高的路径，作为最终的标记序列。图１神经网络架构Ｆｉｇ．１Ｔｈｅｎｅｕｒａｌｎｅｔｗｏｒｋａｒｃｈｉｔｅｃｔｕｒｅ１．１字特征向量生成特征向量序列的第一步要将全部汉字存储到查找层的字典Ｄ中，每个汉字由固定维度的实数向量表示。语句在通过查找层后，被转换为字向量序列，汉字ｘ∈Ｄ的特征向量可以通过方程ＬＴＣ（·）获取，方程定义如下：ＬＴＣ（ｘ）＝Ｃｘ ·３８· 智能系统学报第１１卷

第1期姚霖，等：词边界字向量的中文命名实体识别 ·39. 式中：C,∈R是汉字x对应的字向量，s表示向量字向量虽然为分布式描述，但能够表达汉字间的维度。查找表C为由字典D中的汉字以及其对存在的相互关系，其泛化(generalization)的程度是应的向量组成的矩阵。该特征向量矩阵是通过深层其他传统的N元文法模型无法达到的。模型参数神经网络模型，在海量未标注的中文数据上训练得会依据属性相似的汉字出现的次数加以调整。到的。高维度的特征向量通过向量间的差值能够较 1.2语句级特征抽取为准确地捕捉到字/词间的句法和语义关系，自动包中文命名实体识别对语句中的每个汉字，标注含汉字间所蕴藏的句法和语义信息。相应的实体类型，输出是针对整个句子产生的一串利用神经网络模型获得中英文字词向量的工作标记序列。由于CNN的输入端长度固定，与自然语已经有了一定的应用，1s]。在本文中，我们采用言中句子变长的特点不符，因此我们采用了机器学相同的方式通过语言模型获得到向量矩阵。尽管采习领域较为常见的滑动窗口方法，将待标注的句子用了庞大的训练语料，但由于语言的复杂多变性，数切分成特定长度的片段，分批输入。图1中，在时刻据稀疏始终是中文名实体识别中存在的问题。通过 t,当前处理的汉字是p位置上“的”字，与该字距离对比不同的语言模型2,720]，我们最终选择skp 在[(p-(k-1)/2),(p+(k-1)/2)]范围内的相邻字 gram神经网络模型。也将一同输入到查找层，从而转换成字向量。通过与Collobert和Weston]、Turian]、Mnih和字向量抽取出来的蕴含在这个范围内的句法和语义 Hinton)采用的语言模型相比，Tomas Mikolov[2)的信息将会被传递到系统的下一层。人为设定窗口大工作说明skip-gram模型在词类推任务(word analo-- 小为k。k值对系统精度有一定影响，如果选择窗口 y)能够获得较好的成绩，该模型虽然在训练速度上过小，有利信息不能被覆盖：而窗口过大，因此带来不占优势，但适合解决数据稀疏问题。skip-gram模的冗余信息对系统产生不必要的干扰。设字向量为型使用当前的字/词向量来预测该字/词之前和之后 s-维，则线性层的输入大小为s×k。各(k-1)÷2个字/词的概率，如图2所示。该模型 1.3标记预测的优化目标是最大化训练数据的对数似然度：深层神经网络为多层结构，每一层都在前一层 hi-vsuro log即(x+Ix）获得的特征基础上，进一步提取特征。根据设计，各层由不同的线性函数或其他转换函数实现。公式式中：x:为训练语料中的汉字，k为窗口大小。概率 f(·)描述本系统深层神经网络的中间3层： p(xlx;)由softmax公式得到，定义如下： f(x)=M'g(M'C +b')+b2 expts Vs p(x。1x,)= 式中：M∈Rks,b∈R,M∈R,b2∈Rk山 D ∑exp(,') g(·)代表sigmoid转换。H为隐藏节点的个数，可 x= 式中：心为汉字x的向量初始值，v'表示输出向量。以通过调整该值，获得更高的精确度。L为标注集的大小。9=(M,M2,b1,b2)代表系统中所有通过训练获得的参数。采用随机梯度法，在训练集T X-2) 上，通过最大似然率∑1og即(y1x,8)来训练得到 (,y)ET -维的参数矩阵0(01,02.，…，8)。 Xi-1) 中文命名体识别属于多分类问题，用f(x,l,) 表示汉字x标注为第1个标记的分值，通过条件概率p(l1x,0)描述。应用softmax回归得到 X计1) enz.1.0) p(l1x,8)= ∑en X+2) 为方便计算，定义操作log-add为输入隐藏输出 logaddz=log(∑e）因此一个训练样本(x,y)的对数似然率为：图2Skip-gram神经网络语言模型 log即(ylx,0)=fx,y,0)--logaddf(xj,)句子x:n处 Fig.2 The skip-gram neural network language model 在t时刻的汉字标注为l的分值为f(x1:,l,t,)

式中：Ｃｘ∈Ｒ｜ｓ｜是汉字ｘ对应的字向量，ｓ表示向量的维度。查找表Ｃ为由字典Ｄ中的汉字以及其对应的向量组成的矩阵。该特征向量矩阵是通过深层神经网络模型，在海量未标注的中文数据上训练得到的。高维度的特征向量通过向量间的差值能够较为准确地捕捉到字／词间的句法和语义关系，自动包含汉字间所蕴藏的句法和语义信息。利用神经网络模型获得中英文字词向量的工作已经有了一定的应用［１３，１５⁃１７］。在本文中，我们采用相同的方式通过语言模型获得到向量矩阵。尽管采用了庞大的训练语料，但由于语言的复杂多变性，数据稀疏始终是中文名实体识别中存在的问题。通过对比不同的语言模型［１２，１７⁃２０］，我们最终选择ｓｋｉｐ⁃ ｇｒａｍ神经网络模型。与Ｃｏｌｌｏｂｅｒｔ和Ｗｅｓｔｏｎ［１２］、Ｔｕｒｉａｎ［１９］、Ｍｎｉｈ和Ｈｉｎｔｏｎ［１７］采用的语言模型相比，ＴｏｍａｓＭｉｋｏｌｏｖ［２１］的工作说明ｓｋｉｐ⁃ｇｒａｍ模型在词类推任务（ｗｏｒｄａｎａｌｏ⁃ ｇｙ）能够获得较好的成绩，该模型虽然在训练速度上不占优势，但适合解决数据稀疏问题。ｓｋｉｐ⁃ｇｒａｍ模型使用当前的字／词向量来预测该字／词之前和之后各（ｋ－１） ÷２个字／词的概率，如图２所示。该模型的优化目标是最大化训练数据的对数似然度：１Ｎ∑ Ｎｉ＝１－ｋ／２≤∑ ｊ≤ｋ／２，ｊ≠０ｌｏｇｐ（ｘｉ＋ｊ｜ｘｊ）式中：ｘｉ为训练语料中的汉字，ｋ为窗口大小。概率ｐ（ｘｉ＋ｊ｜ｘｊ）由ｓｏｆｔｍａｘ公式得到，定义如下：ｐ（ｘｏ｜ｘＩ）＝ｅｘｐｖｘｏｖｘＩ ∑ Ｄｘ＝１ｅｘｐ（ｖｘ ′ｖｘＩ）式中：ｖｘ为汉字ｘ的向量初始值，ｖｘ ′表示输出向量。图２Ｓｋｉｐ⁃ｇｒａｍ神经网络语言模型Ｆｉｇ．２Ｔｈｅｓｋｉｐ⁃ｇｒａｍｎｅｕｒａｌｎｅｔｗｏｒｋｌａｎｇｕａｇｅｍｏｄｅｌ字向量虽然为分布式描述，但能够表达汉字间存在的相互关系，其泛化（ｇｅｎｅｒａｌｉｚａｔｉｏｎ）的程度是其他传统的Ｎ元文法模型无法达到的。模型参数会依据属性相似的汉字出现的次数加以调整。１．２语句级特征抽取中文命名实体识别对语句中的每个汉字，标注相应的实体类型，输出是针对整个句子产生的一串标记序列。由于ＣＮＮ的输入端长度固定，与自然语言中句子变长的特点不符，因此我们采用了机器学习领域较为常见的滑动窗口方法，将待标注的句子切分成特定长度的片段，分批输入。图１中，在时刻ｔ，当前处理的汉字是ｐ位置上 “的”字，与该字距离在 [ (ｐ－（ｋ－１）／２) ，(ｐ＋（ｋ－１）／２) ] 范围内的相邻字也将一同输入到查找层，从而转换成字向量。通过字向量抽取出来的蕴含在这个范围内的句法和语义信息将会被传递到系统的下一层。人为设定窗口大小为ｋ。ｋ值对系统精度有一定影响，如果选择窗口过小，有利信息不能被覆盖；而窗口过大，因此带来的冗余信息对系统产生不必要的干扰。设字向量为ｓ⁃维，则线性层的输入大小为ｓ×ｋ。１．３标记预测深层神经网络为多层结构，每一层都在前一层获得的特征基础上，进一步提取特征。根据设计，各层由不同的线性函数或其他转换函数实现。公式ｆ θ（·）描述本系统深层神经网络的中间３层：ｆ（ｘ）＝Ｍ２ｇ（Ｍ１Ｃｘ＋ｂ１）＋ｂ２式中：Ｍ１∈ＲＨ×ＳＫ，ｂ１ ∈Ｒ１×Ｈ，Ｍ２ ∈Ｒ｜Ｌ｜ ×Ｈ，ｂ２ ∈Ｒ１× ｜Ｌ｜，ｇ（·）代表ｓｉｇｍｏｉｄ转换。Ｈ为隐藏节点的个数，可以通过调整该值，获得更高的精确度。Ｌ为标注集的大小。 θ ＝（Ｍ１，Ｍ２，ｂ１，ｂ２）代表系统中所有通过训练获得的参数。采用随机梯度法，在训练集Ｔ上，通过最大似然率（ｘ∑，ｙ）∈Ｔｌｏｇｐ（ｙ｜ｘ，θ）来训练得到ｖ⁃维的参数矩阵 θ（θ １，θ ２，，…，θｖ）。中文命名体识别属于多分类问题，用ｆ（ｘ，ｌ，θ）表示汉字ｘ标注为第ｌ个标记的分值，通过条件概率ｐ（ｌ｜ｘ，θ）描述。应用ｓｏｆｔｍａｘ回归得到ｐ（ｌ｜ｘ，θ）＝ｅｆ（ｘ，ｌ，θ） ∑ ｊｅｆ（ｘ，ｊ，θ）为方便计算，定义操作ｌｏｇ⁃ａｄｄ为ｌｏｇａｄｄｚｉ＝ｌｏｇｉ ∑ｉｅｚｉ ( ) 因此一个训练样本（ｘ，ｙ）的对数似然率为：ｌｏｇｐ (ｙ｜ｘ，θ) ＝ｆ（ｘ，ｙ，θ）－ｌｏｇａｄｄｊｆ（ｘ，ｊ，θ）句子ｘ［１：Ｔ］处在ｔ时刻的汉字标注为ｌ的分值为ｆｘ( ［１：Ｔ］，ｌ，ｔ，θ) ，第１期姚霖，等：词边界字向量的中文命名实体识别 ·３９·

·40. 智能系统学报第11卷系统参数集为0。表1标注数据描述作为一项序列标注任务，中文命名体识别要根 Table 1 Labeled data descriptions 据整条标记路径的分值情况，判断最终的标注结果。数据集包含句子的数量包含汉字的数量句子中的邻近标记间存在着关联性。例如，命名实体B类的内部标记不可能紧跟在类A的左边界标训练集 136621 2170848 记后面出现：组织机构中间标记不可能紧跟在人名测试集 11504 172602 的起始标记后面。因此，我们将标记之间存在的依存关系引入到系统中来。Collobert用A来描述这种 100f 依存关系，即标记i到标记j的转移概率。因此整句 95 的标注过程可以转化为在由标记组成的图中找一条坦总体分值最高的路径。一个句子的标记路径分值是 85 80 由两部分组成，第一部分为前面描述的分值 75 fx:,l,1,):第二部分是A。从而系统的所有参 ×10 70 0 0.5 1.03.06.0 9.012 数集0包括A:和。为了加强序列中邻近标记之间字向量维度/维的关联，本文将标记推导层的一阶标记转移矩阵扩图3采用不同维度字向量的实验结果展为二阶标记转移矩阵，用A#来表示标记k与前面 Fig.3 Experimental Results with Different Vector Sizes 标记(i,)的关联关系。则对于句子的总体分值可以描述为实验发现特征向量的维度对模型性能有较大的影响。增加维度可以提供更多信息，系统的性能也 Snn,)=Mn.0）相对较好。实验表明即使没有其他词典或者词性特式中：山1：n为标记集。采用前面定义的log-add运算征参与，深层神经网络也能够较好地实现中文命名实体识别任务。简化计算，归一化后得到：lo即(yun1x:,)= 第2组实验中，将字典特征添加到汉字特征向 S(xu:nu.n,8)-logaddS(xun,u,n,8)在训练量中。我们采用的字典如表2所示。 V近1：刀表2字典描述过程中，使用全部的训练样本对参数集日都会进行 Table 2 Dictionary descriptions 训练，即最大化∑lo即(1：n1x:,)。在生词典编号词典名称 (.YeT) 成的网格中，我们使用viterbi算法选择最高分值路中文常用姓词典中文不常用姓词典径，即满足a罗maxS(xu,n,4,n,)的标记路径。中文常见人名词典 :n 外国人名常用字词典 2实验结果与分析 J 称谓词表 6 中国常见人名词典 2.1相关数据集个地名后缀词典训练skip-gram模型的原始数据是包括人民日 f 地名词典报和搜狗实验室提供的新闻语料库，总计超过2GB 9 组织机构后缀词典的中文文本。采用ICTCLAS工具进行分词。采用 10 组织机构词典 11 单字词词典 Word2vec工具训练skip-gram模型。 12 常用多字词典用来训练参数集0的标注训练语料是SIGHAN 表3描述了字典特征的细节。三组特征分 bakeoff-3MSRA语料(2006)。语料库的统计信息如为：基础特征包含了字特征的基本信息；第二组表1所示。包含了前后缀的信息：最后一组包含已知的名使用上述数据，我们完成了两组实验。第1组实体信息。实验只采用汉字特征向量一种特征，考察了深度神词是汉语句法和语义的基本单位。同一个字出经网络模型本身的识别能力。该组实验滑动窗口大现在单字词或者不同的组合词中，含义可能不同。小为3，隐藏层节点500个，不同特征向量维数下得例如，汉字“行”作为单字词的意思是表示赞同的意到的实验结果如图3所示。思，但是出现在“银行”和“行动”中意思就完全不同

系统参数集为 θ。作为一项序列标注任务，中文命名体识别要根据整条标记路径的分值情况，判断最终的标注结果。句子中的邻近标记间存在着关联性。例如，命名实体Ｂ类的内部标记不可能紧跟在类Ａ的左边界标记后面出现；组织机构中间标记不可能紧跟在人名的起始标记后面。因此，我们将标记之间存在的依存关系引入到系统中来。Ｃｏｌｌｏｂｅｒｔ用Ａｌｊ来描述这种依存关系，即标记ｉ到标记ｊ的转移概率。因此整句的标注过程可以转化为在由标记组成的图中找一条总体分值最高的路径。一个句子的标记路径分值是由两部分组成，第一部分为前面描述的分值ｆｘ( ［１：Ｔ］，ｌ，ｔ，θ) ；第二部分是Ａｉｊ。从而系统的所有参数集 θ ～包括Ａｉｊ和 θ。为了加强序列中邻近标记之间的关联，本文将标记推导层的一阶标记转移矩阵扩展为二阶标记转移矩阵，用Ａｉｊｋ来表示标记ｋ与前面标记（ｉ，ｊ）的关联关系。则对于句子的总体分值可以描述为Ｓ（ｘ［１：Ｔ］，ｌ［１：Ｔ］，θ ～）＝ ∑ Ｔｔ＝１Ａｌｔ－２ｌｔ－１ｌｔ＋ｆｘ［１：Ｔ］，ｌ ( ( ［ｔ］，ｔ，θ) ) 式中：ｌ［１：Ｔ］为标记集。采用前面定义的ｌｏｇ⁃ａｄｄ运算简化计算，归一化后得到：ｌｏｇｐｙ［１：Ｔ］｜ｘ［１：Ｔ］，θ ～ ( ) ＝Ｓｘ［１：Ｔ］，ｙ［１：Ｔ］，θ ～ ( ) －ｌｏｇａｄｄ ∀ｌ［１：Ｔ］Ｓｘ［１：Ｔ］，ｌ［１：Ｔ］，θ ～ ( ) 在训练过程中，使用全部的训练样本对参数集 θ ～都会进行训练，即最大化（ｘ∑，ｙ∈Ｔ）ｌｏｇｐｙ［１：Ｔ］｜ｘ［１：Ｔ］，θ ～ ( ) 。在生成的网格中，我们使用ｖｉｔｅｒｂｉ算法选择最高分值路径，即满足ａｒｇｍａｘｌ［１：Ｔ］Ｓｘ［１：Ｔ］，ｌ［１：Ｔ］，θ ～ ( ) 的标记路径。２实验结果与分析２．１相关数据集训练ｓｋｉｐ⁃ｇｒａｍ模型的原始数据是包括人民日报和搜狗实验室提供的新闻语料库，总计超过２ＧＢ的中文文本。采用ＩＣＴＣＬＡＳ工具进行分词。采用Ｗｏｒｄ２ｖｅｃ工具训练ｓｋｉｐ⁃ｇｒａｍ模型。用来训练参数集 θ ～的标注训练语料是ＳＩＧＨＡＮｂａｋｅｏｆｆ⁃３ＭＳＲＡ语料（２００６）。语料库的统计信息如表１所示。使用上述数据，我们完成了两组实验。第１组实验只采用汉字特征向量一种特征，考察了深度神经网络模型本身的识别能力。该组实验滑动窗口大小为３，隐藏层节点５００个，不同特征向量维数下得到的实验结果如图３所示。表１标注数据描述Ｔａｂｌｅ１Ｌａｂｅｌｅｄｄａｔａｄｅｓｃｒｉｐｔｉｏｎｓ数据集包含句子的数量包含汉字的数量训练集测试集１３６６２１１１５０４２１７０８４８１７２６０２图３采用不同维度字向量的实验结果Ｆｉｇ．３ＥｘｐｅｒｉｍｅｎｔａｌＲｅｓｕｌｔｓｗｉｔｈＤｉｆｆｅｒｅｎｔＶｅｃｔｏｒＳｉｚｅｓ实验发现特征向量的维度对模型性能有较大的影响。增加维度可以提供更多信息，系统的性能也相对较好。实验表明即使没有其他词典或者词性特征参与，深层神经网络也能够较好地实现中文命名实体识别任务。第２组实验中，将字典特征添加到汉字特征向量中。我们采用的字典如表２所示。表２字典描述Ｔａｂｌｅ２Ｄｉｃｔｉｏｎａｒｙｄｅｓｃｒｉｐｔｉｏｎｓ词典编号词典名称１２３４５６７８９１０１１１２中文常用姓词典中文不常用姓词典中文常见人名词典外国人名常用字词典称谓词表中国常见人名词典地名后缀词典地名词典组织机构后缀词典组织机构词典单字词词典常用多字词典表３描述了字典特征的细节。三组特征分为：基础特征包含了字特征的基本信息；第二组包含了前后缀的信息；最后一组包含已知的名实体信息。词是汉语句法和语义的基本单位。同一个字出现在单字词或者不同的组合词中，含义可能不同。例如，汉字“行”作为单字词的意思是表示赞同的意思，但是出现在“银行”和“行动”中意思就完全不同 ·４０· 智能系统学报第１１卷

第1期姚霖，等：词边界字向量的中文命名实体识别 ·41· 了。通过观察发现字处于词语的不同位置时，通常提取，因此独立加入词典特征对于模型的影响较小。会表现出不同的句法和语义属性。表4中文命名实体识别的实验结果基于以上观察，我们采用了基于词边界的字向 Table 4 Experimental Results of Chinese Named Entity 量表示法。我们使用4种标记来描述单个字在词中 Recognition 所处的位置，汉字x可以转化为以下4种：x-B,x-M, 模型中文命名实体识别F,/% x-E和x-S。例如，分词后的句子“去/哈尔滨/看/冰条件随机场（字特征） 84.60 雕”，采用词边界表示，可转化为“去S/哈B尔M滨 SIGHAN2006封闭测试[22] 86.51 E/看S/冰B雕E”,我们基于上述带词边界信息的 SIGHAN2006开放测试[22] 91.18 Deep CNN 89.18 文本来构建字向量。对于汉字x,其特征向量由基于x-Bx-M、x-E和x-S构建的特征向量连接起来，对比其他实验模型，如表5所示，分析第二组实如下所示：验结果可以看出，在不包含任何词典特征的情况下， LT (x)= 基于词边界字向量的深度神经网络模型的F,值比 [LT (x-B),LT (x-M),LT.(x-E),LT.(x-S)] 基于基本字向量的深度神经网络模型提高了1.5%，表3中文命名实体识别的字典特征比条件随机场模型提高了3.1%，优于SINHAN2006 封闭测试的最优结果。加入词典特征以后，模型的 Table 3 Dictionary features for Chinese named entity rec- 预测性能得到提高，其中第一组基本特征的作用最 ognition 大，但是词典特征对于深度神经网络模型的作用不特征集特征如条件随机场模型（如SINHAN2006开放测试的最 X(n=-2,-1,0,1,2),X。eD 优模型)。分析原因是由于深度神经网络将两种不 XXIED(n=-1,0), 同类型的特征（字向量为高维的实数向量，词典特 X-IX.XI EDe(n=-1,0,1) 征为101维的布尔向量)直接串联作为输入，特征基本 X-X-XX1eD2(n=-1,0), 不能较好的融合：特别是词典特征加入到基于词边特征 XneD,(n=-2,-1,0) 界字向量对系统的提高，没有单纯使用字向量的时 X。eD2(n=-2,-1,0), 候显著。究其原因，是词边界字向量的维度过高，对 X.eD(n=-2,-1,0,1,2) 词典特征有较大的稀释作用。而条件随机场模型使 X。eD(n=-2.-1,0,1,2) 用的是字、词和字典特征等离散特征的组合，由人工 X.eD,(n=0,1,2), 选择并通过实验进行了调整。 X.eD,(n=0,1,2) 表5不同模型中文命名实体识别的实验结果 X-X,ED(n=-1,0,1,2), Table 5 Experimental Results of Chinese Named Entity Recognition Based on different model X.X.ED,(n=0,1) 基本字向量基于词边界的字向量前后缀 X.X1∈Dg(n=0,1) Deep CNN 特征 X.-2X-X.EDs(n=0,1,2) +字向量 86.72 88.31 Basic Features 87.76 88.87 XnX1X2eD(n=0）, +Prefix and Suffix Features 87.97 89.10 X.XX2ED (n=0) Named Entity Features 88.14 89.18 Y-2X-XoXEDs, X2 K-XoX:X2∈D5 3结束语 X…Xo…XeD6, 名实体针对传统序列标注方法普遍需要人工选择特征 X…X。…XeDs 的问题，提出了一种基于词边界字向量的深度神经特征 X…Xo…XeDo 网络模型，并将其应用于中文命名实体识别问题。中文命名实体识别问题的实验结果表明：基于词边表4显示了基于词边界字向量的模型使用不同界字向量的深度神经网络模型优于基于基本字向量词典特征的实验结果。采用的字典特征与第一组实的深度神经网络模型和SINHAN2006封闭测试的验中的字典特征相同。可以明显看出右侧一列基于最优模型。词边界向量的实验结果，相较于左侧基于字向量的未来的工作中将从以下儿方面考虑如何进一步实验结果有了明显的提高。增加了字典特征以后，提高深度神经网络的识别性能。首先，考虑如何能我们发现对于基于词边界模型的实验结果提高并不够较好地使用其他统计特征与字向量特征相融合。明显。说明部分词典特征已经在词边界模型中自动其次，目前的方法是从句首开始将每个字输入到神

了。通过观察发现字处于词语的不同位置时，通常会表现出不同的句法和语义属性。基于以上观察，我们采用了基于词边界的字向量表示法。我们使用４种标记来描述单个字在词中所处的位置，汉字ｘ可以转化为以下４种：ｘ⁃Ｂ，ｘ⁃Ｍ，ｘ⁃Ｅ和ｘ⁃Ｓ。例如，分词后的句子“去／哈尔滨／看／冰雕”，采用词边界表示，可转化为“去Ｓ／哈Ｂ尔Ｍ滨Ｅ／看Ｓ／冰Ｂ雕Ｅ”，我们基于上述带词边界信息的文本来构建字向量。对于汉字ｘ，其特征向量由基于ｘ⁃Ｂ、ｘ⁃Ｍ、ｘ⁃Ｅ和ｘ⁃Ｓ构建的特征向量连接起来，如下所示：ＬＴｃ（ｘ）＝［ＬＴｃ（ｘ－Ｂ），ＬＴｃ（ｘ－Ｍ），ＬＴｃ（ｘ－Ｅ），ＬＴｃ（ｘ－Ｓ）］表３中文命名实体识别的字典特征Ｔａｂｌｅ３ＤｉｃｔｉｏｎａｒｙｆｅａｔｕｒｅｓｆｏｒＣｈｉｎｅｓｅｎａｍｅｄｅｎｔｉｔｙｒｅｃ⁃ ｏｇｎｉｔｉｏｎ特征集特征基本特征Ｘｎ（ｎ＝－２，－１，０，１，２），Ｘ０∈Ｄ１１ＸｎＸｎ＋１∈Ｄ１２（ｎ＝－１，０），Ｘｎ－１ＸｎＸｎ＋１∈Ｄ１２（ｎ＝－１，０，１）Ｘｎ－２Ｘｎ－１ＸｎＸｎ＋１∈Ｄ１２（ｎ＝－１，０），Ｘｎ∈Ｄ１（ｎ＝－２，－１，０）Ｘｎ∈Ｄ２（ｎ＝－２，－１，０），Ｘｎ∈Ｄ３（ｎ＝－２，－１，０，１，２）Ｘｎ∈Ｄ４（ｎ＝－２，－１，０，１，２）前后缀特征Ｘｎ∈Ｄ７（ｎ＝０，１，２），Ｘｎ∈Ｄ９（ｎ＝０，１，２）Ｘｎ－１Ｘｎ∈Ｄ５（ｎ＝－１，０，１，２），ＸｎＸｎ＋１∈Ｄ７（ｎ＝０，１）ＸｎＸｎ＋１∈Ｄ９（ｎ＝０，１），Ｘｎ－２Ｘｎ－１Ｘｎ∈Ｄ５（ｎ＝０，１，２）ＸｎＸｎ＋１Ｘｎ＋２∈Ｄ７（ｎ＝０），ＸｎＸｎ＋１Ｘｎ＋２∈Ｄ９（ｎ＝０）Ｘ－２Ｘ－１Ｘ０Ｘ１∈Ｄ５，Ｘ－２Ｘ－１Ｘ０Ｘ１Ｘ２∈Ｄ５名实体特征Ｘ－ｉ…Ｘ０…Ｘｊ∈Ｄ６，Ｘ－ｉ…Ｘ０…Ｘｊ∈Ｄ８Ｘ－ｉ…Ｘ０…Ｘｊ∈Ｄ１０表４显示了基于词边界字向量的模型使用不同词典特征的实验结果。采用的字典特征与第一组实验中的字典特征相同。可以明显看出右侧一列基于词边界向量的实验结果，相较于左侧基于字向量的实验结果有了明显的提高。增加了字典特征以后，我们发现对于基于词边界模型的实验结果提高并不明显。说明部分词典特征已经在词边界模型中自动提取，因此独立加入词典特征对于模型的影响较小。表４中文命名实体识别的实验结果Ｔａｂｌｅ４ＥｘｐｅｒｉｍｅｎｔａｌＲｅｓｕｌｔｓｏｆＣｈｉｎｅｓｅＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎ模型中文命名实体识别Ｆ１／％条件随机场（字特征）ＳＩＧＨＡＮ２００６封闭测试［２２］ＳＩＧＨＡＮ２００６开放测试［２２］ＤｅｅｐＣＮＮ８４．６０８６．５１９１．１８８９．１８对比其他实验模型，如表５所示，分析第二组实验结果可以看出，在不包含任何词典特征的情况下，基于词边界字向量的深度神经网络模型的Ｆ１值比基于基本字向量的深度神经网络模型提高了１．５％，比条件随机场模型提高了３．１％，优于ＳＩＮＨＡＮ２００６封闭测试的最优结果。加入词典特征以后，模型的预测性能得到提高，其中第一组基本特征的作用最大，但是词典特征对于深度神经网络模型的作用不如条件随机场模型（如ＳＩＮＨＡＮ２００６开放测试的最优模型）。分析原因是由于深度神经网络将两种不同类型的特征（字向量为高维的实数向量，词典特征为１０１维的布尔向量）直接串联作为输入，特征不能较好的融合；特别是词典特征加入到基于词边界字向量对系统的提高，没有单纯使用字向量的时候显著。究其原因，是词边界字向量的维度过高，对词典特征有较大的稀释作用。而条件随机场模型使用的是字、词和字典特征等离散特征的组合，由人工选择并通过实验进行了调整。表５不同模型中文命名实体识别的实验结果Ｔａｂｌｅ５ＥｘｐｅｒｉｍｅｎｔａｌＲｅｓｕｌｔｓｏｆＣｈｉｎｅｓｅＮａｍｅｄＥｎｔｉｔｙＲｅｃｏｇｎｉｔｉｏｎＢａｓｅｄｏｎｄｉｆｆｅｒｅｎｔｍｏｄｅｌＤｅｅｐＣＮＮ基本字向量基于词边界的字向量＋字向量８６．７２８８．３１＋ＢａｓｉｃＦｅａｔｕｒｅｓ８７．７６８８．８７＋ＰｒｅｆｉｘａｎｄＳｕｆｆｉｘＦｅａｔｕｒｅｓ８７．９７８９．１０＋ＮａｍｅｄＥｎｔｉｔｙＦｅａｔｕｒｅｓ８８．１４８９．１８３结束语针对传统序列标注方法普遍需要人工选择特征的问题，提出了一种基于词边界字向量的深度神经网络模型，并将其应用于中文命名实体识别问题。中文命名实体识别问题的实验结果表明：基于词边界字向量的深度神经网络模型优于基于基本字向量的深度神经网络模型和ＳＩＮＨＡＮ２００６封闭测试的最优模型。未来的工作中将从以下几方面考虑如何进一步提高深度神经网络的识别性能。首先，考虑如何能够较好地使用其他统计特征与字向量特征相融合。其次，目前的方法是从句首开始将每个字输入到神第１期姚霖，等：词边界字向量的中文命名实体识别 ·４１·

·42. 智能系统学报第11卷经网络中，一旦命名实体的左边界词出现识别错误， [14]COLLOBERT R,WESTON J,BOTTOU L,et al.Natural 会对整句的识别带来较大影响。下一步，我们考虑 language processing (almost)from scratchJ].Journal of machine learning research,2011,12(1):2493-2537. 结合反向输入，以避免对命名实体的左边界词的识 [15 SCHWENK H.Continuous space language models J]. 别率要求较高的问题。 Computer speech language,2007,21(3):492-518. [16]MIKOLOV T,KARAFIAT M,BURGET L,et al.Recur- 参考文献： rent neural network based language model [C]//Proceed- ings of 11th Annual Conference of the International Speech [1]BENDER O,OCH F J,NEY H.Maximum entropy models Communication Association INTERSPEECH).Makuhari, for named entity recognition[Cl//Proceedings of 7th Con- Chiba,Japan,2010,4:1045-1048. ference on Natural Language Learning at HLT-NAACL [17]MNIH A,TEH Y W.A fast and simple algorithm for train- Stroudsburg,USA,2003,4:148-151. ing neural probabilistic language models[C//Proceedings [2]WHITELAW C.PATRICK J.Named entity recognition using of the 29th International Conference on Machine Learning a character-based probabilistic approach[C]//Proceedings of ICML-12).Edinburgh,Scotland,UK,2012:1751-1758. CoNLL-2003.Edmonton,Canada,2003:196-199. [18]BOTTOU L.Stochastic gradient learning in neural networks [3]CURRAN J R,CLARK S.Language independent NER u- [C//Proceedings of Neuro-Nimes 91.Nimes,France,1991. sing a maximum entropy tagger[C]//Proceedings of the 7th [19]TURIAN J,RATINOV L,BENGIO Y.Word representa- Conference on Natural Language Learning at HLT-NAACL. tions:a simple and general method for semi-supervised Stroudsburg,USA,2003,4:164-167. learning[C]//Proceedings of the 48th Annual Meeting of [4]CHIEU H L,NG H T.Named entity recognition:a maxi- mum entropy approach using global information [C]//Pro- the Association for Computational Linguistics.Uppsala, Sweden,2010:384-394. ceedings of the 19th International Conference on Computa- [20]MIKOLOV T,YIH W T,ZWEIG G.Linguistic regularities tional Linguistics.Stroudsburg,USA,2002,1:1-7. in continuous space word representations[C//Proceedings [5]KLEIN D,SMARR J,NGUYEN H,et al.Named entity of the 2013 Conference of the North American Chapter of recognition with character-level models[C]//Proceedings of the Association for Computational Linguistics:Human Lan- the seventh conference on Natural language learning at HLT-NAACL.Stroudsburg,USA,2003,4:180-183. guage Technologies.Atlanta,Georgia,2013:746-751. 21]MIKOLOV T,SUTSKEVER I,CHEN Kai,et al.Distribu- [6]FLORIAN R,ITTYCHERIAH A,JING Hongyan,et al. ted representations of words and phrases and their composi- Named entity recognition through classifier combination tionality[C]//Advances in Neural Information Processing [C]//Proceedings of the 7th Conference on Natural Lan- Systems.California,USA,2013. guage Learning at HLT-NAACL.Stroudsburg,USA,2003, [22]LEVOW G A.The third international Chinese language 4:168-171. processing bakeoff:word segmentation and named entity [7]MAYFIELD J,MCNAMEE P,PIATKO C.Named entity recognition[C]//Proceedings of the 5th SIGHAN Work- recognition using hundreds of thousands of features[C]/ shop on Chinese Language Processing.Sydney,Australia, Proceedings of the 7th Conference on Natural Language 2006:108-117. Learning at HLT-NAACL.Stroudsburg,USA,2003,4: 作者简介： 184-187. 姚霖，1975年生，高级工程师，主要 [8]KAZAMA J,MAKINO T,OHTA Y,et al.Tuning support 研究方向为生物信息、自然语言处理。 vector machines for biomedical named entity recognition 主持和参与多项科研项目。发表学术 [C]//Proceedings of the ACL-02 Workshop on Natural 论文20余篇。 Language Processing in the Biomedical Domain at ACL Stroudsburg,USA,2002,3:1-8. [9SETTLES B.Biomedical named entity recognition using con- ditional random fields and rich feature sets[C//Proceed- ings of the International Joint Workshop on Natural Lan- guage Processing in Biomedicine and its Applications (NLP. 刘轶，1972年生，研究员，主要研究 BA).Geneva,Switzerland,2004:104-107. 方向为语音识别、多媒体信息处理、嵌 [10]WONG F,CHAO S,HAO CC,et al.A Maximum Entropy 入式软件及系统，主持和参与国家自然 ME)based translation model for Chinese characters con- 科学基金等项目几十项。发表学术论 version[J].Journal of advances in computational linguis- 文50余篇，其中被SCI检索6篇，EI检 tics,research in computer science,2009,41:267-276. 索22篇。 [11]YAO Lin,SUN Chengjie,WANG Xiaolong,et al.Combi- ning self learning and active learning for Chinese named entity recognition[J].Journal of software,2010,5(5): 530-537. 刘宏，1967年生，教授，博士生导 [12]COLLOBERT R.Deep learning for efficient discriminative 师，主要研究方向为软硬件协同设计、 parsing[C]//Proceedings of the 14th International Confer- 计算机视觉与智能机器人、图像处理与 ence on Artificial Intelligence and Statistics AISTATS). Lauderdale,USA,2011:224-232. 模式识别。发表学术论文50余篇。 [13]BENGIO Y,DUCHARME R,VINCENT P,et al.A neu- ral probabilistic language model[J].Journal of machine learning research,2003,3(6):1137-1155

经网络中，一旦命名实体的左边界词出现识刘宏，１９６７年生，教授，博士生导别错误，会对整句的识别带来较大影响。下一步，我们考虑结合反向输入，以避免对命名实体的左边界词的识别率要求较高的问题。参考文献：［１］ＢＥＮＤＥＲＯ，ＯＣＨＦＪ，ＮＥＹＨ．Ｍａｘｉｍｕｍｅｎｔｒｏｐｙｍｏｄｅｌｓｆｏｒｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆ７ｔｈＣｏｎ⁃ ｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇａｔＨＬＴ⁃ＮＡＡＣＬ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００３，４：１４８⁃１５１．［２］ＷＨＩＴＥＬＡＷＣ，ＰＡＴＲＩＣＫＪ．Ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇａｃｈａｒａｃｔｅｒ⁃ｂａｓｅｄｐｒｏｂａｂｉｌｉｓｔｉｃａｐｐｒｏａｃｈ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＣｏＮＬＬ⁃２００３．Ｅｄｍｏｎｔｏｎ，Ｃａｎａｄａ，２００３：１９６⁃１９９．［３］ＣＵＲＲＡＮＪＲ，ＣＬＡＲＫＳ．ＬａｎｇｕａｇｅｉｎｄｅｐｅｎｄｅｎｔＮＥＲｕ⁃ ｓｉｎｇａｍａｘｉｍｕｍｅｎｔｒｏｐｙｔａｇｇｅｒ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇａｔＨＬＴ⁃ＮＡＡＣＬ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００３，４：１６４⁃１６７．［４］ＣＨＩＥＵＨＬ，ＮＧＨＴ．Ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ：ａｍａｘｉ⁃ ｍｕｍｅｎｔｒｏｐｙａｐｐｒｏａｃｈｕｓｉｎｇｇｌｏｂａｌｉｎｆｏｒｍａｔｉｏｎ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＣｏｍｐｕｔａ⁃ ｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００２，１：１⁃７．［５］ＫＬＥＩＮＤ，ＳＭＡＲＲＪ，ＮＧＵＹＥＮＨ，ｅｔａｌ．Ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｗｉｔｈｃｈａｒａｃｔｅｒ⁃ｌｅｖｅｌｍｏｄｅｌｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅｓｅｖｅｎｔｈｃｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌｌａｎｇｕａｇｅｌｅａｒｎｉｎｇａｔＨＬＴ⁃ＮＡＡＣＬ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００３，４：１８０⁃１８３．［６］ＦＬＯＲＩＡＮＲ，ＩＴＴＹＣＨＥＲＩＡＨＡ，ＪＩＮＧＨｏｎｇｙａｎ，ｅｔａｌ．Ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｔｈｒｏｕｇｈｃｌａｓｓｉｆｉｅｒｃｏｍｂｉｎａｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎ⁃ ｇｕａｇｅＬｅａｒｎｉｎｇａｔＨＬＴ⁃ＮＡＡＣＬ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００３，４：１６８⁃１７１．［７］ＭＡＹＦＩＥＬＤＪ，ＭＣＮＡＭＥＥＰ，ＰＩＡＴＫＯＣ．Ｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｈｕｎｄｒｅｄｓｏｆｔｈｏｕｓａｎｄｓｏｆｆｅａｔｕｒｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ７ｔｈＣｏｎｆｅｒｅｎｃｅｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇａｔＨＬＴ⁃ＮＡＡＣＬ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００３，４：１８４⁃１８７．［８］ＫＡＺＡＭＡＪ，ＭＡＫＩＮＯＴ，ＯＨＴＡＹ，ｅｔａｌ．Ｔｕｎｉｎｇｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓｆｏｒｂｉｏｍｅｄｉｃａｌｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＬ⁃０２ＷｏｒｋｓｈｏｐｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇｉｎｔｈｅＢｉｏｍｅｄｉｃａｌＤｏｍａｉｎａｔＡＣＬ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００２，３：１⁃８．［９］ＳＥＴＴＬＥＳＢ．Ｂｉｏｍｅｄｉｃａｌｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｕｓｉｎｇｃｏｎ⁃ ｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓａｎｄｒｉｃｈｆｅａｔｕｒｅｓｅｔｓ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＪｏｉｎｔＷｏｒｋｓｈｏｐｏｎＮａｔｕｒａｌＬａｎ⁃ ｇｕａｇｅＰｒｏｃｅｓｓｉｎｇｉｎＢｉｏｍｅｄｉｃｉｎｅａｎｄｉｔｓＡｐｐｌｉｃａｔｉｏｎｓ（ＮＬＰ⁃ ＢＡ）．Ｇｅｎｅｖａ，Ｓｗｉｔｚｅｒｌａｎｄ，２００４：１０４⁃１０７．［１０］ＷＯＮＧＦ，ＣＨＡＯＳ，ＨＡＯＣＣ，ｅｔａｌ．ＡＭａｘｉｍｕｍＥｎｔｒｏｐｙ（ＭＥ）ｂａｓｅｄｔｒａｎｓｌａｔｉｏｎｍｏｄｅｌｆｏｒＣｈｉｎｅｓｅｃｈａｒａｃｔｅｒｓｃｏｎ⁃ ｖｅｒｓｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆａｄｖａｎｃｅｓｉｎｃｏｍｐｕｔａｔｉｏｎａｌｌｉｎｇｕｉｓ⁃ ｔｉｃｓ，ｒｅｓｅａｒｃｈｉｎｃｏｍｐｕｔｅｒｓｃｉｅｎｃｅ，２００９，４１：２６７⁃２７６．［１１］ＹＡＯＬｉｎ，ＳＵＮＣｈｅｎｇｊｉｅ，ＷＡＮＧＸｉａｏｌｏｎｇ，ｅｔａｌ．Ｃｏｍｂｉ⁃ ｎｉｎｇｓｅｌｆｌｅａｒｎｉｎｇａｎｄａｃｔｉｖｅｌｅａｒｎｉｎｇｆｏｒＣｈｉｎｅｓｅｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌｏｆｓｏｆｔｗａｒｅ，２０１０，５（５）：５３０⁃５３７．［１２］ＣＯＬＬＯＢＥＲＴＲ．Ｄｅｅｐｌｅａｒｎｉｎｇｆｏｒｅｆｆｉｃｉｅｎｔｄｉｓｃｒｉｍｉｎａｔｉｖｅｐａｒｓｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１４ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒ⁃ ｅｎｃｅｏｎＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅａｎｄＳｔａｔｉｓｔｉｃｓ（ＡＩＳＴＡＴＳ）．Ｌａｕｄｅｒｄａｌｅ，ＵＳＡ，２０１１：２２４⁃２３２．［１３］ＢＥＮＧＩＯＹ，ＤＵＣＨＡＲＭＥＲ，ＶＩＮＣＥＮＴＰ，ｅｔａｌ．Ａｎｅｕ⁃ ｒａｌｐｒｏｂａｂｉｌｉｓｔｉｃｌａｎｇｕａｇｅｍｏｄｅｌ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２００３，３（６）：１１３７⁃１１５５．［１４］ＣＯＬＬＯＢＥＲＴＲ，ＷＥＳＴＯＮＪ，ＢＯＴＴＯＵＬ，ｅｔａｌ．Ｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇ（ａｌｍｏｓｔ）ｆｒｏｍｓｃｒａｔｃｈ［Ｊ］．Ｊｏｕｒｎａｌｏｆｍａｃｈｉｎｅｌｅａｒｎｉｎｇｒｅｓｅａｒｃｈ，２０１１，１２（１）：２４９３⁃２５３７．［１５］ＳＣＨＷＥＮＫＨ．Ｃｏｎｔｉｎｕｏｕｓｓｐａｃｅｌａｎｇｕａｇｅｍｏｄｅｌｓ［Ｊ］．Ｃｏｍｐｕｔｅｒｓｐｅｅｃｈ＆ｌａｎｇｕａｇｅ，２００７，２１（３）：４９２⁃５１８．［１６］ＭＩＫＯＬＯＶＴ，ＫＡＲＡＦＩÁＴＭ，ＢＵＲＧＥＴＬ，ｅｔａｌ．Ｒｅｃｕｒ⁃ ｒｅｎｔｎｅｕｒａｌｎｅｔｗｏｒｋｂａｓｅｄｌａｎｇｕａｇｅｍｏｄｅｌ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆ１１ｔｈＡｎｎｕａｌＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎＡｓｓｏｃｉａｔｉｏｎ（ＩＮＴＥＲＳＰＥＥＣＨ）．Ｍａｋｕｈａｒｉ，Ｃｈｉｂａ，Ｊａｐａｎ，２０１０，４：１０４５⁃１０４８．［１７］ＭＮＩＨＡ，ＴＥＨＹＷ．Ａｆａｓｔａｎｄｓｉｍｐｌｅａｌｇｏｒｉｔｈｍｆｏｒｔｒａｉｎ⁃ ｉｎｇｎｅｕｒａｌｐｒｏｂａｂｉｌｉｓｔｉｃｌａｎｇｕａｇｅｍｏｄｅｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ（ＩＣＭＬ⁃１２）．Ｅｄｉｎｂｕｒｇｈ，Ｓｃｏｔｌａｎｄ，ＵＫ，２０１２：１７５１⁃１７５８．［１８］ＢＯＴＴＯＵＬ．Ｓｔｏｃｈａｓｔｉｃｇｒａｄｉｅｎｔｌｅａｒｎｉｎｇｉｎｎｅｕｒａｌｎｅｔｗｏｒｋｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆＮｅｕｒｏ⁃Ｎîｍｅｓ９１．Ｎｉｍｅｓ，Ｆｒａｎｃｅ，１９９１．［１９］ＴＵＲＩＡＮＪ，ＲＡＴＩＮＯＶＬ，ＢＥＮＧＩＯＹ．Ｗｏｒｄｒｅｐｒｅｓｅｎｔａ⁃ ｔｉｏｎｓ：ａｓｉｍｐｌｅａｎｄｇｅｎｅｒａｌｍｅｔｈｏｄｆｏｒｓｅｍｉ⁃ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４８ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｕｐｐｓａｌａ，Ｓｗｅｄｅｎ，２０１０：３８４⁃３９４．［２０］ＭＩＫＯＬＯＶＴ，ＹＩＨＷＴ，ＺＷＥＩＧＧ．Ｌｉｎｇｕｉｓｔｉｃｒｅｇｕｌａｒｉｔｉｅｓｉｎｃｏｎｔｉｎｕｏｕｓｓｐａｃｅｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２０１３ＣｏｎｆｅｒｅｎｃｅｏｆｔｈｅＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ：ＨｕｍａｎＬａｎ⁃ ｇｕａｇｅＴｅｃｈｎｏｌｏｇｉｅｓ．Ａｔｌａｎｔａ，Ｇｅｏｒｇｉａ，２０１３：７４６⁃７５１．［２１］ＭＩＫＯＬＯＶＴ，ＳＵＴＳＫＥＶＥＲＩ，ＣＨＥＮＫａｉ，ｅｔａｌ．Ｄｉｓｔｒｉｂｕ⁃ ｔｅｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｏｆｗｏｒｄｓａｎｄｐｈｒａｓｅｓａｎｄｔｈｅｉｒｃｏｍｐｏｓｉ⁃ ｔｉｏｎａｌｉｔｙ［Ｃ］／／ＡｄｖａｎｃｅｓｉｎＮｅｕｒａｌＩｎｆｏｒｍａｔｉｏｎＰｒｏｃｅｓｓｉｎｇＳｙｓｔｅｍｓ．Ｃａｌｉｆｏｒｎｉａ，ＵＳＡ，２０１３．［２２］ＬＥＶＯＷＧＡ．ＴｈｅｔｈｉｒｄｉｎｔｅｒｎａｔｉｏｎａｌＣｈｉｎｅｓｅｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇｂａｋｅｏｆｆ：ｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎａｎｄｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ５ｔｈＳＩＧＨＡＮＷｏｒｋ⁃ ｓｈｏｐｏｎＣｈｉｎｅｓｅＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｙｄｎｅｙ，Ａｕｓｔｒａｌｉａ，２００６：１０８⁃１１７．作者简介：姚霖，１９７５年生，高级工程师，主要研究方向为生物信息、自然语言处理。主持和参与多项科研项目。发表学术论文２０余篇。刘轶，１９７２年生，研究员，主要研究方向为语音识别、多媒体信息处理、嵌入式软件及系统，主持和参与国家自然科学基金等项目几十项。发表学术论文５０余篇，其中被ＳＣＩ检索６篇，ＥＩ检索２２篇。 ·４２· 智能系统学报第１１卷师，主要研究方向为软硬件协同设计、计算机视觉与智能机器人、图像处理与模式识别。发表学术论文50余篇

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录