第15卷第4期 智能系统学报 Vol.15 No.4 2020年7月 CAAI Transactions on Intelligent Systems Jul.2020 D0L:10.11992tis.202003003 加入自注意力机制的BERT命名实体识别模型 毛明毅',吴晨',钟义信2,陈志成2 (1.北京工商大学计算机与信息工程学院,北京100048:2.北京邮电大学计算机学院,北京100876) 摘要:命名实体识别属于自然语言处理领域词法分析中的一部分,是计算机正确理解自然语言的基础。为了 加强模型对命名实体的识别效果,本文使用预训练模型BERT(bidirectional encoder representation from trans-- formers)作为模型的嵌入层,并针对BERT微调训练对计算机性能要求较高的问题,采用了固定参数嵌入的方 式对BERT进行应用,搭建了BERT-BiLSTM-CRF模型。并在该模型的基础上进行了两种改进实验。方法一, 继续增加自注意力(self-attention)层,实验结果显示,自注意力层的加入对模型的识别效果提升不明显。方法 二,减小BERT模型嵌入层数。实验结果显示,适度减少BERT嵌人层数能够提升模型的命名实体识别准确 性,同时又节约了模型的整体训练时间。采用9层嵌入时,在MSRA中文数据集上F1值提升至94.79%,在 Weibo中文数据集上F1值达到了68.82%。 关键词:命名实体识别:BERT;自注意力机制;深度学习;条件随机场;自然语言处理;双向长短期记忆网络;序 列标注 中图分类号:TP391文献标志码:A文章编号:1673-4785(2020)04-0772-08 中文引用格式:毛明毅,吴晨,钟义信,等.加入自注意力机制的BERT命名实体识别模型.智能系统学报,2020,15(4): 772-779. 英文引用格式:MAO Mingyi,.WU Chen,ZHONG Yixin,.etal.BERT named entity recognition model with self--attention mechan ism[J].CAAI transactions on intelligent systems,2020,15(4):772-779. BERT named entity recognition model with self-attention mechanism MAO Mingyi',WU Chen',ZHONG Yixin',CHEN Zhicheng" (1.School of Computer and Information Engineering,Beijing Technology and Business University,Beijing 100048,China;2.School of Computer,Beijing University of Posts and Telecommunications,Beijing 100876,China) Abstract:Named entity recognition is a part of lexical analysis in the field of natural language processing.It is the basis for a computer to correctly understand natural language.In order to strengthen the recognition effect of the model on named entities,in this study,the pre-trained model BERT(bidirectional encoder representation from transformers)was used as the embedding layer of the model,and fixed parameter embedding was adopted to solve the problem of high computer performance required for BERT fine-tuning training.A BERT-BiLSTM-CRF model was built,and on the basis of this model,two improved experiments were carried out.Method one is to continue to add a self-attention layer. Experimental results show that the addition of the self-attention layer does not significantly improve the recognition ef- fect of the model.Method two is to reduce the number of embedding layers of the BERT model.Experimental results show that moderately reducing the number of BERT embedding layers can improve the model's named entity recogni- tion accuracy,while saving the overall training time of the model.When using 9-layer embedding,thevalue on the MSRA Chinese data set increased to 94.79%,and thevalue on the Weibo Chinese data set reached 68.82%. Keywords:named entity recognition;bidirectional encoder representation from transformers;self-attention mechanism; deep learning;conditional random field;natural language processing:bi-directional long short-term memory;sequence tagging 收稿日期:2020-03-02. 基金项目:北京市自然科学基金项目(4202016) 命名实体识别NER(named entity recognition) 通信作者:毛明毅.E-mail:maomy@h.btbu.edu.cn. 是自然语言处理研究领域的基础性工作之一,任
DOI: 10.11992/tis.202003003 加入自注意力机制的 BERT 命名实体识别模型 毛明毅1 ,吴晨1 ,钟义信2 ,陈志成2 (1. 北京工商大学 计算机与信息工程学院,北京 100048; 2. 北京邮电大学 计算机学院,北京 100876) 摘 要:命名实体识别属于自然语言处理领域词法分析中的一部分,是计算机正确理解自然语言的基础。为了 加强模型对命名实体的识别效果,本文使用预训练模型 BERT(bidirectional encoder representation from transformers) 作为模型的嵌入层,并针对 BERT 微调训练对计算机性能要求较高的问题,采用了固定参数嵌入的方 式对 BERT 进行应用,搭建了 BERT-BiLSTM-CRF 模型。并在该模型的基础上进行了两种改进实验。方法一, 继续增加自注意力 (self-attention) 层,实验结果显示,自注意力层的加入对模型的识别效果提升不明显。方法 二,减小 BERT 模型嵌入层数。实验结果显示,适度减少 BERT 嵌入层数能够提升模型的命名实体识别准确 性,同时又节约了模型的整体训练时间。采用 9 层嵌入时,在 MSRA 中文数据集上 F1 值提升至 94.79%,在 Weibo 中文数据集上 F1 值达到了 68.82%。 关键词:命名实体识别;BERT;自注意力机制;深度学习;条件随机场;自然语言处理;双向长短期记忆网络;序 列标注 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2020)04−0772−08 中文引用格式:毛明毅, 吴晨, 钟义信, 等. 加入自注意力机制的 BERT 命名实体识别模型 [J]. 智能系统学报, 2020, 15(4): 772–779. 英文引用格式:MAO Mingyi, WU Chen, ZHONG Yixin, et al. BERT named entity recognition model with self-attention mechanism[J]. CAAI transactions on intelligent systems, 2020, 15(4): 772–779. BERT named entity recognition model with self-attention mechanism MAO Mingyi1 ,WU Chen1 ,ZHONG Yixin2 ,CHEN Zhicheng2 (1. School of Computer and Information Engineering, Beijing Technology and Business University, Beijing 100048, China; 2. School of Computer, Beijing University of Posts and Telecommunications, Beijing 100876, China) Abstract: Named entity recognition is a part of lexical analysis in the field of natural language processing. It is the basis for a computer to correctly understand natural language. In order to strengthen the recognition effect of the model on named entities, in this study, the pre-trained model BERT (bidirectional encoder representation from transformers) was used as the embedding layer of the model, and fixed parameter embedding was adopted to solve the problem of high computer performance required for BERT fine-tuning training. A BERT-BiLSTM-CRF model was built, and on the basis of this model, two improved experiments were carried out. Method one is to continue to add a self-attention layer. Experimental results show that the addition of the self-attention layer does not significantly improve the recognition effect of the model. Method two is to reduce the number of embedding layers of the BERT model. Experimental results show that moderately reducing the number of BERT embedding layers can improve the model’s named entity recognition accuracy, while saving the overall training time of the model. When using 9-layer embedding, thevalue on the MSRA Chinese data set increased to 94.79%, and thevalue on the Weibo Chinese data set reached 68.82%. Keywords: named entity recognition; bidirectional encoder representation from transformers; self-attention mechanism; deep learning; conditional random field; natural language processing; bi-directional long short-term memory; sequence tagging 命名实体识别 NER(named entity recognition) 是自然语言处理研究领域的基础性工作之一,任 收稿日期:2020−03−02. 基金项目:北京市自然科学基金项目 (4202016). 通信作者:毛明毅. E-mail:maomy@th.btbu.edu.cn. 第 15 卷第 4 期 智 能 系 统 学 报 Vol.15 No.4 2020 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2020
第4期 毛明毅,等:加人自注意力机制的BERT命名实体识别模型 ·773· 务是提取非结构化文本中具有特定含义的实体。 过主动学习在少量标注的情况下使命名实体识 命名实体能否准确识别对于自然语言处理上层任 别达到较好的效果。文献[11]利用K近邻解决 务包括信息检索、自动问答、信息抽取、知识图谱 标注语料少的问题。文献[I2]通过AdaBoost算 构建都有着重要的影响。对于分词、词性标注等 法实现迁移学习,同样希望降低人工标注的工 底层序列标注任务,也存在着相互影响,命名实 作量。 体识别错误将导致分词错误,进而导致词性标注 2)专业领域命名实体识别应用,将常规命名 错误,反之如果利用基于词的命名实体识别方 实体识别模型应用到特定领域中。文献[13]研究 法,分词错误又将导致命名实体识别错误。在现 了面向国防科技领域术语的识别技术。文献[14] 在这个数据量飞速增长的数字时代,从海量数据 研究了面向电力问答领域命名实体识别技术。文 中快速筛选有用信息,准确获取命名实体是其中 献[15]研究了植物命名实体识别技术。 关键性的一步。 3)改进命名实体识别模型,提高模型学习效 果。文献[I6]提出基于Lattice LSTM的命名实体 1相关工作 识别方法,在MSRA数据集上成绩为93.18%,但 对命名实体识别的研究最早可以追溯到 是由于模型中词嵌入长度不同,导致无法并行训 1991年在EEE人工智能会议上发表的一篇关于 练,模型训练缓慢。文献[17刀提出的引入自注意 识别公司名称的文章四。1996年第6届消息理解 力机制的中文命名实体识别方法,在Weibo数据 会议(Message Understanding Conference,MUC6) 集上的成绩为58.76%。文献[18]利用与中文分 上正式将命名实体识别学术定义,并列为研究课 词对抗学习改进命名实体识别准确度。 题。最初的命名实体识别实现多基于规则模板, 现有模型存在的主要问题有两个方面,一方 语言学家通过语言学知识,构造识别规则匹配模 面是传统模型(如BiLSTM-CRF)在识别准确性上 板。这样的识别方法不仅耗费大量专业人员人 还有较大提升空间,另一方面在准确性较高的模 力,而且可移植性较差。更换领域甚至更换语境 型上普遍存在着训练效率低或训练成本高的问 都会对识别准确率造成较大影响。 题,很难在实际项目中得到应用,如Lattice LSTM 文献[2]首先在1999年提出了基于隐马尔可 模型、BERT微调模型。 夫模型的命名实体识别方法,开启了基于概率统 因此本文在第3个研究方向上做了进一步研 计方法进行命名实体识别的新时期。此后,最大 究,首先根据文献[19]的研究结果显示,BERT在 嫡模型、支持向量机)、条件随机场模型纷纷在 命名实体识别任务应用上,不做微调与微调两种 命名实体识别领域有所应用,其中条件随机场模 应用方式的结果准确性差距与在其他应用领域相 型识别效果最佳,直到现在依然是主流命名实体 比较小。而微调的训练成本较高,所以本文首先 识别模型的重要组成部分。 采用了固定BERT参数BERT-BiLSTM-CRF的 近年来,随着计算机性能的快速提升,深度学 3层模型。之后尝试了2种方式对模型做进一步 习逐渐成为研究热点。基于深度学习的实体识别 改进。由于固定了BERT参数不进行参数微调: 方法也渐渐成为主流研究方法。文献[⑤]提出采 所以本文首先尝试了在3层模型的基础上继续增 用卷积神经网络实现命名实体识别。文献[6]提 加自注意力(self-attention)层是否能够提升模型 出利用双向长短期记忆网络实现命名实体识别, 实体识别准确性,之后又尝试了减少BERT层数 并在CoNLL2003数据集上取得了84.74%的当时 是否会对模型识别准确率造成影响。 最好成绩。文献[7]通过在模型中添加用于提取 2本文模型框架 单词字符级表示的卷积神经网络,F,值达到了 91.21%。文献[8]通过在BiLSTM-CRF模型中加 本文基础模型框架为固定BERT参数BERT- 入注意力机制,对命名实体识别效果做了进一步 BiLSTM-CRF的3层模型,由BERT嵌入层、BiL 改善。 STM双向长短期记忆网络层和CRF条件随机场 在中文命名实体识别领域,近期研究主要分 层所组成,模型整体结构如图1所示。 为3个方向: 2.1BERT嵌入层 1)通过迁移学习、对抗学习、远程监督等方 2018年,谷歌人工智能团队提出了BERT预 式降低命名实体识别训练语料标注工作量。文 训练语言模型20,在11个自然语言处理任务中刷 献[9]利用了远程监督的方法。文献[10]希望通 新了当时最好成绩。运用双向Transformer神经
务是提取非结构化文本中具有特定含义的实体。 命名实体能否准确识别对于自然语言处理上层任 务包括信息检索、自动问答、信息抽取、知识图谱 构建都有着重要的影响。对于分词、词性标注等 底层序列标注任务,也存在着相互影响,命名实 体识别错误将导致分词错误,进而导致词性标注 错误,反之如果利用基于词的命名实体识别方 法,分词错误又将导致命名实体识别错误。在现 在这个数据量飞速增长的数字时代,从海量数据 中快速筛选有用信息,准确获取命名实体是其中 关键性的一步。 1 相关工作 对命名实体识别的研究最早可以追溯 到 1991 年在 IEEE 人工智能会议上发表的一篇关于 识别公司名称的文章[1]。1996 年第 6 届消息理解 会议 (Message Understanding Conference,MUC6) 上正式将命名实体识别学术定义,并列为研究课 题。最初的命名实体识别实现多基于规则模板, 语言学家通过语言学知识,构造识别规则匹配模 板。这样的识别方法不仅耗费大量专业人员人 力,而且可移植性较差。更换领域甚至更换语境 都会对识别准确率造成较大影响。 文献 [2] 首先在 1999 年提出了基于隐马尔可 夫模型的命名实体识别方法,开启了基于概率统 计方法进行命名实体识别的新时期。此后,最大 熵模型、支持向量机[3] 、条件随机场模型[4] 纷纷在 命名实体识别领域有所应用,其中条件随机场模 型识别效果最佳,直到现在依然是主流命名实体 识别模型的重要组成部分。 F1 近年来,随着计算机性能的快速提升,深度学 习逐渐成为研究热点。基于深度学习的实体识别 方法也渐渐成为主流研究方法。文献 [5] 提出采 用卷积神经网络实现命名实体识别。文献 [6] 提 出利用双向长短期记忆网络实现命名实体识别, 并在 CoNLL2003 数据集上取得了 84.74% 的当时 最好成绩。文献 [7] 通过在模型中添加用于提取 单词字符级表示的卷积神经网络, 值达到了 91.21%。文献 [8] 通过在 BiLSTM-CRF 模型中加 入注意力机制,对命名实体识别效果做了进一步 改善。 在中文命名实体识别领域,近期研究主要分 为 3 个方向: 1) 通过迁移学习、对抗学习、远程监督等方 式降低命名实体识别训练语料标注工作量。文 献 [9] 利用了远程监督的方法。文献 [10] 希望通 过主动学习在少量标注的情况下使命名实体识 别达到较好的效果。文献 [11] 利用 K 近邻解决 标注语料少的问题。文献 [12] 通过 AdaBoost 算 法实现迁移学习,同样希望降低人工标注的工 作量。 2) 专业领域命名实体识别应用,将常规命名 实体识别模型应用到特定领域中。文献 [13] 研究 了面向国防科技领域术语的识别技术。文献 [14] 研究了面向电力问答领域命名实体识别技术。文 献 [15] 研究了植物命名实体识别技术。 3) 改进命名实体识别模型,提高模型学习效 果。文献 [16] 提出基于 Lattice LSTM 的命名实体 识别方法,在 MSRA 数据集上成绩为 93.18%,但 是由于模型中词嵌入长度不同,导致无法并行训 练,模型训练缓慢。文献 [17] 提出的引入自注意 力机制的中文命名实体识别方法,在 Weibo 数据 集上的成绩为 58.76%。文献 [18] 利用与中文分 词对抗学习改进命名实体识别准确度。 现有模型存在的主要问题有两个方面,一方 面是传统模型(如 BiLSTM-CRF)在识别准确性上 还有较大提升空间,另一方面在准确性较高的模 型上普遍存在着训练效率低或训练成本高的问 题,很难在实际项目中得到应用,如 Lattice LSTM 模型、BERT 微调模型。 因此本文在第 3 个研究方向上做了进一步研 究,首先根据文献 [19] 的研究结果显示,BERT 在 命名实体识别任务应用上,不做微调与微调两种 应用方式的结果准确性差距与在其他应用领域相 比较小。而微调的训练成本较高,所以本文首先 采用了固定 BERT 参数 BERT-BiLSTM-CRF 的 3 层模型。之后尝试了 2 种方式对模型做进一步 改进。由于固定了 BERT 参数不进行参数微调, 所以本文首先尝试了在 3 层模型的基础上继续增 加自注意力 (self-attention) 层是否能够提升模型 实体识别准确性,之后又尝试了减少 BERT 层数 是否会对模型识别准确率造成影响。 2 本文模型框架 本文基础模型框架为固定 BERT 参数 BERTBiLSTM-CRF 的 3 层模型,由 BERT 嵌入层、BiLSTM 双向长短期记忆网络层和 CRF 条件随机场 层所组成,模型整体结构如图 1 所示。 2.1 BERT 嵌入层 2018 年,谷歌人工智能团队提出了 BERT 预 训练语言模型[20] ,在 11 个自然语言处理任务中刷 新了当时最好成绩。运用双向 Transformer 神经 第 4 期 毛明毅,等:加入自注意力机制的 BERT 命名实体识别模型 ·773·
·774· 智能系统学报 第15卷 网络作为编码器,使得对每个字的预测可以参考 具体计算公式如下: 前后双方向的文字信息。模仿中国英语考试中的 fi=(Wjh-1+Uyx:+by) 完型填空题,随机掩盖部分输入词,通过句子中 i=(Wh1+Ux+b) 其他词语对被掩盖词进行预测。除此之外模型训 o,=o(Wh,-1+U。x,+b) C:tanh(Wh1+Ux:+be) (1) 练中还增加了一个句子级别上连续性预测的创新 任务。并且在谷歌为机器学习定制的专用芯片 c=foc-1+i,oc TPU上进行了海量数据预训练,后续预训练模型 h,=o,Otanh(c,) 多以BERT模型为基础进行改进,包括XLNet2 BiLSTM是双向的长短期记忆网络,由一个 RoBERTa、ALBERT等,这些模型在自然语言处 前向LSTM及一个后向LSTM组成,分别计算, 理领域的其他研究中,如阅读理解、问题匹配、语 最后合并输出,使得模型不仅能学习到当前字的 言推断等问题上的解决效果均有不同程度提升, 前向信息,同时能够学习到它的后向信息。BL 但是通过实验发现在序列标注问题上,效果均不 STM网络结构如图2所示。 如BERT预训练模型。 输出层 反向长短期 记忆网络层 条件随机场层 CRF 正向长短期 记忆网路层 双向长短期 记忆网络层 输人层 图2双向LSTM结构 BERT嵌入层 BERT Fig.2 BiLSTM structure 2.3CRF层 0 条件随机场模型(CRF)是计算给定随机变量 图1模型整体框架图 序列X=(X,X2,…,X)的条件下,随机变量序列 Fig.1 Framework of model Y=(Y,Y2,·,Y)的条件概率分布P(YX)。模型假 BERT的优点在其取得的成绩中显而易见, 设随机变量序列满足马尔可夫性: 缺点是它在训练中消耗资源巨大,因此官方推荐 P(YiX,Yi.....Y)=P(YilX.Yi1Yi) (2) 使用微调的方式进行应用,即直接获取预训练好 式中:X表示输人观测序列;Y表示对应的状态序 的模型,在实际应用模型训练中对BERT中的参 列。条件随机场模型是一种无向概率图模型。 数进行学习调整,此方法在一定程度上解决了计 2001年Lafferty等P提出了线性链条件随机场模 算资源消耗量大的问题。 型,线性链条件随机场是在序列标注任务中广泛 在本文对BERT预训练模型的应用中,采用 应用的算法之一。 的是固定参数的方式。训练过程中不更新BERT 在序列标注任务中,一个字或词的标签与其 内部参数,只对整体模型中除BERT以外的其他 相邻标签有一定的规则制约关系,例如I标签前 部分进行训练,虽然会损失一定的识别准确性, 面不会是O标签,I-LOC不会跟在B-PER后面。 但是能够大幅减小模型训练过程中对计算机性能 CRF能够通过学习得到各种标签序列的出现概 的压力,提高模型训练效率。 率,通过概率选择减少不符合制约关系的标签序 2.2 BiLSTM层 列出现。 长短期记忆网络在1997年被文献[22]提出, 设P为解码层输出的权重矩阵,进而可以得 用以解决循环神经网络(RNN)容易梯度爆炸或 出评估分数S(x,y): 梯度消失问题。此外它通过3个计算门的加入同 (3) 时缓解了长序列遗忘问题,分别是遗忘门∫、输入 Sx=∑M+∑P 门i、输出门o。 式中:M为转移矩阵;M,表示从标签转移到
网络作为编码器,使得对每个字的预测可以参考 前后双方向的文字信息。模仿中国英语考试中的 完型填空题,随机掩盖部分输入词,通过句子中 其他词语对被掩盖词进行预测。除此之外模型训 练中还增加了一个句子级别上连续性预测的创新 任务。并且在谷歌为机器学习定制的专用芯片 TPU 上进行了海量数据预训练,后续预训练模型 多以 BERT 模型为基础进行改进,包括 XLNet[21] 、 RoBERTa、ALBERT 等,这些模型在自然语言处 理领域的其他研究中,如阅读理解、问题匹配、语 言推断等问题上的解决效果均有不同程度提升, 但是通过实验发现在序列标注问题上,效果均不 如 BERT 预训练模型。 LSTM LSTM 条件随机场层 双向长短期 记忆网络层 BERT 嵌入层 LSTM LSTM LSTM LSTM LSTM LSTM CRF CRF CRF CRF 武 汉 加 油 B-LOC I-LOC O O BERT 图 1 模型整体框架图 Fig. 1 Framework of model BERT 的优点在其取得的成绩中显而易见, 缺点是它在训练中消耗资源巨大,因此官方推荐 使用微调的方式进行应用,即直接获取预训练好 的模型,在实际应用模型训练中对 BERT 中的参 数进行学习调整,此方法在一定程度上解决了计 算资源消耗量大的问题。 在本文对 BERT 预训练模型的应用中,采用 的是固定参数的方式。训练过程中不更新 BERT 内部参数,只对整体模型中除 BERT 以外的其他 部分进行训练,虽然会损失一定的识别准确性, 但是能够大幅减小模型训练过程中对计算机性能 的压力,提高模型训练效率。 2.2 BiLSTM 层 f i o 长短期记忆网络在 1997 年被文献 [22] 提出, 用以解决循环神经网络 (RNN) 容易梯度爆炸或 梯度消失问题。此外它通过 3 个计算门的加入同 时缓解了长序列遗忘问题,分别是遗忘门 、输入 门 、输出门 。 具体计算公式如下: ft = σ(Wf ht−1 +Uf xt +bf) it = σ(Wiht−1 +Uixt +bi) ot = σ(Woht−1 +Uo xt +bo) cet = tanh(Wcht−1 +Uc xt +bc) ct = ft ⊙ct−1 +it ⊙ect ht = ot ⊙tanh(ct) (1) BiLSTM 是双向的长短期记忆网络,由一个 前向 LSTM 及一个后向 LSTM 组成,分别计算, 最后合并输出,使得模型不仅能学习到当前字的 前向信息,同时能够学习到它的后向信息。BiLSTM 网络结构如图 2 所示。 LSTM LSTM LSTM LSTM LSTM LSTM 输出层 反向长短期 记忆网络层 正向长短期 记忆网络层 输入层 图 2 双向 LSTM 结构 Fig. 2 BiLSTM structure 2.3 CRF 层 X = (X1,X2,··· ,Xn) Y = (Y1,Y2,··· ,Yn) P(Y|X) 条件随机场模型 (CRF) 是计算给定随机变量 序列 的条件下,随机变量序列 的条件概率分布 。模型假 设随机变量序列满足马尔可夫性: P(Yi |X,Yi ,··· ,Yn) = P(Yi |X,Yi−1,Yi+1) (2) 式中: X 表示输入观测序列; Y 表示对应的状态序 列。条件随机场模型是一种无向概率图模型。 2001 年 Lafferty 等 [23] 提出了线性链条件随机场模 型,线性链条件随机场是在序列标注任务中广泛 应用的算法之一。 在序列标注任务中,一个字或词的标签与其 相邻标签有一定的规则制约关系,例如 I 标签前 面不会是 O 标签,I-LOC 不会跟在 B-PER 后面。 CRF 能够通过学习得到各种标签序列的出现概 率,通过概率选择减少不符合制约关系的标签序 列出现。 P S (x, y) 设 为解码层输出的权重矩阵,进而可以得 出评估分数 : S (x, y) = ∑n i=0 Myi,yi+1 + ∑n i Pi,yi (3) M Myi,yi+1 式中: 为转移矩阵; 表示从 yi 标签转移到 ·774· 智 能 系 统 学 报 第 15 卷
第4期 毛明毅,等:加人自注意力机制的BERT命名实体识别模型 ·775· y+1标签的概率;P表示第i个字被标记为y的 概率;n为序列长度。 MatMul 最后采用极大似然法求解最大后验概率Px, 获得模型的损失函数值。 SoftMax log P(yx)=S(x.y)- S(x,yi) (4) Mask =0 2.4加入自注意力层 Scale 为了弥补BERT不做微调训练所造成的模型 命名实体识别准确性损失,本文首先尝试在模型 MatMul 中增加自注意力(self-attention)层的方法。增加 自注意力层模型如图3所示。 图4自注意力结构 Fig.4 Self-attention structure 条件随机场层 CRI CRE CRF 3实验与分析 3.1实验数据集与数据标注 自注意力层 自注意力 本文使用两个数据集对提出模型的命名实体 识别效果进行测试。一个是SIGHAN2006竞赛 MSRA数据集,另一个是网络社交媒体Weibo数 双向长短期 记忆网络层 据集。数据集详细信息如表1所示,其中MSRA 数据集不包含验证集。 表1数据集统计 BERT嵌入层 BERT Table 1 Statistics of datasets 数据集 类型 训练 验证 测试 句子 46364 4365 MSRA 字 图3加入自注意力层的模型结构 2169879 172601 Fig.3 Model structure diagram with self-attention 句子 1350 270 270 Weibo 字 73778 14509 14842 文献[24]提出的自注意力机制相比于注意 力(attention)机制,自注意力只在序列内部完成注 命名实体主流标注模式分为BIO标注以及 意力计算,寻找序列内部联系,常用放缩点积注 BIOES标注方式两种。本次实验所使用数据集均 意力进行计算,计算公式为 采用BIO标注,B标签为命名实体首字,I为命名 QK 实体非首字,0为非命名实体。 Attention(2,K.V)=SoftMax (5) MSRA数据集包含地名(LOC)、机构名 式中:Q、K、V是来自同一输入与不同参数计算 (ORG)、人名(PER)3类共7种标签。Weibo数据 后得到的3个矩阵,首先计算Q、K矩阵乘法,并 集包含地名(LOC)、机构名(ORG)、人名(PER)和 除以v瓜,防止相乘结果过大,最后利用Sot- 地理政治实体名(GPE),此外该数据集还以后缀 Max操作将结果归一化为概率分布,并乘以矩阵 的方式将命名实体细分为通用名NOM和专用 V得到结果,放缩点积自注意力结构如图4所 名(NAM)两种,其中地理政治类不包含通用名, 示。此外,为了能够多维度捕捉文本上下文特 共5类实体16种标签。由于Weibo数据集可训 征,本文使用了多头注意力机制。多头注意力机 练数据较少,又因为取自网络社交媒体,文字表 制是以不同参数多次重复计算Q、K、V矩阵,然 达较为随意,所以完成该数据集的命名实体识别 后分别独立计算注意力,将注意力计算结果拼 任务更加困难。 接,最后线性变换得到最终结果。计算方法为 3.2实验环境及参数设置 head;Attention(OW e,KW",VW,) 本文实验模型选择采用TensorFlow进行搭 (6) Multi(,W,V)=Concat(head:..head,)W 建。实验硬件及软件环境配置如表2所示
yi+1 Pi,yi i yi n 标签的概率; 表示第 个字被标记为 的 概率; 为序列长度。 最后采用极大似然法求解最大后验概率 P(y|x), 获得模型的损失函数值。 logP(y|x) = S (x, y)− ∑n i=0 S (x, yi) (4) 2.4 加入自注意力层 为了弥补 BERT 不做微调训练所造成的模型 命名实体识别准确性损失,本文首先尝试在模型 中增加自注意力 (self-attention) 层的方法。增加 自注意力层模型如图 3 所示。 LSTM LSTM 自注意力层 双向长短期 记忆网络层 BERT 嵌入层 LSTM LSTM LSTM LSTM LSTM LSTM 武 汉 加 油 B-LOC I-LOC O O BERT CRF CRF CRF CRF 自注意力 条件随机场层 图 3 加入自注意力层的模型结构 Fig. 3 Model structure diagram with self-attention 文献 [24] 提出的自注意力机制相比于注意 力 (attention) 机制,自注意力只在序列内部完成注 意力计算,寻找序列内部联系,常用放缩点积注 意力进行计算,计算公式为 Attention(Q,K,V) = SoftMax( QKT √ dk ) V (5) Q K V Q K √ dk V Q K V 式中: 、 、 是来自同一输入与不同参数计算 后得到的 3 个矩阵,首先计算 、 矩阵乘法,并 除以 ,防止相乘结果过大,最后利用 SoftMax 操作将结果归一化为概率分布,并乘以矩阵 得到结果,放缩点积自注意力结构如图 4 所 示。此外,为了能够多维度捕捉文本上下文特 征,本文使用了多头注意力机制。多头注意力机 制是以不同参数多次重复计算 、 、 矩阵,然 后分别独立计算注意力,将注意力计算结果拼 接,最后线性变换得到最终结果。计算方法为 headi = Attention(QWi Q ,KWi k ,VWi v ) Multi(Q,W,V) = Concat(headi ···headh)Wo (6) MatMul Scale Mask SoftMax MatMul Q K V 图 4 自注意力结构 Fig. 4 Self-attention structure 3 实验与分析 3.1 实验数据集与数据标注 本文使用两个数据集对提出模型的命名实体 识别效果进行测试。一个是 SIGHAN 2006 竞赛 MSRA 数据集,另一个是网络社交媒体 Weibo 数 据集[25]。数据集详细信息如表 1 所示,其中 MSRA 数据集不包含验证集。 表 1 数据集统计 Table 1 Statistics of datasets 数据集 类型 训练 验证 测试 MSRA 句子 46364 — 4365 字 2169 879 — 172601 Weibo 句子 1350 270 270 字 73778 14509 14842 命名实体主流标注模式分为 BIO 标注以及 BIOES 标注方式两种。本次实验所使用数据集均 采用 BIO 标注,B 标签为命名实体首字,I 为命名 实体非首字,O 为非命名实体。 MSR A 数据集包含地 名 (LOC)、机构 名 (ORG)、人名 (PER)3 类共 7 种标签。Weibo 数据 集包含地名 (LOC)、机构名 (ORG)、人名 (PER) 和 地理政治实体名 (GPE),此外该数据集还以后缀 的方式将命名实体细分为通用名 (NOM) 和专用 名 (NAM) 两种,其中地理政治类不包含通用名, 共 5 类实体 16 种标签。由于 Weibo 数据集可训 练数据较少,又因为取自网络社交媒体,文字表 达较为随意,所以完成该数据集的命名实体识别 任务更加困难。 3.2 实验环境及参数设置 本文实验模型选择采用 TensorFlow 进行搭 建。实验硬件及软件环境配置如表 2 所示。 第 4 期 毛明毅,等:加入自注意力机制的 BERT 命名实体识别模型 ·775·
·776· 智能系统学报 第15卷 表2实验环境 表3MSRA数据集上的对比结果 Table 2 Experimental setting Table 3 Experimental comparison results on MSRA 项目 环境 单轮 模型名称 P/%R%F1% 内存 16GB 时间/s GPU BiLSTM-CRF 89.8887.9388.89 NVIDIA GeForce RTX 2070 42 Python版本 BiLSTM-self-attention-CRF 90.5287.4488.95 46 Python 3.7.1 TensorFlow版本 TensorFlow 1.13.0 BERT微调 94.9194.7294.821320 BERT-BiLSTM-CRF 94.4894.4894.48321 为了保证实验的公平性,各实验模型中除一 BERT-BiLSTM-self-attention-CRF 94.30 94.74 94.52 326 些特别实验参数设置有所不同外,尽量保持参数 的一致性。详细参数如下:单句最大长度限制 通过表3对比结果,可以看出,BERT预训练 128个字,LSTM隐藏层维度为200,dropout为 模型的加入对模型命名实体识别准确性起到了明 0.5,使用Adam优化器,训练学习率10-3,MSRA 显提升作用,平均提升准确率5.55%。但是self-at- 数据集batch size为l28,微博数据集batch size为 tention层的加入对模型准确率提升效果有限。此 64。BERT微调实验中训练学习率5×103,batch 外由于BERT微调实验对计算机性能要求较高, size为16。 在本文的实验条件下,该模型的训练效率与其他 3.3实验结果与分析 模型相比有着明显的差距。 实验1加入自注意力层对识别效果的影响。 通过实验1说明BERT模型的加人对命名实 本文首先提出在固定BERT参数的BERT- 体识别准确性有较大幅度的提升,但是训练所耗 BiLSTM-CRF模型基础上,加入额外自注意力层 费的时间和对机器性能的要求大幅增加。固定 的命名实体识别模型。并选取了4个与提出模型 BERT参数对模型准确性有一定影响,self-atten- 相关的深度神经网络模型与本文所提出的模型进 tion层对模型识别准确性的提升效果不明显。 行实验对比。4种对照神经网络模型分别是: 实验2减少BERT层数对识别效果带来的 I)BiLSTM-CRF,现阶段最常用的神经网络 影响。 命名实体识别模型,由一个双向长短期记忆网络 由于BERT模型每层在预训练中所学习到的 层和一个条件随机场层组成。 信息不同,所以本文提出的第2个尝试性改进方 2)BiLSTM-self-attention-CRF模型,在BiL- 案是减少BERT嵌人层数,从不同层获取模型输 STM-CRF模型中加入了自注意力层的无预训练 出结果,同样基于固定BERT参数的BERT-BiL 模型。 STM-CRF模型进行实验。首先在MSRA数据集 3)BERT模型,直接利用数据集对BERT模型 上进行了BERT层数裁剪实验。分别取BERT模 中的参数进行调整。 型嵌入层、第3层、第6层、第9层与12层进行对 4)BERT-BiLSTM-CRF模型,由BERT嵌人 比,实验结果如表4所示。 层,一个双向长短期记忆网络层以及一个条件随 表4在MSRA数据集上减少BERT模型层数的实验结果 机场层所组成。 Table 4 Experimental results of reducing the number of 本文实验均采用精确率、召回率和F1值作为 BERT model layers on the MSRA dataset 模型准确性的评价标准,计算公式如下: 选取层 P/% R/% F1/% 单轮时间s TP P= TP+FPX 100% 嵌入层 90.51 90.17 90.34 43 3层 93.05 92.38 92.72 110 Tp R= TP+FN×100% (7) 6层 94.07 94.49 94.28 188 2xPXR 9层 94.81 94.76 94.79 247 F1= P+R ×100% 12层 94.48 94.48 94.48 321 式中:TP表示正确识别出命名实体个数;FP表示 错误识别命名实体个数;FN表示没有被识别命名 实验结果显示,减小BERT嵌入层数,可以加 实体个数;P是精确率;R是召回率。 快模型的训练速度。在嵌入层数小于6时,模型 表3是5种模型在MSRA数据集上的实验结果。 识别准确性随BERT层数的减少而下降,在嵌人
表 2 实验环境 Table 2 Experimental setting 项目 环境 内存 16 GB GPU NVIDIA GeForce RTX 2070 Python版本 Python 3.7.1 TensorFlow版本 TensorFlow 1.13.0 为了保证实验的公平性,各实验模型中除一 些特别实验参数设置有所不同外,尽量保持参数 的一致性。详细参数如下:单句最大长度限制 128 个字,LSTM 隐藏层维度为 200,dropout 为 0.5,使用 Adam 优化器,训练学习率 10−3 ,MSRA 数据集 batch size 为 128,微博数据集 batch size 为 64。BERT 微调实验中训练学习率 5×10−5 ,batch size 为 16。 3.3 实验结果与分析 实验 1 加入自注意力层对识别效果的影响。 本文首先提出在固定 BERT 参数的 BERTBiLSTM-CRF 模型基础上,加入额外自注意力层 的命名实体识别模型。并选取了 4 个与提出模型 相关的深度神经网络模型与本文所提出的模型进 行实验对比。4 种对照神经网络模型分别是: 1) BiLSTM-CRF,现阶段最常用的神经网络 命名实体识别模型,由一个双向长短期记忆网络 层和一个条件随机场层组成。 2) BiLSTM-self-attention-CRF 模型,在 BiLSTM-CRF 模型中加入了自注意力层的无预训练 模型。 3) BERT 模型,直接利用数据集对 BERT 模型 中的参数进行调整。 4) BERT-BiLSTM-CRF 模型,由 BERT 嵌入 层,一个双向长短期记忆网络层以及一个条件随 机场层所组成。 本文实验均采用精确率、召回率和 F1 值作为 模型准确性的评价标准,计算公式如下: P = TP TP+FP ×100% R = Tp TP+FN ×100% F1 = 2×P×R P+R ×100% (7) TP FP FN P R 式中: 表示正确识别出命名实体个数; 表示 错误识别命名实体个数; 表示没有被识别命名 实体个数; 是精确率; 是召回率。 表 3 是 5 种模型在 MSRA 数据集上的实验结果。 表 3 MSRA 数据集上的对比结果 Table 3 Experimental comparison results on MSRA 模型名称 P/% R/% F1/% 单轮 时间/s BiLSTM-CRF 89.88 87.93 88.89 42 BiLSTM-self-attention-CRF 90.52 87.44 88.95 46 BERT微调 94.91 94.72 94.82 1320 BERT-BiLSTM-CRF 94.48 94.48 94.48 321 BERT-BiLSTM-self-attention-CRF 94.30 94.74 94.52 326 通过表 3 对比结果,可以看出,BERT 预训练 模型的加入对模型命名实体识别准确性起到了明 显提升作用,平均提升准确率 5.55%。但是 self-attention 层的加入对模型准确率提升效果有限。此 外由于 BERT 微调实验对计算机性能要求较高, 在本文的实验条件下,该模型的训练效率与其他 模型相比有着明显的差距。 通过实验 1 说明 BERT 模型的加入对命名实 体识别准确性有较大幅度的提升,但是训练所耗 费的时间和对机器性能的要求大幅增加。固定 BERT 参数对模型准确性有一定影响,self-attention 层对模型识别准确性的提升效果不明显。 实验 2 减少 BERT 层数对识别效果带来的 影响。 由于 BERT 模型每层在预训练中所学习到的 信息不同,所以本文提出的第 2 个尝试性改进方 案是减少 BERT 嵌入层数,从不同层获取模型输 出结果,同样基于固定 BERT 参数的 BERT-BiLSTM-CRF 模型进行实验。首先在 MSRA 数据集 上进行了 BERT 层数裁剪实验。分别取 BERT 模 型嵌入层、第 3 层、第 6 层、第 9 层与 12 层进行对 比,实验结果如表 4 所示。 表 4 在 MSRA 数据集上减少 BERT 模型层数的实验结果 Table 4 Experimental results of reducing the number of BERT model layers on the MSRA dataset 选取层 P/% R/% F1/% 单轮时间/s 嵌入层 90.51 90.17 90.34 43 3层 93.05 92.38 92.72 110 6层 94.07 94.49 94.28 188 9层 94.81 94.76 94.79 247 12层 94.48 94.48 94.48 321 实验结果显示,减小 BERT 嵌入层数,可以加 快模型的训练速度。在嵌入层数小于 6 时,模型 识别准确性随 BERT 层数的减少而下降,在嵌入 ·776· 智 能 系 统 学 报 第 15 卷
第4期 毛明毅,等:加入自注意力机制的BERT命名实体识别模型 ·777· 层数多于6时,模型的识别准确性趋于平稳,在嵌 包含地名,机构名中包含机构名,如表7所列出的 入9层时的实验结果优于12层BERT嵌入。 第3类,是模型在实体识别中出错概率最高的 表5给出了采用9层嵌人时,模型对不同标签命 类。 名实体的识别结果。 4)特殊并列关系,地名与人名并列,地名与 表5本文模型对不同标签识别结果 组织名并列,如表7列出的第4类。 Table 5 Different label recognition results 表7识别错误实例 标签 Pl R/% F,% Table 7 Identify error instances 地名LOC 96.33 94.91 95.62 分类 错误实例 机构名ORG 原句1:长安一片月,万户捣衣声。 89.89 91.55 90.72 人名PER 标注实体:长安月(LOC) 96.40 97.43 96.91 第1类 原句2:明月几时有,把酒问青天 全部ALL 94.81 94.76 94.79 标注实体:无 在对MSRA数据集进行实验后,为确保实验 原句:某种香甜被太阳 结果的普适性。本文继续在Weibo数据集上进行 第2类 标注实体:太阳 了实验。根据实验1的结果表明,相对较深的层 识别实体:无 次嵌入效果较好,所以本实验选取了第8~12层进 原句:东盟组织扩大 行了多次实验,实验结果如表6所示。 第3类 标注实体:东盟 识别实体:东盟组织 表6在Veibo数据集上减少BERT模型层数的实验结果 原句:中国和东盟国家都发生了沧桑巨变 Table 6 Experimental results on reducing the number of BERT model layers on Weibo dataset 第4类 标注实体:中国LOC东盟(ORG) 嵌入层数 识别实体:中国LOC)八东盟(LOC) P/% R/% F1/% 单轮时间/s 63.19 72.62 67.58 10 还有一种地名出现的地方如果填写人名句子 9 67.53 70.17 68.82 10 通顺合理的复杂情况,如果没有知识储备很难正 10 65.92 72.37 69.00 10 确进行区分。 针对上述问题,一方面需要明确统一语料标 11 63.30 70.42 66.67 10 注标准才能通过高质量标注语料训练更好的命名 12 67.41 66.26 66.83 10 实体自动识别模型,还需要解决命名实体嵌套标 由于Weibo数据集数据量较少,单轮时间对 注问题,另一方面也侧面证明了类似BERT这一 比相差不明显。在模型识别准确性上,可以看出 类海量预训练模型能够有效提高命名实体识别准 9层和10层的识别效果最好,说明BERT模型在 确率的原因。 预训练中在第9、10层附近学习到的信息能够更 4结束语 好完成命名实体识别任务。 实验的最后,本文对在MSRA数据集上模型 GPT、BERT这类超大型预训练模型对自然语 识别错误的类型实例进行了总结,常见错误如表7 言处理研究领域的众多研究方向都带来了不小的 所示。 提升,但是它们巨大的资源消耗和时间消耗,是 将所有包含实体识别错误的句子抽取并进行 不少研究者所承受不起的,并且提高了领域的准 错误分析发现,影响识别模型识别准确性的问题 入门槛和研究成本。ALBERT的出现或许是一个 主要包括以下几类原因: 可能,但在本文之前的实验中其命名实体识别效 1)实体标注模糊,有些句子中“月(指月亮)” 果相比BERT有着较大差距。 是地点实体,有些句子“月(指月亮)”不是地点实 本文首先针对BERT微调命名实体识别方法 体,在同一个数据集中标注标准不统一,如表7所 对计算机性能要求较高的问题,采用了固定 列出的第1类。 BERT参数的BERT-BiLSTM-CRF命名实体识别 2)句子不完整或句子有错误导致句子无法被 模型,并尝试了两种方法对固定BERT参数的模 理解,例如表7列出的第2类。 型进行改进:方法一向模型中继续添加自注意力 3)实体嵌套,在地名中包含人名,机构名中 层,经过实验,本方法并不能有效改善模型识别
层数多于 6 时,模型的识别准确性趋于平稳,在嵌 入 9 层时的实验结果优于 12 层 BERT 嵌入。 表 5 给出了采用 9 层嵌入时,模型对不同标签命 名实体的识别结果。 表 5 本文模型对不同标签识别结果 Table 5 Different label recognition results 标签 P/% R/% F1 /% 地名LOC 96.33 94.91 95.62 机构名ORG 89.89 91.55 90.72 人名PER 96.40 97.43 96.91 全部ALL 94.81 94.76 94.79 在对 MSRA 数据集进行实验后,为确保实验 结果的普适性。本文继续在 Weibo 数据集上进行 了实验。根据实验 1 的结果表明,相对较深的层 次嵌入效果较好,所以本实验选取了第 8~12 层进 行了多次实验,实验结果如表 6 所示。 表 6 在 Weibo 数据集上减少 BERT 模型层数的实验结果 Table 6 Experimental results on reducing the number of BERT model layers on Weibo dataset 嵌入层数 P/% R/% F1/% 单轮时间/s 8 63.19 72.62 67.58 10 9 67.53 70.17 68.82 10 10 65.92 72.37 69.00 10 11 63.30 70.42 66.67 10 12 67.41 66.26 66.83 10 由于 Weibo 数据集数据量较少,单轮时间对 比相差不明显。在模型识别准确性上,可以看出 9 层和 10 层的识别效果最好,说明 BERT 模型在 预训练中在第 9、10 层附近学习到的信息能够更 好完成命名实体识别任务。 实验的最后,本文对在 MSRA 数据集上模型 识别错误的类型实例进行了总结,常见错误如表 7 所示。 将所有包含实体识别错误的句子抽取并进行 错误分析发现,影响识别模型识别准确性的问题 主要包括以下几类原因: 1) 实体标注模糊,有些句子中“月 (指月亮)” 是地点实体,有些句子“月 (指月亮)”不是地点实 体,在同一个数据集中标注标准不统一,如表 7 所 列出的第 1 类。 2) 句子不完整或句子有错误导致句子无法被 理解,例如表 7 列出的第 2 类。 3) 实体嵌套,在地名中包含人名,机构名中 包含地名,机构名中包含机构名,如表 7 所列出的 第 3 类,是模型在实体识别中出错概率最高的 一类。 4) 特殊并列关系,地名与人名并列,地名与 组织名并列,如表 7 列出的第 4 类。 表 7 识别错误实例 Table 7 Identify error instances 分类 错误实例 第1类 原句1:长安一片月,万户捣衣声。 标注实体:长安\月(LOC) 原句2:明月几时有,把酒问青天 标注实体:无 第2类 原句:某种香甜被太阳 标注实体:太阳 识别实体:无 第3类 原句:东盟组织扩大 标注实体:东盟 识别实体:东盟组织 第4类 原句:中国和东盟国家都发生了沧桑巨变 标注实体:中国(LOC)\东盟(ORG) 识别实体:中国(LOC)\东盟(LOC) 还有一种地名出现的地方如果填写人名句子 通顺合理的复杂情况,如果没有知识储备很难正 确进行区分。 针对上述问题,一方面需要明确统一语料标 注标准才能通过高质量标注语料训练更好的命名 实体自动识别模型,还需要解决命名实体嵌套标 注问题,另一方面也侧面证明了类似 BERT 这一 类海量预训练模型能够有效提高命名实体识别准 确率的原因。 4 结束语 GPT、BERT 这类超大型预训练模型对自然语 言处理研究领域的众多研究方向都带来了不小的 提升,但是它们巨大的资源消耗和时间消耗,是 不少研究者所承受不起的,并且提高了领域的准 入门槛和研究成本。ALBERT 的出现或许是一个 可能,但在本文之前的实验中其命名实体识别效 果相比 BERT 有着较大差距。 本文首先针对 BERT 微调命名实体识别方法 对计算机性能要求较高的问题,采用了固 定 BERT 参数的 BERT-BiLSTM-CRF 命名实体识别 模型,并尝试了两种方法对固定 BERT 参数的模 型进行改进:方法一向模型中继续添加自注意力 层,经过实验,本方法并不能有效改善模型识别 第 4 期 毛明毅,等:加入自注意力机制的 BERT 命名实体识别模型 ·777·
·778· 智能系统学报 第15卷 效果;方法二通过缩减BERT模型嵌入层数对模 1381-1388 型进行改进,经实验证明,该方法不仅能够大幅 [9]YANG Y,CHEN W,LI Z,et al.Distantly supervised NER 减小模型的训练时间,还能在一定程度上增强模 with partial annotation learning and reinforcement learn- 型的实体识别效果。本文所改进的模型已经在电 ing[C]//International Conference on Computational Lin- 视台的创业投资栏目的智能机器人数据分析中得 guistics.Santa Fe,USA,2018:2159-2169. 到初步应用。 [10]彭嘉毅,方勇,黄诚,等.基于深度主动学习的信息安全 本文方法在机构类实体的识别准确性上还有 领域命名实体识别研究[).四川大学学报(自然科学 待提升,摆脱机构类实体嵌套这个实质性问题才 版),2019,56(31:457-462 PENG Jiayi,FANG Yong,HUANG Cheng,et al.Cyber 能实现在准确性上进一步突破,未来的研究可以 security named entity recognition based on deep active 考虑采用阅读理解的方法,或通过改进标注形式 learning[J].Journal of sichuan university (natural science 来解决实体嵌套问题。另外通过实验最后的错误 edition),2019,56(3:457-462 实例分析可以看出,制定完善的实体标注标准也 [11]朱艳辉,李飞,冀相冰,等.反馈式K近邻语义迁移学习 是提高实体识别效果的重要保障。本文仅在命名 的领域命名实体识别[刀.智能系统学报,2019,14(4): 实体识别任务上对减少BERT嵌入层数对模型识 820-830. 别效果改善作用进行了验证,是否在其他序列标 ZHU Yanhui,LI Fei,JI Xiangbing,et al.Domain-named 注任务中有同样的结论是下一步研究的目标。 entity recognition based on feedback k-nearest semantic 参考文献: transfer learning[J].CAAI transactions on intelligent sys- tems,2019,14(4):820-830 [1]刘浏,王东波.命名实体识别研究综述「].情报学报 [12]王红斌,沈强,线岩团.融合迁移学习的中文命名实体 2018,37(3):329-340. 识别).小型微型计算机系统,2017,38(2:346-351. LIU Liu,WANG Dongbo.A review on named entity re- WANG Hongbin,SHEN Qiang,XIAN Yantuan.Re- cognition[J].Journal of the China society for scientific and search on Chinese named entity recognition fusing trans- technical information,2018,37(3):329-340. fer learning[J].Journal of Chinese computer systems, [2]BIKEL D M.An algorithm that learns what's in a name[J]. 2017,38(2346-351. Machine learning.1999,34(1/2/3):211-231. [13]冯鸾鸾,李军辉,李培峰,等.面向国防科技领域的技术 [3]MAYFIELD J,MCNAMEE P,PIATKO C D,et al.Named 和术语识别方法研究.计算机科学,2019,46(12): entity recognition using hundreds of thousands of 231-236 features[C]//North American Chapter of the Association FENG Luanluan,LI Junhui,LI Peifeng,et al.Techno- for Computational Linguistics.Edmonton,Canada,2003: logy and terminology detection oriented national defense 184-187. science[J].Computer science,2019,46(12):231-236. [4]MCCALLUM A,LI W.Early results for named entity re- [14]杨维,孙德艳,张晓慧,等.面向电力智能问答系统的命 cognition with conditional random fields,feature induc- 名实体识别算法).计算机工程与设计,2019,40(12) tion and web-enhanced lexicons[C]//North American 3625-3630 Chapter of the Association for Computational Linguistics. YANG Wei,SUN Deyan,ZHANG Xiaohui,et al.Named Edmonton,Canada,2003:188-191. entity recognition for intelligent answer system in power [5]COLLOBERT R,WESTON J,BOTTOU L,et al.Natural service[J].Computer engineering and design,2019, language processing(almost)from scratch[J].Journal of 40(12):3625-3630. machine learning research,2011,12(1):2493-2537 [15]李冬梅,檀稳.植物属性文本的命名实体识别方法研 [6]HUANG Z,XU W,YU K.Bidirectional LSTM-CRF mod- 究U.计算机科学与探索,2019,13(12:2085-2093 els for sequence tagging[EB/OL].[2015-08-09].https://arx- LI Dongmei,TAN Wen.Research on named entity recog- iV.org/abs/1508.01991, nition method in plant attribute text[J].Journal of fronti- [7]MA X,HOVY E.End-to-end sequence labeling via bi-dir- ers of computer science and technology,2019,13(12): ectional LSTM-CNNs-CRF[C]//Proceedings of the 54th 2085-2093. Annual Meeting of the Association for Computational Lin- [16]ZHANG Y,YANG J.Chinese NER using lattice guistics.Berlin,Germany,2016:1064-1074. LSTM[C]//Annual meeting of the association for compu- [8]LUO L,YANG Z,YANG P,et al.An attention-based BiL- tational linguistics.Melbourne,Australia,2018: STM-CRF approach to document-level chemical named 1554-1564. entity recognition[J].Bioinformatics,2018,34(8): [17刀李明扬,孔芳.融入自注意力机制的社交媒体命名实体
效果;方法二通过缩减 BERT 模型嵌入层数对模 型进行改进,经实验证明,该方法不仅能够大幅 减小模型的训练时间,还能在一定程度上增强模 型的实体识别效果。本文所改进的模型已经在电 视台的创业投资栏目的智能机器人数据分析中得 到初步应用。 本文方法在机构类实体的识别准确性上还有 待提升,摆脱机构类实体嵌套这个实质性问题才 能实现在准确性上进一步突破,未来的研究可以 考虑采用阅读理解的方法,或通过改进标注形式 来解决实体嵌套问题。另外通过实验最后的错误 实例分析可以看出,制定完善的实体标注标准也 是提高实体识别效果的重要保障。本文仅在命名 实体识别任务上对减少 BERT 嵌入层数对模型识 别效果改善作用进行了验证,是否在其他序列标 注任务中有同样的结论是下一步研究的目标。 参考文献: 刘浏, 王东波. 命名实体识别研究综述 [J]. 情报学报, 2018, 37(3): 329–340. LIU Liu, WANG Dongbo. A review on named entity recognition[J]. Journal of the China society for scientific and technical information, 2018, 37(3): 329–340. [1] BIKEL D M. An algorithm that learns what's in a name[J]. Machine learning, 1999, 34(1/2/3): 211–231. [2] MAYFIELD J, MCNAMEE P, PIATKO C D, et al. Named entity recognition using hundreds of thousands of features[C]//North American Chapter of the Association for Computational Linguistics. Edmonton, Canada, 2003: 184−187. [3] MCCALLUM A, LI W. Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons[C]//North American Chapter of the Association for Computational Linguistics. Edmonton, Canada, 2003: 188−191. [4] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of machine learning research, 2011, 12(1): 2493–2537. [5] HUANG Z, XU W, YU K. Bidirectional LSTM-CRF models for sequence tagging[EB/OL].[2015-08-09]. https://arxiv.org/abs/1508.01991. [6] MA X, HOVY E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. Berlin, Germany, 2016: 1064−1074. [7] LUO L, YANG Z, YANG P, et al. An attention-based BiLSTM-CRF approach to document-level chemical named entity recognition[J]. Bioinformatics, 2018, 34(8): [8] 1381–1388. YANG Y, CHEN W, LI Z, et al. Distantly supervised NER with partial annotation learning and reinforcement learning[C]//International Conference on Computational Linguistics. Santa Fe, USA, 2018: 2159−2169. [9] 彭嘉毅, 方勇, 黄诚, 等. 基于深度主动学习的信息安全 领域命名实体识别研究 [J]. 四川大学学报(自然科学 版), 2019, 56(3): 457–462. PENG Jiayi, FANG Yong, HUANG Cheng, et al. Cyber security named entity recognition based on deep active learning[J]. Journal of sichuan university (natural science edition), 2019, 56(3): 457–462. [10] 朱艳辉, 李飞, 冀相冰, 等. 反馈式 K 近邻语义迁移学习 的领域命名实体识别 [J]. 智能系统学报, 2019, 14(4): 820–830. ZHU Yanhui, LI Fei, JI Xiangbing, et al. Domain-named entity recognition based on feedback k-nearest semantic transfer learning[J]. CAAI transactions on intelligent systems, 2019, 14(4): 820–830. [11] 王红斌, 沈强, 线岩团. 融合迁移学习的中文命名实体 识别 [J]. 小型微型计算机系统, 2017, 38(2): 346–351. WANG Hongbin, SHEN Qiang, XIAN Yantuan. Research on Chinese named entity recognition fusing transfer learning[J]. Journal of Chinese computer systems, 2017, 38(2): 346–351. [12] 冯鸾鸾, 李军辉, 李培峰, 等. 面向国防科技领域的技术 和术语识别方法研究 [J]. 计算机科学, 2019, 46(12): 231–236. FENG Luanluan, LI Junhui, LI Peifeng, et al. Technology and terminology detection oriented national defense science[J]. Computer science, 2019, 46(12): 231–236. [13] 杨维, 孙德艳, 张晓慧, 等. 面向电力智能问答系统的命 名实体识别算法 [J]. 计算机工程与设计, 2019, 40(12): 3625–3630. YANG Wei, SUN Deyan, ZHANG Xiaohui, et al. Named entity recognition for intelligent answer system in power service[J]. Computer engineering and design, 2019, 40(12): 3625–3630. [14] 李冬梅, 檀稳. 植物属性文本的命名实体识别方法研 究 [J]. 计算机科学与探索, 2019, 13(12): 2085–2093. LI Dongmei, TAN Wen. Research on named entity recognition method in plant attribute text[J]. Journal of frontiers of computer science and technology, 2019, 13(12): 2085–2093. [15] ZHANG Y, YANG J. Chinese NER using lattice LSTM[C]//Annual meeting of the association for computational linguistics. Melbourne, Australia, 2018: 1554−1564. [16] [17] 李明扬, 孔芳. 融入自注意力机制的社交媒体命名实体 ·778· 智 能 系 统 学 报 第 15 卷
第4期 毛明毅,等:加人自注意力机制的BERT命名实体识别模型 ·779· 识别[.清华大学学报(自然科学版),2019,59(6): [25]HE H,SUN X.F-Score driven max margin neural net- 461-467 work for named entity recognition in Chinese social me- LI Mingyang,KONG Fang.Combined self-attention dia[Cl//Proceedings of the 15th Conference of the mechanism for named entity recognition in social European Chapter of the Association for Computational media[J].Journal of Tsinghua university (science and Linguistics.Valencia,Spain,2017:713-718. technology edition),2019,59(6):461-467. 作者简介: [18]CAO P,CHEN Y,LIU K,et al.Adversarial transfer 毛明毅,副教授,博士,中国人工 learning for Chinese named entity recognition with self- 智能学会高级会员,主要研究方向为 attention mechanism[C]//Conference on Empirical Meth- 人工智能基础理论、泛逻辑学,主持和 ods in Natural Language Processing.Brussels,Belgium, 参与国家自然基金项目和北京市自然 2018:182-192 科学基金项目及其他纵向课题8项 [19]PETERS M E.RUDER S.SMITH N A.et al.To tune or 主持横向课题10余项,获专利授权和 not to tune?Adapting pretrained representations to di- 软件著作权10余项,获得全国竞赛 verse tasks.[Cl//Proceedings of the 4th Workshop on Rep- “优秀指导教师”等多种荣誉。发表学术论文50余篇,出版 resentation Llearning for NLP.Florence,Italy,2019: 专著2部。 7-14. 吴晨,硕土研究生,主要研究方向 [20]DEVLIN J,CHANG M,LEE K,et al.BERT:pre-train- 为人工智能基础、智能机器人、自然语 ing of deep bidirectional transformers for language under- 言理解。 standing[J].Computation and language,2018(10): 1810-4805. [21]YANG Z,DAI Z,YANG Y,et al.XLNet:generalized autoregressive pretraining for language understanding[C]// Neural Information Processing Systems.Vancouver, 钟义信,教授,博士生导师,发展 Canada.2019:5753-5763. 中世界工程技术科学院院士,中国人 [22]HOCHREITER S,SCHMIDHUBER J.Long short-term 工智能学会原理事长,现任国际信息 memory[J].Neural computation,1997,9(8):1735-1780. 研究学会中国分会主席,北京邮电大 [23]LAFFERTY J.MCCALLUM A.PEREIRA F.et al.Con- 学-格分维人工智能联合实验室学术 委员会主任,主要研究方向为通信理 ditional random fields:probabilistic models for segment- 论、信息科学、人工智能。主持国家级 ing and labeling sequence data[C]//International Confer- 和省部级项目数十项。先后提出和建立“全信息理论“全信 ence on Machine Learning.San Francisco,USA,2001: 息自然语言理解理论“机制主义人工智能统一理论”以及 282-289 “机器知行学”理论,发现和总结了“信息转换与智能创生定 [24]VASWANI A.SHAZEER N.PARMAR N.et al.Atten- 律”,先后获得“有突出贡献的归国留学人员”、“全国优秀教 tion is all you need[C]//Proceedings of the 31st Annual 师”等称号:获得首届吴文俊科学技术成就奖和首届中国电 Conference on Neural Information Processing Systems. 子学会信息理论杰出贡献奖。发表学术论文500余篇,出版 Long Beach,USA.,2017:5998-6008. 学术专著18部
识别 [J]. 清华大学学报(自然科学版), 2019, 59(6): 461–467. LI Mingyang, KONG Fang. Combined self-attention mechanism for named entity recognition in social media[J]. Journal of Tsinghua university (science and technology edition), 2019, 59(6): 461–467. CAO P, CHEN Y, LIU K, et al. Adversarial transfer learning for Chinese named entity recognition with selfattention mechanism[C]//Conference on Empirical Methods in Natural Language Processing. Brussels, Belgium, 2018: 182−192. [18] PETERS M E, RUDER S, SMITH N A, et al. To tune or not to tune? Adapting pretrained representations to diverse tasks.[C]//Proceedings of the 4th Workshop on Representation Llearning for NLP. Florence, Italy, 2019: 7−14. [19] DEVLIN J, CHANG M, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[J]. Computation and language, 2018(10): 1810–4805. [20] YANG Z, DAI Z, YANG Y, et al. XLNet: generalized autoregressive pretraining for language understanding[C]// Neural Information Processing Systems. Vancouver, Canada, 2019: 5753−5763. [21] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [22] LAFFERTY J, MCCALLUM A, PEREIRA F, et al. Conditional random fields: probabilistic models for segmenting and labeling sequence data[C]//International Conference on Machine Learning. San Francisco, USA, 2001: 282−289. [23] VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st Annual Conference on Neural Information Processing Systems. Long Beach, USA, 2017: 5998−6008. [24] HE H, SUN X. F-Score driven max margin neural network for named entity recognition in Chinese social media[C]// Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics. Valencia, Spain, 2017: 713−718. [25] 作者简介: 毛明毅,副教授,博士,中国人工 智能学会高级会员,主要研究方向为 人工智能基础理论、泛逻辑学,主持和 参与国家自然基金项目和北京市自然 科学基金项目及其他纵向课题 8 项, 主持横向课题 10 余项,获专利授权和 软件著作权 10 余项,获得全国竞赛 “优秀指导教师”等多种荣誉。发表学术论文 50 余篇,出版 专著 2 部。 吴晨,硕士研究生,主要研究方向 为人工智能基础、智能机器人、自然语 言理解。 钟义信,教授,博士生导师,发展 中世界工程技术科学院院士,中国人 工智能学会原理事长,现任国际信息 研究学会中国分会主席,北京邮电大 学−格分维人工智能联合实验室学术 委员会主任,主要研究方向为通信理 论、信息科学、人工智能。主持国家级 和省部级项目数十项。先后提出和建立“全信息理论”“全信 息自然语言理解理论”“机制主义人工智能统一理论”以及 “机器知行学”理论,发现和总结了“信息转换与智能创生定 律”,先后获得“有突出贡献的归国留学人员”、“全国优秀教 师”等称号;获得首届吴文俊科学技术成就奖和首届中国电 子学会信息理论杰出贡献奖。发表学术论文 500 余篇,出版 学术专著 18 部。 第 4 期 毛明毅,等:加入自注意力机制的 BERT 命名实体识别模型 ·779·