第14卷第4期 智能系统学报 Vol.14 No.4 2019年7月 CAAI Transactions on Intelligent Systems Jul.2019 D0:10.11992/tis.201804013 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.tp.20190323.2251.002.html 反馈式K近邻语义迁移学习的领域命名实体识别 朱艳辉2,李飞2,冀相冰2,曾志高2,徐啸2 (1.湖南工业大学计算机学院,湖南株洲412008:2.湖南省智能信息感知及处理技术重点实验室,湖南株洲 412008) 摘要:领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点,构建基于深度学 习的BiLSTM-CNN-CRFs网络模型,并提出一种反馈式K近邻语义迁移学习的领域命名实体识别方法。首先, 对专业领域语料和通用领域语料分别训练得到语料文档向量,使用马哈拉诺比斯距离计算领域语料与通用语 料的语义相似性,针对每个专业领域样本分别取K个语义最相似的通用领域样本进行语义迁移学习,构建多个 迁移语料集。然后,使用BiLSTM-CNN-CRFs网络模型对迁移语料集进行领域命名实体识别,并对识别结果进 行评估和前馈,根据反馈结果选取合适的K值,作为语义迁移学习的最佳阈值。以包装领域和医疗领域为例进 行实验验证,结果表明:本文方法取得了很好的识别效果,可以有效解决专业领域语料匮乏问题。 关键词:领域命名实体识别:反馈式K近邻:语义迁移学习:深度学习:卷积神经网络:文档向量;马哈拉诺比斯 距离:包装领域:医疗领域 中图分类号:TP391文献标志码:A文章编号:1673-4785(201904-0820-11 中文引用格式:朱艳辉,李飞,冀相冰,等.反馈式K近邻语义迁移学习的领域命名实体识别.智能系统学报,2019,14(4): 820-830. 英文引用格式:ZHU Yanhui,,LI Fei,,JI Xiangbing,etal.Domain-named entity recognition based on feedback K-nearest semantic transfer learning JI.CAAI transactions on intelligent systems,2019,14(4):820-830. Domain-named entity recognition based on feedback K-nearest semantic transfer learning ZHU Yanhui,LI Fei,JI Xiangbing,ZENG Zhigao2,XU Xiao2 (1.School of Computer,Hu'nan University of Technology,Zhuzhou 412008,China;2.Hu'nan Key Laboratory of Intelligent Inform- ation Perception and Processing Technology,Zhuzhou 412008,China) Abstract:Domain-named entity recognition is an important foundation in constructing domain knowledge maps.In view of the scarcity of such recognition,this paper constructs a BiLSTM-CNN-CRFs network model based on deep learning as well as proposes a domain-named entity recognition method based on feedback K-nearest-neighbor semantic transfer learning.First,the corpus of the professional field and the general field were trained to obtain the corpus docu- ment vector,and the semantic similarity between the corpus of a domain and the common corpus was calculated using the Mahalanobis distance calculation.For each specialized domain sample,K common domain samples with the most similar semantics were taken for semantic transfer learning,and several transfer corpus sets were constructed.Then,the BiLSTM-CNN-CRFs network model was used to identify domain-named entities in N migration corpuses and evaluate and feedforward the recognition results.An appropriate K value was selected as the best threshold for semantic transfer learning according to the feedback results.The packaging and medical fields were taken as examples for experimental verification.The results showed that the method proposed in this paper has a good recognition effect and can effectively solve the problem of lack of corpus in the field of specialization. Keywords:domain-named entity recognition;feedback K-nearest neighbor,semantic transfer learning;deep learning; CNN;Doc2Vec;Mahalanobis distance;packaging field;medical field 收稿日期:2018-04-10.网络出版日期:2019-03-25 命名实体识别(named entity recognition,.NER) 基金项目:国家自然科学基金项目(61402165):湖南省教育厅 重点项目(15A049):湖南工业大学重点项目(17ZBL- 作为信息抽取的子任务,是指将非结构化文本中 WT001KT006):湖南省研究生科研创新项目 具有特定意义的实体抽取出来,对文本的结构化 (CX2017B688). 通信作者:李飞.E-mail:flytoskye@l63.com 起着至关重要的作用。由于其在自然语言处理中
DOI: 10.11992/tis.201804013 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.tp.20190323.2251.002.html 反馈式 K 近邻语义迁移学习的领域命名实体识别 朱艳辉1,2,李飞1,2,冀相冰1,2,曾志高1,2,徐啸1,2 (1. 湖南工业大学 计算机学院,湖南 株洲 412008; 2. 湖南省智能信息感知及处理技术重点实验室,湖南 株洲 412008) 摘 要:领域命名实体识别是构建领域知识图谱的重要基础。针对专业领域语料匮乏的特点,构建基于深度学 习的 BiLSTM-CNN-CRFs 网络模型,并提出一种反馈式 K 近邻语义迁移学习的领域命名实体识别方法。首先, 对专业领域语料和通用领域语料分别训练得到语料文档向量,使用马哈拉诺比斯距离计算领域语料与通用语 料的语义相似性,针对每个专业领域样本分别取 K 个语义最相似的通用领域样本进行语义迁移学习,构建多个 迁移语料集。然后,使用 BiLSTM-CNN-CRFs 网络模型对迁移语料集进行领域命名实体识别,并对识别结果进 行评估和前馈,根据反馈结果选取合适的 K 值,作为语义迁移学习的最佳阈值。以包装领域和医疗领域为例进 行实验验证,结果表明:本文方法取得了很好的识别效果,可以有效解决专业领域语料匮乏问题。 关键词:领域命名实体识别;反馈式 K 近邻;语义迁移学习;深度学习;卷积神经网络;文档向量;马哈拉诺比斯 距离;包装领域;医疗领域 中图分类号:TP391 文献标志码:A 文章编号:1673−4785(2019)04−0820−11 中文引用格式:朱艳辉, 李飞, 冀相冰, 等. 反馈式 K 近邻语义迁移学习的领域命名实体识别 [J]. 智能系统学报, 2019, 14(4): 820–830. 英文引用格式:ZHU Yanhui, LI Fei, JI Xiangbing, et al. Domain-named entity recognition based on feedback K-nearest semantic transfer learning[J]. CAAI transactions on intelligent systems, 2019, 14(4): 820–830. Domain-named entity recognition based on feedback K-nearest semantic transfer learning ZHU Yanhui1,2 ,LI Fei1,2 ,JI Xiangbing1,2 ,ZENG Zhigao1,2 ,XU Xiao1,2 (1. School of Computer, Hu’nan University of Technology, Zhuzhou 412008, China; 2. Hu’nan Key Laboratory of Intelligent Information Perception and Processing Technology, Zhuzhou 412008, China) Abstract: Domain-named entity recognition is an important foundation in constructing domain knowledge maps. In view of the scarcity of such recognition, this paper constructs a BiLSTM-CNN-CRFs network model based on deep learning as well as proposes a domain-named entity recognition method based on feedback K-nearest-neighbor semantic transfer learning. First, the corpus of the professional field and the general field were trained to obtain the corpus document vector, and the semantic similarity between the corpus of a domain and the common corpus was calculated using the Mahalanobis distance calculation. For each specialized domain sample, K common domain samples with the most similar semantics were taken for semantic transfer learning, and several transfer corpus sets were constructed. Then, the BiLSTM-CNN-CRFs network model was used to identify domain-named entities in N migration corpuses and evaluate and feedforward the recognition results. An appropriate K value was selected as the best threshold for semantic transfer learning according to the feedback results. The packaging and medical fields were taken as examples for experimental verification. The results showed that the method proposed in this paper has a good recognition effect and can effectively solve the problem of lack of corpus in the field of specialization. Keywords: domain-named entity recognition; feedback K-nearest neighbor; semantic transfer learning; deep learning; CNN; Doc2Vec; Mahalanobis distance; packaging field; medical field 命名实体识别 (named entity recognition,NER) 作为信息抽取的子任务,是指将非结构化文本中 具有特定意义的实体抽取出来,对文本的结构化 起着至关重要的作用。由于其在自然语言处理中 收稿日期:2018−04−10. 网络出版日期:2019−03−25. 基金项目:国家自然科学基金项目 (61402165);湖南省教育厅 重点项目 (15A049);湖南工业大学重点项目 (17ZBLWT001KT006) ;湖南省研究生科研创新项 目 (CX2017B688). 通信作者:李飞. E-mail: flytoskye@163.com. 第 14 卷第 4 期 智 能 系 统 学 报 Vol.14 No.4 2019 年 7 月 CAAI Transactions on Intelligent Systems Jul. 2019
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·821· 的重要地位,许多国际会议,如MUC-6、MUC-7、 到一个高维的再生核希尔伯特空间,并在此空间 Conll22002等,都将命名实体识别作为共享任务 中最小化源和目标的数据距离,同时最大程度地 (share tasks)。国内会议诸如全国语义网与知识图 保留它们各自的内部属性。Long等o在TCA基 谱计算大会(CCKS2017),也组织了医疗实体识别 础上提出了联合分布适配方法(joint distribution 的评测任务。传统命名实体识别采用最大熵、隐 adaptation,JDA),在源域和目标域条件分布不同 马尔科夫模型、支持向量机、条件随机场等方法, 的基础上,提出了联合分布适配方法,同时适配 但传统机器学习方法需要人工定义特征模板,并 源域和目标域的边缘分布和条件分布,在4种类 且无法充分获取隐含信息,对文本长距离依赖关 型的跨域图像分类任务上取得了较好的效果。卞 系难以捕捉。随着深度学习的快速发展以及卷积 则康等川提出一种基于相似度学习的多源域迁 神经网络(convolutional neural network,CNN)、循 移SL-MSTL算法,增加对多源域与目标域之间的 环神经网络(recurrent neural network,RNN)、长短 相似度学习,可以有效地利用各源域中的有用信 期记忆网络(long short-.term memory,LSTM)等学 息。庄福振介绍了迁移学习研究进展,并且针 习算法的提出,命名实体识别任务在获取隐含信 对迁移学习领域所做的工作和未来的方向做了总 息及捕捉长距离文字依赖关系上取得了长足的进 结和展望。 步。命名实体识别是典型的序列标注任务, 目前,已有命名实体识别方法在通用领域的 RNN可以很好地克服传统机器学习的文本长依 人名、地名、组织机构名上取得了较好的效果。 赖信息难以获取的缺点山,具有一定的记忆功能, 然而专业领域由于语料匮乏,导致领域命名实体 但RNN在训练算法时存在梯度弥散和梯度爆炸 识别进展缓慢且识别效果差强人意。因此,本文 问题。因此,Hochreiter等提出了LSTM方法, 针对专业领域语料匮乏、标注语料缺失等特点, LSTM是一种特殊的循环神经网络,能够学习到 引入迁移学习技术,构建基于深度学习的BL- 长期依赖关系,以解决RNN梯度消失和梯度爆炸 STM-CNN-CRFs网络模型,提出一种反馈式K近 的问题。Yoon)首次将CNN应用到自然语言处 邻语义迁移学习的领域命名实体识别算法。首 理领域并获得成功后,由于其可以利用窗口滑 先,对专业领域语料和通用领域语料分别训练得 动,可以很好地解决词之间的组合特征及一部分 到语料文档向量,使用马哈拉诺比斯距离计算领 依赖问题,故广泛的应用在自然语言处理领域。 域语料与通用语料的语义相似性,针对每个专业 张海楠等提出了一种用于深度学习框架的字词 领域样本分别取K个语义最相似的通用领域样 联合方法,结合字词特征,提高了系统性能,最终 本进行语义迁移学习,构建N个迁移语料集。然 取得了较好的F,值。Ma等提出了基于LSTM: 后,使用BiLSTM-CNN-CRFs网络模型对N个迁 CNN-CRFs的端对端序列标注方法,该模型无需 移语料集进行领域命名实体识别,并对识别结果 数据预处理和特征选择,在Conll2003语料库上 进行评估和前馈,根据反馈结果选取合适的 F,值为91.21%。Chiu等提出了BiLSTM-CNNs K值,作为语义迁移学习的最佳阈值。实验结果 的新型网络框架,在Coll2003语料库取得F,值 表明,K近邻语义迁移学习算法取得了较好的结 为91.61%的成绩。姚霖等m提出一种基于词边 果,可以有效解决专业领域语料匮乏问题。 界字向量的中文命名实体识别方法,在Sighan 深度学习BiLSTM-CNN-CRFs网 Bakeoff-.3语料中取得了F,值89.18%的效果,上 络模型构建 述文献证明了深度学习神经网络用于序列标注任 务的可行性和有效性。 本文利用CNN的词组合特点和LSTM的长 迁移学习图是运用已有知识对不同但是相关 期依赖关系,结合CRF作为解码输出,构建一种 领域问题进行求解的一种新的机器学习方法。其 基于深度学习的BiLSTM-CNN-CRFs网络模型, 放宽了传统机器学习的两个基本假设,通过减小 作为命名实体识别的学习算法。首先对文本的字 源域与目标域的数据分布差异,从而从已有的知 训练词向量,将词向量输入到CNN层,得到窗口 识中解决目标领域中仅有少量或没有标签样本数 词组合特征,再进一步输人到LSTM层,LSTM选 据的学习问题。Pan等提出了著名的迁移成分 取分数最高的标签作为输出。但LSTM默认词之 分析(transfer component analysis,TCA)方法,针对 间是独立分布的,并未考虑相邻词之间的相关性 域适配(domain adaptation)问题中源域和目标域 及其约束性,对于序列标注任务,相邻词之间的 处于不同数据分布,将2个领域的数据一起映射 标签相关性直接影响句子的最佳标签链,所以在
的重要地位,许多国际会议,如 MUC-6、MUC-7、 Conll2002 等,都将命名实体识别作为共享任务 (share tasks)。国内会议诸如全国语义网与知识图 谱计算大会 (CCKS 2017),也组织了医疗实体识别 的评测任务。传统命名实体识别采用最大熵、隐 马尔科夫模型、支持向量机、条件随机场等方法, 但传统机器学习方法需要人工定义特征模板,并 且无法充分获取隐含信息,对文本长距离依赖关 系难以捕捉。随着深度学习的快速发展以及卷积 神经网络 (convolutional neural network,CNN)、循 环神经网络 (recurrent neural network,RNN)、长短 期记忆网络 (long short-term memory ,LSTM) 等学 习算法的提出,命名实体识别任务在获取隐含信 息及捕捉长距离文字依赖关系上取得了长足的进 步。命名实体识别是典型的序列标注任务, RNN 可以很好地克服传统机器学习的文本长依 赖信息难以获取的缺点[1] ,具有一定的记忆功能, 但 RNN 在训练算法时存在梯度弥散和梯度爆炸 问题。因此,Hochreiter 等 [2] 提出了 LSTM 方法, LSTM 是一种特殊的循环神经网络,能够学习到 长期依赖关系,以解决 RNN 梯度消失和梯度爆炸 的问题。Yoon[3] 首次将 CNN 应用到自然语言处 理领域并获得成功后,由于其可以利用窗口滑 动,可以很好地解决词之间的组合特征及一部分 依赖问题,故广泛的应用在自然语言处理领域。 张海楠等[4] 提出了一种用于深度学习框架的字词 联合方法,结合字词特征,提高了系统性能,最终 取得了较好的 F1 值。Ma 等 [5] 提出了基于 LSTMCNN-CRFs 的端对端序列标注方法,该模型无需 数据预处理和特征选择,在 Conll2003语料库上 F1 值为 91.21%。Chiu 等 [6] 提出了 BiLSTM-CNNs 的新型网络框架,在 Conll2003 语料库取得 F1 值 为 91.61% 的成绩。姚霖等[7] 提出一种基于词边 界字向量的中文命名实体识别方法,在 Sighan Bakeoff-3 语料中取得了 F1 值 89.18% 的效果,上 述文献证明了深度学习神经网络用于序列标注任 务的可行性和有效性。 迁移学习[8] 是运用已有知识对不同但是相关 领域问题进行求解的一种新的机器学习方法。其 放宽了传统机器学习的两个基本假设,通过减小 源域与目标域的数据分布差异,从而从已有的知 识中解决目标领域中仅有少量或没有标签样本数 据的学习问题。Pan 等 [9] 提出了著名的迁移成分 分析 (transfer component analysis,TCA) 方法,针对 域适配 (domain adaptation) 问题中源域和目标域 处于不同数据分布,将 2 个领域的数据一起映射 到一个高维的再生核希尔伯特空间,并在此空间 中最小化源和目标的数据距离,同时最大程度地 保留它们各自的内部属性。Long 等 [10] 在 TCA 基 础上提出了联合分布适配方法 (joint distribution adaptation ,JDA),在源域和目标域条件分布不同 的基础上,提出了联合分布适配方法,同时适配 源域和目标域的边缘分布和条件分布,在 4 种类 型的跨域图像分类任务上取得了较好的效果。卞 则康等[11] 提出一种基于相似度学习的多源域迁 移 SL-MSTL 算法,增加对多源域与目标域之间的 相似度学习,可以有效地利用各源域中的有用信 息。庄福振[12] 介绍了迁移学习研究进展,并且针 对迁移学习领域所做的工作和未来的方向做了总 结和展望。 目前,已有命名实体识别方法在通用领域的 人名、地名、组织机构名上取得了较好的效果。 然而专业领域由于语料匮乏,导致领域命名实体 识别进展缓慢且识别效果差强人意。因此,本文 针对专业领域语料匮乏、标注语料缺失等特点, 引入迁移学习技术,构建基于深度学习的 BiLSTM-CNN-CRFs 网络模型,提出一种反馈式 K 近 邻语义迁移学习的领域命名实体识别算法。首 先,对专业领域语料和通用领域语料分别训练得 到语料文档向量,使用马哈拉诺比斯距离计算领 域语料与通用语料的语义相似性,针对每个专业 领域样本分别取 K 个语义最相似的通用领域样 本进行语义迁移学习,构建 N 个迁移语料集。然 后,使用 BiLSTM-CNN-CRFs 网络模型对 N 个迁 移语料集进行领域命名实体识别,并对识别结果 进行评估和前馈,根据反馈结果选取合适 的 K 值,作为语义迁移学习的最佳阈值。实验结果 表明,K 近邻语义迁移学习算法取得了较好的结 果,可以有效解决专业领域语料匮乏问题。 1 深度学习 BiLSTM-CNN-CRFs 网 络模型构建 本文利用 CNN 的词组合特点和 LSTM 的长 期依赖关系,结合 CRF 作为解码输出,构建一种 基于深度学习的 BiLSTM-CNN-CRFs 网络模型, 作为命名实体识别的学习算法。首先对文本的字 训练词向量,将词向量输入到 CNN 层,得到窗口 词组合特征,再进一步输入到 LSTM 层,LSTM 选 取分数最高的标签作为输出。但 LSTM 默认词之 间是独立分布的,并未考虑相邻词之间的相关性 及其约束性,对于序列标注任务,相邻词之间的 标签相关性直接影响句子的最佳标签链,所以在 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·821·
·822· 智能系统学报 第14卷 输出层使用条件随机场(CRF)进行联合建模以解 LSTM,BiLSTM)应运而生,其基本思想是将每个 码标签序列。 序列向前和向后呈现为两个单独的隐藏状态,分 1.1词向量 别捕获过去和未来的信息,然后将两个隐藏状态 自然语言理解的问题首先要转化成机器能够 链接形成最终输出。BiLSTM相较于LSTM识别 处理的问题,词向量(word Embedding)提供了一 效果更好,故本文使用BiLSTM作为一层网络。 种将文本表达映射到低维向量空间的方法,词向 由于BiLSTM仅对于标签之间的独立任务(如词 量解决了传统稀疏表示的“词汇沟鸿”缺点,通过 性标注)识别效果较好,而命名实体识别标签则 将词汇映射到一个新的低维空间,解决了维数灾 是互相关联的,故考虑在BiLSTM输出层加入 难问题,并且可以挖掘到词汇之间的关联属性, CRF层以增加约束,进行联合解码标签序列。 提高向量语义的准确度。针对专业领域语料容易 假设一个序列“中国包装网讯”及其序列标注 出现分词不准确,从而导致实体被错分出现无法 如表1所示。 识别的问题,本文不直接进行分词,采取训练字 表1词序列及其标注 Table 1 Word sequence and its annotation 符级别的词向量方法,词向量形式如下: w:=[yoV1…Vn] (1) 词(word 标签label) 式中:n为词向量维度。 中 B-ORG 1.2CNN层 国 1-ORG 卷积神经网络(CNN)通常用于字符级信息建 包 I-ORG 模等自然语言处理任务,本文使用CNN对输人字 装 I-ORG 的词向量利用窗口滑动将当前字与前后汉字连 网 I-ORG 接,计算前后字对当前字的影响,所生成的词表 讯 0 示词语特征。本文以“中国包装网讯”一词为例, 其CNN层结构如图1所示。卷积完成后提取出 将以上词序列的词向量输入BiLSTM-CRFs 字符与字符之间的上下文信息,生成词语和句子 网络,假设以上词序列的词向量为: 表示特征,再输入到下层神经网络中。 W=Wo WI W2 W3 W4 Ws (2) Padding 中 国 包 装 网 讯 Padding 将式(②)作为BiLSTM-CRFs的输入,如图2所示。 Word embedding B-ORG I-ORG L-ORG L-ORG LORG 】 层 CRF CRF CRE CRE CRF 卷积 Dropout B-ORG 15 03 025 02 005 0.05 最大池化层 I-■RG 0.8 0.s 0.4 0.5 0.25 0.35 0.03 0.13 0.05 0.09 0.15 0.5 词语表示 图1CNN层结构示意图 01 4 O. Fig.1 CNN layer structure diagram 1.3LSTM层与CRF层 图2 BiLSTM-CRFs网络结构 LSTM是一种特殊的循环神经网络(RNN), Fig.2 BiLSTM-CRFs network structure diagram 一个LSTM单元是由一个cell和输人门(input)、 由图2可知,BiLSTM输出每个字或词标签 输出门(output)、遗忘门(forget)组成。LSTM自提 的分数,以wo为例,BiLSTM输出得分B-ORG(1.5)、 出后,很多研究人员针对LSTM做了一系列优化 I-ORG(0.8)、O(0.03),但是在BiLSTM预测过程 改进工作,现已被应用于自然语言处理领域的各 中,如果出现句首I-ORG标签分数大于B-ORG的 个方面。LSTM的特性使得其只能获取到本单元 情况,此时BiLSTM会选择分数最高的I-ORG标 之前的所有单元的信息,但是无法获取此单元后 注在句首,而CRF层的加入可以为最终的预测标 的所有单元信息,因此双向LSTM(bi-directional 签添加一些限制,防止这种非法标签的出现。在
输出层使用条件随机场 (CRF) 进行联合建模以解 码标签序列。 1.1 词向量 自然语言理解的问题首先要转化成机器能够 处理的问题,词向量[13] (word Embedding) 提供了一 种将文本表达映射到低维向量空间的方法,词向 量解决了传统稀疏表示的“词汇沟鸿”缺点,通过 将词汇映射到一个新的低维空间,解决了维数灾 难问题,并且可以挖掘到词汇之间的关联属性, 提高向量语义的准确度。针对专业领域语料容易 出现分词不准确,从而导致实体被错分出现无法 识别的问题,本文不直接进行分词,采取训练字 符级别的词向量方法,词向量形式如下: wi = [v0 v1 ··· vn] (1) 式中:n为词向量维度。 1.2 CNN 层 卷积神经网络 (CNN) 通常用于字符级信息建 模等自然语言处理任务,本文使用 CNN 对输入字 的词向量利用窗口滑动将当前字与前后汉字连 接,计算前后字对当前字的影响,所生成的词表 示词语特征。本文以“中国包装网讯”一词为例, 其 CNN 层结构如图 1 所示。卷积完成后提取出 字符与字符之间的上下文信息,生成词语和句子 表示特征,再输入到下层神经网络中。 中 国 包 装 网 Word embedding 层 Padding Padding 卷积 Dropout 最大池化层 词语表示 讯 图 1 CNN 层结构示意图 Fig. 1 CNN layer structure diagram 1.3 LSTM 层与 CRF 层 LSTM 是一种特殊的循环神经网络 (RNN), 一个 LSTM 单元是由一个 cell 和输入门 (input)、 输出门 (output)、遗忘门 (forget) 组成。LSTM 自提 出后,很多研究人员针对 LSTM 做了一系列优化 改进工作,现已被应用于自然语言处理领域的各 个方面。LSTM 的特性使得其只能获取到本单元 之前的所有单元的信息,但是无法获取此单元后 的所有单元信息,因此双向 LSTM(bi-directional LSTM,BiLSTM) 应运而生,其基本思想是将每个 序列向前和向后呈现为两个单独的隐藏状态,分 别捕获过去和未来的信息,然后将两个隐藏状态 链接形成最终输出。BiLSTM 相较于 LSTM 识别 效果更好,故本文使用 BiLSTM 作为一层网络。 由于 BiLSTM 仅对于标签之间的独立任务 (如词 性标注) 识别效果较好,而命名实体识别标签则 是互相关联的,故考虑在 BiLSTM 输出层加入 CRF 层以增加约束,进行联合解码标签序列。 假设一个序列“中国包装网讯”及其序列标注 如表 1 所示。 表 1 词序列及其标注 Table 1 Word sequence and its annotation 词(word) 标签(label) 中 B-ORG 国 I-ORG 包 I-ORG 装 I-ORG 网 I-ORG 讯 O 将以上词序列的词向量输入 BiLSTM-CRFs 网络,假设以上词序列的词向量为: w = [w0 w1 w2 w3 w4 w5] (2) 将式 (2) 作为 BiLSTM-CRFs 的输入,如图 2 所示。 ω0 ω1 ω2 ω3 ω4 ω5 BiLSTM BiLSTM BiLSTM BiLSTM BiLSTM B-ORG I-ORG O 0.3 0.5 0.13 1.5 0.8 0.03 0.25 0.4 0.05 0.2 0.5 0.09 0.05 0.25 0.15 CRF CRF CRF CRF CRF B-ORG I-ORG I-ORG I-ORG I-ORG BiLSTM 0.05 0.35 0.5 CRF O 图 2 BiLSTM-CRFs 网络结构 Fig. 2 BiLSTM-CRFs network structure diagram w0 由图 2 可知,BiLSTM 输出每个字或词标签 的分数,以 为例,BiLSTM 输出得分 B-ORG(1.5)、 I-ORG(0.8)、O(0.03),但是在 BiLSTM 预测过程 中,如果出现句首 I-ORG 标签分数大于 B-ORG 的 情况,此时 BiLSTM 会选择分数最高的 I-ORG 标 注在句首,而 CRF 层的加入可以为最终的预测标 签添加一些限制,防止这种非法标签的出现。在 ·822· 智 能 系 统 学 报 第 14 卷
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·823· 训练过程中,这些约束可以由CRF层从训练数据 算机的普及与发展已产生大量的非结构化文本, 集中自动学习,从而得到句子的最佳序列标注。 但这些语料并未标注,导致专业领域文本训练语 1.4基于深度学习的BiLSTM-CNN-CRFs网络模型 料严重缺乏。而随着互联网行业与移动互联网的 本文构建的用于领域命名实体识别的基于深 发展,互联网上产生了海量的通用领域新闻文 度学习的BiLSTM-CNN-CRFs网络模型如图3所 本,且形成了成熟的标注语料库。而通用领域新 示。对于一个句子序列,将每个字的词向量输人 闻文本与专业领域新闻文本同属新闻语料,彼此 到CNN网络中,并在使用时对词向量进行微调 具有一定的相似性和数据同分布性,这为我们提 (fine tuning),采用CNN的窗口滑动功能得到词表 供了解决特定领域文本严重不足的思路。 示向量,然后将词表示向量与字的词向量馈送至 为了解决领域训练语料严重缺乏的现实,本 BiLSTM网络中,学习到句子序列标签的最高得 文应用迁移学习方法从通用新闻语料中得到与专 分(虚线表示引入Dropout层防止数据过拟合)。 业领域语料语义正相关的数据以扩充领域语料 最后BiLSTM输出的向量再馈送至CRF层, 集。应用迁移学习技术解决专业领域语料不足的 CRF通过从训练语料中自学习得到约束,对BiL 问题,面临的主要挑战如下:1)如何表达通用新 STM中的输出向量进行联合标签解码。在卷积 闻数据中的知识,以适配专业领域样本语义中的 过程和BiLSTM预测过程中引人Dropout:技术以 知识与分布,从而达到迁移目的:2)在解决1)中 防止过拟合现象。 问题的基础上,如何衡量通用新闻语料与领域新 闻语料的相似性;3)对于迁移的标准与质量应该 SIM CRF B-ORG 如何度量,何时达到迁移阈值,停止迁移,防止 “负迁移”出现。 针对上述挑战,本文提出一种反馈式K近邻 STM LSIM CRF I-ORG 语义迁移学习(feedback K-Nearest-neighbor semant- ic transfer learning,F-KNST)算法,并采用BiL STM I-ORG STM-CNN-CRFs深度学习网络模型,对领域实体 进行识别,其流程如图4所示。针对1),本文选用 STM STM I-ORG 文档向量(Doc2Vec)衡量通用新闻语料与领域语 料的语义差异性。Doc2Vec1是由Quoc Le和 Tomas Mikolov在Word2Vec的基础上提出的,文 STM STM CRF L-ORG 档向量充分利用了词向量和段落向量(paragraphs vectors),可以很好地预测文档之间的语义相似 STM STM CRF 性。针对2),本文提出一种使用马哈拉诺比斯距 离(马氏距离)的语义距离度量方法。传统欧氏 Word Char Farword Backword embedding representation LSTM LSTM CRF Lays Output 距离存在无法结合先验知识、同等看待样本等局 限性,在实际应用中常无法满足需求。马氏距离 图3基于深度学习的BiLSTM-CNN-CRFs网络模型 Fig.3 BiLSTM-CNN-CRFs network model based on deep 是由印度统计学家马哈拉诺比斯提出的,表示数 learning 据的协方差距离,它是一种有效的计算2个未知 样本集的相似度的方法,其协方差特性不仅可以 2反馈式K近邻语义迁移学习算法 结合数据的统计特性,还能兼顾到样本的相关 2.1问题描述 性。杨绪兵等已经通过证明和相关实验验证 传统机器学习假设训练数据与测试数据满足 了马氏距离相对于欧氏距离的优越性。针对3), 数据同分布,然而现实中的大量数据并不满足这 提出F-KNST算法,从1)和2)中得到通用新闻语 种同分布假设。随着深度学习的发展,对数据量 料与领域语料的语义向量距离作为迁移标准,从 的要求不断增大,现实中很难获取到如此大量的 通用新闻语料中获取K个与每篇特定领域语料 同分布数据集。在此背景下,迁移学习的提出, 最相近的文本,从而达到扩充领域语料集的目 为数据量不足的问题提供了新的解决思路。迁移 的。将扩充的语料集送入1.4节所述网络模型中 学习可以利用已有的数据迁移知识,用于帮助目 进行实体识别,由实体识别结果作为反馈不断修 标域中的学习问题。针对特定领域,虽然随着计 正K值,从而实现最佳迁移标准与质量
训练过程中,这些约束可以由 CRF 层从训练数据 集中自动学习,从而得到句子的最佳序列标注。 1.4 基于深度学习的 BiLSTM-CNN-CRFs 网络模型 本文构建的用于领域命名实体识别的基于深 度学习的 BiLSTM-CNN-CRFs 网络模型如图 3 所 示。对于一个句子序列,将每个字的词向量输入 到 CNN 网络中,并在使用时对词向量进行微调 (fine tuning),采用 CNN 的窗口滑动功能得到词表 示向量,然后将词表示向量与字的词向量馈送至 BiLSTM 网络中,学习到句子序列标签的最高得 分 (虚线表示引入 Dropout 层防止数据过拟合)。 最 后 BiLSTM 输出的向量再馈送 至 C RF 层 , CRF 通过从训练语料中自学习得到约束,对 BiLSTM 中的输出向量进行联合标签解码。在卷积 过程和 BiLSTM 预测过程中引入 Dropout 技术以 防止过拟合现象。 Char representation LSTM LSTM CRF CRF Lays 中 Output 国 LSTM LSTM CRF 包 LSTM LSTM CRF I-ORG 装 LSTM LSTM CRF I-ORG 网 Farword LSTM Word embedding Backword LSTM B-ORG I-ORG I-ORG 讯 LSTM LSTM CRF LSTM LSTM CRF O 图 3 基于深度学习的 BiLSTM-CNN-CRFs 网络模型 Fig. 3 BiLSTM-CNN-CRFs network model based on deep learning 2 反馈式 K 近邻语义迁移学习算法 2.1 问题描述 传统机器学习假设训练数据与测试数据满足 数据同分布,然而现实中的大量数据并不满足这 种同分布假设。随着深度学习的发展,对数据量 的要求不断增大,现实中很难获取到如此大量的 同分布数据集。在此背景下,迁移学习的提出, 为数据量不足的问题提供了新的解决思路。迁移 学习可以利用已有的数据迁移知识,用于帮助目 标域中的学习问题。针对特定领域,虽然随着计 算机的普及与发展已产生大量的非结构化文本, 但这些语料并未标注,导致专业领域文本训练语 料严重缺乏。而随着互联网行业与移动互联网的 发展,互联网上产生了海量的通用领域新闻文 本,且形成了成熟的标注语料库。而通用领域新 闻文本与专业领域新闻文本同属新闻语料,彼此 具有一定的相似性和数据同分布性,这为我们提 供了解决特定领域文本严重不足的思路。 为了解决领域训练语料严重缺乏的现实,本 文应用迁移学习方法从通用新闻语料中得到与专 业领域语料语义正相关的数据以扩充领域语料 集。应用迁移学习技术解决专业领域语料不足的 问题,面临的主要挑战如下:1) 如何表达通用新 闻数据中的知识,以适配专业领域样本语义中的 知识与分布,从而达到迁移目的;2) 在解决 1) 中 问题的基础上,如何衡量通用新闻语料与领域新 闻语料的相似性;3) 对于迁移的标准与质量应该 如何度量,何时达到迁移阈值,停止迁移,防止 “负迁移”出现。 针对上述挑战,本文提出一种反馈式 K 近邻 语义迁移学习 (feedback K-Nearest-neighbor semantic transfer learning,F-KNST) 算法,并采用 BiLSTM-CNN-CRFs 深度学习网络模型,对领域实体 进行识别,其流程如图 4 所示。针对 1),本文选用 文档向量 (Doc2Vec) 衡量通用新闻语料与领域语 料的语义差异性。Doc2Vec[14] 是由 Quoc Le 和 Tomas Mikolov 在 Word2Vec 的基础上提出的,文 档向量充分利用了词向量和段落向量 (paragraphs vectors),可以很好地预测文档之间的语义相似 性。针对 2),本文提出一种使用马哈拉诺比斯距 离 [15] (马氏距离) 的语义距离度量方法。传统欧氏 距离存在无法结合先验知识、同等看待样本等局 限性,在实际应用中常无法满足需求。马氏距离 是由印度统计学家马哈拉诺比斯提出的,表示数 据的协方差距离,它是一种有效的计算 2 个未知 样本集的相似度的方法,其协方差特性不仅可以 结合数据的统计特性,还能兼顾到样本的相关 性。杨绪兵等[16] 已经通过证明和相关实验验证 了马氏距离相对于欧氏距离的优越性。针对 3), 提出 F-KNST 算法,从 1) 和 2) 中得到通用新闻语 料与领域语料的语义向量距离作为迁移标准,从 通用新闻语料中获取 K 个与每篇特定领域语料 最相近的文本,从而达到扩充领域语料集的目 的。将扩充的语料集送入 1.4 节所述网络模型中 进行实体识别,由实体识别结果作为反馈不断修 正 K 值,从而实现最佳迁移标准与质量。 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·823·
·824· 智能系统学报 第14卷 通用新闻个 Doc2Vec 领域新闻 Doc2Vec 数据集 数据集 通用新闻数据 领域新闻数据 Doc2Vec集 Doc2Vec集 反馈 K近邻语义迁移适配 领域新闻数据 领域新闻数据 领域新闻数据 领域新闻数据 扩展集1 扩展集2 扩展集N1 扩展集N BiLSTM-CNN-CRFs 识别结果1 识别结果2 识别结果1 识别结果W 输出最佳识别结果 图4反馈式K近邻语义迁移学习的领域命名实体识别流程 Fig.4 F-KNST domain named entity recognition flowchart 2.2F-KNST算法实现 3)初始化k值: 通用新闻数据集(以下称源域)中存在许多可 4)dt)∈D(0)n,从D()n中获取目标域样本文档 以迁移到特定领域新闻数据集(以下称目标 向量dt): 域)的知识。由于目标域除了行业名词之外,与 5)d(s)eD(s)m,从D(s)m中获取源域样本文档 源域数据格式、报道措辞均相差不大,数据分布 向量d(s: 基本满足独立同分布。因此,从源域中获取与目 6)使用式(4)计算样本语义相似度距离 标域中语义相近的新闻语料以填充目标域可以更 Dist(du,d(s);针对每个目标域样本j,从源域提 加丰富目标域中数据分布特点,扩充目标域中语 取k个最相关的源域样本,加入到目标域数据扩展 义特征,使目标域在后续预训练和训练过程中获 集yem 取到足够的语义信息及类实体特征。 7)对ym中样本进行预处理,预训练,送入 1)马氏距离定义 BiLSTM+CNN+CRFs网络模型中训练,得到实体 设随机向量x∈R",来自分布X(XcR"),E∈R 识别结果; 与∑∈R"×"分别表示X的期望和协方差,{x:"是 8)更新k值,重复执行4)7),返回N组实体识 x的一组观测值,并且满足独立同分布条件。 别结果: 定义1设x为空间R的一个n维向量,Σ是 9)根据实体识别反馈的结果,选择识别结果 分布X的协方差,则称 最好的值,当k=时,即为最佳迁移样本数: xlly VxTE-x (3) 10)输出k=时的目标域数据扩展集yea 为此分布下x的M范数。 3实验与分析 定义2在M范数定义下,若x,yeR,则马 氏距离定义为: 为验证本文所提出算法的有效性,本文分别 d(x.y)=v(x-y)E-(x-y) (4) 以包装领域和医疗领域为例进行命名实体识别实验。 2)F-KNST算法描述 3.1包装领域命名实体识别 输入源域数据集X,目标域数据集X,样本 3.11数据准备 近邻数k: 中国包装网作为我国最大的包装行业专业网 输出目标域数据扩展集ym; 站,包含了大量的包装领域文本。本文从中国包 1)输入源域数据集X,目标域数据集X: 装网”上获取包装行业新闻作为实验数据构成 2)对X和X分别训练文档向量。得到源域向 迁移学习目标域样本,共计500篇。为保证源域 量集D(s)m,D(s)m={d(s),d(s2),…,dsm)l,目标域向 与目标域的样本分布,本文选取搜狗实验室的 量集D(0m,D(i)n={dt),dt2)…,d(tn); 全网新闻语料,通过xml解析并去除Html标签后
K 近邻语义迁移适配 领域新闻 数据集 Doc2Vec 领域新闻数据 Doc2Vec 集 通用新闻 数据集 Doc2Vec 通用新闻数据 Doc2Vec 集 领域新闻数据 扩展集 1 领域新闻数据 扩展集 2 领域新闻数据 扩展集 N-1 领域新闻数据 … 扩展集 N 识别结果 1 BiLSTM-CNN-CRFs 识别结果 2 … 识别结果 N-1 识别结果 N 反馈 输出最佳识别结果 图 4 反馈式 K 近邻语义迁移学习的领域命名实体识别流程 Fig. 4 F-KNST domain named entity recognition flowchart 2.2 F-KNST 算法实现 通用新闻数据集 (以下称源域) 中存在许多可 以迁移到特定领域新闻数据 集 (以下称目标 域) 的知识。由于目标域除了行业名词之外,与 源域数据格式、报道措辞均相差不大,数据分布 基本满足独立同分布。因此,从源域中获取与目 标域中语义相近的新闻语料以填充目标域可以更 加丰富目标域中数据分布特点,扩充目标域中语 义特征,使目标域在后续预训练和训练过程中获 取到足够的语义信息及类实体特征。 1) 马氏距离定义 ⊆ X {xi}1 n x 设随机向量 x∈R n ,来自分布 X(X R n ),E∈R n 与 Σ∈R n × n 分别表示 的期望和协方差, 是 的一组观测值,并且满足独立同分布条件。 定义 1 设 x 为空间 R n n 的一个 维向量,Σ 是 分布 X 的协方差,则称 ∥x∥M = √ x TΣ−1 x (3) 为此分布下 x 的 M 范数。 ∀x, y ∈ R 定义 d 2 在 M 范数定义下,若 ,则马 氏距离定义为: d(x, y) = √ (x−y)Σ−1 (x−y) (4) 2)F-KNST 算法描述 Xs Xt k 输入 源域数据集 ,目标域数据集 ,样本 近邻数 ; 输出 目标域数据扩展集 yext; 1) 输入源域数据集 Xs Xt ,目标域数据集 ; Xs Xt D(s)m D(s)m = {d(s1),d(s2),··· ,d(sm)} D(t)n D(t)n = {d(t1),d(t2),··· ,d(tn)} 2) 对 和 分别训练文档向量。得到源域向 量集 , ,目标域向 量集 , ; 3) 初始化 k 值; d(ti) ∈ D(t)n D(t)n d(ti) 4) ,从 中获取目标域样本文档 向量 ; d(sj) ∈ D(s)m D(s)m d(sj) 5) ,从 中获取源域样本文档 向量 ; Dist(d(ti),d(sj)) j k yext 6 ) 使 用 式 ( 4 ) 计算样本语义相似度距离 ;针对每个目标域样本 ,从源域提 取 个最相关的源域样本,加入到目标域数据扩展 集 ; 7) 对 yext 中样本进行预处理,预训练,送入 BiLSTM+CNN+CRFs 网络模型中训练,得到实体 识别结果; 8) 更新 k 值,重复执行 4)~7),返回 N 组实体识 别结果; ˜k k ˜k 9) 根据实体识别反馈的结果,选择识别结果 最好的 值,当 = 时,即为最佳迁移样本数; k ˜ 10) 输出 =k 时的目标域数据扩展集 yext。 3 实验与分析 为验证本文所提出算法的有效性,本文分别 以包装领域和医疗领域为例进行命名实体识别实验。 3.1 包装领域命名实体识别 3.1.1 数据准备 中国包装网作为我国最大的包装行业专业网 站,包含了大量的包装领域文本。本文从中国包 装网[17] 上获取包装行业新闻作为实验数据构成 迁移学习目标域样本,共计 500 篇。为保证源域 与目标域的样本分布,本文选取搜狗实验室[18] 的 全网新闻语料,通过 xml 解析并去除 Html 标签后 ·824· 智 能 系 统 学 报 第 14 卷
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·825· 得到共计3.8GB约120万篇新闻,作为源域数据 表4实验软硬件环境 集。为更好的完成包装领域命名实体识别任务 Table 4 Experimental software and hardware environ- 获取了包装领域专家完成的包装领域产业分类体 ment 系结构,确定了如表2所示6类实体类别。 项目 环境 GPU NVIDIA Quadro K1200 表2包装实体类别及其含义 内存 16 GB Table 2 Packaging entity categories and their meanings 硬盘 1TG 包装实体类别 含义 系统 Ubuntu16.04 LTS 包装相关人名 包含包装产业从业者与包装代表性人物 Python版本 Python3 TensorFlow版本 地名 泛指地名 TensorFlow1.2.1 组织机构名 包含政府、中国包装联合会、高校等 本文使用Doc2Vec计算源域与目标域的文档 包装事件 泛指包装会议、相关峰会、论坛等 向量,并且使用Word2vec对目标域扩展集预训练 包装产品与设计包含包装产品、原料、材料、设计、作品等 词向量,F-KNST算法中初始值K=100,以100为 包装知识点 包装专业词汇,技术文档、专利、论文等 步长分别获取7组数据构成7个目标域扩展集。 设计的实验参数如表5、表6所示。 由于包装语料中包含大量的包装专业名词, 表5Doc2Vec参数表 如“瓦楞纸板”、“静电复印纸”等,故对包装语料 Table 5 Doc2Vec parameter list 进行分词容易导致实体被错分,从而导致无法识 参数 值 别命名实体。所以本文选择字标注方法对包装语 算法 DM 料进行标注,采用BIO标注法,其中B表示实体 窗口大小 10 的开头,I表示实体的剩余部分,O表示非实体序 向量维数 100 列。具体实体类别及其标注方法如表3所示。 最小词频 5 学习速率 0.025.递减至0.001 表3实体标注方法 Table 3 Entity labeling method 迭代次数 100 实体类别 标注编码 表6Word2Vec参数表 包装相关人名 B-NA/I-NA Table 6 Word2Vec parameter list 地名 B-LOC/I-LOC 参数 值 组织机构名 B-ORG/I-ORG 算法 包装事件 skip-gram B-EV/I-EV 窗口大小 包装产品与设计 5 B-PROD/I-PROD 向量维数 包装知识点 200 B-PAT/I-PAT 最小词频 5 非实体 0 学习速率 0.025,递减至0.001 在确定包装领域实体类别及其标注方法后, 迭代次数 100 本文采用人工标注与CF相结合的迭代修正方 基于深度学习的BiLSTM+CNN+CRFs网络模 式对包装语料进行标注。首先人工标注50篇文 型参数如表7所示。 章,然后将其送入CRF中进行训练,得到实体识 表7 BiLSTM-CNN-CRFs模型参数表 别模型,并预测50篇未标注文档,再使用人工方 Table 7 BiLSTM-CNN-CRFS model parameter table 法对CRF模型标注错误的数据进行修正,得到 网络层 参数 值 100篇标注文本。再将100篇未标注文档送入 CNN窗口大小 2 CRF中进行训练识别,如此反复。随着语料的增 学习率 0.002 加,CRF的拟合结果越来越好,人工修改的工作 CNN 微调 True 量逐渐减少,最终迭代完成后形成500篇质量较 隐藏层 200 高的标注语料。 L2正则化 0.0001 3.1.2实验设计及参数设置 BatchSize 10 BiLSTM 本文实验使用TensorFlow框架编写BiLSTM: 迭代次数 100 CNN-CRFs网络模型,软硬件环境如表4所示。 Dropout 0.5
得到共计 3.8 GB 约 120 万篇新闻,作为源域数据 集。为更好的完成包装领域命名实体识别任务, 获取了包装领域专家完成的包装领域产业分类体 系结构,确定了如表 2 所示 6 类实体类别。 表 2 包装实体类别及其含义 Table 2 Packaging entity categories and their meanings 包装实体类别 含义 包装相关人名 包含包装产业从业者与包装代表性人物 地名 泛指地名 组织机构名 包含政府、中国包装联合会、高校等 包装事件 泛指包装会议、相关峰会、论坛等 包装产品与设计 包含包装产品、原料、材料、设计、作品等 包装知识点 包装专业词汇,技术文档、专利、论文等 由于包装语料中包含大量的包装专业名词, 如“瓦楞纸板”、“静电复印纸”等,故对包装语料 进行分词容易导致实体被错分,从而导致无法识 别命名实体。所以本文选择字标注方法对包装语 料进行标注,采用 BIO 标注法,其中 B 表示实体 的开头,I 表示实体的剩余部分,O 表示非实体序 列。具体实体类别及其标注方法如表 3 所示。 表 3 实体标注方法 Table 3 Entity labeling method 实体类别 标注编码 包装相关人名 B-NA/I-NA 地名 B-LOC/I-LOC 组织机构名 B-ORG/I-ORG 包装事件 B-EV/I-EV 包装产品与设计 B-PROD/I-PROD 包装知识点 B-PAT/I-PAT 非实体 O 在确定包装领域实体类别及其标注方法后, 本文采用人工标注与 CRF 相结合的迭代修正方 式对包装语料进行标注。首先人工标注 50 篇文 章,然后将其送入 CRF 中进行训练,得到实体识 别模型,并预测 50 篇未标注文档,再使用人工方 法对 CRF 模型标注错误的数据进行修正,得到 100 篇标注文本。再将 100 篇未标注文档送入 CRF 中进行训练识别,如此反复。随着语料的增 加,CRF 的拟合结果越来越好,人工修改的工作 量逐渐减少,最终迭代完成后形成 500 篇质量较 高的标注语料。 3.1.2 实验设计及参数设置 本文实验使用 TensorFlow 框架编写 BiLSTMCNN-CRFs 网络模型,软硬件环境如表 4 所示。 表 4 实验软硬件环境 Table 4 Experimental software and hardware environment 项目 环境 GPU NVIDIA Quadro K1200 内存 16 GB 硬盘 1 TG 系统 Ubuntu16.04 LTS Python版本 Python3 TensorFlow版本 TensorFlow1.2.1 本文使用 Doc2Vec 计算源域与目标域的文档 向量,并且使用 Word2vec 对目标域扩展集预训练 词向量,F-KNST 算法中初始值 K=100,以 100 为 步长分别获取 7 组数据构成 7 个目标域扩展集。 设计的实验参数如表 5、表 6 所示。 表 5 Doc2Vec 参数表 Table 5 Doc2Vec parameter list 参数 值 算法 DM 窗口大小 10 向量维数 100 最小词频 5 学习速率 0.025,递减至0.001 迭代次数 100 表 6 Word2Vec 参数表 Table 6 Word2Vec parameter list 参数 值 算法 skip-gram 窗口大小 5 向量维数 200 最小词频 5 学习速率 0.025,递减至0.001 迭代次数 100 基于深度学习的 BiLSTM+CNN+CRFs 网络模 型参数如表 7 所示。 表 7 BiLSTM-CNN-CRFs 模型参数表 Table 7 BiLSTM-CNN-CRFS model parameter table 网络层 参数 值 CNN CNN窗口大小 2 学习率 0.002 微调 True 隐藏层 200 BiLSTM L2正则化 0.0001 BatchSize 10 迭代次数 100 Dropout 0.5 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·825·
·826· 智能系统学报 第14卷 3.1.3实验结果与分析 类的数目;FN(false negative)表示正类被预测为 评价指标采用准确率、召回率和F值。这 负数的数目。 3个指标广泛用于信息检索和统计学分类领域, 本文将包装标注语料按照6:2:2的比例切分 用于评估结果质量。准确率、召回率和F值定义如下: 为训练集、验证集和测试集,分别使用LSTM TP CRF模型、BiLSTM-CRF模型和BiLSTM-CNN P= ×100% (TP+FP) CRFs模型对迁移和非迁移方法进行对比实验。 TP R= ×100% (5) 1)反馈值K的选取实验 (TP+FN) 2xPXR 分别使用LSTM-CRF、BiLSTM-CRF和BiL F= P+R STM-CNN-CRFs3组模型进行语义迁移学习,识 式中:TP(true positive)表示正类且被预测为正类 别包装领域实体,所获得的识别效果随K值的变 的数目;FP(false positive)表示负类且被预测为正 化情况如表8所示。 表8识别结果随K值的变化情况 Table 8 The experimental results changed with K 参数 K=0 K=100 K=200 K=300 K=400 K=500 K=600 K=700 59.36 60.01 61.94 64.34 65.16 65.34 64.74 64.45 LSTM-CRF R 43.19 52.45 52.15 57.20 58.34 57.81 57.10 56.39 R 50.00 55.98 56.61 60.56 61.56 61.34 60.68 60.15 60.51 60.55 61.12 67.69 68.15 67.41 67.53 66.97 BiLSTM-CRF R 45.28 55.78 56.59 59.28 59.28 59.00 58.22 59.07 51.80 58.07 58.77 63.21 63.41 62.92 62.53 62.78 P 65.28 68.27 71.96 71.03 71.42 70.96 71.43 70.28 BiLSTM-CNN-CRFs R 46.37 75.06 70.27 71.57 72.20 72.99 71.57 70.96 54.22 71.50 71.11 71.30 71.81 71.96 71.50 70.62 各模型识别结果如图5~图7所示。 0.8 P 实验结果表明,3组模型的P、R和F值,均先 R F 随着K值的增大呈上升趋势,当达到某一特定值 0.7 时反而呈下降趋势,LSTM-CRF和BiLSTM- 0.6 CRF模型在K=400时F值达到最大,而BiLSTM- CNN-CRFs模型在K=500时F值达到最大。证明 0.5 了随着迁移语义知识的增加,提高了模型的识别 率。但随着领域新闻数据与通用新闻数据样本语 0.4 00 200300400500600700 义距离的增大,准确率、召回率和F值反而开始 下降。这是由于随着语义距离的增大,通用新闻 图6LSTM-CRF识别结果 数据与领域新闻数据语义相关性降低,此时引入 Fig.6 LSTM-CRF results 0.8 0.8r P +R 0.7 是一F 0.7 P 0.6 0.6 晋R F 0.5 0.5 0.4 00200300400500600700 “100200300400500600700 K 图5 BiLSTM-CNN-CRFs识别结果 图7 BiLSTM-CRF识别结果 Fig.5 BiLSTM-CNN-CRFs results Fig.7 BiLSTM-CRF results
3.1.3 实验结果与分析 评价指标采用准确率、召回率和 F 值。这 3 个指标广泛用于信息检索和统计学分类领域, 用于评估结果质量。准确率、召回率和F值定义如下: P = TP (TP+FP) ×100% R = TP (TP+FN) ×100% F = 2×P×R P+R (5) 式中:TP(true positive)表示正类且被预测为正类 的数目;FP(false positive)表示负类且被预测为正 类的数目;FN(false negative)表示正类被预测为 负数的数目。 本文将包装标注语料按照 6:2:2 的比例切分 为训练集、验证集和测试集,分别使用 LSTMCRF 模型、BiLSTM-CRF 模型和 BiLSTM-CNNCRFs 模型对迁移和非迁移方法进行对比实验。 1) 反馈值 K 的选取实验 分别使用 LSTM-CRF、BiLSTM-CRF 和 BiLSTM-CNN-CRFs 3 组模型进行语义迁移学习,识 别包装领域实体,所获得的识别效果随 K 值的变 化情况如表 8 所示。 表 8 识别结果随 K 值的变化情况 Table 8 The experimental results changed with K 参数 K=0 K=100 K=200 K=300 K=400 K=500 K=600 K=700 LSTM-CRF P 59.36 60.01 61.94 64.34 65.16 65.34 64.74 64.45 R 43.19 52.45 52.15 57.20 58.34 57.81 57.10 56.39 F 50.00 55.98 56.61 60.56 61.56 61.34 60.68 60.15 BiLSTM-CRF P 60.51 60.55 61.12 67.69 68.15 67.41 67.53 66.97 R 45.28 55.78 56.59 59.28 59.28 59.00 58.22 59.07 F 51.80 58.07 58.77 63.21 63.41 62.92 62.53 62.78 BiLSTM-CNN-CRFs P 65.28 68.27 71.96 71.03 71.42 70.96 71.43 70.28 R 46.37 75.06 70.27 71.57 72.20 72.99 71.57 70.96 F 54.22 71.50 71.11 71.30 71.81 71.96 71.50 70.62 各模型识别结果如图 5~图 7 所示。 实验结果表明,3 组模型的 P、R 和 F 值,均先 随着 K 值的增大呈上升趋势,当达到某一特定值 时反而呈下降趋势, LSTM-CRF 和 BiLSTMCRF 模型在 K=400 时 F 值达到最大,而 BiLSTMCNN-CRFs 模型在 K=500 时 F 值达到最大。证明 了随着迁移语义知识的增加,提高了模型的识别 率。但随着领域新闻数据与通用新闻数据样本语 义距离的增大,准确率、召回率和 F 值反而开始 下降。这是由于随着语义距离的增大,通用新闻 数据与领域新闻数据语义相关性降低,此时引入 0.8 0.7 0.6 0.5 0.4 100 K 200 300 400 500 600 700 P R F 图 5 BiLSTM-CNN-CRFs 识别结果 Fig. 5 BiLSTM-CNN-CRFs results 0.8 0.7 0.6 0.5 0.4 100 K 200 300 400 500 600 700 P R F 图 6 LSTM-CRF 识别结果 Fig. 6 LSTM-CRF results 0.8 0.7 0.6 0.5 0.4 100 200 300 400 500 600 700 K P R F 图 7 BiLSTM-CRF 识别结果 Fig. 7 BiLSTM-CRF results ·826· 智 能 系 统 学 报 第 14 卷
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·827· 的样本多为“噪声”,开始产生“负迁移”现象,应停 2)对比实验与分析 止迁移,选用得到最佳识别结果的K值作为最佳 LSTM-CRF、BiLSTM-CRF和BiLSTM-CNN- 迁移阈值。因此,接下来反馈值K分别取400和 CRFs三种模型下迁移前后对比实验结果如表9 500进行对比实验。 所示。 表93种网络模型迁移前后实验结果 Table 9 Experimental results before and after transfer of three network models 无迁移(K=0) K取最佳阈值 评价指标 P R 及 F LSTM-CRF 0.5936 0.4319 0.5000 0.6516 0.5834 0.6156 BiLSTM-CRF 0.6051 0.4528 0.5180 0.6815 0.5928 0.6341 BiLSTM-CNN-CRFs 0.6528 0.4637 0.5422 0.7096 0.7299 0.7196 结果表明,3种模型采用F-KNST算法迁移后 线网站获取医疗健康咨询数据,通过网页去重、 的P、R、F值均比迁移前提升很多,F值分别提升 xml解析和Html标签去除后得到共计100万篇作 23.1%、22.4%和32.7%,BiLSTM-CNN-CRFs模型 为源域数据集。 相比其他2种模型的P、R、F值亦有较大提升,迁 本文在进行医疗实体识别时同样采用字标注 移前的F值分别提升8.4%、4.7%,采用F-KNST 方法对医疗实体进行标注,采用BO标注法,具 算法迁移后的F值分别提升16.9%、13.5%,亦有 体实体类别与标注编码如表11所示。 效证明了本文构建的用于领域命名实体识别的 BiLSTM-CNN-CRFs深度学习网络模型相较于其 表11医疗实体标注方法 他模型的优越性。 Table 11 Medical entity labeling method 3.2医疗领域命名实体识别 实体类别 标注编码 3.2.1数据准备 身体部位 B-body/I-body 本文采用CCKS2017任务二提供的电子病 症状和体征 B-sas/I-sas 历命名实体识别语料作为迁移学习目标域样本, 检查和检验 B-che/l-che 共计1200篇。 疾病和诊断 B-dis/I-dis CCKS2017任务二的电子病历语料数据集来 源于真实电子病历经脱敏处理后形成的标注数 治疗 B-tre/l-tre 据,电子病历按照数据组织不同分为:一般项目、 非实体 0 病史特征、诊疗过程、出院情况。该数据集已经 详细标注了实体名称、实体起始终止位置与实体 3.2.2实验设计及参数设置 所属类别等。CCKS的电子病历语料规定的抽取 本文实验使用TensorFlow框架编写深度学习 实体如表10所示5类实体类别。 网络模型。为验证反馈K近邻迁移学习算法的 有效性,本文保证实验中其他因素的一致性,故 表10医疗实体类别及其含义 Table 10 Medical entity categories and their meanings 实验环境、Doc2Vec参数、Word2Vec参数与模型 医疗实体类别 含义 参数表均与3.1.2节中参数保持一致。设置F- 身体部位 疾病、症状和体征发生的人体解剖学部位 KNST算法中初始值K=100,以100为步长分别获 取7组数据构成7组目标域扩展集。 症状和体征 患者主观感受、体征表现 3.2.3实验结果与分析 受病因损害后发生的异常声明活动与识别 疾病和诊断 本实验评价指标与3.1.3中(5)式完全一致。 所患疾病 检查和检验 通过医疗技术与设备提供诊断治疗的依据 本实验采用CCKS的标准测试集进行实验结果测 治疗 干预或改变特定健康状态,解除病痛 试,验证集按照8:2的比例从训练集中切分得 到。分别使用LSTM-CRF模型、BiLSTM-CRF模 为了保证迁移学习的质量,本文编写网络爬 型和BiLSTM-CNN-CRFs模型对迁移和非迁移方 虫分别从医疗资讯网2,、好医生在线2等医疗在 法进行对比实验
的样本多为“噪声”,开始产生“负迁移”现象,应停 止迁移,选用得到最佳识别结果的 K 值作为最佳 迁移阈值。因此,接下来反馈值 K 分别取 400 和 500 进行对比实验。 2) 对比实验与分析 LSTM-CRF、BiLSTM-CRF 和 BiLSTM-CNNCRFs 三种模型下迁移前后对比实验结果如表 9 所示。 表 9 3 种网络模型迁移前后实验结果 Table 9 Experimental results before and after transfer of three network models 评价指标 无迁移(K=0) K取最佳阈值 P R F P R F LSTM-CRF 0.5936 0.4319 0.5000 0.6516 0.5834 0.6156 BiLSTM-CRF 0.6051 0.4528 0.5180 0.6815 0.5928 0.6341 BiLSTM-CNN-CRFs 0.6528 0.4637 0.5422 0.7096 0.7299 0.7196 结果表明,3 种模型采用 F-KNST 算法迁移后 的 P、R、F 值均比迁移前提升很多,F 值分别提升 23.1%、22.4% 和 32.7%,BiLSTM-CNN-CRFs 模型 相比其他 2 种模型的 P、R、F 值亦有较大提升,迁 移前的 F 值分别提升 8.4%、4.7%,采用 F-KNST 算法迁移后的 F 值分别提升 16.9%、13.5%,亦有 效证明了本文构建的用于领域命名实体识别的 BiLSTM-CNN-CRFs 深度学习网络模型相较于其 他模型的优越性。 3.2 医疗领域命名实体识别 3.2.1 数据准备 本文采用 CCKS 2017[19] 任务二提供的电子病 历命名实体识别语料作为迁移学习目标域样本, 共计 1 200 篇。 CCKS 2017 任务二的电子病历语料数据集来 源于真实电子病历经脱敏处理后形成的标注数 据,电子病历按照数据组织不同分为:一般项目、 病史特征、诊疗过程、出院情况。该数据集已经 详细标注了实体名称、实体起始终止位置与实体 所属类别等。CCKS 的电子病历语料规定的抽取 实体如表 10 所示 5 类实体类别。 表 10 医疗实体类别及其含义 Table 10 Medical entity categories and their meanings 医疗实体类别 含义 身体部位 疾病、症状和体征发生的人体解剖学部位 症状和体征 患者主观感受、体征表现 疾病和诊断 受病因损害后发生的异常声明活动与识别 所患疾病 检查和检验 通过医疗技术与设备提供诊断治疗的依据 治疗 干预或改变特定健康状态,解除病痛 为了保证迁移学习的质量,本文编写网络爬 虫分别从医疗资讯网[20] 、好医生在线[21] 等医疗在 线网站获取医疗健康咨询数据,通过网页去重、 xml 解析和 Html 标签去除后得到共计 100 万篇作 为源域数据集。 本文在进行医疗实体识别时同样采用字标注 方法对医疗实体进行标注,采用 BIO 标注法,具 体实体类别与标注编码如表 11 所示。 表 11 医疗实体标注方法 Table 11 Medical entity labeling method 实体类别 标注编码 身体部位 B-body/I-body 症状和体征 B-sas/I-sas 检查和检验 B-che/I-che 疾病和诊断 B-dis/I-dis 治疗 B-tre/I-tre 非实体 O 3.2.2 实验设计及参数设置 本文实验使用 TensorFlow 框架编写深度学习 网络模型。为验证反馈 K 近邻迁移学习算法的 有效性,本文保证实验中其他因素的一致性,故 实验环境、Doc2Vec 参数、Word2Vec 参数与模型 参数表均与 3.1.2 节中参数保持一致。设置 FKNST 算法中初始值 K=100,以 100 为步长分别获 取 7 组数据构成 7 组目标域扩展集。 3.2.3 实验结果与分析 本实验评价指标与 3.1.3 中 (5) 式完全一致。 本实验采用 CCKS 的标准测试集进行实验结果测 试,验证集按照 8:2 的比例从训练集中切分得 到。分别使用 LSTM-CRF 模型、BiLSTM-CRF 模 型和 BiLSTM-CNN-CRFs 模型对迁移和非迁移方 法进行对比实验。 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·827·
·828· 智能系统学报 第14卷 1)反馈值K的选取实验 移学习,最终所获得的识别效果随K值变化情况 由以上的实验设置通过3组模型进行语义迁 如表12所示。 表12识别结果随K值变化情况 Table 12 The experimental results changed with K 参数 K=0 K=100 K=200 K=300 K=400 K=500 K=600 K=700 P 81.32 86.71 86.96 86.96 87.14 86.70 86.87 86.81 LSTM-CRF R 79.46 80.56 82.08 83.36 83.26 82.44 82.72 81.05 F 80.47 83.52 84.45 85.12 85.16 84.51 84.74 83.83 P 83.36 86.50 86.12 86.94 87.41 86.88 87.53 86.64 BiLSTM-CRF R 80.95 82.01 83.39 83.22 83.96 82.90 82.04 82.15 F 82.14 8419 84 5 R489 84.70 84.34 P 84.92 87.62 87.45 87.38 87.14 87.29 87.10 86.90 BiLSTM-CNN-CRFs R 83.03 84.37 84.71 85.40 85.93 85.57 85.68 84.88 F 83.96 85.97 86.05 86.37 86.53 86.42 86.39 85.87 3组模型识别结果变化折线图分别如图8~ 0.90 0.88 图10所示。 0.86 0.90 0.84 0.88 0.82 0.86 0.80 ◆P 0.78 R 0.84 F 0.76 0.82 0.74 0.80 P 0.72 0.78 R F 0.76 0.7960 200300 )500600700 0.74 0.72 图10 BiLSTM-CRF识别结果 0.70 Fig.10 BiLSTM-CRF results 00200300400500600700 K 实验结果表明,3组模型的P、R和F值,同样 图8 BiLSTM-CNN-CRFs识别结果 呈现出先上升后下降的趋势,3组模型均在 Fig.8 BiLSTM-CNN-CRFs results K=500时F值达到最大。证明了随着迁移语义知 0.90r 识的增加,提高了模型的识别率。接下来取最佳 0.88 阈值K=500的识别结果进行对比试验。 0.86 结果表明,在不同数据集上K值的选择是由 0.84 0.82 该数据集上的实验结果反馈决定。本实验最优结 0.80 ◆P 果在K=400时达到稳定。而实验一中的包装实体 0.78 番-R F 识别在K=500时达到最优结果。如表13所示医 0.76 0.74 疗领域语料采用F-KNST算法迁移后的P、R、 0.72 F值同样有效果提升,F值分别提升4.96%、 0.7 00 200300400500600700 3.15%和2.57%,通过医疗领域的命名实体识别实 验,亦有效证明了本文构建的用于领域命名实体 图9LSTM-CRF识别结果 识别的BiLSTM-CNN-CRFs深度学习网络模型相 Fig.9 LSTM-CRF results 较于其他模型的优越性
1) 反馈值 K 的选取实验 由以上的实验设置通过 3 组模型进行语义迁 移学习,最终所获得的识别效果随 K 值变化情况 如表 12 所示。 3 组模型识别结果变化折线图分别如图 8~ 图 10 所示。 实验结果表明,3 组模型的 P、R 和 F 值,同样 呈现出先上升后下降的趋势, 3 组模型均 在 K=500 时 F 值达到最大。证明了随着迁移语义知 识的增加,提高了模型的识别率。接下来取最佳 阈值 K=500 的识别结果进行对比试验。 结果表明,在不同数据集上 K 值的选择是由 该数据集上的实验结果反馈决定。本实验最优结 果在 K=400 时达到稳定。而实验一中的包装实体 识别在 K=500 时达到最优结果。如表 13 所示医 疗领域语料采用 F-KNST 算法迁移后的 P、R、 F 值同样有效果提升, F 值分别提 升 4.96%、 3.15% 和 2.57%,通过医疗领域的命名实体识别实 验,亦有效证明了本文构建的用于领域命名实体 识别的 BiLSTM-CNN-CRFs 深度学习网络模型相 较于其他模型的优越性。 0.90 0.88 0.86 0.84 0.82 0.80 0.78 0.76 0.74 0.72 0.70 100 200 300 400 500 600 700 K P R F 图 10 BiLSTM-CRF 识别结果 Fig. 10 BiLSTM-CRF results 0.90 0.88 0.86 0.84 0.82 0.80 0.78 0.76 0.74 0.72 0.70 100 200 300 400 500 600 K 700 P R F 图 8 BiLSTM-CNN-CRFs 识别结果 Fig. 8 BiLSTM-CNN-CRFs results 0.90 0.88 0.86 0.84 0.82 0.80 0.78 0.76 0.74 0.72 0.70 100 200 300 400 500 600 700 K P R F 图 9 LSTM-CRF 识别结果 Fig. 9 LSTM-CRF results 表 12 识别结果随 K 值变化情况 Table 12 The experimental results changed with K 参数 K=0 K=100 K=200 K=300 K=400 K=500 K=600 K=700 LSTM-CRF P 81.32 86.71 86.96 86.96 87.14 86.70 86.87 86.81 R 79.46 80.56 82.08 83.36 83.26 82.44 82.72 81.05 F1 80.47 83.52 84.45 85.12 85.16 84.51 84.74 83.83 BiLSTM-CRF P 83.36 86.50 86.12 86.94 87.41 86.88 87.53 86.64 R 80.95 82.01 83.39 83.22 83.96 82.90 82.04 82.15 F1 82.14 84.19 84.74 85.04 85.65 84.85 84.70 84.34 BiLSTM-CNN-CRFs P 84.92 87.62 87.45 87.38 87.14 87.29 87.10 86.90 R 83.03 84.37 84.71 85.40 85.93 85.57 85.68 84.88 F1 83.96 85.97 86.05 86.37 86.53 86.42 86.39 85.87 ·828· 智 能 系 统 学 报 第 14 卷
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·829· 表133种网络模型迁移前后实验结果 Table 13 Experimental results before and after transfer of three network models 无迁移K=0) K取最佳阈值 评价指标 P R F P R F LSTM-CRF 0.8132 0.7946 0.8047 0.8714 0.8326 0.8516 BiLSTM-CRF 0.8336 0.8095 0.8214 0.8741 0.8396 0.8565 BiLSTM-CNN-CRFs 0.8492 0.8303 0.8396 0.8714 0.8593 0.8653 4结束语 [5]MA Xuezhe,HOVY E.End-to-end sequence labeling via Bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 本文针对专业领域语料匮乏的特点,构建基 54th Annual Meeting of the Association for Computation- 于深度学习的BiLSTM-CNN-CRFs网络模型,以 al Linguistics (ACL)2016.Berlin,Germany:ACL,2016: 包装领域和医疗领域为例,提出了一种基于反馈 1064-1074. 式K近邻语义迁移学习的命名实体识别方法。 [6]CHIU J P C,NICHOLS E.Named entity recognition with 本文方法不仅避免了传统机器学习无法学习到长 bidirectional LSTM-CNNs[J].Computer science,2016: 距离依赖等缺点,而且很好地解决了专业领域的 357-370. 命名实体识别问题,有较强的通用性。实验结果 [7]姚霖,刘轶,李鑫鑫,等.词边界字向量的中文命名实体 表明,本文提出的F-KNST算法和BiLSTM-CNN- 识别.智能系统学报,2017,11(1)少:37-42. CRFs网络模型可以很好的提取语义信息,扩充专 YAO Lin,LIU Yi,LI Xinxin,et al.Chinese named entity 业领域语料集,提高专业领域命名实体识别的准 recognition via word boundary based character embedding[J].CAAI transactions on intelligent systems, 确率。 2017,11(1):37-42. 本文仍存在以下不足之处:I)Doc2Vec能够 [8]PAN S J,YANG Qiang.A survey on transfer learning[J]. 提取的语义信息比较有限,对于文本实体分布信 IEEE transactions on knowledge and data engineering, 息等并没有进一步挖掘;2)包装领域语料为多人 2010,22(10:1345-1359 协作标注,由于对包装实体有着不同的理解,导 [9]PAN S J.TSANG I W,KWOK J T.et al.Domain adapta- 致部分实体标注标准不尽相同,影响识别率。接 tion via transfer component analysis[J].IEEE transactions 下来将对以上缺点开展进一步的研究,以进一步 on neural networks,2011,22(2):199-210. 提高专业领域命名实体识别的效果。 [10]LONG Mingsheng,WANG Jianmin,DING Guiguang,et al.Transfer feature learning with joint distribution adapta- 参考文献: tion[Cl//Proceedings of 2013 IEEE International Confer- [1]SOCHER R.HUVAL B,MANNING C D,et al.Semantic ence on Computer Vision.Sydney,NSW:IEEE,2013: compositionality through recursive matrix-vector 2200-2207. spaces[C]//Proceedings of 2012 Joint Conference on Em- [11]卞则康,王土同.基于相似度学习的多源迁移算法 pirical Methods in Natural Language Processing and Com- 控制与决策,2017,32(11):1941-1948. putational Natural Language Learning.Jeju Island,Korea: BIAN Zekang,WANG Shitong.Similarity-learning based ACM,2012:1201-1211. multi-source transfer learning algorithm[J].Control and [2]HOCHREITER S,SCHMIDHUBER J.Long short-term decision,2017,32(11:1941-1948. memory[J].Neural computation,1997,9(8):1735-1780. [12]庄福振,罗平,何清,等.迁移学习研究进展[】.软件学 [3]COLLOBERT R.WESTON J.BOTTOU L.et al.Natural 报,2015,26(1)26-39. language processing (almost)from scratch[J].Journal of ZHUANG Fuzhen,LUO Ping,HE Qing,et al.Survey on machine learning research,2011,12:2493-2537. transfer learning research[J].Journal of software,2015, [4]张海楠,伍大勇,刘悦,等.基于深度神经网络的中文命 26(126-39. 名实体识别).中文信息学报,2017,31(4):28-35. [13]MIKOLOV T,CHEN K,CORRADO G,etal.Efficient ZHANG Hainan,WU Dayong,LIU Yue,et al.Chinese estimation of word representations in space [J.Computer named entity recognition based on deep neural network[J]. science,2013:1-12. Journal of Chinese information processing,2017,31(4): [14]LE Q V,MIKOLOV T.Distributed representations of 28-35. sentences and documents[Cl//Proceedings of the 31st In-
4 结束语 本文针对专业领域语料匮乏的特点,构建基 于深度学习的 BiLSTM-CNN-CRFs 网络模型,以 包装领域和医疗领域为例,提出了一种基于反馈 式 K 近邻语义迁移学习的命名实体识别方法。 本文方法不仅避免了传统机器学习无法学习到长 距离依赖等缺点,而且很好地解决了专业领域的 命名实体识别问题,有较强的通用性。实验结果 表明,本文提出的 F-KNST 算法和 BiLSTM-CNNCRFs 网络模型可以很好的提取语义信息,扩充专 业领域语料集,提高专业领域命名实体识别的准 确率。 本文仍存在以下不足之处:1)Doc2Vec 能够 提取的语义信息比较有限,对于文本实体分布信 息等并没有进一步挖掘;2) 包装领域语料为多人 协作标注,由于对包装实体有着不同的理解,导 致部分实体标注标准不尽相同,影响识别率。接 下来将对以上缺点开展进一步的研究,以进一步 提高专业领域命名实体识别的效果。 参考文献: SOCHER R, HUVAL B, MANNING C D, et al. Semantic compositionality through recursive matrix-vector spaces[C]//Proceedings of 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. Jeju Island, Korea: ACM, 2012: 1201-1211. [1] HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997, 9(8): 1735–1780. [2] COLLOBERT R, WESTON J, BOTTOU L, et al. Natural language processing (almost) from scratch[J]. Journal of machine learning research, 2011, 12: 2493–2537. [3] 张海楠, 伍大勇, 刘悦, 等. 基于深度神经网络的中文命 名实体识别 [J]. 中文信息学报, 2017, 31(4): 28–35. ZHANG Hainan, WU Dayong, LIU Yue, et al. Chinese named entity recognition based on deep neural network[J]. Journal of Chinese information processing, 2017, 31(4): 28–35. [4] MA Xuezhe, HOVY E. End-to-end sequence labeling via Bi-directional LSTM-CNNs-CRF[C]//Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (ACL) 2016. Berlin, Germany: ACL, 2016: 1064-1074. [5] CHIU J P C, NICHOLS E. Named entity recognition with bidirectional LSTM-CNNs[J].Computer science, 2016: 357-370. [6] 姚霖, 刘轶, 李鑫鑫, 等. 词边界字向量的中文命名实体 识别 [J]. 智能系统学报, 2017, 11(1): 37–42. YAO Lin, LIU Yi, LI Xinxin, et al. Chinese named entity recognition via word boundary based character embedding[J]. CAAI transactions on intelligent systems, 2017, 11(1): 37–42. [7] PAN S J, YANG Qiang. A survey on transfer learning[J]. IEEE transactions on knowledge and data engineering, 2010, 22(10): 1345–1359. [8] PAN S J, TSANG I W, KWOK J T, et al. Domain adaptation via transfer component analysis[J]. IEEE transactions on neural networks, 2011, 22(2): 199–210. [9] LONG Mingsheng, WANG Jianmin, DING Guiguang, et al. Transfer feature learning with joint distribution adaptation[C]//Proceedings of 2013 IEEE International Conference on Computer Vision. Sydney, NSW: IEEE, 2013: 2200-2207. [10] 卞则康, 王士同. 基于相似度学习的多源迁移算法 [J]. 控制与决策, 2017, 32(11): 1941–1948. BIAN Zekang, WANG Shitong. Similarity-learning based multi-source transfer learning algorithm[J]. Control and decision, 2017, 32(11): 1941–1948. [11] 庄福振, 罗平, 何清, 等. 迁移学习研究进展 [J]. 软件学 报, 2015, 26(1): 26–39. ZHUANG Fuzhen, LUO Ping, HE Qing, et al. Survey on transfer learning research[J]. Journal of software, 2015, 26(1): 26–39. [12] MIKOLOV T, CHEN K, CORRADO G, etal. Efficient estimation of word representations in space [J]. Computer science, 2013: 1-12. [13] LE Q V, MIKOLOV T. Distributed representations of sentences and documents[C]//Proceedings of the 31st In- [14] 表 13 3 种网络模型迁移前后实验结果 Table 13 Experimental results before and after transfer of three network models 评价指标 无迁移(K=0) K取最佳阈值 P R F P R F LSTM-CRF 0.813 2 0.794 6 0.804 7 0.871 4 0.832 6 0.851 6 BiLSTM-CRF 0.833 6 0.809 5 0.821 4 0.874 1 0.839 6 0.856 5 BiLSTM-CNN-CRFs 0.849 2 0.830 3 0.839 6 0.871 4 0.859 3 0.865 3 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·829·