的重要地位，许多国际会议，如 MUC-6、MUC-7、 Conll2002

正在加载图片...

第4期朱艳辉，等：反馈式K近邻语义迁移学习的领域命名实体识别 ·821· 的重要地位，许多国际会议，如MUC-6、MUC-7、到一个高维的再生核希尔伯特空间，并在此空间 Conll22002等，都将命名实体识别作为共享任务中最小化源和目标的数据距离，同时最大程度地 (share tasks)。国内会议诸如全国语义网与知识图保留它们各自的内部属性。Long等o在TCA基谱计算大会(CCKS2017),也组织了医疗实体识别础上提出了联合分布适配方法(joint distribution 的评测任务。传统命名实体识别采用最大熵、隐 adaptation,JDA),在源域和目标域条件分布不同马尔科夫模型、支持向量机、条件随机场等方法，的基础上，提出了联合分布适配方法，同时适配但传统机器学习方法需要人工定义特征模板，并源域和目标域的边缘分布和条件分布，在4种类且无法充分获取隐含信息，对文本长距离依赖关型的跨域图像分类任务上取得了较好的效果。卞系难以捕捉。随着深度学习的快速发展以及卷积则康等川提出一种基于相似度学习的多源域迁神经网络(convolutional neural network,CNN)、循移SL-MSTL算法，增加对多源域与目标域之间的环神经网络(recurrent neural network,RNN)、长短相似度学习，可以有效地利用各源域中的有用信期记忆网络(long short-.term memory,LSTM)等学息。庄福振介绍了迁移学习研究进展，并且针习算法的提出，命名实体识别任务在获取隐含信对迁移学习领域所做的工作和未来的方向做了总息及捕捉长距离文字依赖关系上取得了长足的进结和展望。步。命名实体识别是典型的序列标注任务，目前，已有命名实体识别方法在通用领域的 RNN可以很好地克服传统机器学习的文本长依人名、地名、组织机构名上取得了较好的效果。赖信息难以获取的缺点山，具有一定的记忆功能，然而专业领域由于语料匮乏，导致领域命名实体但RNN在训练算法时存在梯度弥散和梯度爆炸识别进展缓慢且识别效果差强人意。因此，本文问题。因此，Hochreiter等提出了LSTM方法，针对专业领域语料匮乏、标注语料缺失等特点， LSTM是一种特殊的循环神经网络，能够学习到引入迁移学习技术，构建基于深度学习的BL- 长期依赖关系，以解决RNN梯度消失和梯度爆炸 STM-CNN-CRFs网络模型，提出一种反馈式K近的问题。Yoon)首次将CNN应用到自然语言处邻语义迁移学习的领域命名实体识别算法。首理领域并获得成功后，由于其可以利用窗口滑先，对专业领域语料和通用领域语料分别训练得动，可以很好地解决词之间的组合特征及一部分到语料文档向量，使用马哈拉诺比斯距离计算领依赖问题，故广泛的应用在自然语言处理领域。域语料与通用语料的语义相似性，针对每个专业张海楠等提出了一种用于深度学习框架的字词领域样本分别取K个语义最相似的通用领域样联合方法，结合字词特征，提高了系统性能，最终本进行语义迁移学习，构建N个迁移语料集。然取得了较好的F,值。Ma等提出了基于LSTM: 后，使用BiLSTM-CNN-CRFs网络模型对N个迁 CNN-CRFs的端对端序列标注方法，该模型无需移语料集进行领域命名实体识别，并对识别结果数据预处理和特征选择，在Conll2003语料库上进行评估和前馈，根据反馈结果选取合适的 F,值为91.21%。Chiu等提出了BiLSTM-CNNs K值，作为语义迁移学习的最佳阈值。实验结果的新型网络框架，在Coll2003语料库取得F,值表明，K近邻语义迁移学习算法取得了较好的结为91.61%的成绩。姚霖等m提出一种基于词边果，可以有效解决专业领域语料匮乏问题。界字向量的中文命名实体识别方法，在Sighan 深度学习BiLSTM-CNN-CRFs网 Bakeoff-.3语料中取得了F,值89.18%的效果，上络模型构建述文献证明了深度学习神经网络用于序列标注任务的可行性和有效性。本文利用CNN的词组合特点和LSTM的长迁移学习图是运用已有知识对不同但是相关期依赖关系，结合CRF作为解码输出，构建一种领域问题进行求解的一种新的机器学习方法。其基于深度学习的BiLSTM-CNN-CRFs网络模型，放宽了传统机器学习的两个基本假设，通过减小作为命名实体识别的学习算法。首先对文本的字源域与目标域的数据分布差异，从而从已有的知训练词向量，将词向量输入到CNN层，得到窗口识中解决目标领域中仅有少量或没有标签样本数词组合特征，再进一步输人到LSTM层，LSTM选据的学习问题。Pan等提出了著名的迁移成分取分数最高的标签作为输出。但LSTM默认词之分析(transfer component analysis,TCA)方法，针对间是独立分布的，并未考虑相邻词之间的相关性域适配(domain adaptation)问题中源域和目标域及其约束性，对于序列标注任务，相邻词之间的处于不同数据分布，将2个领域的数据一起映射标签相关性直接影响句子的最佳标签链，所以在的重要地位，许多国际会议，如 MUC-6、MUC-7、 Conll2002 等，都将命名实体识别作为共享任务 (share tasks)。国内会议诸如全国语义网与知识图谱计算大会 (CCKS 2017)，也组织了医疗实体识别的评测任务。传统命名实体识别采用最大熵、隐马尔科夫模型、支持向量机、条件随机场等方法，但传统机器学习方法需要人工定义特征模板，并且无法充分获取隐含信息，对文本长距离依赖关系难以捕捉。随着深度学习的快速发展以及卷积神经网络 (convolutional neural network，CNN)、循环神经网络 (recurrent neural network，RNN)、长短期记忆网络 (long short-term memory ，LSTM) 等学习算法的提出，命名实体识别任务在获取隐含信息及捕捉长距离文字依赖关系上取得了长足的进步。命名实体识别是典型的序列标注任务， RNN 可以很好地克服传统机器学习的文本长依赖信息难以获取的缺点[1] ，具有一定的记忆功能，但 RNN 在训练算法时存在梯度弥散和梯度爆炸问题。因此，Hochreiter 等 [2] 提出了 LSTM 方法， LSTM 是一种特殊的循环神经网络，能够学习到长期依赖关系，以解决 RNN 梯度消失和梯度爆炸的问题。Yoon[3] 首次将 CNN 应用到自然语言处理领域并获得成功后，由于其可以利用窗口滑动，可以很好地解决词之间的组合特征及一部分依赖问题，故广泛的应用在自然语言处理领域。张海楠等[4] 提出了一种用于深度学习框架的字词联合方法，结合字词特征，提高了系统性能，最终取得了较好的 F1 值。Ma 等 [5] 提出了基于 LSTMCNN-CRFs 的端对端序列标注方法，该模型无需数据预处理和特征选择，在 Conll2003语料库上 F1 值为 91.21%。Chiu 等 [6] 提出了 BiLSTM-CNNs 的新型网络框架，在 Conll2003 语料库取得 F1 值为 91.61% 的成绩。姚霖等[7] 提出一种基于词边界字向量的中文命名实体识别方法，在 Sighan Bakeoff-3 语料中取得了 F1 值 89.18% 的效果，上述文献证明了深度学习神经网络用于序列标注任务的可行性和有效性。迁移学习[8] 是运用已有知识对不同但是相关领域问题进行求解的一种新的机器学习方法。其放宽了传统机器学习的两个基本假设，通过减小源域与目标域的数据分布差异，从而从已有的知识中解决目标领域中仅有少量或没有标签样本数据的学习问题。Pan 等 [9] 提出了著名的迁移成分分析 (transfer component analysis，TCA) 方法，针对域适配 (domain adaptation) 问题中源域和目标域处于不同数据分布，将 2 个领域的数据一起映射到一个高维的再生核希尔伯特空间，并在此空间中最小化源和目标的数据距离，同时最大程度地保留它们各自的内部属性。Long 等 [10] 在 TCA 基础上提出了联合分布适配方法 (joint distribution adaptation ,JDA)，在源域和目标域条件分布不同的基础上，提出了联合分布适配方法，同时适配源域和目标域的边缘分布和条件分布，在 4 种类型的跨域图像分类任务上取得了较好的效果。卞则康等[11] 提出一种基于相似度学习的多源域迁移 SL-MSTL 算法，增加对多源域与目标域之间的相似度学习,可以有效地利用各源域中的有用信息。庄福振[12] 介绍了迁移学习研究进展，并且针对迁移学习领域所做的工作和未来的方向做了总结和展望。目前，已有命名实体识别方法在通用领域的人名、地名、组织机构名上取得了较好的效果。然而专业领域由于语料匮乏，导致领域命名实体识别进展缓慢且识别效果差强人意。因此，本文针对专业领域语料匮乏、标注语料缺失等特点，引入迁移学习技术，构建基于深度学习的 BiLSTM-CNN-CRFs 网络模型，提出一种反馈式 K 近邻语义迁移学习的领域命名实体识别算法。首先，对专业领域语料和通用领域语料分别训练得到语料文档向量，使用马哈拉诺比斯距离计算领域语料与通用语料的语义相似性，针对每个专业领域样本分别取 K 个语义最相似的通用领域样本进行语义迁移学习，构建 N 个迁移语料集。然后，使用 BiLSTM-CNN-CRFs 网络模型对 N 个迁移语料集进行领域命名实体识别，并对识别结果进行评估和前馈，根据反馈结果选取合适的 K 值，作为语义迁移学习的最佳阈值。实验结果表明，K 近邻语义迁移学习算法取得了较好的结果，可以有效解决专业领域语料匮乏问题。 1 深度学习 BiLSTM-CNN-CRFs 网络模型构建本文利用 CNN 的词组合特点和 LSTM 的长期依赖关系，结合 CRF 作为解码输出，构建一种基于深度学习的 BiLSTM-CNN-CRFs 网络模型，作为命名实体识别的学习算法。首先对文本的字训练词向量，将词向量输入到 CNN 层，得到窗口词组合特征，再进一步输入到 LSTM 层，LSTM 选取分数最高的标签作为输出。但 LSTM 默认词之间是独立分布的，并未考虑相邻词之间的相关性及其约束性，对于序列标注任务，相邻词之间的标签相关性直接影响句子的最佳标签链，所以在第 4 期朱艳辉，等：反馈式 K 近邻语义迁移学习的领域命名实体识别 ·821·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】反馈式iKi近邻语义迁移学习的领域命名实体识别