正在加载图片...
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·821· 的重要地位,许多国际会议,如MUC-6、MUC-7、 到一个高维的再生核希尔伯特空间,并在此空间 Conll22002等,都将命名实体识别作为共享任务 中最小化源和目标的数据距离,同时最大程度地 (share tasks)。国内会议诸如全国语义网与知识图 保留它们各自的内部属性。Long等o在TCA基 谱计算大会(CCKS2017),也组织了医疗实体识别 础上提出了联合分布适配方法(joint distribution 的评测任务。传统命名实体识别采用最大熵、隐 adaptation,JDA),在源域和目标域条件分布不同 马尔科夫模型、支持向量机、条件随机场等方法, 的基础上,提出了联合分布适配方法,同时适配 但传统机器学习方法需要人工定义特征模板,并 源域和目标域的边缘分布和条件分布,在4种类 且无法充分获取隐含信息,对文本长距离依赖关 型的跨域图像分类任务上取得了较好的效果。卞 系难以捕捉。随着深度学习的快速发展以及卷积 则康等川提出一种基于相似度学习的多源域迁 神经网络(convolutional neural network,CNN)、循 移SL-MSTL算法,增加对多源域与目标域之间的 环神经网络(recurrent neural network,RNN)、长短 相似度学习,可以有效地利用各源域中的有用信 期记忆网络(long short-.term memory,LSTM)等学 息。庄福振介绍了迁移学习研究进展,并且针 习算法的提出,命名实体识别任务在获取隐含信 对迁移学习领域所做的工作和未来的方向做了总 息及捕捉长距离文字依赖关系上取得了长足的进 结和展望。 步。命名实体识别是典型的序列标注任务, 目前,已有命名实体识别方法在通用领域的 RNN可以很好地克服传统机器学习的文本长依 人名、地名、组织机构名上取得了较好的效果。 赖信息难以获取的缺点山,具有一定的记忆功能, 然而专业领域由于语料匮乏,导致领域命名实体 但RNN在训练算法时存在梯度弥散和梯度爆炸 识别进展缓慢且识别效果差强人意。因此,本文 问题。因此,Hochreiter等提出了LSTM方法, 针对专业领域语料匮乏、标注语料缺失等特点, LSTM是一种特殊的循环神经网络,能够学习到 引入迁移学习技术,构建基于深度学习的BL- 长期依赖关系,以解决RNN梯度消失和梯度爆炸 STM-CNN-CRFs网络模型,提出一种反馈式K近 的问题。Yoon)首次将CNN应用到自然语言处 邻语义迁移学习的领域命名实体识别算法。首 理领域并获得成功后,由于其可以利用窗口滑 先,对专业领域语料和通用领域语料分别训练得 动,可以很好地解决词之间的组合特征及一部分 到语料文档向量,使用马哈拉诺比斯距离计算领 依赖问题,故广泛的应用在自然语言处理领域。 域语料与通用语料的语义相似性,针对每个专业 张海楠等提出了一种用于深度学习框架的字词 领域样本分别取K个语义最相似的通用领域样 联合方法,结合字词特征,提高了系统性能,最终 本进行语义迁移学习,构建N个迁移语料集。然 取得了较好的F,值。Ma等提出了基于LSTM: 后,使用BiLSTM-CNN-CRFs网络模型对N个迁 CNN-CRFs的端对端序列标注方法,该模型无需 移语料集进行领域命名实体识别,并对识别结果 数据预处理和特征选择,在Conll2003语料库上 进行评估和前馈,根据反馈结果选取合适的 F,值为91.21%。Chiu等提出了BiLSTM-CNNs K值,作为语义迁移学习的最佳阈值。实验结果 的新型网络框架,在Coll2003语料库取得F,值 表明,K近邻语义迁移学习算法取得了较好的结 为91.61%的成绩。姚霖等m提出一种基于词边 果,可以有效解决专业领域语料匮乏问题。 界字向量的中文命名实体识别方法,在Sighan 深度学习BiLSTM-CNN-CRFs网 Bakeoff-.3语料中取得了F,值89.18%的效果,上 络模型构建 述文献证明了深度学习神经网络用于序列标注任 务的可行性和有效性。 本文利用CNN的词组合特点和LSTM的长 迁移学习图是运用已有知识对不同但是相关 期依赖关系,结合CRF作为解码输出,构建一种 领域问题进行求解的一种新的机器学习方法。其 基于深度学习的BiLSTM-CNN-CRFs网络模型, 放宽了传统机器学习的两个基本假设,通过减小 作为命名实体识别的学习算法。首先对文本的字 源域与目标域的数据分布差异,从而从已有的知 训练词向量,将词向量输入到CNN层,得到窗口 识中解决目标领域中仅有少量或没有标签样本数 词组合特征,再进一步输人到LSTM层,LSTM选 据的学习问题。Pan等提出了著名的迁移成分 取分数最高的标签作为输出。但LSTM默认词之 分析(transfer component analysis,TCA)方法,针对 间是独立分布的,并未考虑相邻词之间的相关性 域适配(domain adaptation)问题中源域和目标域 及其约束性,对于序列标注任务,相邻词之间的 处于不同数据分布,将2个领域的数据一起映射 标签相关性直接影响句子的最佳标签链,所以在的重要地位,许多国际会议,如 MUC-6、MUC-7、 Conll2002 等,都将命名实体识别作为共享任务 (share tasks)。国内会议诸如全国语义网与知识图 谱计算大会 (CCKS 2017),也组织了医疗实体识别 的评测任务。传统命名实体识别采用最大熵、隐 马尔科夫模型、支持向量机、条件随机场等方法, 但传统机器学习方法需要人工定义特征模板,并 且无法充分获取隐含信息,对文本长距离依赖关 系难以捕捉。随着深度学习的快速发展以及卷积 神经网络 (convolutional neural network,CNN)、循 环神经网络 (recurrent neural network,RNN)、长短 期记忆网络 (long short-term memory ,LSTM) 等学 习算法的提出,命名实体识别任务在获取隐含信 息及捕捉长距离文字依赖关系上取得了长足的进 步。命名实体识别是典型的序列标注任务, RNN 可以很好地克服传统机器学习的文本长依 赖信息难以获取的缺点[1] ,具有一定的记忆功能, 但 RNN 在训练算法时存在梯度弥散和梯度爆炸 问题。因此,Hochreiter 等 [2] 提出了 LSTM 方法, LSTM 是一种特殊的循环神经网络,能够学习到 长期依赖关系,以解决 RNN 梯度消失和梯度爆炸 的问题。Yoon[3] 首次将 CNN 应用到自然语言处 理领域并获得成功后,由于其可以利用窗口滑 动,可以很好地解决词之间的组合特征及一部分 依赖问题,故广泛的应用在自然语言处理领域。 张海楠等[4] 提出了一种用于深度学习框架的字词 联合方法,结合字词特征,提高了系统性能,最终 取得了较好的 F1 值。Ma 等 [5] 提出了基于 LSTM￾CNN-CRFs 的端对端序列标注方法,该模型无需 数据预处理和特征选择,在 Conll2003语料库上 F1 值为 91.21%。Chiu 等 [6] 提出了 BiLSTM-CNNs 的新型网络框架,在 Conll2003 语料库取得 F1 值 为 91.61% 的成绩。姚霖等[7] 提出一种基于词边 界字向量的中文命名实体识别方法,在 Sighan Bakeoff-3 语料中取得了 F1 值 89.18% 的效果,上 述文献证明了深度学习神经网络用于序列标注任 务的可行性和有效性。 迁移学习[8] 是运用已有知识对不同但是相关 领域问题进行求解的一种新的机器学习方法。其 放宽了传统机器学习的两个基本假设,通过减小 源域与目标域的数据分布差异,从而从已有的知 识中解决目标领域中仅有少量或没有标签样本数 据的学习问题。Pan 等 [9] 提出了著名的迁移成分 分析 (transfer component analysis,TCA) 方法,针对 域适配 (domain adaptation) 问题中源域和目标域 处于不同数据分布,将 2 个领域的数据一起映射 到一个高维的再生核希尔伯特空间,并在此空间 中最小化源和目标的数据距离,同时最大程度地 保留它们各自的内部属性。Long 等 [10] 在 TCA 基 础上提出了联合分布适配方法 (joint distribution adaptation ,JDA),在源域和目标域条件分布不同 的基础上,提出了联合分布适配方法,同时适配 源域和目标域的边缘分布和条件分布,在 4 种类 型的跨域图像分类任务上取得了较好的效果。卞 则康等[11] 提出一种基于相似度学习的多源域迁 移 SL-MSTL 算法,增加对多源域与目标域之间的 相似度学习,可以有效地利用各源域中的有用信 息。庄福振[12] 介绍了迁移学习研究进展,并且针 对迁移学习领域所做的工作和未来的方向做了总 结和展望。 目前,已有命名实体识别方法在通用领域的 人名、地名、组织机构名上取得了较好的效果。 然而专业领域由于语料匮乏,导致领域命名实体 识别进展缓慢且识别效果差强人意。因此,本文 针对专业领域语料匮乏、标注语料缺失等特点, 引入迁移学习技术,构建基于深度学习的 BiL￾STM-CNN-CRFs 网络模型,提出一种反馈式 K 近 邻语义迁移学习的领域命名实体识别算法。首 先,对专业领域语料和通用领域语料分别训练得 到语料文档向量,使用马哈拉诺比斯距离计算领 域语料与通用语料的语义相似性,针对每个专业 领域样本分别取 K 个语义最相似的通用领域样 本进行语义迁移学习,构建 N 个迁移语料集。然 后,使用 BiLSTM-CNN-CRFs 网络模型对 N 个迁 移语料集进行领域命名实体识别,并对识别结果 进行评估和前馈,根据反馈结果选取合适 的 K 值,作为语义迁移学习的最佳阈值。实验结果 表明,K 近邻语义迁移学习算法取得了较好的结 果,可以有效解决专业领域语料匮乏问题。 1 深度学习 BiLSTM-CNN-CRFs 网 络模型构建 本文利用 CNN 的词组合特点和 LSTM 的长 期依赖关系,结合 CRF 作为解码输出,构建一种 基于深度学习的 BiLSTM-CNN-CRFs 网络模型, 作为命名实体识别的学习算法。首先对文本的字 训练词向量,将词向量输入到 CNN 层,得到窗口 词组合特征,再进一步输入到 LSTM 层,LSTM 选 取分数最高的标签作为输出。但 LSTM 默认词之 间是独立分布的,并未考虑相邻词之间的相关性 及其约束性,对于序列标注任务,相邻词之间的 标签相关性直接影响句子的最佳标签链,所以在 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·821·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有