正在加载图片...
第4期 朱艳辉,等:反馈式K近邻语义迁移学习的领域命名实体识别 ·823· 训练过程中,这些约束可以由CRF层从训练数据 算机的普及与发展已产生大量的非结构化文本, 集中自动学习,从而得到句子的最佳序列标注。 但这些语料并未标注,导致专业领域文本训练语 1.4基于深度学习的BiLSTM-CNN-CRFs网络模型 料严重缺乏。而随着互联网行业与移动互联网的 本文构建的用于领域命名实体识别的基于深 发展,互联网上产生了海量的通用领域新闻文 度学习的BiLSTM-CNN-CRFs网络模型如图3所 本,且形成了成熟的标注语料库。而通用领域新 示。对于一个句子序列,将每个字的词向量输人 闻文本与专业领域新闻文本同属新闻语料,彼此 到CNN网络中,并在使用时对词向量进行微调 具有一定的相似性和数据同分布性,这为我们提 (fine tuning),采用CNN的窗口滑动功能得到词表 供了解决特定领域文本严重不足的思路。 示向量,然后将词表示向量与字的词向量馈送至 为了解决领域训练语料严重缺乏的现实,本 BiLSTM网络中,学习到句子序列标签的最高得 文应用迁移学习方法从通用新闻语料中得到与专 分(虚线表示引入Dropout层防止数据过拟合)。 业领域语料语义正相关的数据以扩充领域语料 最后BiLSTM输出的向量再馈送至CRF层, 集。应用迁移学习技术解决专业领域语料不足的 CRF通过从训练语料中自学习得到约束,对BiL 问题,面临的主要挑战如下:1)如何表达通用新 STM中的输出向量进行联合标签解码。在卷积 闻数据中的知识,以适配专业领域样本语义中的 过程和BiLSTM预测过程中引人Dropout:技术以 知识与分布,从而达到迁移目的:2)在解决1)中 防止过拟合现象。 问题的基础上,如何衡量通用新闻语料与领域新 闻语料的相似性;3)对于迁移的标准与质量应该 SIM CRF B-ORG 如何度量,何时达到迁移阈值,停止迁移,防止 “负迁移”出现。 针对上述挑战,本文提出一种反馈式K近邻 STM LSIM CRF I-ORG 语义迁移学习(feedback K-Nearest-neighbor semant- ic transfer learning,F-KNST)算法,并采用BiL STM I-ORG STM-CNN-CRFs深度学习网络模型,对领域实体 进行识别,其流程如图4所示。针对1),本文选用 STM STM I-ORG 文档向量(Doc2Vec)衡量通用新闻语料与领域语 料的语义差异性。Doc2Vec1是由Quoc Le和 Tomas Mikolov在Word2Vec的基础上提出的,文 STM STM CRF L-ORG 档向量充分利用了词向量和段落向量(paragraphs vectors),可以很好地预测文档之间的语义相似 STM STM CRF 性。针对2),本文提出一种使用马哈拉诺比斯距 离(马氏距离)的语义距离度量方法。传统欧氏 Word Char Farword Backword embedding representation LSTM LSTM CRF Lays Output 距离存在无法结合先验知识、同等看待样本等局 限性,在实际应用中常无法满足需求。马氏距离 图3基于深度学习的BiLSTM-CNN-CRFs网络模型 Fig.3 BiLSTM-CNN-CRFs network model based on deep 是由印度统计学家马哈拉诺比斯提出的,表示数 learning 据的协方差距离,它是一种有效的计算2个未知 样本集的相似度的方法,其协方差特性不仅可以 2反馈式K近邻语义迁移学习算法 结合数据的统计特性,还能兼顾到样本的相关 2.1问题描述 性。杨绪兵等已经通过证明和相关实验验证 传统机器学习假设训练数据与测试数据满足 了马氏距离相对于欧氏距离的优越性。针对3), 数据同分布,然而现实中的大量数据并不满足这 提出F-KNST算法,从1)和2)中得到通用新闻语 种同分布假设。随着深度学习的发展,对数据量 料与领域语料的语义向量距离作为迁移标准,从 的要求不断增大,现实中很难获取到如此大量的 通用新闻语料中获取K个与每篇特定领域语料 同分布数据集。在此背景下,迁移学习的提出, 最相近的文本,从而达到扩充领域语料集的目 为数据量不足的问题提供了新的解决思路。迁移 的。将扩充的语料集送入1.4节所述网络模型中 学习可以利用已有的数据迁移知识,用于帮助目 进行实体识别,由实体识别结果作为反馈不断修 标域中的学习问题。针对特定领域,虽然随着计 正K值,从而实现最佳迁移标准与质量。训练过程中,这些约束可以由 CRF 层从训练数据 集中自动学习,从而得到句子的最佳序列标注。 1.4 基于深度学习的 BiLSTM-CNN-CRFs 网络模型 本文构建的用于领域命名实体识别的基于深 度学习的 BiLSTM-CNN-CRFs 网络模型如图 3 所 示。对于一个句子序列,将每个字的词向量输入 到 CNN 网络中,并在使用时对词向量进行微调 (fine tuning),采用 CNN 的窗口滑动功能得到词表 示向量,然后将词表示向量与字的词向量馈送至 BiLSTM 网络中,学习到句子序列标签的最高得 分 (虚线表示引入 Dropout 层防止数据过拟合)。 最 后 BiLSTM 输出的向量再馈送 至 C RF 层 , CRF 通过从训练语料中自学习得到约束,对 BiL￾STM 中的输出向量进行联合标签解码。在卷积 过程和 BiLSTM 预测过程中引入 Dropout 技术以 防止过拟合现象。 Char representation LSTM LSTM CRF CRF Lays 中 Output 国 LSTM LSTM CRF 包 LSTM LSTM CRF I-ORG 装 LSTM LSTM CRF I-ORG 网 Farword LSTM Word embedding Backword LSTM B-ORG I-ORG I-ORG 讯 LSTM LSTM CRF LSTM LSTM CRF O 图 3 基于深度学习的 BiLSTM-CNN-CRFs 网络模型 Fig. 3 BiLSTM-CNN-CRFs network model based on deep learning 2 反馈式 K 近邻语义迁移学习算法 2.1 问题描述 传统机器学习假设训练数据与测试数据满足 数据同分布,然而现实中的大量数据并不满足这 种同分布假设。随着深度学习的发展,对数据量 的要求不断增大,现实中很难获取到如此大量的 同分布数据集。在此背景下,迁移学习的提出, 为数据量不足的问题提供了新的解决思路。迁移 学习可以利用已有的数据迁移知识,用于帮助目 标域中的学习问题。针对特定领域,虽然随着计 算机的普及与发展已产生大量的非结构化文本, 但这些语料并未标注,导致专业领域文本训练语 料严重缺乏。而随着互联网行业与移动互联网的 发展,互联网上产生了海量的通用领域新闻文 本,且形成了成熟的标注语料库。而通用领域新 闻文本与专业领域新闻文本同属新闻语料,彼此 具有一定的相似性和数据同分布性,这为我们提 供了解决特定领域文本严重不足的思路。 为了解决领域训练语料严重缺乏的现实,本 文应用迁移学习方法从通用新闻语料中得到与专 业领域语料语义正相关的数据以扩充领域语料 集。应用迁移学习技术解决专业领域语料不足的 问题,面临的主要挑战如下:1) 如何表达通用新 闻数据中的知识,以适配专业领域样本语义中的 知识与分布,从而达到迁移目的;2) 在解决 1) 中 问题的基础上,如何衡量通用新闻语料与领域新 闻语料的相似性;3) 对于迁移的标准与质量应该 如何度量,何时达到迁移阈值,停止迁移,防止 “负迁移”出现。 针对上述挑战,本文提出一种反馈式 K 近邻 语义迁移学习 (feedback K-Nearest-neighbor semant￾ic transfer learning,F-KNST) 算法,并采用 BiL￾STM-CNN-CRFs 深度学习网络模型,对领域实体 进行识别,其流程如图 4 所示。针对 1),本文选用 文档向量 (Doc2Vec) 衡量通用新闻语料与领域语 料的语义差异性。Doc2Vec[14] 是由 Quoc Le 和 Tomas Mikolov 在 Word2Vec 的基础上提出的,文 档向量充分利用了词向量和段落向量 (paragraphs vectors),可以很好地预测文档之间的语义相似 性。针对 2),本文提出一种使用马哈拉诺比斯距 离 [15] (马氏距离) 的语义距离度量方法。传统欧氏 距离存在无法结合先验知识、同等看待样本等局 限性,在实际应用中常无法满足需求。马氏距离 是由印度统计学家马哈拉诺比斯提出的,表示数 据的协方差距离,它是一种有效的计算 2 个未知 样本集的相似度的方法,其协方差特性不仅可以 结合数据的统计特性,还能兼顾到样本的相关 性。杨绪兵等[16] 已经通过证明和相关实验验证 了马氏距离相对于欧氏距离的优越性。针对 3), 提出 F-KNST 算法,从 1) 和 2) 中得到通用新闻语 料与领域语料的语义向量距离作为迁移标准,从 通用新闻语料中获取 K 个与每篇特定领域语料 最相近的文本,从而达到扩充领域语料集的目 的。将扩充的语料集送入 1.4 节所述网络模型中 进行实体识别,由实体识别结果作为反馈不断修 正 K 值,从而实现最佳迁移标准与质量。 第 4 期 朱艳辉,等:反馈式 K 近邻语义迁移学习的领域命名实体识别 ·823·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有