正在加载图片...
·824· 智能系统学报 第14卷 通用新闻个 Doc2Vec 领域新闻 Doc2Vec 数据集 数据集 通用新闻数据 领域新闻数据 Doc2Vec集 Doc2Vec集 反馈 K近邻语义迁移适配 领域新闻数据 领域新闻数据 领域新闻数据 领域新闻数据 扩展集1 扩展集2 扩展集N1 扩展集N BiLSTM-CNN-CRFs 识别结果1 识别结果2 识别结果1 识别结果W 输出最佳识别结果 图4反馈式K近邻语义迁移学习的领域命名实体识别流程 Fig.4 F-KNST domain named entity recognition flowchart 2.2F-KNST算法实现 3)初始化k值: 通用新闻数据集(以下称源域)中存在许多可 4)dt)∈D(0)n,从D()n中获取目标域样本文档 以迁移到特定领域新闻数据集(以下称目标 向量dt): 域)的知识。由于目标域除了行业名词之外,与 5)d(s)eD(s)m,从D(s)m中获取源域样本文档 源域数据格式、报道措辞均相差不大,数据分布 向量d(s: 基本满足独立同分布。因此,从源域中获取与目 6)使用式(4)计算样本语义相似度距离 标域中语义相近的新闻语料以填充目标域可以更 Dist(du,d(s);针对每个目标域样本j,从源域提 加丰富目标域中数据分布特点,扩充目标域中语 取k个最相关的源域样本,加入到目标域数据扩展 义特征,使目标域在后续预训练和训练过程中获 集yem 取到足够的语义信息及类实体特征。 7)对ym中样本进行预处理,预训练,送入 1)马氏距离定义 BiLSTM+CNN+CRFs网络模型中训练,得到实体 设随机向量x∈R",来自分布X(XcR"),E∈R 识别结果; 与∑∈R"×"分别表示X的期望和协方差,{x:"是 8)更新k值,重复执行4)7),返回N组实体识 x的一组观测值,并且满足独立同分布条件。 别结果: 定义1设x为空间R的一个n维向量,Σ是 9)根据实体识别反馈的结果,选择识别结果 分布X的协方差,则称 最好的值,当k=时,即为最佳迁移样本数: xlly VxTE-x (3) 10)输出k=时的目标域数据扩展集yea 为此分布下x的M范数。 3实验与分析 定义2在M范数定义下,若x,yeR,则马 氏距离定义为: 为验证本文所提出算法的有效性,本文分别 d(x.y)=v(x-y)E-(x-y) (4) 以包装领域和医疗领域为例进行命名实体识别实验。 2)F-KNST算法描述 3.1包装领域命名实体识别 输入源域数据集X,目标域数据集X,样本 3.11数据准备 近邻数k: 中国包装网作为我国最大的包装行业专业网 输出目标域数据扩展集ym; 站,包含了大量的包装领域文本。本文从中国包 1)输入源域数据集X,目标域数据集X: 装网”上获取包装行业新闻作为实验数据构成 2)对X和X分别训练文档向量。得到源域向 迁移学习目标域样本,共计500篇。为保证源域 量集D(s)m,D(s)m={d(s),d(s2),…,dsm)l,目标域向 与目标域的样本分布,本文选取搜狗实验室的 量集D(0m,D(i)n={dt),dt2)…,d(tn); 全网新闻语料,通过xml解析并去除Html标签后K 近邻语义迁移适配 领域新闻 数据集 Doc2Vec 领域新闻数据 Doc2Vec 集 通用新闻 数据集 Doc2Vec 通用新闻数据 Doc2Vec 集 领域新闻数据 扩展集 1 领域新闻数据 扩展集 2 领域新闻数据 扩展集 N-1 领域新闻数据 … 扩展集 N 识别结果 1 BiLSTM-CNN-CRFs 识别结果 2 … 识别结果 N-1 识别结果 N 反馈 输出最佳识别结果 图 4 反馈式 K 近邻语义迁移学习的领域命名实体识别流程 Fig. 4 F-KNST domain named entity recognition flowchart 2.2 F-KNST 算法实现 通用新闻数据集 (以下称源域) 中存在许多可 以迁移到特定领域新闻数据 集 (以下称目标 域) 的知识。由于目标域除了行业名词之外,与 源域数据格式、报道措辞均相差不大,数据分布 基本满足独立同分布。因此,从源域中获取与目 标域中语义相近的新闻语料以填充目标域可以更 加丰富目标域中数据分布特点,扩充目标域中语 义特征,使目标域在后续预训练和训练过程中获 取到足够的语义信息及类实体特征。 1) 马氏距离定义 ⊆ X {xi}1 n x 设随机向量 x∈R n ,来自分布 X(X R n ),E∈R n 与 Σ∈R n × n 分别表示 的期望和协方差, 是 的一组观测值,并且满足独立同分布条件。 定义 1 设 x 为空间 R n n 的一个 维向量,Σ 是 分布 X 的协方差,则称 ∥x∥M = √ x TΣ−1 x (3) 为此分布下 x 的 M 范数。 ∀x, y ∈ R 定义 d 2 在 M 范数定义下,若 ,则马 氏距离定义为: d(x, y) = √ (x−y)Σ−1 (x−y) (4) 2)F-KNST 算法描述 Xs Xt k 输入 源域数据集 ,目标域数据集 ,样本 近邻数 ; 输出 目标域数据扩展集 yext; 1) 输入源域数据集 Xs Xt ,目标域数据集 ; Xs Xt D(s)m D(s)m = {d(s1),d(s2),··· ,d(sm)} D(t)n D(t)n = {d(t1),d(t2),··· ,d(tn)} 2) 对 和 分别训练文档向量。得到源域向 量集 , ,目标域向 量集 , ; 3) 初始化 k 值; d(ti) ∈ D(t)n D(t)n d(ti) 4) ,从 中获取目标域样本文档 向量 ; d(sj) ∈ D(s)m D(s)m d(sj) 5) ,从 中获取源域样本文档 向量 ; Dist(d(ti),d(sj)) j k yext 6 ) 使 用 式 ( 4 ) 计算样本语义相似度距离 ;针对每个目标域样本 ,从源域提 取 个最相关的源域样本,加入到目标域数据扩展 集 ; 7) 对 yext 中样本进行预处理,预训练,送入 BiLSTM+CNN+CRFs 网络模型中训练,得到实体 识别结果; 8) 更新 k 值,重复执行 4)~7),返回 N 组实体识 别结果; ˜k k ˜k 9) 根据实体识别反馈的结果,选择识别结果 最好的 值,当 = 时,即为最佳迁移样本数; k ˜ 10) 输出 =k 时的目标域数据扩展集 yext。 3 实验与分析 为验证本文所提出算法的有效性,本文分别 以包装领域和医疗领域为例进行命名实体识别实验。 3.1 包装领域命名实体识别 3.1.1 数据准备 中国包装网作为我国最大的包装行业专业网 站,包含了大量的包装领域文本。本文从中国包 装网[17] 上获取包装行业新闻作为实验数据构成 迁移学习目标域样本,共计 500 篇。为保证源域 与目标域的样本分布,本文选取搜狗实验室[18] 的 全网新闻语料,通过 xml 解析并去除 Html 标签后 ·824· 智 能 系 统 学 报 第 14 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有