K 近邻语义迁移适配领域新闻数据集 Doc2Vec 领域新闻数据 Do

正在加载图片...

·824· 智能系统学报第14卷通用新闻个 Doc2Vec 领域新闻 Doc2Vec 数据集数据集通用新闻数据领域新闻数据 Doc2Vec集 Doc2Vec集反馈 K近邻语义迁移适配领域新闻数据领域新闻数据领域新闻数据领域新闻数据扩展集1 扩展集2 扩展集N1 扩展集N BiLSTM-CNN-CRFs 识别结果1 识别结果2 识别结果1 识别结果W 输出最佳识别结果图4反馈式K近邻语义迁移学习的领域命名实体识别流程 Fig.4 F-KNST domain named entity recognition flowchart 2.2F-KNST算法实现 3)初始化k值：通用新闻数据集（以下称源域）中存在许多可 4)dt)∈D(0)n,从D()n中获取目标域样本文档以迁移到特定领域新闻数据集（以下称目标向量dt): 域)的知识。由于目标域除了行业名词之外，与 5)d(s)eD(s)m,从D(s)m中获取源域样本文档源域数据格式、报道措辞均相差不大，数据分布向量d(s: 基本满足独立同分布。因此，从源域中获取与目 6)使用式(4)计算样本语义相似度距离标域中语义相近的新闻语料以填充目标域可以更 Dist(du,d(s);针对每个目标域样本j,从源域提加丰富目标域中数据分布特点，扩充目标域中语取k个最相关的源域样本，加入到目标域数据扩展义特征，使目标域在后续预训练和训练过程中获集yem 取到足够的语义信息及类实体特征。 7)对ym中样本进行预处理，预训练，送入 1)马氏距离定义 BiLSTM+CNN+CRFs网络模型中训练，得到实体设随机向量x∈R",来自分布X(XcR"),E∈R 识别结果；与∑∈R"×"分别表示X的期望和协方差，{x:"是 8)更新k值，重复执行4)7)，返回N组实体识 x的一组观测值，并且满足独立同分布条件。别结果：定义1设x为空间R的一个n维向量，Σ是 9)根据实体识别反馈的结果，选择识别结果分布X的协方差，则称最好的值，当k=时，即为最佳迁移样本数： xlly VxTE-x (3) 10)输出k=时的目标域数据扩展集yea 为此分布下x的M范数。 3实验与分析定义2在M范数定义下，若x,yeR,则马氏距离定义为：为验证本文所提出算法的有效性，本文分别 d(x.y)=v(x-y)E-(x-y) (4) 以包装领域和医疗领域为例进行命名实体识别实验。 2)F-KNST算法描述 3.1包装领域命名实体识别输入源域数据集X,目标域数据集X,样本 3.11数据准备近邻数k: 中国包装网作为我国最大的包装行业专业网输出目标域数据扩展集ym; 站，包含了大量的包装领域文本。本文从中国包 1)输入源域数据集X,目标域数据集X: 装网”上获取包装行业新闻作为实验数据构成 2)对X和X分别训练文档向量。得到源域向迁移学习目标域样本，共计500篇。为保证源域量集D(s)m,D(s)m={d(s),d(s2),…,dsm)l,目标域向与目标域的样本分布，本文选取搜狗实验室的量集D(0m,D(i)n={dt),dt2)…,d(tn); 全网新闻语料，通过xml解析并去除Html标签后K 近邻语义迁移适配领域新闻数据集 Doc2Vec 领域新闻数据 Doc2Vec 集通用新闻数据集 Doc2Vec 通用新闻数据 Doc2Vec 集领域新闻数据扩展集 1 领域新闻数据扩展集 2 领域新闻数据扩展集 N-1 领域新闻数据 … 扩展集 N 识别结果 1 BiLSTM-CNN-CRFs 识别结果 2 … 识别结果 N-1 识别结果 N 反馈输出最佳识别结果图 4 反馈式 K 近邻语义迁移学习的领域命名实体识别流程 Fig. 4 F-KNST domain named entity recognition flowchart 2.2 F-KNST 算法实现通用新闻数据集 (以下称源域) 中存在许多可以迁移到特定领域新闻数据集 (以下称目标域) 的知识。由于目标域除了行业名词之外，与源域数据格式、报道措辞均相差不大，数据分布基本满足独立同分布。因此，从源域中获取与目标域中语义相近的新闻语料以填充目标域可以更加丰富目标域中数据分布特点，扩充目标域中语义特征，使目标域在后续预训练和训练过程中获取到足够的语义信息及类实体特征。 1) 马氏距离定义 ⊆ X {xi}1 n x 设随机向量 x∈R n ，来自分布 X(X R n )，E∈R n 与 Σ∈R n × n 分别表示的期望和协方差，是的一组观测值，并且满足独立同分布条件。定义 1 设 x 为空间 R n n 的一个维向量，Σ 是分布 X 的协方差，则称 ∥x∥M = √ x TΣ−1 x (3) 为此分布下 x 的 M 范数。 ∀x, y ∈ R 定义 d 2 在 M 范数定义下，若，则马氏距离定义为： d(x, y) = √ (x−y)Σ−1 (x−y) (4) 2)F-KNST 算法描述 Xs Xt k 输入源域数据集，目标域数据集，样本近邻数；输出目标域数据扩展集 yext； 1) 输入源域数据集 Xs Xt ,目标域数据集； Xs Xt D(s)m D(s)m = {d(s1),d(s2),··· ,d(sm)} D(t)n D(t)n = {d(t1),d(t2),··· ,d(tn)} 2) 对和分别训练文档向量。得到源域向量集，，目标域向量集，； 3) 初始化 k 值； d(ti) ∈ D(t)n D(t)n d(ti) 4) ，从中获取目标域样本文档向量； d(sj) ∈ D(s)m D(s)m d(sj) 5) ，从中获取源域样本文档向量； Dist(d(ti),d(sj)) j k yext 6 ) 使用式 ( 4 ) 计算样本语义相似度距离；针对每个目标域样本，从源域提取个最相关的源域样本，加入到目标域数据扩展集； 7) 对 yext 中样本进行预处理，预训练，送入 BiLSTM+CNN+CRFs 网络模型中训练，得到实体识别结果； 8) 更新 k 值，重复执行 4)~7)，返回 N 组实体识别结果； ˜k k ˜k 9) 根据实体识别反馈的结果，选择识别结果最好的值，当 = 时，即为最佳迁移样本数； k ˜ 10) 输出 =k 时的目标域数据扩展集 yext。 3 实验与分析为验证本文所提出算法的有效性，本文分别以包装领域和医疗领域为例进行命名实体识别实验。 3.1 包装领域命名实体识别 3.1.1 数据准备中国包装网作为我国最大的包装行业专业网站，包含了大量的包装领域文本。本文从中国包装网[17] 上获取包装行业新闻作为实验数据构成迁移学习目标域样本，共计 500 篇。为保证源域与目标域的样本分布，本文选取搜狗实验室[18] 的全网新闻语料，通过 xml 解析并去除 Html 标签后 ·824· 智能系统学报第 14 卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】反馈式iKi近邻语义迁移学习的领域命名实体识别