正在加载图片...
第5期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1057· 点之间并不完全独立,而是具有一定的连接关 1)只考虑结构特征的网络表示学习方法 系,同时网络节点自身也包含特定的属性信息。 Deepwalk)作为网络表示学习的经典算法, 日常生活中的社交网络(微博)、问答社区(知乎)、 将自然语言处理中利用词共现信息进行建模的算 生活服务类网站(大众点评)、论文引用关系网络 法SkipGram"引入到网络表示学习任务中,通过 等包含了大量文本信息,下文中将此种网络简称 随机游走构建节点上下文序列,并利用Hierarch- 为文本信息网络。在文本信息网络中,文本信息 ical Softmax的树形结构加速训练过程。LINE 以标签、正文、描述以及其他元数据形式广泛存 主要利用预先设计的概率密度函数来表征图的一 在,给网络提供了大量可利用的语义信息。例如 阶、二阶相似度,并引入负采样川、异步随机梯度 论文引用关系网络中,论文作为网络节点并以引 下降(ASGD)1降低计算复杂度,实现适用于大 用关系作边,节点还包含相关文本信息。网络数 规模网络节点表示的计算。Node2vec对Deep- 据的这些特性,给大规模或复杂网络数据研究带 walk的随机游走策略进行了修改,通过在游走路 来了挑战。 径中增加权重项来控制深度(DFS)以及广度 网络表示学习(network embedding或network (BFS)优先的游走方式,使算法的图游走策略更 representation learning)目的是学习网络节点的低 有效率。GraRep将k阶相似矩阵进行分解,并 维空间向量表示,降低存储、计算成本,提升并行 将得到的特征向量进行拼接得到最后的节点向 能力,使传统机器学习算法能够在大规模数据中 量,以此来捕捉更高阶的相似度特征,但面临着 得到应用四。因此,近年涌现出许多相关研究,其 计算量巨大的问题。网络结构的相似性主要体现 研究成果在链接预测回、社团发现)、节点分类 在相似度计算上,其中一阶、二阶相似度是最普 相似度计算、网络可视化等应用场景广泛应 遍使用的特征,一般来说,模型中包含越多的高 用。大部分已有网络表示学习算法基于网络本身 阶相似度特征,模型表现越好,但是相应计算量 特征进行表示学习,例如DeepWalkm、Node2Vec剧 也会增大。 Line)等刻画结构特征的模型;以及针对文本信 2)结合节点语义信息的网络表示学习方法 息网络,在DeepWalk基础上引入文本特征的 上述模型只考虑网络的结构特征信息,针对 TADWI0,引入互注意力机制,并在部分文本信息 文本信息网络,Yang等1o提出了text-associated 网络公开数据集中得到了目前最优结果的CANE四 Deep-Walk(TADW),将文本信息与DeepWalk算 文本信息网络表示现有方法从网络本身文本特征 法进行了结合。Tu等m提出了max-margin DeepWalk 出发,由于网络文本分布与自然语言文本分布差 (MMDW),利用SVM思想对DeepWalk在文本信 异,会产生一定程度的语义残缺或语义漂移,这 息网络中的应用进行改进,Tu等提出了上下文 种情况在数据集规模受限情况下更为明显。 相关的网络表示学习模型CANE,针对不同上下 直觉上,为模型引入越多外部知识模型的表 文,利用互注意力机制,学习网络节点在不同上 示容量越高,模型结果越能够刻画更多网络特 下文中的表示。 征:而预训练的分布式词向量正是针对文本相关 使用自身文本特征进行建模,受限于任务本 任务的外部语义知识。随着词向量应用的普及, 存在许多以通用语料训练得到的词向量资源,其 身语料,容易产生语义偏差或残缺。在论文写作 时所知,鲜见引入外部词向量辅助文本信息网络 中包含了大量语义信息。利用这部分已有语义资 源增强文本信息网络的表示是本文研究的目标。 建模的研究。 相关工作 2语义漂移现象 网络表示学习早期技术以图表示(graph em- 如表1所示,采用Word2vec山对实验部分的 bedding)、降维方法为主。包括multidimensional Zhihu数据集21训练词向量,对由训练得到的词 scaling(MDS)、IsoMap!)、局部线性表示LLE川 向量与外部词向量中的随机词的相似词进行了对 以及Laplacian Eigenmap。这类算法的计算复杂 比。在Zhihu数据集词表中随机抽取两个词“电 度偏高,不适合在大规模网络中应用。 子乐”、“杭州”,根据余弦相似度分别在Zhihu词 随着近年网络表示学习发展,大量可以应用 向量与外部词向量词表中找到前5个表示近似的 在大规模网络中的算法相继提出。对于文本信息 词。可以看到,受限于数据集规模,Zhihu数据集 网络,主要分为如下2类: 的词模型表示能力有限,语义漂移明显。点之间并不完全独立,而是具有一定的连接关 系,同时网络节点自身也包含特定的属性信息。 日常生活中的社交网络 (微博)、问答社区 (知乎)、 生活服务类网站 (大众点评)、论文引用关系网络 等包含了大量文本信息,下文中将此种网络简称 为文本信息网络。在文本信息网络中,文本信息 以标签、正文、描述以及其他元数据形式广泛存 在,给网络提供了大量可利用的语义信息。例如 论文引用关系网络中,论文作为网络节点并以引 用关系作边,节点还包含相关文本信息。网络数 据的这些特性,给大规模或复杂网络数据研究带 来了挑战。 网络表示学习 (network embedding 或 network representation learning) 目的是学习网络节点的低 维空间向量表示,降低存储、计算成本,提升并行 能力,使传统机器学习算法能够在大规模数据中 得到应用[1]。因此,近年涌现出许多相关研究,其 研究成果在链接预测[2] 、社团发现[3] 、节点分类[4] 、 相似度计算[5] 、网络可视化[6] 等应用场景广泛应 用。大部分已有网络表示学习算法基于网络本身 特征进行表示学习,例如 DeepWalk[7] 、Node2Vec[8] 、 Line[9] 等刻画结构特征的模型;以及针对文本信 息网络,在 DeepWalk[7] 基础上引入文本特征的 TADW[10] ,引入互注意力机制,并在部分文本信息 网络公开数据集中得到了目前最优结果的 CANE[11]。 文本信息网络表示现有方法从网络本身文本特征 出发,由于网络文本分布与自然语言文本分布差 异,会产生一定程度的语义残缺或语义漂移,这 种情况在数据集规模受限情况下更为明显。 直觉上,为模型引入越多外部知识,模型的表 示容量越高,模型结果越能够刻画更多网络特 征;而预训练的分布式词向量正是针对文本相关 任务的外部语义知识。随着词向量应用的普及, 存在许多以通用语料训练得到的词向量资源,其 中包含了大量语义信息。利用这部分已有语义资 源增强文本信息网络的表示是本文研究的目标。 1 相关工作 网络表示学习早期技术以图表示 (graph em￾bedding)、降维方法为主。包括 multidimensional scaling (MDS)[12] 、IsoMap[13] 、局部线性表示 LLE[1] 以及 Laplacian Eigenmap[14]。这类算法的计算复杂 度偏高,不适合在大规模网络中应用。 随着近年网络表示学习发展,大量可以应用 在大规模网络中的算法相继提出。对于文本信息 网络,主要分为如下 2 类: 1) 只考虑结构特征的网络表示学习方法 Deepwalk[7] 作为网络表示学习的经典算法, 将自然语言处理中利用词共现信息进行建模的算 法 SkipGram[1] 引入到网络表示学习任务中,通过 随机游走构建节点上下文序列,并利用 Hierarch￾ical Softmax[2] 的树形结构加速训练过程。LINE[8] 主要利用预先设计的概率密度函数来表征图的一 阶、二阶相似度,并引入负采样[1] 、异步随机梯度 下降 (ASGD)[15] 降低计算复杂度,实现适用于大 规模网络节点表示的计算。Node2vec[9] 对 Deep￾walk 的随机游走策略进行了修改,通过在游走路 径中增加权重项来控制深度 (DFS) 以及广度 (BFS) 优先的游走方式,使算法的图游走策略更 有效率。GraRep[16] 将 k 阶相似矩阵进行分解,并 将得到的特征向量进行拼接得到最后的节点向 量,以此来捕捉更高阶的相似度特征,但面临着 计算量巨大的问题。网络结构的相似性主要体现 在相似度计算上,其中一阶、二阶相似度是最普 遍使用的特征,一般来说,模型中包含越多的高 阶相似度特征,模型表现越好,但是相应计算量 也会增大。 2) 结合节点语义信息的网络表示学习方法 上述模型只考虑网络的结构特征信息,针对 文本信息网络,Yang 等 [10] 提出了 text-associated Deep-Walk (TADW),将文本信息与 DeepWalk 算 法进行了结合。Tu 等 [17] 提出了 max-margin DeepWalk (MMDW),利用 SVM 思想对 DeepWalk 在文本信 息网络中的应用进行改进,Tu 等 [11] 提出了上下文 相关的网络表示学习模型 CANE,针对不同上下 文,利用互注意力机制,学习网络节点在不同上 下文中的表示。 使用自身文本特征进行建模,受限于任务本 身语料,容易产生语义偏差或残缺。在论文写作 时所知,鲜见引入外部词向量辅助文本信息网络 建模的研究。 2 语义漂移现象 如表 1 所示,采用 Word2vec[1] 对实验部分的 Zhihu 数据集[12] 训练词向量,对由训练得到的词 向量与外部词向量中的随机词的相似词进行了对 比。在 Zhihu 数据集词表中随机抽取两个词 “电 子乐”、“杭州”,根据余弦相似度分别在 Zhihu 词 向量与外部词向量词表中找到前 5 个表示近似的 词。可以看到,受限于数据集规模,Zhihu 数据集 的词模型表示能力有限,语义漂移明显。 第 5 期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1057·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有