点之间并不完全独立，而是具有一定的连接关系，同时网络节点自身也包含特定的

正在加载图片...

第5期张潇鲲，等：引入外部词向量的文本信息网络表示学习 ·1057· 点之间并不完全独立，而是具有一定的连接关 1)只考虑结构特征的网络表示学习方法系，同时网络节点自身也包含特定的属性信息。 Deepwalk)作为网络表示学习的经典算法，日常生活中的社交网络（微博）、问答社区（知乎）、将自然语言处理中利用词共现信息进行建模的算生活服务类网站（大众点评）、论文引用关系网络法SkipGram"引入到网络表示学习任务中，通过等包含了大量文本信息，下文中将此种网络简称随机游走构建节点上下文序列，并利用Hierarch- 为文本信息网络。在文本信息网络中，文本信息 ical Softmax的树形结构加速训练过程。LINE 以标签、正文、描述以及其他元数据形式广泛存主要利用预先设计的概率密度函数来表征图的一在，给网络提供了大量可利用的语义信息。例如阶、二阶相似度，并引入负采样川、异步随机梯度论文引用关系网络中，论文作为网络节点并以引下降(ASGD)1降低计算复杂度，实现适用于大用关系作边，节点还包含相关文本信息。网络数规模网络节点表示的计算。Node2vec对Deep- 据的这些特性，给大规模或复杂网络数据研究带 walk的随机游走策略进行了修改，通过在游走路来了挑战。径中增加权重项来控制深度(DFS)以及广度网络表示学习(network embedding或network (BFS)优先的游走方式，使算法的图游走策略更 representation learning)目的是学习网络节点的低有效率。GraRep将k阶相似矩阵进行分解，并维空间向量表示，降低存储、计算成本，提升并行将得到的特征向量进行拼接得到最后的节点向能力，使传统机器学习算法能够在大规模数据中量，以此来捕捉更高阶的相似度特征，但面临着得到应用四。因此，近年涌现出许多相关研究，其计算量巨大的问题。网络结构的相似性主要体现研究成果在链接预测回、社团发现)、节点分类在相似度计算上，其中一阶、二阶相似度是最普相似度计算、网络可视化等应用场景广泛应遍使用的特征，一般来说，模型中包含越多的高用。大部分已有网络表示学习算法基于网络本身阶相似度特征，模型表现越好，但是相应计算量特征进行表示学习，例如DeepWalkm、Node2Vec剧也会增大。 Line)等刻画结构特征的模型；以及针对文本信 2)结合节点语义信息的网络表示学习方法息网络，在DeepWalk基础上引入文本特征的上述模型只考虑网络的结构特征信息，针对 TADWI0,引入互注意力机制，并在部分文本信息文本信息网络，Yang等1o提出了text-associated 网络公开数据集中得到了目前最优结果的CANE四 Deep-Walk(TADW),将文本信息与DeepWalk算文本信息网络表示现有方法从网络本身文本特征法进行了结合。Tu等m提出了max-margin DeepWalk 出发，由于网络文本分布与自然语言文本分布差 (MMDW),利用SVM思想对DeepWalk在文本信异，会产生一定程度的语义残缺或语义漂移，这息网络中的应用进行改进，Tu等提出了上下文种情况在数据集规模受限情况下更为明显。相关的网络表示学习模型CANE,针对不同上下直觉上，为模型引入越多外部知识模型的表文，利用互注意力机制，学习网络节点在不同上示容量越高，模型结果越能够刻画更多网络特下文中的表示。征：而预训练的分布式词向量正是针对文本相关使用自身文本特征进行建模，受限于任务本任务的外部语义知识。随着词向量应用的普及，存在许多以通用语料训练得到的词向量资源，其身语料，容易产生语义偏差或残缺。在论文写作时所知，鲜见引入外部词向量辅助文本信息网络中包含了大量语义信息。利用这部分已有语义资源增强文本信息网络的表示是本文研究的目标。建模的研究。相关工作 2语义漂移现象网络表示学习早期技术以图表示(graph em- 如表1所示，采用Word2vec山对实验部分的 bedding)、降维方法为主。包括multidimensional Zhihu数据集21训练词向量，对由训练得到的词 scaling(MDS)、IsoMap!)、局部线性表示LLE川向量与外部词向量中的随机词的相似词进行了对以及Laplacian Eigenmap。这类算法的计算复杂比。在Zhihu数据集词表中随机抽取两个词“电度偏高，不适合在大规模网络中应用。子乐”、“杭州”，根据余弦相似度分别在Zhihu词随着近年网络表示学习发展，大量可以应用向量与外部词向量词表中找到前5个表示近似的在大规模网络中的算法相继提出。对于文本信息词。可以看到，受限于数据集规模，Zhihu数据集网络，主要分为如下2类：的词模型表示能力有限，语义漂移明显。点之间并不完全独立，而是具有一定的连接关系，同时网络节点自身也包含特定的属性信息。日常生活中的社交网络 (微博)、问答社区 (知乎)、生活服务类网站 (大众点评)、论文引用关系网络等包含了大量文本信息，下文中将此种网络简称为文本信息网络。在文本信息网络中，文本信息以标签、正文、描述以及其他元数据形式广泛存在，给网络提供了大量可利用的语义信息。例如论文引用关系网络中，论文作为网络节点并以引用关系作边，节点还包含相关文本信息。网络数据的这些特性，给大规模或复杂网络数据研究带来了挑战。网络表示学习 (network embedding 或 network representation learning) 目的是学习网络节点的低维空间向量表示，降低存储、计算成本，提升并行能力，使传统机器学习算法能够在大规模数据中得到应用[1]。因此，近年涌现出许多相关研究，其研究成果在链接预测[2] 、社团发现[3] 、节点分类[4] 、相似度计算[5] 、网络可视化[6] 等应用场景广泛应用。大部分已有网络表示学习算法基于网络本身特征进行表示学习，例如 DeepWalk[7] 、Node2Vec[8] 、 Line[9] 等刻画结构特征的模型；以及针对文本信息网络，在 DeepWalk[7] 基础上引入文本特征的 TADW[10] ，引入互注意力机制，并在部分文本信息网络公开数据集中得到了目前最优结果的 CANE[11]。文本信息网络表示现有方法从网络本身文本特征出发，由于网络文本分布与自然语言文本分布差异，会产生一定程度的语义残缺或语义漂移，这种情况在数据集规模受限情况下更为明显。直觉上，为模型引入越多外部知识，模型的表示容量越高，模型结果越能够刻画更多网络特征；而预训练的分布式词向量正是针对文本相关任务的外部语义知识。随着词向量应用的普及，存在许多以通用语料训练得到的词向量资源，其中包含了大量语义信息。利用这部分已有语义资源增强文本信息网络的表示是本文研究的目标。 1 相关工作网络表示学习早期技术以图表示 (graph embedding)、降维方法为主。包括 multidimensional scaling (MDS)[12] 、IsoMap[13] 、局部线性表示 LLE[1] 以及 Laplacian Eigenmap[14]。这类算法的计算复杂度偏高，不适合在大规模网络中应用。随着近年网络表示学习发展，大量可以应用在大规模网络中的算法相继提出。对于文本信息网络，主要分为如下 2 类： 1) 只考虑结构特征的网络表示学习方法 Deepwalk[7] 作为网络表示学习的经典算法，将自然语言处理中利用词共现信息进行建模的算法 SkipGram[1] 引入到网络表示学习任务中，通过随机游走构建节点上下文序列，并利用 Hierarchical Softmax[2] 的树形结构加速训练过程。LINE[8] 主要利用预先设计的概率密度函数来表征图的一阶、二阶相似度，并引入负采样[1] 、异步随机梯度下降 (ASGD)[15] 降低计算复杂度，实现适用于大规模网络节点表示的计算。Node2vec[9] 对 Deepwalk 的随机游走策略进行了修改，通过在游走路径中增加权重项来控制深度 (DFS) 以及广度 (BFS) 优先的游走方式，使算法的图游走策略更有效率。GraRep[16] 将 k 阶相似矩阵进行分解，并将得到的特征向量进行拼接得到最后的节点向量，以此来捕捉更高阶的相似度特征，但面临着计算量巨大的问题。网络结构的相似性主要体现在相似度计算上，其中一阶、二阶相似度是最普遍使用的特征，一般来说，模型中包含越多的高阶相似度特征，模型表现越好，但是相应计算量也会增大。 2) 结合节点语义信息的网络表示学习方法上述模型只考虑网络的结构特征信息，针对文本信息网络，Yang 等 [10] 提出了 text-associated Deep-Walk (TADW)，将文本信息与 DeepWalk 算法进行了结合。Tu 等 [17] 提出了 max-margin DeepWalk (MMDW)，利用 SVM 思想对 DeepWalk 在文本信息网络中的应用进行改进，Tu 等 [11] 提出了上下文相关的网络表示学习模型 CANE，针对不同上下文，利用互注意力机制，学习网络节点在不同上下文中的表示。使用自身文本特征进行建模，受限于任务本身语料，容易产生语义偏差或残缺。在论文写作时所知，鲜见引入外部词向量辅助文本信息网络建模的研究。 2 语义漂移现象如表 1 所示，采用 Word2vec[1] 对实验部分的 Zhihu 数据集[12] 训练词向量，对由训练得到的词向量与外部词向量中的随机词的相似词进行了对比。在 Zhihu 数据集词表中随机抽取两个词 “电子乐”、“杭州”，根据余弦相似度分别在 Zhihu 词向量与外部词向量词表中找到前 5 个表示近似的词。可以看到，受限于数据集规模，Zhihu 数据集的词模型表示能力有限，语义漂移明显。第 5 期张潇鲲，等：引入外部词向量的文本信息网络表示学习 ·1057·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】引入外部词向量的文本信息网络表示学习