【自然语言处理与理解】引入外部词向量的文本信息网络表示学习

团购合买资源类别：文库，文档格式：PDF，文档页数：8，文件大小：3.99MB

第14卷第5期智能系统学报 Vol.14 No.5 2019年9月 CAAI Transactions on Intelligent Systems Sep.2019 D0:10.11992/tis.201809037 网络出版地址：http:/kns.cnki.net/kcms/detail/23.1538.TP.20190401.0833.002.html 引入外部词向量的文本信息网络表示学习张潇鲲，刘琰，陈静 (数学工程与先进计算国家重点实验室，河南郑州450000) 摘要：针对信息网铬(text-based information network)现有研究多基于网络自身信息建模，受限于任务语料规模，只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题，本文将外部语料引入建模过程中，利用外部语料得到的词向量对建模过程进行优化，提出基于外部词向量的网络表示模型NE-EWV(network em- bedding based on external word vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示。通过实验，在现实网络数据集中对模型有效性进行了验证。实验结果表明，在链接预测任务中的AUC指标，相比只考虑结构特征的模型提升7%~19%，相比考虑结构与文本特征的模型在大部分情况下有1%12%提升；在节点分类任务中，与基线方法中性能最好的CANE性能相当。证明引入外部词向量作为外部知识能够有效提升网络表示能力。关键词：网络表示学习；文本信息网络；自编码器；外部词向量；节点分类；词向量；分布式表示：表示学习中图分类号：TP181文献标志码：A文章编号：1673-4785(2019)05-1056-08 中文引用格式：张萧鲲，刘琰，陈静.引入外部词向量的文本信息网络表示学习.智能系统学报，2019,14(5)：1056-1063 英文引用格式：ZHANG Xiaokun,.LIU Yan,CHEN Jing.Representation learning using network embedding based on external word vectors[J].CAAI transactions on intelligent systems,2019,14(5):1056-1063. Representation learning using network embedding based on external word vectors ZHANG Xiaokun,LIU Yan,CHEN Jing (Mathematical Engineering and Advanced Computing State Key Laboratory,Zhengzhou 450000) Abstract:Network embedding,which preserves a network's sophisticated features,can effectively learn the low-dimen- sional embedding of vertices in order to lower the computing and storage costs.Content information networks(such as Twitter).which contain rich text information,are commonly used in daily life.Most studies on content information net- work are based on the information of the network itself.Distributed word vectors are becoming increasingly popular in natural language processing tasks.As a low-dimensional representation of the semantic feature space,word vectors can preserve syntactic and semantic regularities.By introducing external word vectors into the modeling process,we can use the external syntactic and semantic features.Hence,in this paper,we propose network embedding based on external word vectors (NE-EWV),whereby the feature fusion representation is learned from both semantic feature space as well as structural feature space.Empirical experiments were conducted using real-world content information network data- sets to validate the effectiveness of the model.The results show that in link prediction task,the AUC of the model was 7%to 19%higher than that of the model that considers only the structural features,and in most cases was 1%to 12% higher than the model that considers structural and text features.In node classification tasks,the performance is compar- able with that of context-aware network embedding (CANE),which was the state-of-the-art baseline model. Keywords:network embedding;content information network;auto-encoder;external word vectors;vertex classifica- tion;word vectors;distributed representation;representation learning 收稿日期：2019-09-19.网络出版日期：2019-04-02. 近年来，随着互联网的发展，以Facebook、twitter、基金项目：国家自然科学基金项目(61309007.U1636219):国家重点研发计划课题资助项目(2016YFB0801303, 微博等为代表的大型网络不断发展，产生了海量 2016QY01W0105). 通信作者：刘琰.E-mail:ms_liuyan@aliyun..com 具有网络结构的数据，这些数据的特点在于样本

DOI: 10.11992/tis.201809037 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190401.0833.002.html 引入外部词向量的文本信息网络表示学习张潇鲲，刘琰，陈静（数学工程与先进计算国家重点实验室，河南郑州 450000）摘要：针对信息网络（text-based information network）现有研究多基于网络自身信息建模，受限于任务语料规模，只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题，本文将外部语料引入建模过程中，利用外部语料得到的词向量对建模过程进行优化，提出基于外部词向量的网络表示模型 NE-EWV（network embedding based on external word vectors），从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示。通过实验，在现实网络数据集中对模型有效性进行了验证。实验结果表明，在链接预测任务中的 AUC 指标，相比只考虑结构特征的模型提升 7%~19%，相比考虑结构与文本特征的模型在大部分情况下有 1%~12% 提升；在节点分类任务中，与基线方法中性能最好的 CANE 性能相当。证明引入外部词向量作为外部知识能够有效提升网络表示能力。关键词：网络表示学习；文本信息网络；自编码器；外部词向量；节点分类；词向量；分布式表示；表示学习中图分类号：TP181 文献标志码：A 文章编号：1673−4785(2019)05−1056−08 中文引用格式：张潇鲲, 刘琰, 陈静. 引入外部词向量的文本信息网络表示学习 [J]. 智能系统学报, 2019, 14(5): 1056–1063. 英文引用格式：ZHANG Xiaokun, LIU Yan, CHEN Jing. Representation learning using network embedding based on external word vectors[J]. CAAI transactions on intelligent systems, 2019, 14(5): 1056–1063. Representation learning using network embedding based on external word vectors ZHANG Xiaokun，LIU Yan，CHEN Jing (Mathematical Engineering and Advanced Computing State Key Laboratory, Zhengzhou 450000) Abstract: Network embedding, which preserves a network’s sophisticated features, can effectively learn the low-dimensional embedding of vertices in order to lower the computing and storage costs. Content information networks (such as Twitter), which contain rich text information, are commonly used in daily life. Most studies on content information network are based on the information of the network itself. Distributed word vectors are becoming increasingly popular in natural language processing tasks. As a low-dimensional representation of the semantic feature space, word vectors can preserve syntactic and semantic regularities. By introducing external word vectors into the modeling process, we can use the external syntactic and semantic features. Hence, in this paper, we propose network embedding based on external word vectors (NE-EWV), whereby the feature fusion representation is learned from both semantic feature space as well as structural feature space. Empirical experiments were conducted using real-world content information network datasets to validate the effectiveness of the model. The results show that in link prediction task, the AUC of the model was 7% to 19% higher than that of the model that considers only the structural features, and in most cases was 1% to 12% higher than the model that considers structural and text features. In node classification tasks, the performance is comparable with that of context-aware network embedding (CANE), which was the state-of-the-art baseline model. Keywords: network embedding; content information network; auto-encoder; external word vectors; vertex classification; word vectors; distributed representation; representation learning 近年来，随着互联网的发展，以 Facebook、twitter、微博等为代表的大型网络不断发展，产生了海量具有网络结构的数据，这些数据的特点在于样本收稿日期：2019−09−19. 网络出版日期：2019−04−02. 基金项目：国家自然科学基金项目 (61309007，U1636219)；国家重点研发计划课题资助项目 (2016YFB0801303， 2016QY01W0105). 通信作者：刘琰. E-mail：ms_liuyan@aliyun.com. 第 14 卷第 5 期智能系统学报 Vol.14 No.5 2019 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2019

第5期张潇鲲，等：引入外部词向量的文本信息网络表示学习 ·1057· 点之间并不完全独立，而是具有一定的连接关 1)只考虑结构特征的网络表示学习方法系，同时网络节点自身也包含特定的属性信息。 Deepwalk)作为网络表示学习的经典算法，日常生活中的社交网络（微博）、问答社区（知乎）、将自然语言处理中利用词共现信息进行建模的算生活服务类网站（大众点评）、论文引用关系网络法SkipGram"引入到网络表示学习任务中，通过等包含了大量文本信息，下文中将此种网络简称随机游走构建节点上下文序列，并利用Hierarch- 为文本信息网络。在文本信息网络中，文本信息 ical Softmax的树形结构加速训练过程。LINE 以标签、正文、描述以及其他元数据形式广泛存主要利用预先设计的概率密度函数来表征图的一在，给网络提供了大量可利用的语义信息。例如阶、二阶相似度，并引入负采样川、异步随机梯度论文引用关系网络中，论文作为网络节点并以引下降(ASGD)1降低计算复杂度，实现适用于大用关系作边，节点还包含相关文本信息。网络数规模网络节点表示的计算。Node2vec对Deep- 据的这些特性，给大规模或复杂网络数据研究带 walk的随机游走策略进行了修改，通过在游走路来了挑战。径中增加权重项来控制深度(DFS)以及广度网络表示学习(network embedding或network (BFS)优先的游走方式，使算法的图游走策略更 representation learning)目的是学习网络节点的低有效率。GraRep将k阶相似矩阵进行分解，并维空间向量表示，降低存储、计算成本，提升并行将得到的特征向量进行拼接得到最后的节点向能力，使传统机器学习算法能够在大规模数据中量，以此来捕捉更高阶的相似度特征，但面临着得到应用四。因此，近年涌现出许多相关研究，其计算量巨大的问题。网络结构的相似性主要体现研究成果在链接预测回、社团发现)、节点分类在相似度计算上，其中一阶、二阶相似度是最普相似度计算、网络可视化等应用场景广泛应遍使用的特征，一般来说，模型中包含越多的高用。大部分已有网络表示学习算法基于网络本身阶相似度特征，模型表现越好，但是相应计算量特征进行表示学习，例如DeepWalkm、Node2Vec剧也会增大。 Line)等刻画结构特征的模型；以及针对文本信 2)结合节点语义信息的网络表示学习方法息网络，在DeepWalk基础上引入文本特征的上述模型只考虑网络的结构特征信息，针对 TADWI0,引入互注意力机制，并在部分文本信息文本信息网络，Yang等1o提出了text-associated 网络公开数据集中得到了目前最优结果的CANE四 Deep-Walk(TADW),将文本信息与DeepWalk算文本信息网络表示现有方法从网络本身文本特征法进行了结合。Tu等m提出了max-margin DeepWalk 出发，由于网络文本分布与自然语言文本分布差 (MMDW),利用SVM思想对DeepWalk在文本信异，会产生一定程度的语义残缺或语义漂移，这息网络中的应用进行改进，Tu等提出了上下文种情况在数据集规模受限情况下更为明显。相关的网络表示学习模型CANE,针对不同上下直觉上，为模型引入越多外部知识模型的表文，利用互注意力机制，学习网络节点在不同上示容量越高，模型结果越能够刻画更多网络特下文中的表示。征：而预训练的分布式词向量正是针对文本相关使用自身文本特征进行建模，受限于任务本任务的外部语义知识。随着词向量应用的普及，存在许多以通用语料训练得到的词向量资源，其身语料，容易产生语义偏差或残缺。在论文写作时所知，鲜见引入外部词向量辅助文本信息网络中包含了大量语义信息。利用这部分已有语义资源增强文本信息网络的表示是本文研究的目标。建模的研究。相关工作 2语义漂移现象网络表示学习早期技术以图表示(graph em- 如表1所示，采用Word2vec山对实验部分的 bedding)、降维方法为主。包括multidimensional Zhihu数据集21训练词向量，对由训练得到的词 scaling(MDS)、IsoMap!)、局部线性表示LLE川向量与外部词向量中的随机词的相似词进行了对以及Laplacian Eigenmap。这类算法的计算复杂比。在Zhihu数据集词表中随机抽取两个词“电度偏高，不适合在大规模网络中应用。子乐”、“杭州”，根据余弦相似度分别在Zhihu词随着近年网络表示学习发展，大量可以应用向量与外部词向量词表中找到前5个表示近似的在大规模网络中的算法相继提出。对于文本信息词。可以看到，受限于数据集规模，Zhihu数据集网络，主要分为如下2类：的词模型表示能力有限，语义漂移明显

点之间并不完全独立，而是具有一定的连接关系，同时网络节点自身也包含特定的属性信息。日常生活中的社交网络 (微博)、问答社区 (知乎)、生活服务类网站 (大众点评)、论文引用关系网络等包含了大量文本信息，下文中将此种网络简称为文本信息网络。在文本信息网络中，文本信息以标签、正文、描述以及其他元数据形式广泛存在，给网络提供了大量可利用的语义信息。例如论文引用关系网络中，论文作为网络节点并以引用关系作边，节点还包含相关文本信息。网络数据的这些特性，给大规模或复杂网络数据研究带来了挑战。网络表示学习 (network embedding 或 network representation learning) 目的是学习网络节点的低维空间向量表示，降低存储、计算成本，提升并行能力，使传统机器学习算法能够在大规模数据中得到应用[1]。因此，近年涌现出许多相关研究，其研究成果在链接预测[2] 、社团发现[3] 、节点分类[4] 、相似度计算[5] 、网络可视化[6] 等应用场景广泛应用。大部分已有网络表示学习算法基于网络本身特征进行表示学习，例如 DeepWalk[7] 、Node2Vec[8] 、 Line[9] 等刻画结构特征的模型；以及针对文本信息网络，在 DeepWalk[7] 基础上引入文本特征的 TADW[10] ，引入互注意力机制，并在部分文本信息网络公开数据集中得到了目前最优结果的 CANE[11]。文本信息网络表示现有方法从网络本身文本特征出发，由于网络文本分布与自然语言文本分布差异，会产生一定程度的语义残缺或语义漂移，这种情况在数据集规模受限情况下更为明显。直觉上，为模型引入越多外部知识，模型的表示容量越高，模型结果越能够刻画更多网络特征；而预训练的分布式词向量正是针对文本相关任务的外部语义知识。随着词向量应用的普及，存在许多以通用语料训练得到的词向量资源，其中包含了大量语义信息。利用这部分已有语义资源增强文本信息网络的表示是本文研究的目标。 1 相关工作网络表示学习早期技术以图表示 (graph embedding)、降维方法为主。包括 multidimensional scaling (MDS)[12] 、IsoMap[13] 、局部线性表示 LLE[1] 以及 Laplacian Eigenmap[14]。这类算法的计算复杂度偏高，不适合在大规模网络中应用。随着近年网络表示学习发展，大量可以应用在大规模网络中的算法相继提出。对于文本信息网络，主要分为如下 2 类： 1) 只考虑结构特征的网络表示学习方法 Deepwalk[7] 作为网络表示学习的经典算法，将自然语言处理中利用词共现信息进行建模的算法 SkipGram[1] 引入到网络表示学习任务中，通过随机游走构建节点上下文序列，并利用 Hierarchical Softmax[2] 的树形结构加速训练过程。LINE[8] 主要利用预先设计的概率密度函数来表征图的一阶、二阶相似度，并引入负采样[1] 、异步随机梯度下降 (ASGD)[15] 降低计算复杂度，实现适用于大规模网络节点表示的计算。Node2vec[9] 对 Deepwalk 的随机游走策略进行了修改，通过在游走路径中增加权重项来控制深度 (DFS) 以及广度 (BFS) 优先的游走方式，使算法的图游走策略更有效率。GraRep[16] 将 k 阶相似矩阵进行分解，并将得到的特征向量进行拼接得到最后的节点向量，以此来捕捉更高阶的相似度特征，但面临着计算量巨大的问题。网络结构的相似性主要体现在相似度计算上，其中一阶、二阶相似度是最普遍使用的特征，一般来说，模型中包含越多的高阶相似度特征，模型表现越好，但是相应计算量也会增大。 2) 结合节点语义信息的网络表示学习方法上述模型只考虑网络的结构特征信息，针对文本信息网络，Yang 等 [10] 提出了 text-associated Deep-Walk (TADW)，将文本信息与 DeepWalk 算法进行了结合。Tu 等 [17] 提出了 max-margin DeepWalk (MMDW)，利用 SVM 思想对 DeepWalk 在文本信息网络中的应用进行改进，Tu 等 [11] 提出了上下文相关的网络表示学习模型 CANE，针对不同上下文，利用互注意力机制，学习网络节点在不同上下文中的表示。使用自身文本特征进行建模，受限于任务本身语料，容易产生语义偏差或残缺。在论文写作时所知，鲜见引入外部词向量辅助文本信息网络建模的研究。 2 语义漂移现象如表 1 所示，采用 Word2vec[1] 对实验部分的 Zhihu 数据集[12] 训练词向量，对由训练得到的词向量与外部词向量中的随机词的相似词进行了对比。在 Zhihu 数据集词表中随机抽取两个词 “电子乐”、“杭州”，根据余弦相似度分别在 Zhihu 词向量与外部词向量词表中找到前 5 个表示近似的词。可以看到，受限于数据集规模，Zhihu 数据集的词模型表示能力有限，语义漂移明显。第 5 期张潇鲲，等：引入外部词向量的文本信息网络表示学习 ·1057·

·1058· 智能系统学报第14卷表1“电子乐”相似词对比关特征。 Table1“Dian Zi Yue”cosine similarity 定义4结构相似度电子乐(Zhihu)相似度电子乐（外部词向量）相似度一阶相似度一阶相似度通过当前节点与相专指 0.828 电音 0.717 邻节点间的联通关系，描述了网络在一跳范围内 energy 0.801 电子乐 0.710 的结构特征。对节点“、v,若节点间没有边相连，则一阶相似度为0。若存在边(u,),一阶相似度 sound 0.782 爵士音乐 0.7091 即为边权重ww。录音 0.747 音乐风格 0.7056 二阶相似度二阶相似度衡量了当前节点与现场表演 0.740 乐队 0.7024 相距两跳的邻居节点间的结构相似程度。记表2“杭州”相似词对比 p=(w1,w2,…,wuw)为节点u与其他所有点之 Table 2 “Hang zhou”cosine similarity 间的一阶相似度。、v的二阶相似度为p、p巴杭州(Zhihu) 相似度杭州（外部词向量）相似度的相似度，该相似度可以通过余弦相似度等相似度度量方式进行衡量，若“、y没有一跳公共邻居 1897 0.949 嘉兴 0.765 节点，则二阶相似度为0。人间天堂 0.906 无锡 0.744 高阶相似度记“与其他所有节点的N-1 浙大 0.866 苏州 0.744 阶相似度为p-。可以依以上定义“、v的N阶文化名城 0.795 宁波 0.699 相似度为pW-与p-)的相似程度，若u、v没有坐落于 0.750 上海 0.692 N-1跳公共邻居节点，则N阶相似度为0。基于外部词向量的文本信息网络表示学习目 3问题定义与描述的是对给定文本信息网络G=(V,E,T,C),在融合结构特征与语义特征的特征空间中，学习网络节沿用LNE9中的信息网络定义，文本信息网点的低维向量表示v∈R,使表示结果包含网络络定义如下：结构特征、网络本身文本特征以及外部文本特定义1文本信息网络征。出于计算复杂度考虑，本文只使用一阶、二文本信息网络被定义为G=(V,E,T),V表示阶相似度对结构特征进行建模，语义特征使用词网络中的节点集合，T表示节点文本信息集合，向量信息进行建模。 EsV×V表示节点通联构成的边，e=(u,)、e∈E 代表了节点u、v之间有带有权重wm>0的边。 4基于外部词向量的文本信息网络表对于无向图wm三wm、(u,)三（心，，对于有向图示学习模型NE-EWV wm≠wm、(u,V)卡(y,l)。文本信息网络建模过程中涉及到两个向量特定义2引入外部词向量的文本信息网络征空间：语义特征空间、结构特征空间。受限于给定外部词向量C,C为在语义特征空间中任务本身语料规模与词分布，文本信息网络建模的词向量表示集合。此时文本信息网络以G= 得到的语义特征空间表示与实际语义会产生一定 (V,E,T,C定义。程度偏差。本文引入外部词向量作为先验知识辅定义3节点特征空间表示助建模过程，可以扩展语义特征空间表示容量，网络表示学习的目的是对每个节点v∈V学修正部分语义误差。故NE-EWV主要解决2个习一个低维空间的向量表示veR(d<<VW。问题，一是引入外部词向量信息对语义特征进行对于节点veV,其节点文本表示为content,,= 扩充；其次是学习融合结构特征、语义特征的表 (word,word2,·,wordw.),节点特征空间表示即节点示结果。在不同向量特征空间中的表示结果。在文本信息 4.1 NE-EWV模型基本架构网络中，特征空间主要分为描述文本语义特征的 NE-EWV分为3个部分，NE-EWV1在语义特语义特征空间，节点v在其中表示记为y,此时节征空间中引入结构特征约束，得到语义特征空间点与词在同一特征空间中，能够以节点文本语义中包含部分结构特征约束的节点表示。NE 衡量节点之间的相似程度；以及描述网络结构特 EWV2在结构特征空间中引入语义特征约束，得征的结构特征空间，节点v在其中表示记为，词到结构特征空间中包含部分语义特征约束的节点和节点的表示都在一定程度上包含了网络结构相表示。NE-EWV3表示结果由上述2步得到的

表 1 “电子乐”相似词对比 Table 1 “Dian Zi Yue” cosine similarity 电子乐(Zhihu) 相似度电子乐(外部词向量) 相似度专指 0.828 电音 0.717 energy 0.801 电子乐 0.710 sound 0.782 爵士音乐 0.709 1 录音 0.747 音乐风格 0.705 6 现场表演 0.740 乐队 0.702 4 表 2 “杭州”相似词对比 Table 2 “Hang zhou” cosine similarity 杭州(Zhihu) 相似度杭州(外部词向量) 相似度 1897 0.949 嘉兴 0.765 人间天堂 0.906 无锡 0.744 浙大 0.866 苏州 0.744 文化名城 0.795 宁波 0.699 坐落于 0.750 上海 0.692 3 问题定义与描述沿用 LINE[9] 中的信息网络定义，文本信息网络定义如下：定义 1 文本信息网络 G = (V,E,T) V T E ⊆ V ×V e = (u, v) e ∈ E u v wuv > 0 wuv ≡ wvu (u, v) ≡ (v,u) wuv , wvu (u, v) , (v,u) 文本信息网络被定义为，表示网络中的节点集合，表示节点文本信息集合，表示节点通联构成的边，、代表了节点、之间有带有权重的边。对于无向图、，对于有向图、。定义 2 引入外部词向量的文本信息网络 C C (V,E,T,C) 给定外部词向量，为在语义特征空间中的词向量表示集合。此时文本信息网络以 G = 定义。定义 3 节点特征空间表示 v ∈ V v ∈ R d d << |V| 网络表示学习的目的是对每个节点学习一个低维空间的向量表示 ( )。 v ∈ V contentv = (word1,word2,··· ,wordNv ) v v t v v s 对于节点，其节点文本表示为，节点特征空间表示即节点在不同向量特征空间中的表示结果。在文本信息网络中，特征空间主要分为描述文本语义特征的语义特征空间，节点在其中表示记为，此时节点与词在同一特征空间中，能够以节点文本语义衡量节点之间的相似程度；以及描述网络结构特征的结构特征空间，节点在其中表示记为，词和节点的表示都在一定程度上包含了网络结构相关特征。定义 4 结构相似度 u v (u, v) wuv 一阶相似度一阶相似度通过当前节点与相邻节点间的联通关系，描述了网络在一跳范围内的结构特征。对节点、，若节点间没有边相连，则一阶相似度为 0。若存在边，一阶相似度即为边权重。 p (1) u = (wu,1,wu,2,··· ,wu,|V|) u u v p (1) u p (1) v u v 二阶相似度二阶相似度衡量了当前节点与相距两跳的邻居节点间的结构相似程度。记为节点与其他所有点之间的一阶相似度。、的二阶相似度为、的相似度，该相似度可以通过余弦相似度等相似度度量方式进行衡量，若、没有一跳公共邻居节点，则二阶相似度为 0。 u N −1 p (N−1) u u v N p (N−1) u p (N−1) v u v N −1 N 高阶相似度记与其他所有节点的阶相似度为。可以依以上定义、的阶相似度为与的相似程度，若、没有跳公共邻居节点，则阶相似度为 0。 G = (V,E,T,C) v ∈ R d 基于外部词向量的文本信息网络表示学习目的是对给定文本信息网络，在融合结构特征与语义特征的特征空间中，学习网络节点的低维向量表示，使表示结果包含网络结构特征、网络本身文本特征以及外部文本特征。出于计算复杂度考虑，本文只使用一阶、二阶相似度对结构特征进行建模，语义特征使用词向量信息进行建模。 4 基于外部词向量的文本信息网络表示学习模型 NE-EWV 文本信息网络建模过程中涉及到两个向量特征空间：语义特征空间、结构特征空间。受限于任务本身语料规模与词分布，文本信息网络建模得到的语义特征空间表示与实际语义会产生一定程度偏差。本文引入外部词向量作为先验知识辅助建模过程，可以扩展语义特征空间表示容量，修正部分语义误差。故 NE-EWV 主要解决 2 个问题，一是引入外部词向量信息对语义特征进行扩充；其次是学习融合结构特征、语义特征的表示结果。 4.1 NE-EWV 模型基本架构 v t v s NE-EWV 分为 3 个部分，NE-EWV1 在语义特征空间中引入结构特征约束，得到语义特征空间中包含部分结构特征约束的节点表示。NEEWV2 在结构特征空间中引入语义特征约束，得到结构特征空间中包含部分语义特征约束的节点表示。NE-EWV3 表示结果由上述 2 步得到的 ·1058· 智能系统学报第 14 卷

第5期张潇鲲，等：引入外部词向量的文本信息网络表示学习 ·1059· 节点表示融合得到，本文采用2种融合方式：集content,CcontentC content,,content表示出现在 1)简单将2个向量表示进行连接，得到节点表示外部词向量C以及节点文本content,,中的词集 v=⊕，其中⊕代表向量拼接操作；2)基于自编合；对每个word,∈content,依次与V中其余节点码器的融合模型。文本的采样子集中每个词word.∈content,做边，词 4.2结构约束的语义特征空间表示模型NE- 向量的余弦相似度sim(word,word)作为边的 EWVI 权重。对于有向图，(word,word)=(word,word), 对于节点veV,其节点文本content。,=(wordi, w=wu=sim(word,,word.)o wod,…,wordw.),N,为节点v文本的词个数。节点考虑到计算量因素，引入2个概率变量外部词向量C,若word:在C存在，记word:在C p、q,其中p控制当前节点中词进行边扩展概中的词向量表示为C,记M,为content,,中词在C 率，q控制目标节点中词进行边扩展概率。沿用中出现的个数。则节点在语义特征空间中可以由 PageRanks中对跳转概率的定义，节点v的文本词序列(C,C2,…,CM,)唯一表示。节点在语义特征空间中的表示受当前节点文子集content中每个词以概率pr,=(d,/dnx)(1-p)+ 本影响，即节点的语义可以看作是节点文本中数 p作为起始点做扩展边，其中d,为当前节点出度，个关键词的语义组合，本文为简化起见，对节点 dx当前网络中出度最大值；对于目标节点u的文本语义表示采用线性加权，得到结果作为节点文本子集content,其中每个词以概率pr2= 的语义表示。在实验章节第5节，对NE-EWV1 (d/dma)(1-g)+q作为扩展边的终点。的可视化结果做了分析。完成扩展网络后，接下来在结构特征空间中 NE-EWV1以节点文本词向量的线性加权作与4.2节处理相同，沿用LNE中对损失函数的为节点在语义特征空间中的表示定义。将文本中的词与网络中的节点统一到结构 y=w1C1+2C2+…+w,MCM (1) 特征空间中进行计算，得到节点语义约束下的结将表示限制在语义特征空间后，沿用LNE 构特征空间表示。对于结构特征损失函数定义引入结构特征约束， 4.4表示融合模型NE-EWV3 将问题转化为最优化问题求解。其中，对于节点 NE-EWV1、NE-EWV2在不同程度上都包含 u,v,一阶相似度损失函数定义为了语义特征信息以及结构特征信息，但建模过程 0,=-∑w.logP:(c,y (2) 侧重不同，其表示结果属于不同特征空间。总的 (u,v)EE 1 来说，NE-EWV1、NE-EWV2描述了同一网络在不 p4(d,=1+exp(- (3) 同视角下的网络表示，对其表示结果做非线性变二阶相似度损失函数定义为化映射到同一向量空间中，其表示应当相对接 o,=-∑w.logp:(uw (4) 近，并可互为补充。因此文本提出NE-EWV3对 (u.v)EE NE-EWV1、NE-EWV2表示结果进行融合。 p2(u'lv)= exp(u'.v) (5) 1)通过向量拼接，得到最终表示v=⊕v, 受epd 计算成本低。 2)采用基于自编码器的表示融合模型。由于对于表示结果，沿用LNE中对于一阶、二、”都包括了结构特征以及语义特征，但阶相似度的处理。由于一阶相似度只能应用于无侧重不同，本文希望通过自编码器的非线性变换向图，对于有向图，以二阶相似度作为结构特征的约束进行计算。对于无向图，由一阶相似度损将、映射到同一特征空间中，相比方式1)，由失函数得到节点表示记为，二阶相似度损失函于采用了非线性变化，模型理论上的表示能力数得到节点表示记为2，通过向量拼接得到最后更强。的语义特征空间表示w=2⊕v2。由于在2个特征空间对同一事物进行表示， 4.3结构约束的语义特征空间表示模型NE-EWV2 当、映射到同一向量空间中时，其距离应当较为了引入语义约束，将词看做特殊的网络节为接近。NE-EWV3(AutoEncoder)利用损失函数点，以词向量相似度做权重边，扩展原网络。考对x、,、,、”的相似性进行约束，得到最终虑到模型计算量，对每个节点ⅴ在外部词向量C 的表示v。基于自编码器的表示融合模型如图1 中的节点文本，首先通过采样得到节点文本的子所示

v = v t ⊕v s ⊕ 节点表示融合得到，本文采用 2 种融合方式： 1) 简单将 2 个向量表示进行连接，得到节点表示，其中代表向量拼接操作；2) 基于自编码器的融合模型。 4.2 结构约束的语义特征空间表示模型 NEEWV1 v ∈ V contentv = (word1, word2,··· ,wordNv ) Nv v C wordi C wordi C Ci Mv contentv C (C1,C2,··· ,CMv ) 对于节点，其节点文本 , 为节点文本的词个数。节点外部词向量，若在存在，记在中的词向量表示为，记为中词在中出现的个数。则节点在语义特征空间中可以由词序列唯一表示。节点在语义特征空间中的表示受当前节点文本影响，即节点的语义可以看作是节点文本中数个关键词的语义组合，本文为简化起见，对节点文本语义表示采用线性加权，得到结果作为节点的语义表示。在实验章节第 5 节，对 NE-EWV1 的可视化结果做了分析。 NE-EWV1 以节点文本词向量的线性加权作为节点在语义特征空间中的表示 v t = wv1C1 +wv2C2 +···+wvMvCMv (1) 将表示限制在语义特征空间后，沿用 LINE[9] 对于结构特征损失函数定义引入结构特征约束，将问题转化为最优化问题求解。其中，对于节点 u，v，一阶相似度损失函数定义为 O1 = − ∑ (u,v)∈E wuv log p1(u t , v t ) (2) p1(u t , v t ) = 1 1+exp(−u t · v t ) (3) 二阶相似度损失函数定义为 O2 = − ∑ (u,v)∈E wuv log p2(u t |v t ) (4) p2(u t |v t ) = exp(u t · v t ) ∑ |V| K=1 exp(u t · v t ) (5) v t(1) v t(2) v t = v t(2) ⊕v t(2) 对于表示结果，沿用 LINE[9] 中对于一阶、二阶相似度的处理。由于一阶相似度只能应用于无向图，对于有向图，以二阶相似度作为结构特征的约束进行计算。对于无向图，由一阶相似度损失函数得到节点表示记为，二阶相似度损失函数得到节点表示记为，通过向量拼接得到最后的语义特征空间表示。 4.3 结构约束的语义特征空间表示模型 NE-EWV2 v C 为了引入语义约束，将词看做特殊的网络节点，以词向量相似度做权重边，扩展原网络。考虑到模型计算量，对每个节点在外部词向量中的节点文本，首先通过采样得到节点文本的子 content′ v ⊆ contentC v ⊆ contentv contentC v C contentv wordv ∈ content′ v wordu ∈ content′ u sim(wordv ,wordu) (wordv ,wordu) = (wordu,wordv) wuv = wvu=sim(wordv ,wordu) 集，表示出现在外部词向量以及节点文本中的词集合；对每个，依次与 V 中其余节点文本的采样子集中每个词做边，词向量的余弦相似度作为边的权重。对于有向图，，。 p、q p q v contentC v pr1 = (dv/dmax) (1− p)+ dv dmax contentC u pr2 = (du/dmax) (1−q)+q 考虑到计算量因素，引入 2 个概率变量，其中控制当前节点中词进行边扩展概率，控制目标节点中词进行边扩展概率。沿用 PageRank[18] 中对跳转概率的定义，节点的文本子集中每个词以概率 p 作为起始点做扩展边，其中为当前节点出度，当前网络中出度最大值；对于目标节点 u 的文本子集，其中每个词以概率作为扩展边的终点。 v s 完成扩展网络后，接下来在结构特征空间中与 4.2 节处理相同，沿用 LINE[9] 中对损失函数的定义。将文本中的词与网络中的节点统一到结构特征空间中进行计算，得到节点语义约束下的结构特征空间表示。 4.4 表示融合模型 NE-EWV3 NE-EWV1、NE-EWV2 在不同程度上都包含了语义特征信息以及结构特征信息，但建模过程侧重不同，其表示结果属于不同特征空间。总的来说，NE-EWV1、NE-EWV2 描述了同一网络在不同视角下的网络表示，对其表示结果做非线性变化映射到同一向量空间中，其表示应当相对接近，并可互为补充。因此文本提出 NE-EWV3 对 NE-EWV1、NE-EWV2 表示结果进行融合。 v = v t ⊕v s 1) 通过向量拼接，得到最终表示，计算成本低。 v s v t v s v t 2) 采用基于自编码器的表示融合模型。由于、都包括了结构特征以及语义特征，但侧重不同，本文希望通过自编码器的非线性变换将、映射到同一特征空间中，相比方式 1)，由于采用了非线性变化，模型理论上的表示能力更强。 v s v t xi xˆi yi yˆi v s v t v 由于在 2 个特征空间对同一事物进行表示，当、映射到同一向量空间中时，其距离应当较为接近。NE-EWV3(AutoEncoder) 利用损失函数对、，、，、的相似性进行约束，得到最终的表示。基于自编码器的表示融合模型如图 1 所示。第 5 期张潇鲲，等：引入外部词向量的文本信息网络表示学习 ·1059·

·1060· 智能系统学报第14卷目 Iog.p)+∑E:(-.z (10) 式中：k表示负样本个数；σ表示sigmoid函数； P()xd,4,d,表示节点v的出度。梯度算法使用 Adam对模型进行优化。 5实验 5.1实验数据图1基于自编码器的表示融合模型实验包括了现实网络中的中文、英文数据 Fig.1 Feature fusion representation model based on 集。对于中文测试数据，外部词向量使用微信公 aligned auto-encoder 自编码器主要包括编码和解码2个过程，编众号中800万篇文章预先训练得到的词向量(t- 码过程将输入映射到目标向量空间中，解码过程 tps:/spaces.ac.cn/archives/,4304),词表大小35万，将目标向量空间中的表示还原到原输入向量空间维度256维。英文使用了Google发布的在新闻语中，要使目标向量空间的表示有效，需要解码过料中训练得到的词向量(https://code.google.com/ 程中重建到输入向量空间中的表示与输入表示尽 archive/p/word2vec),词表大小300万，维度300维。可能一致。其中，Zhihu为中文数据集，Cora、HepTh为英文数 NE-EWV3(AutoEncoder)采用了对称的自编据集。码器结构，学习、在目标特征空间中的表示结 HepTh数据集：HEP-TH(high energy physics 果。模型左右计算流程一致，这里以左侧为例进 theory)是arXiv发布的公开论文引用网络，随机行说明。左侧自编码器的目的是将节点在语义特抽取其中10740篇包含概述的论文，以论文概述征空间中的表示y进行非线性变换。模型左侧作为节点文本信息，以引用关系对节点之间做边。初始输入为节点在语义特征空间中的表示，编 Zhihu(知乎)数据集：知乎是国内的问答社区码阶段，通过下式得到压缩表示x: 网站，本文使用CANE)公开的知乎数据集，其 x)=(W:xi+b) (6) 中包含10000个爬取的用户作为节点，以用户关 xW=(W因x-+b (7 注话题的描述文本作为节点文本信息。式中：c为sigmoid激活函数；(x)=1/(1+exp(-x)o 数据集统计信息列在表3，在外部词向量的在解码阶段：未登录词统计列在表4。 -=m-地+B-) (8) 表3测试数据集统计 :=r(W四+6) (9) Table 3 Dataset statics 得到还原后的表示。数据集节点个数边个数节点标签左侧自编码器的损失函数定义为L=x-, HepTh 10740 16629 右侧同理定义损失函数为L2=,-。为了使 Zhihu 10000 43894 、能够被尽可能压缩到同一特征空间，需要压缩表示x与y足够接近，因此定义损失函数表4数据集未登录词统计 L=xw-y。为了避免过拟合，添加正则项 Table 4 OVW statics Le=∑d9E+lw.心)+∑mg9+w,B。数据集词个数未登录词个数未登录词占比/% HepTh 601 095 222839 37.1 最终NE-EWV3(AutoEncoder)定义损失函数 Zhihu 14650 6591 45.0 为L=aL1+BL2+yL+Leg,a、B、y为控制损失项权重的超参数。最终节点表示v=x因⊕y因，由2个实验首先在数据集上对链接预测任务进行了压缩表示拼接得到。实验，并在Cora数据集上对节点分类任务进行了 4.5模型优化实验。由于2、3节中计算损失函数中条件概率函数 5.2基线方法 p1、p2均使用了softmax函数，每次需要对整个数 DeepWalk⑧是2014年提出的网络表示学习据集进行计算。为了降低计算量，模型采用负采算法，主要利用随机游走构造节点上下文信息，样。目标函数变为如下形式并利用词向量算法中的SkipGram计算网络表示

xi ^ xi ^ (1) xi (k) xi (1) xi yi ^ yi ^ (1) yi (k) yi (1) yi v t v s 最终表示 … … … … 图 1 基于自编码器的表示融合模型 Fig. 1 Feature fusion representation model based on aligned auto-encoder 自编码器主要包括编码和解码 2 个过程，编码过程将输入映射到目标向量空间中，解码过程将目标向量空间中的表示还原到原输入向量空间中，要使目标向量空间的表示有效，需要解码过程中重建到输入向量空间中的表示与输入表示尽可能一致。 v s v t v t v t xi (k) NE-EWV3(AutoEncoder) 采用了对称的自编码器结构，学习、在目标特征空间中的表示结果。模型左右计算流程一致，这里以左侧为例进行说明。左侧自编码器的目的是将节点在语义特征空间中的表示进行非线性变换。模型左侧初始输入为节点在语义特征空间中的表示，编码阶段，通过下式得到压缩表示： xi (1) = σ(Wx (1)xi +b (1)) (6) xi (k) = σ(Wx (k) xi (k−1) +b (k) ) (7) 式中：σ 为 sigmoid 激活函数；σ(x) = 1/(1+exp(−x))。在解码阶段： xˆ (k−1) i = σ(Wˆ (k−1) x xˆ (k) i +bˆ (k−1)) (8) xˆi = σ(Wˆ (1) x xˆ (1) i +bˆ (1)) (9) 得到还原后的表示 xˆi。 L1 = ∥xi − xˆi∥ 2 2 L2 = ∥yi −yˆi∥ 2 2 v s v t xi (k) yi (k) L3 = xi (k) −yi (k) 2 2 Lreg = ∑k−1 i=1 ( Wˆ (i) x 2 F + Wx (i) 2 F )+ ∑k−1 i=1 ( Wˆ (i) y 2 F + Wy (i) 2 F ) 左侧自编码器的损失函数定义为，右侧同理定义损失函数为。为了使、能够被尽可能压缩到同一特征空间，需要压缩表示与足够接近，因此定义损失函数。为了避免过拟合，添加正则项。 L = αL1 +βL2 +γL3+Lreg α β γ v = xi (k) ⊕yi (k) 最终 NE-EWV3(AutoEncoder) 定义损失函数为，、、为控制损失项权重的超参数。最终节点表示，由 2 个压缩表示拼接得到。 4.5 模型优化 p1 p2 由于 2、3 节中计算损失函数中条件概率函数、均使用了 softmax 函数，每次需要对整个数据集进行计算。为了降低计算量，模型采用负采样 [1]。目标函数变为如下形式 logσ(u T · v)+ ∑k i=1 Ez∼P(v)[logσ(−u T · z)] (10) k σ P(v) ∝ dv 3/4 dv v 式中：表示负样本个数；表示 sigmoid 函数；，表示节点的出度。梯度算法使用 Adam[19] 对模型进行优化。 5 实验 5.1 实验数据实验包括了现实网络中的中文、英文数据集。对于中文测试数据，外部词向量使用微信公众号中 800 万篇文章预先训练得到的词向量 (https://spaces.ac.cn/archives/4304)，词表大小 35 万，维度 256 维。英文使用了 Google 发布的在新闻语料中训练得到的词向量 (https://code.google.com/ archive/p/word2vec)，词表大小 300 万，维度 300 维。其中，Zhihu 为中文数据集，Cora、HepTh 为英文数据集。 HepTh 数据集：HEP-TH (high energy physics theory) 是 arXiv 发布的公开论文引用网络，随机抽取其中 10 740 篇包含概述的论文，以论文概述作为节点文本信息，以引用关系对节点之间做边。 Zhihu(知乎) 数据集：知乎是国内的问答社区网站，本文使用 CANE[12] 公开的知乎数据集，其中包含 10 000 个爬取的用户作为节点，以用户关注话题的描述文本作为节点文本信息。数据集统计信息列在表 3，在外部词向量的未登录词统计列在表 4。表 3 测试数据集统计 Table 3 Dataset statics 数据集节点个数边个数节点标签 HepTh 10 740 16 629 Zhihu 10 000 43 894 表 4 数据集未登录词统计 Table 4 OVW statics 数据集词个数未登录词个数未登录词占比/% HepTh 601 095 222 839 37.1 Zhihu 14 650 6 591 45.0 实验首先在数据集上对链接预测任务进行了实验，并在 Cora 数据集上对节点分类任务进行了实验。 5.2 基线方法 DeepWalk[8] 是 2014 年提出的网络表示学习算法，主要利用随机游走构造节点上下文信息，并利用词向量算法中的 SkipGram 计算网络表示， ·1060· 智能系统学报第 14 卷

第5期张潇鲲，等：引入外部词向量的文本信息网络表示学习 ·1061· Hierarchical Softmax进行计算优化，DeepWalk针用CANE中的参数设置，对cora、Zhihu数据集设置对网络结构的二阶相似性进行建模。 a=1.0、B=0.3、y=0.3;HepTh数据集设置a=0.7 LNE利用预定义的概率密度函数对一阶以 B=0.2、y=0.2,epoch个数设置为200。及二阶相似度进行了建模。为了尽可能体现LNE NE-EWV1 epoch个数设置为50。NE-EWV2 算法的性能，这里采用LINE算法的1st+2st的版中首先采用TFDS模型计算关键词，保留关键词本，即包含一阶相似度以及二阶相似度进行建模。个数l5,对于Zhihu、Cora数据集，设置p=l/3 Node2veco主要针对随机游走过程中的宽度 q=1/10,对于HepTh数据集，设置p=1/2、q=1/5 优先以及深度优先做了优化，通过控制跳转概率 epoch个数设置为50。NE-EWV3(AutoEncoder)损参数p、g进一步扩展了DeepWalk算法。失函数中设置a=10、B=10、y=1,epoch个数设 CANE☒I算法主要利用互注意力机制以及卷置为200。积神经网络对文本进行建模，学习在不同上下文对链接预测问题，即根据表示结果还原网络状态下节点的不同表示。的联通关系，采用AUC作为评价指标2)，AUC衡 5.3测试方法量了正确判定正样本与错误判定负样本的概率差由于本文模型引入了外部词向量，为了减少异，AUC指标越大说明模型在二分类问题上表现词向量维度变化可能造成的信息损失，基线模型越好。对节点分类问题，即根据表示结果对节点得到的表示结果维度与词向量维度相同，本文模分类进行预测，采用准确率作为评价指标。型除向量拼接外，表示维度与词向量维度相同。 5.4 链接预测对基线方法中的参数设置，采用grid search2o 在不同的数据集上针对链接预测任务进行了进行选取。DeepWalk每个节点开始的随机游走测试，测试方法是选取一定比例的边和以及这些序列为10，游走长度80，skip-gram窗口为10。对边中节点的文本信息作为测试数据，以剩余数据涉及负采样的方法，负样本个数设置为K=5。沿作为测试集。如表5、6所示。表5 Zhihu数据集的AUC指标(256维) Table 5 AUC values on Zhihu (256 dimensions) 训练数据百分比% 15 25 35 45 55 65 75 85 95 DeepWalk 0.5657 0.5739 0.5760 0.5915 0.59330.6078 0.6112 0.6208 0.6590 LINE 0.51470.53640.5642 0.6285 0.64450.65160.67810.6937 0.7069 Node2vec 0.53320.54130.57180.6092 0.62990.68760.69730.6947 0.7292 CANE(200epochs) 0.56830.58770.59980.62130.65580.68130.70140.71180.7497 NE-EWVI 0.65730.66720.66380.67420.67880.68010.69160.7103 0.7211 NE-EWV2 0.67450.68930.69810.69730.70930.74640.74600.7774 0.7990 NE-EWV3(拼接) 0.68170.66270.69000.68220.69130.72220.7183 0.7559 0.7665 NE-EWV3(Autoencoder) 0.6803 0.69150.68350.69530.68560.7431 0.7479 0.7668 0.7893 表6 HepTh数据集的AUC指标(300维) Table 6 AUC values on HepTh(256 dimensions) 训练数据百分比% 15 25 35 45 55 65 75 85 95 DeepWalk 0.53380.6292 0.6693 0.6802 0.6957 0.6928 0.7066 0.7166 0.6939 LINE 0.50370.5090 0.51020.52930.53090.53580.5655 0.6083 0.6272 Node2vec 0.66050.68500.69590.70310.70650.69770.69370.6852 0.7101 CANE(200epochs) 0.73800.7775 0.79070.8043 0.82060.8283 0.84270.8528 0.8531 NE-EWV1 0.66530.65370.67120.6651 0.68810.7169 0.74480.7679 0.8021 NE-EWV2 0.74150.76240.77590.78920.80390.8251 0.82170.8327 0.8479 NE-EWV3(拼接) 0.76330.77720.80700.78530.8127 0.83540.82920.8536 0.8553 NE-EWV3(Autoencoder) 0.7136 0.7120 0.7239 0.7449 0.7825 0.8055 0.8308 0.8378 0.8137

Hierarchical Softmax 进行计算优化，DeepWalk 针对网络结构的二阶相似性进行建模。 LINE[9] 利用预定义的概率密度函数对一阶以及二阶相似度进行了建模。为了尽可能体现 LINE 算法的性能，这里采用 LINE 算法的 1st+2st 的版本，即包含一阶相似度以及二阶相似度进行建模。 Node2vec[10] 主要针对随机游走过程中的宽度优先以及深度优先做了优化，通过控制跳转概率参数 p、q 进一步扩展了 DeepWalk 算法。 CANE[12] 算法主要利用互注意力机制以及卷积神经网络对文本进行建模，学习在不同上下文状态下节点的不同表示。 5.3 测试方法由于本文模型引入了外部词向量，为了减少词向量维度变化可能造成的信息损失，基线模型得到的表示结果维度与词向量维度相同，本文模型除向量拼接外，表示维度与词向量维度相同。 K = 5 对基线方法中的参数设置，采用 grid search[20] 进行选取。DeepWalk[8] 每个节点开始的随机游走序列为 10，游走长度 80，skip-gram 窗口为 10。对涉及负采样的方法，负样本个数设置为。沿 α = 1.0 β = 0.3 γ = 0.3 α = 0.7 β = 0.2 γ = 0.2 用 CANE 中的参数设置，对 cora、Zhihu 数据集设置、、；HepTh 数据集设置、、，epoch 个数设置为 200。 p = 1/3 q = 1/10 p = 1/2 q = 1/5 α = 10 β = 10 γ = 1 NE-EWV1 epoch 个数设置为 50。NE-EWV2 中首先采用 TF-IDS 模型计算关键词，保留关键词个数 15，对于 Zhihu、Cora 数据集，设置、，对于 HepTh 数据集，设置、， epoch 个数设置为 50。NE-EWV3(AutoEncoder) 损失函数中设置、、，epoch 个数设置为 200。对链接预测问题，即根据表示结果还原网络的联通关系，采用 AUC 作为评价指标[21] ，AUC 衡量了正确判定正样本与错误判定负样本的概率差异，AUC 指标越大说明模型在二分类问题上表现越好。对节点分类问题，即根据表示结果对节点分类进行预测，采用准确率作为评价指标。 5.4 链接预测在不同的数据集上针对链接预测任务进行了测试，测试方法是选取一定比例的边和以及这些边中节点的文本信息作为测试数据，以剩余数据作为测试集。如表 5、6 所示。表 5 Zhihu 数据集的 AUC 指标 (256 维) Table 5 AUC values on Zhihu (256 dimensions) 训练数据百分比/% 15 25 35 45 55 65 75 85 95 DeepWalk 0.565 7 0.573 9 0.576 0 0.591 5 0.593 3 0.607 8 0.611 2 0.620 8 0.659 0 LINE 0.514 7 0.536 4 0.564 2 0.628 5 0.644 5 0.651 6 0.678 1 0.693 7 0.706 9 Node2vec 0.533 2 0.541 3 0.571 8 0.609 2 0.629 9 0.687 6 0.697 3 0.694 7 0.729 2 CANE(200epochs) 0.568 3 0.587 7 0.599 8 0.621 3 0.655 8 0.681 3 0.701 4 0.711 8 0.749 7 NE-EWV1 0.657 3 0.667 2 0.663 8 0.674 2 0.678 8 0.680 1 0.691 6 0.710 3 0.721 1 NE-EWV2 0.674 5 0.689 3 0.698 1 0.697 3 0.709 3 0.746 4 0.746 0 0.777 4 0.799 0 NE-EWV3(拼接) 0.681 7 0.662 7 0.690 0 0.682 2 0.691 3 0.722 2 0.718 3 0.755 9 0.766 5 NE-EWV3(Autoencoder) 0.680 3 0.691 5 0.683 5 0.695 3 0.685 6 0.743 1 0.747 9 0.766 8 0.789 3 表 6 HepTh 数据集的 AUC 指标 (300 维) Table 6 AUC values on HepTh(256 dimensions) 训练数据百分比/% 15 25 35 45 55 65 75 85 95 DeepWalk 0.533 8 0.629 2 0.669 3 0.680 2 0.695 7 0.692 8 0.706 6 0.716 6 0.693 9 LINE 0.503 7 0.509 0 0.510 2 0.529 3 0.530 9 0.535 8 0.565 5 0.608 3 0.627 2 Node2vec 0.660 5 0.685 0 0.695 9 0.703 1 0.706 5 0.697 7 0.693 7 0.685 2 0.710 1 CANE(200epochs) 0.738 0 0.777 5 0.790 7 0.804 3 0.820 6 0.828 3 0.842 7 0.852 8 0.853 1 NE-EWV1 0.665 3 0.653 7 0.671 2 0.665 1 0.688 1 0.716 9 0.744 8 0.767 9 0.802 1 NE-EWV2 0.741 5 0.762 4 0.775 9 0.789 2 0.803 9 0.825 1 0.821 7 0.832 7 0.847 9 NE-EWV3(拼接) 0.763 3 0.777 2 0.807 0 0.785 3 0.812 7 0.835 4 0.829 2 0.853 6 0.855 3 NE-EWV3(Autoencoder) 0.713 6 0.712 0 0.723 9 0.744 9 0.782 5 0.805 5 0.830 8 0.837 8 0.813 7 第 5 期张潇鲲，等：引入外部词向量的文本信息网络表示学习 ·1061·

·1062· 智能系统学报第14卷 1)在中文数据集中本文模型要优于其他基线 C C.Social Network Data Analytics.Boston,MA:Spring- 模型，相比基线算法中AUC指标最好的CANE, er,2011:115-148 AUC指标提高了5%~12%。在英文数据集HepTH [5]DONG Xin,HALEVY A,MADHAVAN J,et al.Similar- 中与性能最好的CANE基本相当。 ity search for web services[C]//Proceedings of the Thirti- 2)本文使用了在领域无关的通用语料中训练 eth International Conference on Very Large Data Bases. 得到的词向量，在Zhihu数据集中未登录词占比 Toronto,Canada,2004:372-383 45.0%(Zhihu数据集中包含了话题描述，即包含了 [6]BASTIAN M,HEYMANN S,JACOMY M.Gephi:an 大量专有名词)，在HepTh数据集中未登录词占 open source software for exploring and manipulating net- 比43.1%。说明本文方法对通用语料有较好适应 works[C]//Proceedings of International AAAl Conference 性，通用文本语料能够提升某些特定领域的文本 on Weblogs and Social Media.San Jose,California,USA, 信息网络表示学习的表示能力。 2009:361-362. 综上所述，证明了本文模型能够学习到文本 [7]PEROZZI B,AL-RFOU R,SKIENA S.Deepwalk:online 信息网络中的有效网络表示，能够有效捕捉网络 learning of social representations[C]//Proceedings of the 本身的结构、语义信息，并在不同数据集以及外 20th ACM SIGKDD International Conference on Know- 部词向量上证明了表示的有效性和鲁棒性。 ledge Discovery and Data Mining.New York,USA,2014: 701-710. 6结束语 [8]TANG Jian,QU Meng,WANG Mingzhe,et al.LINE: 本文提出了基于外部词向量的网络表示模 large-scale information network embedding[C]//Proceed- 型，将外部词向量引入到文本信息网络的网络表 ings of the 24th International Conference on World Wide 示学习过程中。模型包括3个部分：在语义特征 Web.Florence,Italy,2005:1067-1077. 空间中学习包含结构特征约束的表示，在结构特 [9]GROVER A.LESKOVEC J.node2vec:scalable feature 征空间学习语义特征约束的表示，以及表示融合 learning for networks[C]//Proceedings of the 22nd ACM 部分。本文在现实网络数据集中，以链接预测实 SIGKDD International Conference on Knowledge Discov- 验，证明了本文模型可以学习到节点间链接关系 ery and Data Mining.San Francisco,California,USA. 的有效表示，而节点间的链接关系也构成了整个 2016:855-864. 网络结构。 [10]YANG Cheng.LIU Zhiyuan,ZHAO Deli,et al.Network 在未来的研究工作中，有如下研究方向：未登 representation learning with rich text information[Cl//Pro- 录词的表示，通用词向量在领域特定任务中往往 ceedings of the 24th International Conference on Artifi- 面临着存在大量未登录词的问题，利用已知词对 cial Intelligence.Buenos Aires,Argentina,2015: 未登录词进行有效表示，直观上可以提升模型表 2111-2117. 示容量，从而提升网络表示能力。 [11]TU Cuchao,LIU Han,LIU Zhiyuan,et al.Cane:context- aware network embedding for relation modeling[Cl//Pro- 参考文献： ceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Vancouver,Canada,2007: [1]CUI Peng,WANG Xiao,PEI Jian,et al.A survey on net- 1722-1731. work embedding[J].IEEE transactions on knowledge and [12]TANG Lei,LIU Huan.Scalable learning of collective be- data engineering,2019,31(5):833-852 havior based on sparse social dimensions[C]//Proceed- [2]LIBEN NOWELL D,KLEINBERG J.The link prediction ings of the 18th ACM Conference on Information and problem for social networks[J].Journal of the American Knowledge Management.Hong Kong,China,2009: society for information science and technology,2007, 1107-1116. 58(7):1019-1031 [13]BALASUBRAMANIAN M.SCHWARTZ E L.TENEN- [3]LANCICHINETTI A.FORTUNATO S.Community de- BAUM J B,et al.The isomap algorithm and topological stability[J].Science,2002,295(5552):7-7. tection algorithms:a comparative analysis[].Physical re- [14]MIKOLOV T.SUTSKEVER I,CHEN K,et al.Distrib- view E,2009,80:056117. uted representations of words and phrases and their com- [4]BHAGAT S,CORMODE G,MUTHUKRISHNAN S. positionality [C]//Proceedings of the 26th International Node classification in social networks[M]//AGGARWAL Conference on Neural Information Processing Systems

1) 在中文数据集中本文模型要优于其他基线模型，相比基线算法中 AUC 指标最好的 CANE， AUC 指标提高了 5%~12%。在英文数据集 HepTH 中与性能最好的 CANE 基本相当。 2) 本文使用了在领域无关的通用语料中训练得到的词向量，在 Zhihu 数据集中未登录词占比 45.0%(Zhihu 数据集中包含了话题描述，即包含了大量专有名词)，在 HepTh 数据集中未登录词占比 43.1%。说明本文方法对通用语料有较好适应性，通用文本语料能够提升某些特定领域的文本信息网络表示学习的表示能力。综上所述，证明了本文模型能够学习到文本信息网络中的有效网络表示，能够有效捕捉网络本身的结构、语义信息，并在不同数据集以及外部词向量上证明了表示的有效性和鲁棒性。 6 结束语本文提出了基于外部词向量的网络表示模型，将外部词向量引入到文本信息网络的网络表示学习过程中。模型包括 3 个部分：在语义特征空间中学习包含结构特征约束的表示，在结构特征空间学习语义特征约束的表示，以及表示融合部分。本文在现实网络数据集中，以链接预测实验，证明了本文模型可以学习到节点间链接关系的有效表示，而节点间的链接关系也构成了整个网络结构。在未来的研究工作中，有如下研究方向：未登录词的表示，通用词向量在领域特定任务中往往面临着存在大量未登录词的问题，利用已知词对未登录词进行有效表示，直观上可以提升模型表示容量，从而提升网络表示能力。参考文献： CUI Peng, WANG Xiao, PEI Jian, et al. A survey on network embedding[J]. IEEE transactions on knowledge and data engineering, 2019, 31(5): 833–852. [1] LIBEN NOWELL D, KLEINBERG J. The link prediction problem for social networks[J]. Journal of the American society for information science and technology, 2007, 58(7): 1019–1031. [2] LANCICHINETTI A, FORTUNATO S. Community detection algorithms: a comparative analysis[J]. Physical review E, 2009, 80: 056117. [3] BHAGAT S, CORMODE G, MUTHUKRISHNAN S. Node classification in social networks[M]//AGGARWAL [4] C C. Social Network Data Analytics. Boston, MA: Springer, 2011: 115–148. DONG Xin, HALEVY A, MADHAVAN J, et al. Similarity search for web services[C]//Proceedings of the Thirtieth International Conference on Very Large Data Bases. Toronto, Canada, 2004: 372–383. [5] BASTIAN M, HEYMANN S, JACOMY M. Gephi: an open source software for exploring and manipulating networks[C]//Proceedings of International AAAI Conference on Weblogs and Social Media. San Jose, California, USA, 2009: 361–362. [6] PEROZZI B, AL-RFOU R, SKIENA S. Deepwalk: online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2014: 701–710. [7] TANG Jian, QU Meng, WANG Mingzhe, et al. LINE: large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web. Florence, Italy, 2005: 1067–1077. [8] GROVER A, LESKOVEC J. node2vec: scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA, 2016: 855–864. [9] YANG Cheng, LIU Zhiyuan, ZHAO Deli, et al. Network representation learning with rich text information[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina, 2015: 2111–2117. [10] TU Cuchao, LIU Han, LIU Zhiyuan, et al. Cane: contextaware network embedding for relation modeling[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2007: 1722–1731. [11] TANG Lei, LIU Huan. Scalable learning of collective behavior based on sparse social dimensions[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong, China, 2009: 1107–1116. [12] BALASUBRAMANIAN M, SCHWARTZ E L, TENENBAUM J B, et al. The isomap algorithm and topological stability[J]. Science, 2002, 295(5552): 7–7. [13] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. [14] ·1062· 智能系统学报第 14 卷

点击进入文档下载页（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录