第14卷第5期 智能系统学报 Vol.14 No.5 2019年9月 CAAI Transactions on Intelligent Systems Sep.2019 D0:10.11992/tis.201809037 网络出版地址:http:/kns.cnki.net/kcms/detail/23.1538.TP.20190401.0833.002.html 引入外部词向量的文本信息网络表示学习 张潇鲲,刘琰,陈静 (数学工程与先进计算国家重点实验室,河南郑州450000) 摘要:针对信息网铬(text-based information network)现有研究多基于网络自身信息建模,受限于任务语料规 模,只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题,本文将外部语料引入建模过程中,利 用外部语料得到的词向量对建模过程进行优化,提出基于外部词向量的网络表示模型NE-EWV(network em- bedding based on external word vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示。 通过实验,在现实网络数据集中对模型有效性进行了验证。实验结果表明,在链接预测任务中的AUC指标,相 比只考虑结构特征的模型提升7%~19%,相比考虑结构与文本特征的模型在大部分情况下有1%12%提升;在 节点分类任务中,与基线方法中性能最好的CANE性能相当。证明引入外部词向量作为外部知识能够有效提 升网络表示能力。 关键词:网络表示学习;文本信息网络;自编码器;外部词向量;节点分类;词向量;分布式表示:表示学习 中图分类号:TP181文献标志码:A文章编号:1673-4785(2019)05-1056-08 中文引用格式:张萧鲲,刘琰,陈静.引入外部词向量的文本信息网络表示学习.智能系统学报,2019,14(5):1056-1063 英文引用格式:ZHANG Xiaokun,.LIU Yan,CHEN Jing.Representation learning using network embedding based on external word vectors[J].CAAI transactions on intelligent systems,2019,14(5):1056-1063. Representation learning using network embedding based on external word vectors ZHANG Xiaokun,LIU Yan,CHEN Jing (Mathematical Engineering and Advanced Computing State Key Laboratory,Zhengzhou 450000) Abstract:Network embedding,which preserves a network's sophisticated features,can effectively learn the low-dimen- sional embedding of vertices in order to lower the computing and storage costs.Content information networks(such as Twitter).which contain rich text information,are commonly used in daily life.Most studies on content information net- work are based on the information of the network itself.Distributed word vectors are becoming increasingly popular in natural language processing tasks.As a low-dimensional representation of the semantic feature space,word vectors can preserve syntactic and semantic regularities.By introducing external word vectors into the modeling process,we can use the external syntactic and semantic features.Hence,in this paper,we propose network embedding based on external word vectors (NE-EWV),whereby the feature fusion representation is learned from both semantic feature space as well as structural feature space.Empirical experiments were conducted using real-world content information network data- sets to validate the effectiveness of the model.The results show that in link prediction task,the AUC of the model was 7%to 19%higher than that of the model that considers only the structural features,and in most cases was 1%to 12% higher than the model that considers structural and text features.In node classification tasks,the performance is compar- able with that of context-aware network embedding (CANE),which was the state-of-the-art baseline model. Keywords:network embedding;content information network;auto-encoder;external word vectors;vertex classifica- tion;word vectors;distributed representation;representation learning 收稿日期:2019-09-19.网络出版日期:2019-04-02. 近年来,随着互联网的发展,以Facebook、twitter、 基金项目:国家自然科学基金项目(61309007.U1636219):国家 重点研发计划课题资助项目(2016YFB0801303, 微博等为代表的大型网络不断发展,产生了海量 2016QY01W0105). 通信作者:刘琰.E-mail:ms_liuyan@aliyun..com 具有网络结构的数据,这些数据的特点在于样本
DOI: 10.11992/tis.201809037 网络出版地址: http://kns.cnki.net/kcms/detail/23.1538.TP.20190401.0833.002.html 引入外部词向量的文本信息网络表示学习 张潇鲲,刘琰,陈静 (数学工程与先进计算国家重点实验室,河南 郑州 450000) 摘 要:针对信息网络(text-based information network)现有研究多基于网络自身信息建模,受限于任务语料规 模,只使用任务相关文本进行建模容易产生语义漂移或语义残缺的问题,本文将外部语料引入建模过程中,利 用外部语料得到的词向量对建模过程进行优化,提出基于外部词向量的网络表示模型 NE-EWV(network embedding based on external word vectors),从语义特征空间以及结构特征空间两个角度学习特征融合的网络表示。 通过实验,在现实网络数据集中对模型有效性进行了验证。实验结果表明,在链接预测任务中的 AUC 指标,相 比只考虑结构特征的模型提升 7%~19%,相比考虑结构与文本特征的模型在大部分情况下有 1%~12% 提升;在 节点分类任务中,与基线方法中性能最好的 CANE 性能相当。证明引入外部词向量作为外部知识能够有效提 升网络表示能力。 关键词:网络表示学习;文本信息网络;自编码器;外部词向量;节点分类;词向量;分布式表示;表示学习 中图分类号:TP181 文献标志码:A 文章编号:1673−4785(2019)05−1056−08 中文引用格式:张潇鲲, 刘琰, 陈静. 引入外部词向量的文本信息网络表示学习 [J]. 智能系统学报, 2019, 14(5): 1056–1063. 英文引用格式:ZHANG Xiaokun, LIU Yan, CHEN Jing. Representation learning using network embedding based on external word vectors[J]. CAAI transactions on intelligent systems, 2019, 14(5): 1056–1063. Representation learning using network embedding based on external word vectors ZHANG Xiaokun,LIU Yan,CHEN Jing (Mathematical Engineering and Advanced Computing State Key Laboratory, Zhengzhou 450000) Abstract: Network embedding, which preserves a network’s sophisticated features, can effectively learn the low-dimensional embedding of vertices in order to lower the computing and storage costs. Content information networks (such as Twitter), which contain rich text information, are commonly used in daily life. Most studies on content information network are based on the information of the network itself. Distributed word vectors are becoming increasingly popular in natural language processing tasks. As a low-dimensional representation of the semantic feature space, word vectors can preserve syntactic and semantic regularities. By introducing external word vectors into the modeling process, we can use the external syntactic and semantic features. Hence, in this paper, we propose network embedding based on external word vectors (NE-EWV), whereby the feature fusion representation is learned from both semantic feature space as well as structural feature space. Empirical experiments were conducted using real-world content information network datasets to validate the effectiveness of the model. The results show that in link prediction task, the AUC of the model was 7% to 19% higher than that of the model that considers only the structural features, and in most cases was 1% to 12% higher than the model that considers structural and text features. In node classification tasks, the performance is comparable with that of context-aware network embedding (CANE), which was the state-of-the-art baseline model. Keywords: network embedding; content information network; auto-encoder; external word vectors; vertex classification; word vectors; distributed representation; representation learning 近年来,随着互联网的发展,以 Facebook、twitter、 微博等为代表的大型网络不断发展,产生了海量 具有网络结构的数据,这些数据的特点在于样本 收稿日期:2019−09−19. 网络出版日期:2019−04−02. 基金项目:国家自然科学基金项目 (61309007,U1636219);国家 重点研发计划课题资助项目 (2016YFB0801303, 2016QY01W0105). 通信作者:刘琰. E-mail:ms_liuyan@aliyun.com. 第 14 卷第 5 期 智 能 系 统 学 报 Vol.14 No.5 2019 年 9 月 CAAI Transactions on Intelligent Systems Sep. 2019
第5期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1057· 点之间并不完全独立,而是具有一定的连接关 1)只考虑结构特征的网络表示学习方法 系,同时网络节点自身也包含特定的属性信息。 Deepwalk)作为网络表示学习的经典算法, 日常生活中的社交网络(微博)、问答社区(知乎)、 将自然语言处理中利用词共现信息进行建模的算 生活服务类网站(大众点评)、论文引用关系网络 法SkipGram"引入到网络表示学习任务中,通过 等包含了大量文本信息,下文中将此种网络简称 随机游走构建节点上下文序列,并利用Hierarch- 为文本信息网络。在文本信息网络中,文本信息 ical Softmax的树形结构加速训练过程。LINE 以标签、正文、描述以及其他元数据形式广泛存 主要利用预先设计的概率密度函数来表征图的一 在,给网络提供了大量可利用的语义信息。例如 阶、二阶相似度,并引入负采样川、异步随机梯度 论文引用关系网络中,论文作为网络节点并以引 下降(ASGD)1降低计算复杂度,实现适用于大 用关系作边,节点还包含相关文本信息。网络数 规模网络节点表示的计算。Node2vec对Deep- 据的这些特性,给大规模或复杂网络数据研究带 walk的随机游走策略进行了修改,通过在游走路 来了挑战。 径中增加权重项来控制深度(DFS)以及广度 网络表示学习(network embedding或network (BFS)优先的游走方式,使算法的图游走策略更 representation learning)目的是学习网络节点的低 有效率。GraRep将k阶相似矩阵进行分解,并 维空间向量表示,降低存储、计算成本,提升并行 将得到的特征向量进行拼接得到最后的节点向 能力,使传统机器学习算法能够在大规模数据中 量,以此来捕捉更高阶的相似度特征,但面临着 得到应用四。因此,近年涌现出许多相关研究,其 计算量巨大的问题。网络结构的相似性主要体现 研究成果在链接预测回、社团发现)、节点分类 在相似度计算上,其中一阶、二阶相似度是最普 相似度计算、网络可视化等应用场景广泛应 遍使用的特征,一般来说,模型中包含越多的高 用。大部分已有网络表示学习算法基于网络本身 阶相似度特征,模型表现越好,但是相应计算量 特征进行表示学习,例如DeepWalkm、Node2Vec剧 也会增大。 Line)等刻画结构特征的模型;以及针对文本信 2)结合节点语义信息的网络表示学习方法 息网络,在DeepWalk基础上引入文本特征的 上述模型只考虑网络的结构特征信息,针对 TADWI0,引入互注意力机制,并在部分文本信息 文本信息网络,Yang等1o提出了text-associated 网络公开数据集中得到了目前最优结果的CANE四 Deep-Walk(TADW),将文本信息与DeepWalk算 文本信息网络表示现有方法从网络本身文本特征 法进行了结合。Tu等m提出了max-margin DeepWalk 出发,由于网络文本分布与自然语言文本分布差 (MMDW),利用SVM思想对DeepWalk在文本信 异,会产生一定程度的语义残缺或语义漂移,这 息网络中的应用进行改进,Tu等提出了上下文 种情况在数据集规模受限情况下更为明显。 相关的网络表示学习模型CANE,针对不同上下 直觉上,为模型引入越多外部知识模型的表 文,利用互注意力机制,学习网络节点在不同上 示容量越高,模型结果越能够刻画更多网络特 下文中的表示。 征:而预训练的分布式词向量正是针对文本相关 使用自身文本特征进行建模,受限于任务本 任务的外部语义知识。随着词向量应用的普及, 存在许多以通用语料训练得到的词向量资源,其 身语料,容易产生语义偏差或残缺。在论文写作 时所知,鲜见引入外部词向量辅助文本信息网络 中包含了大量语义信息。利用这部分已有语义资 源增强文本信息网络的表示是本文研究的目标。 建模的研究。 相关工作 2语义漂移现象 网络表示学习早期技术以图表示(graph em- 如表1所示,采用Word2vec山对实验部分的 bedding)、降维方法为主。包括multidimensional Zhihu数据集21训练词向量,对由训练得到的词 scaling(MDS)、IsoMap!)、局部线性表示LLE川 向量与外部词向量中的随机词的相似词进行了对 以及Laplacian Eigenmap。这类算法的计算复杂 比。在Zhihu数据集词表中随机抽取两个词“电 度偏高,不适合在大规模网络中应用。 子乐”、“杭州”,根据余弦相似度分别在Zhihu词 随着近年网络表示学习发展,大量可以应用 向量与外部词向量词表中找到前5个表示近似的 在大规模网络中的算法相继提出。对于文本信息 词。可以看到,受限于数据集规模,Zhihu数据集 网络,主要分为如下2类: 的词模型表示能力有限,语义漂移明显
点之间并不完全独立,而是具有一定的连接关 系,同时网络节点自身也包含特定的属性信息。 日常生活中的社交网络 (微博)、问答社区 (知乎)、 生活服务类网站 (大众点评)、论文引用关系网络 等包含了大量文本信息,下文中将此种网络简称 为文本信息网络。在文本信息网络中,文本信息 以标签、正文、描述以及其他元数据形式广泛存 在,给网络提供了大量可利用的语义信息。例如 论文引用关系网络中,论文作为网络节点并以引 用关系作边,节点还包含相关文本信息。网络数 据的这些特性,给大规模或复杂网络数据研究带 来了挑战。 网络表示学习 (network embedding 或 network representation learning) 目的是学习网络节点的低 维空间向量表示,降低存储、计算成本,提升并行 能力,使传统机器学习算法能够在大规模数据中 得到应用[1]。因此,近年涌现出许多相关研究,其 研究成果在链接预测[2] 、社团发现[3] 、节点分类[4] 、 相似度计算[5] 、网络可视化[6] 等应用场景广泛应 用。大部分已有网络表示学习算法基于网络本身 特征进行表示学习,例如 DeepWalk[7] 、Node2Vec[8] 、 Line[9] 等刻画结构特征的模型;以及针对文本信 息网络,在 DeepWalk[7] 基础上引入文本特征的 TADW[10] ,引入互注意力机制,并在部分文本信息 网络公开数据集中得到了目前最优结果的 CANE[11]。 文本信息网络表示现有方法从网络本身文本特征 出发,由于网络文本分布与自然语言文本分布差 异,会产生一定程度的语义残缺或语义漂移,这 种情况在数据集规模受限情况下更为明显。 直觉上,为模型引入越多外部知识,模型的表 示容量越高,模型结果越能够刻画更多网络特 征;而预训练的分布式词向量正是针对文本相关 任务的外部语义知识。随着词向量应用的普及, 存在许多以通用语料训练得到的词向量资源,其 中包含了大量语义信息。利用这部分已有语义资 源增强文本信息网络的表示是本文研究的目标。 1 相关工作 网络表示学习早期技术以图表示 (graph embedding)、降维方法为主。包括 multidimensional scaling (MDS)[12] 、IsoMap[13] 、局部线性表示 LLE[1] 以及 Laplacian Eigenmap[14]。这类算法的计算复杂 度偏高,不适合在大规模网络中应用。 随着近年网络表示学习发展,大量可以应用 在大规模网络中的算法相继提出。对于文本信息 网络,主要分为如下 2 类: 1) 只考虑结构特征的网络表示学习方法 Deepwalk[7] 作为网络表示学习的经典算法, 将自然语言处理中利用词共现信息进行建模的算 法 SkipGram[1] 引入到网络表示学习任务中,通过 随机游走构建节点上下文序列,并利用 Hierarchical Softmax[2] 的树形结构加速训练过程。LINE[8] 主要利用预先设计的概率密度函数来表征图的一 阶、二阶相似度,并引入负采样[1] 、异步随机梯度 下降 (ASGD)[15] 降低计算复杂度,实现适用于大 规模网络节点表示的计算。Node2vec[9] 对 Deepwalk 的随机游走策略进行了修改,通过在游走路 径中增加权重项来控制深度 (DFS) 以及广度 (BFS) 优先的游走方式,使算法的图游走策略更 有效率。GraRep[16] 将 k 阶相似矩阵进行分解,并 将得到的特征向量进行拼接得到最后的节点向 量,以此来捕捉更高阶的相似度特征,但面临着 计算量巨大的问题。网络结构的相似性主要体现 在相似度计算上,其中一阶、二阶相似度是最普 遍使用的特征,一般来说,模型中包含越多的高 阶相似度特征,模型表现越好,但是相应计算量 也会增大。 2) 结合节点语义信息的网络表示学习方法 上述模型只考虑网络的结构特征信息,针对 文本信息网络,Yang 等 [10] 提出了 text-associated Deep-Walk (TADW),将文本信息与 DeepWalk 算 法进行了结合。Tu 等 [17] 提出了 max-margin DeepWalk (MMDW),利用 SVM 思想对 DeepWalk 在文本信 息网络中的应用进行改进,Tu 等 [11] 提出了上下文 相关的网络表示学习模型 CANE,针对不同上下 文,利用互注意力机制,学习网络节点在不同上 下文中的表示。 使用自身文本特征进行建模,受限于任务本 身语料,容易产生语义偏差或残缺。在论文写作 时所知,鲜见引入外部词向量辅助文本信息网络 建模的研究。 2 语义漂移现象 如表 1 所示,采用 Word2vec[1] 对实验部分的 Zhihu 数据集[12] 训练词向量,对由训练得到的词 向量与外部词向量中的随机词的相似词进行了对 比。在 Zhihu 数据集词表中随机抽取两个词 “电 子乐”、“杭州”,根据余弦相似度分别在 Zhihu 词 向量与外部词向量词表中找到前 5 个表示近似的 词。可以看到,受限于数据集规模,Zhihu 数据集 的词模型表示能力有限,语义漂移明显。 第 5 期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1057·
·1058· 智能系统学报 第14卷 表1“电子乐”相似词对比 关特征。 Table1“Dian Zi Yue”cosine similarity 定义4结构相似度 电子乐(Zhihu)相似度 电子乐(外部词向量) 相似度 一阶相似度一阶相似度通过当前节点与相 专指 0.828 电音 0.717 邻节点间的联通关系,描述了网络在一跳范围内 energy 0.801 电子乐 0.710 的结构特征。对节点“、v,若节点间没有边相连, 则一阶相似度为0。若存在边(u,),一阶相似度 sound 0.782 爵士音乐 0.7091 即为边权重ww。 录音 0.747 音乐风格 0.7056 二阶相似度二阶相似度衡量了当前节点与 现场表演 0.740 乐队 0.7024 相距两跳的邻居节点间的结构相似程度。记 表2“杭州”相似词对比 p=(w1,w2,…,wuw)为节点u与其他所有点之 Table 2 “Hang zhou”cosine similarity 间的一阶相似度。、v的二阶相似度为p、p巴 杭州(Zhihu) 相似度 杭州(外部词向量) 相似度 的相似度,该相似度可以通过余弦相似度等相似 度度量方式进行衡量,若“、y没有一跳公共邻居 1897 0.949 嘉兴 0.765 节点,则二阶相似度为0。 人间天堂 0.906 无锡 0.744 高阶相似度记“与其他所有节点的N-1 浙大 0.866 苏州 0.744 阶相似度为p-。可以依以上定义“、v的N阶 文化名城 0.795 宁波 0.699 相似度为pW-与p-)的相似程度,若u、v没有 坐落于 0.750 上海 0.692 N-1跳公共邻居节点,则N阶相似度为0。 基于外部词向量的文本信息网络表示学习目 3问题定义与描述 的是对给定文本信息网络G=(V,E,T,C),在融合 结构特征与语义特征的特征空间中,学习网络节 沿用LNE9中的信息网络定义,文本信息网 点的低维向量表示v∈R,使表示结果包含网络 络定义如下: 结构特征、网络本身文本特征以及外部文本特 定义1文本信息网络 征。出于计算复杂度考虑,本文只使用一阶、二 文本信息网络被定义为G=(V,E,T),V表示 阶相似度对结构特征进行建模,语义特征使用词 网络中的节点集合,T表示节点文本信息集合, 向量信息进行建模。 EsV×V表示节点通联构成的边,e=(u,)、e∈E 代表了节点u、v之间有带有权重wm>0的边。 4基于外部词向量的文本信息网络表 对于无向图wm三wm、(u,)三(心,,对于有向图 示学习模型NE-EWV wm≠wm、(u,V)卡(y,l)。 文本信息网络建模过程中涉及到两个向量特 定义2引入外部词向量的文本信息网络 征空间:语义特征空间、结构特征空间。受限于 给定外部词向量C,C为在语义特征空间中 任务本身语料规模与词分布,文本信息网络建模 的词向量表示集合。此时文本信息网络以G= 得到的语义特征空间表示与实际语义会产生一定 (V,E,T,C定义。 程度偏差。本文引入外部词向量作为先验知识辅 定义3节点特征空间表示 助建模过程,可以扩展语义特征空间表示容量, 网络表示学习的目的是对每个节点v∈V学 修正部分语义误差。故NE-EWV主要解决2个 习一个低维空间的向量表示veR(d<<VW。 问题,一是引入外部词向量信息对语义特征进行 对于节点veV,其节点文本表示为content,,= 扩充;其次是学习融合结构特征、语义特征的表 (word,word2,·,wordw.),节点特征空间表示即节点 示结果。 在不同向量特征空间中的表示结果。在文本信息 4.1 NE-EWV模型基本架构 网络中,特征空间主要分为描述文本语义特征的 NE-EWV分为3个部分,NE-EWV1在语义特 语义特征空间,节点v在其中表示记为y,此时节 征空间中引入结构特征约束,得到语义特征空间 点与词在同一特征空间中,能够以节点文本语义 中包含部分结构特征约束的节点表示。NE 衡量节点之间的相似程度;以及描述网络结构特 EWV2在结构特征空间中引入语义特征约束,得 征的结构特征空间,节点v在其中表示记为,词 到结构特征空间中包含部分语义特征约束的节点 和节点的表示都在一定程度上包含了网络结构相 表示。NE-EWV3表示结果由上述2步得到的
表 1 “电子乐”相似词对比 Table 1 “Dian Zi Yue” cosine similarity 电子乐(Zhihu) 相似度 电子乐(外部词向量) 相似度 专指 0.828 电音 0.717 energy 0.801 电子乐 0.710 sound 0.782 爵士音乐 0.709 1 录音 0.747 音乐风格 0.705 6 现场表演 0.740 乐队 0.702 4 表 2 “杭州”相似词对比 Table 2 “Hang zhou” cosine similarity 杭州(Zhihu) 相似度 杭州(外部词向量) 相似度 1897 0.949 嘉兴 0.765 人间天堂 0.906 无锡 0.744 浙大 0.866 苏州 0.744 文化名城 0.795 宁波 0.699 坐落于 0.750 上海 0.692 3 问题定义与描述 沿用 LINE[9] 中的信息网络定义,文本信息网 络定义如下: 定义 1 文本信息网络 G = (V,E,T) V T E ⊆ V ×V e = (u, v) e ∈ E u v wuv > 0 wuv ≡ wvu (u, v) ≡ (v,u) wuv , wvu (u, v) , (v,u) 文本信息网络被定义为 , 表示 网络中的节点集合, 表示节点文本信息集合, 表示节点通联构成的边, 、 代表了节点 、 之间有带有权重 的边。 对于无向图 、 ,对于有向图 、 。 定义 2 引入外部词向量的文本信息网络 C C (V,E,T,C) 给定外部词向量 , 为在语义特征空间中 的词向量表示集合。此时文本信息网络以 G = 定义。 定义 3 节点特征空间表示 v ∈ V v ∈ R d d << |V| 网络表示学习的目的是对每个节点 学 习一个低维空间的向量表示 ( )。 v ∈ V contentv = (word1,word2,··· ,wordNv ) v v t v v s 对于节点 ,其节点文本表示为 ,节点特征空间表示即节点 在不同向量特征空间中的表示结果。在文本信息 网络中,特征空间主要分为描述文本语义特征的 语义特征空间,节点 在其中表示记为 ,此时节 点与词在同一特征空间中,能够以节点文本语义 衡量节点之间的相似程度;以及描述网络结构特 征的结构特征空间,节点 在其中表示记为 ,词 和节点的表示都在一定程度上包含了网络结构相 关特征。 定义 4 结构相似度 u v (u, v) wuv 一阶相似度 一阶相似度通过当前节点与相 邻节点间的联通关系,描述了网络在一跳范围内 的结构特征。对节点 、 ,若节点间没有边相连, 则一阶相似度为 0。若存在边 ,一阶相似度 即为边权重 。 p (1) u = (wu,1,wu,2,··· ,wu,|V|) u u v p (1) u p (1) v u v 二阶相似度 二阶相似度衡量了当前节点与 相距两跳的邻居节点间的结构相似程度。记 为节点 与其他所有点之 间的一阶相似度。 、 的二阶相似度为 、 的相似度,该相似度可以通过余弦相似度等相似 度度量方式进行衡量,若 、 没有一跳公共邻居 节点,则二阶相似度为 0。 u N −1 p (N−1) u u v N p (N−1) u p (N−1) v u v N −1 N 高阶相似度 记 与其他所有节点的 阶相似度为 。可以依以上定义 、 的 阶 相似度为 与 的相似程度,若 、 没有 跳公共邻居节点,则 阶相似度为 0。 G = (V,E,T,C) v ∈ R d 基于外部词向量的文本信息网络表示学习目 的是对给定文本信息网络 ,在融合 结构特征与语义特征的特征空间中,学习网络节 点的低维向量表示 ,使表示结果包含网络 结构特征、网络本身文本特征以及外部文本特 征。出于计算复杂度考虑,本文只使用一阶、二 阶相似度对结构特征进行建模,语义特征使用词 向量信息进行建模。 4 基于外部词向量的文本信息网络表 示学习模型 NE-EWV 文本信息网络建模过程中涉及到两个向量特 征空间:语义特征空间、结构特征空间。受限于 任务本身语料规模与词分布,文本信息网络建模 得到的语义特征空间表示与实际语义会产生一定 程度偏差。本文引入外部词向量作为先验知识辅 助建模过程,可以扩展语义特征空间表示容量, 修正部分语义误差。故 NE-EWV 主要解决 2 个 问题,一是引入外部词向量信息对语义特征进行 扩充;其次是学习融合结构特征、语义特征的表 示结果。 4.1 NE-EWV 模型基本架构 v t v s NE-EWV 分为 3 个部分,NE-EWV1 在语义特 征空间中引入结构特征约束,得到语义特征空间 中包含部分结构特征约束的节点表示 。NEEWV2 在结构特征空间中引入语义特征约束,得 到结构特征空间中包含部分语义特征约束的节点 表示 。NE-EWV3 表示结果由上述 2 步得到的 ·1058· 智 能 系 统 学 报 第 14 卷
第5期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1059· 节点表示融合得到,本文采用2种融合方式: 集content,CcontentC content,,content表示出现在 1)简单将2个向量表示进行连接,得到节点表示 外部词向量C以及节点文本content,,中的词集 v=⊕,其中⊕代表向量拼接操作;2)基于自编 合;对每个word,∈content,依次与V中其余节点 码器的融合模型。 文本的采样子集中每个词word.∈content,做边,词 4.2结构约束的语义特征空间表示模型NE- 向量的余弦相似度sim(word,word)作为边的 EWVI 权重。对于有向图,(word,word)=(word,word), 对于节点veV,其节点文本content。,=(wordi, w=wu=sim(word,,word.)o wod,…,wordw.),N,为节点v文本的词个数。节点 考虑到计算量因素,引入2个概率变量 外部词向量C,若word:在C存在,记word:在C p、q,其中p控制当前节点中词进行边扩展概 中的词向量表示为C,记M,为content,,中词在C 率,q控制目标节点中词进行边扩展概率。沿用 中出现的个数。则节点在语义特征空间中可以由 PageRanks中对跳转概率的定义,节点v的文本 词序列(C,C2,…,CM,)唯一表示。 节点在语义特征空间中的表示受当前节点文 子集content中每个词以概率pr,=(d,/dnx)(1-p)+ 本影响,即节点的语义可以看作是节点文本中数 p作为起始点做扩展边,其中d,为当前节点出度, 个关键词的语义组合,本文为简化起见,对节点 dx当前网络中出度最大值;对于目标节点u的 文本语义表示采用线性加权,得到结果作为节点 文本子集content,其中每个词以概率pr2= 的语义表示。在实验章节第5节,对NE-EWV1 (d/dma)(1-g)+q作为扩展边的终点。 的可视化结果做了分析。 完成扩展网络后,接下来在结构特征空间中 NE-EWV1以节点文本词向量的线性加权作 与4.2节处理相同,沿用LNE中对损失函数的 为节点在语义特征空间中的表示 定义。将文本中的词与网络中的节点统一到结构 y=w1C1+2C2+…+w,MCM (1) 特征空间中进行计算,得到节点语义约束下的结 将表示限制在语义特征空间后,沿用LNE 构特征空间表示。 对于结构特征损失函数定义引入结构特征约束, 4.4表示融合模型NE-EWV3 将问题转化为最优化问题求解。其中,对于节点 NE-EWV1、NE-EWV2在不同程度上都包含 u,v,一阶相似度损失函数定义为 了语义特征信息以及结构特征信息,但建模过程 0,=-∑w.logP:(c,y (2) 侧重不同,其表示结果属于不同特征空间。总的 (u,v)EE 1 来说,NE-EWV1、NE-EWV2描述了同一网络在不 p4(d,=1+exp(- (3) 同视角下的网络表示,对其表示结果做非线性变 二阶相似度损失函数定义为 化映射到同一向量空间中,其表示应当相对接 o,=-∑w.logp:(uw (4) 近,并可互为补充。因此文本提出NE-EWV3对 (u.v)EE NE-EWV1、NE-EWV2表示结果进行融合。 p2(u'lv)= exp(u'.v) (5) 1)通过向量拼接,得到最终表示v=⊕v, 受epd 计算成本低。 2)采用基于自编码器的表示融合模型。由于 对于表示结果,沿用LNE中对于一阶、二 、”都包括了结构特征以及语义特征,但 阶相似度的处理。由于一阶相似度只能应用于无 侧重不同,本文希望通过自编码器的非线性变换 向图,对于有向图,以二阶相似度作为结构特征 的约束进行计算。对于无向图,由一阶相似度损 将、映射到同一特征空间中,相比方式1),由 失函数得到节点表示记为,二阶相似度损失函 于采用了非线性变化,模型理论上的表示能力 数得到节点表示记为2,通过向量拼接得到最后 更强。 的语义特征空间表示w=2⊕v2。 由于在2个特征空间对同一事物进行表示, 4.3结构约束的语义特征空间表示模型NE-EWV2 当、映射到同一向量空间中时,其距离应当较 为了引入语义约束,将词看做特殊的网络节 为接近。NE-EWV3(AutoEncoder)利用损失函数 点,以词向量相似度做权重边,扩展原网络。考 对x、,、,、”的相似性进行约束,得到最终 虑到模型计算量,对每个节点ⅴ在外部词向量C 的表示v。基于自编码器的表示融合模型如图1 中的节点文本,首先通过采样得到节点文本的子 所示
v = v t ⊕v s ⊕ 节点表示融合得到,本文采用 2 种融合方式: 1) 简单将 2 个向量表示进行连接,得到节点表示 ,其中 代表向量拼接操作;2) 基于自编 码器的融合模型。 4.2 结构约束的语义特征空间表示模 型 NEEWV1 v ∈ V contentv = (word1, word2,··· ,wordNv ) Nv v C wordi C wordi C Ci Mv contentv C (C1,C2,··· ,CMv ) 对于节点 ,其节点文本 , 为节点 文本的词个数。节点 外部词向量 ,若 在 存在,记 在 中的词向量表示为 ,记 为 中词在 中出现的个数。则节点在语义特征空间中可以由 词序列 唯一表示。 节点在语义特征空间中的表示受当前节点文 本影响,即节点的语义可以看作是节点文本中数 个关键词的语义组合,本文为简化起见,对节点 文本语义表示采用线性加权,得到结果作为节点 的语义表示。在实验章节第 5 节,对 NE-EWV1 的可视化结果做了分析。 NE-EWV1 以节点文本词向量的线性加权作 为节点在语义特征空间中的表示 v t = wv1C1 +wv2C2 +···+wvMvCMv (1) 将表示限制在语义特征空间后,沿用 LINE[9] 对于结构特征损失函数定义引入结构特征约束, 将问题转化为最优化问题求解。其中,对于节点 u,v,一阶相似度损失函数定义为 O1 = − ∑ (u,v)∈E wuv log p1(u t , v t ) (2) p1(u t , v t ) = 1 1+exp(−u t · v t ) (3) 二阶相似度损失函数定义为 O2 = − ∑ (u,v)∈E wuv log p2(u t |v t ) (4) p2(u t |v t ) = exp(u t · v t ) ∑ |V| K=1 exp(u t · v t ) (5) v t(1) v t(2) v t = v t(2) ⊕v t(2) 对于表示结果,沿用 LINE[9] 中对于一阶、二 阶相似度的处理。由于一阶相似度只能应用于无 向图,对于有向图,以二阶相似度作为结构特征 的约束进行计算。对于无向图,由一阶相似度损 失函数得到节点表示记为 ,二阶相似度损失函 数得到节点表示记为 ,通过向量拼接得到最后 的语义特征空间表示 。 4.3 结构约束的语义特征空间表示模型 NE-EWV2 v C 为了引入语义约束,将词看做特殊的网络节 点,以词向量相似度做权重边,扩展原网络。考 虑到模型计算量,对每个节点 在外部词向量 中的节点文本,首先通过采样得到节点文本的子 content′ v ⊆ contentC v ⊆ contentv contentC v C contentv wordv ∈ content′ v wordu ∈ content′ u sim(wordv ,wordu) (wordv ,wordu) = (wordu,wordv) wuv = wvu=sim(wordv ,wordu) 集 , 表示出现在 外部词向量 以及节点文本 中的词集 合;对每个 ,依次与 V 中其余节点 文本的采样子集中每个词 做边,词 向量的余弦相似度 作为边的 权重。对于有向图, , 。 p、q p q v contentC v pr1 = (dv/dmax) (1− p)+ dv dmax contentC u pr2 = (du/dmax) (1−q)+q 考虑到计算量因素,引 入 2 个概率变量 ,其中 控制当前节点中词进行边扩展概 率, 控制目标节点中词进行边扩展概率。沿用 PageRank[18] 中对跳转概率的定义,节点 的文本 子集 中每个词以概率 p 作为起始点做扩展边,其中 为当前节点出度, 当前网络中出度最大值;对于目标节点 u 的 文本子集 ,其中每个词以概率 作为扩展边的终点。 v s 完成扩展网络后,接下来在结构特征空间中 与 4.2 节处理相同,沿用 LINE[9] 中对损失函数的 定义。将文本中的词与网络中的节点统一到结构 特征空间中进行计算,得到节点语义约束下的结 构特征空间表示 。 4.4 表示融合模型 NE-EWV3 NE-EWV1、NE-EWV2 在不同程度上都包含 了语义特征信息以及结构特征信息,但建模过程 侧重不同,其表示结果属于不同特征空间。总的 来说,NE-EWV1、NE-EWV2 描述了同一网络在不 同视角下的网络表示,对其表示结果做非线性变 化映射到同一向量空间中,其表示应当相对接 近,并可互为补充。因此文本提出 NE-EWV3 对 NE-EWV1、NE-EWV2 表示结果进行融合。 v = v t ⊕v s 1) 通过向量拼接,得到最终表示 , 计算成本低。 v s v t v s v t 2) 采用基于自编码器的表示融合模型。由于 、 都包括了结构特征以及语义特征,但 侧重不同,本文希望通过自编码器的非线性变换 将 、 映射到同一特征空间中,相比方式 1),由 于采用了非线性变化,模型理论上的表示能力 更强。 v s v t xi xˆi yi yˆi v s v t v 由于在 2 个特征空间对同一事物进行表示, 当 、 映射到同一向量空间中时,其距离应当较 为接近。NE-EWV3(AutoEncoder) 利用损失函数 对 、 , 、 , 、 的相似性进行约束,得到最终 的表示 。基于自编码器的表示融合模型如图 1 所示。 第 5 期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1059·
·1060· 智能系统学报 第14卷 目 Iog.p)+∑E:(-.z (10) 式中:k表示负样本个数;σ表示sigmoid函数; P()xd,4,d,表示节点v的出度。梯度算法使用 Adam对模型进行优化。 5实验 5.1实验数据 图1基于自编码器的表示融合模型 实验包括了现实网络中的中文、英文数据 Fig.1 Feature fusion representation model based on 集。对于中文测试数据,外部词向量使用微信公 aligned auto-encoder 自编码器主要包括编码和解码2个过程,编 众号中800万篇文章预先训练得到的词向量(t- 码过程将输入映射到目标向量空间中,解码过程 tps:/spaces.ac.cn/archives/,4304),词表大小35万, 将目标向量空间中的表示还原到原输入向量空间 维度256维。英文使用了Google发布的在新闻语 中,要使目标向量空间的表示有效,需要解码过 料中训练得到的词向量(https://code.google.com/ 程中重建到输入向量空间中的表示与输入表示尽 archive/p/word2vec),词表大小300万,维度300维。 可能一致。 其中,Zhihu为中文数据集,Cora、HepTh为英文数 NE-EWV3(AutoEncoder)采用了对称的自编 据集。 码器结构,学习、在目标特征空间中的表示结 HepTh数据集:HEP-TH(high energy physics 果。模型左右计算流程一致,这里以左侧为例进 theory)是arXiv发布的公开论文引用网络,随机 行说明。左侧自编码器的目的是将节点在语义特 抽取其中10740篇包含概述的论文,以论文概述 征空间中的表示y进行非线性变换。模型左侧 作为节点文本信息,以引用关系对节点之间做边。 初始输入为节点在语义特征空间中的表示,编 Zhihu(知乎)数据集:知乎是国内的问答社区 码阶段,通过下式得到压缩表示x: 网站,本文使用CANE)公开的知乎数据集,其 x)=(W:xi+b) (6) 中包含10000个爬取的用户作为节点,以用户关 xW=(W因x-+b (7 注话题的描述文本作为节点文本信息。 式中:c为sigmoid激活函数;(x)=1/(1+exp(-x)o 数据集统计信息列在表3,在外部词向量的 在解码阶段: 未登录词统计列在表4。 -=m-地+B-) (8) 表3测试数据集统计 :=r(W四+6) (9) Table 3 Dataset statics 得到还原后的表示。 数据集 节点个数 边个数 节点标签 左侧自编码器的损失函数定义为L=x-, HepTh 10740 16629 右侧同理定义损失函数为L2=,-。为了使 Zhihu 10000 43894 、能够被尽可能压缩到同一特征空间,需要压 缩表示x与y足够接近,因此定义损失函数 表4数据集未登录词统计 L=xw-y。为了避免过拟合,添加正则项 Table 4 OVW statics Le=∑d9E+lw.心)+∑mg9+w,B。 数据集词个数 未登录词个数 未登录词占比/% HepTh 601 095 222839 37.1 最终NE-EWV3(AutoEncoder)定义损失函数 Zhihu 14650 6591 45.0 为L=aL1+BL2+yL+Leg,a、B、y为控制损失项权 重的超参数。最终节点表示v=x因⊕y因,由2个 实验首先在数据集上对链接预测任务进行了 压缩表示拼接得到。 实验,并在Cora数据集上对节点分类任务进行了 4.5模型优化 实验。 由于2、3节中计算损失函数中条件概率函数 5.2基线方法 p1、p2均使用了softmax函数,每次需要对整个数 DeepWalk⑧是2014年提出的网络表示学习 据集进行计算。为了降低计算量,模型采用负采 算法,主要利用随机游走构造节点上下文信息, 样。目标函数变为如下形式 并利用词向量算法中的SkipGram计算网络表示
xi ^ xi ^ (1) xi (k) xi (1) xi yi ^ yi ^ (1) yi (k) yi (1) yi v t v s 最终表示 … … … … 图 1 基于自编码器的表示融合模型 Fig. 1 Feature fusion representation model based on aligned auto-encoder 自编码器主要包括编码和解码 2 个过程,编 码过程将输入映射到目标向量空间中,解码过程 将目标向量空间中的表示还原到原输入向量空间 中,要使目标向量空间的表示有效,需要解码过 程中重建到输入向量空间中的表示与输入表示尽 可能一致。 v s v t v t v t xi (k) NE-EWV3(AutoEncoder) 采用了对称的自编 码器结构,学习 、 在目标特征空间中的表示结 果。模型左右计算流程一致,这里以左侧为例进 行说明。左侧自编码器的目的是将节点在语义特 征空间中的表示 进行非线性变换。模型左侧 初始输入为节点在语义特征空间中的表示 ,编 码阶段,通过下式得到压缩表示 : xi (1) = σ(Wx (1)xi +b (1)) (6) xi (k) = σ(Wx (k) xi (k−1) +b (k) ) (7) 式中:σ 为 sigmoid 激活函数;σ(x) = 1/(1+exp(−x))。 在解码阶段: xˆ (k−1) i = σ(Wˆ (k−1) x xˆ (k) i +bˆ (k−1)) (8) xˆi = σ(Wˆ (1) x xˆ (1) i +bˆ (1)) (9) 得到还原后的表示 xˆi。 L1 = ∥xi − xˆi∥ 2 2 L2 = ∥yi −yˆi∥ 2 2 v s v t xi (k) yi (k) L3 = xi (k) −yi (k) 2 2 Lreg = ∑k−1 i=1 ( Wˆ (i) x 2 F + Wx (i) 2 F )+ ∑k−1 i=1 ( Wˆ (i) y 2 F + Wy (i) 2 F ) 左侧自编码器的损失函数定义为 , 右侧同理定义损失函数为 。为了使 、 能够被尽可能压缩到同一特征空间,需要压 缩表示 与 足够接近,因此定义损失函数 。为了避免过拟合,添加正则项 。 L = αL1 +βL2 +γL3+Lreg α β γ v = xi (k) ⊕yi (k) 最终 NE-EWV3(AutoEncoder) 定义损失函数 为 , 、 、 为控制损失项权 重的超参数。最终节点表示 ,由 2 个 压缩表示拼接得到。 4.5 模型优化 p1 p2 由于 2、3 节中计算损失函数中条件概率函数 、 均使用了 softmax 函数,每次需要对整个数 据集进行计算。为了降低计算量,模型采用负采 样 [1]。目标函数变为如下形式 logσ(u T · v)+ ∑k i=1 Ez∼P(v)[logσ(−u T · z)] (10) k σ P(v) ∝ dv 3/4 dv v 式中: 表示负样本个数; 表示 sigmoid 函数; , 表示节点 的出度。梯度算法使用 Adam[19] 对模型进行优化。 5 实验 5.1 实验数据 实验包括了现实网络中的中文、英文数据 集。对于中文测试数据,外部词向量使用微信公 众号中 800 万篇文章预先训练得到的词向量 (https://spaces.ac.cn/archives/4304),词表大小 35 万, 维度 256 维。英文使用了 Google 发布的在新闻语 料中训练得到的词向量 (https://code.google.com/ archive/p/word2vec),词表大小 300 万,维度 300 维。 其中,Zhihu 为中文数据集,Cora、HepTh 为英文数 据集。 HepTh 数据集:HEP-TH (high energy physics theory) 是 arXiv 发布的公开论文引用网络,随机 抽取其中 10 740 篇包含概述的论文,以论文概述 作为节点文本信息,以引用关系对节点之间做边。 Zhihu(知乎) 数据集:知乎是国内的问答社区 网站,本文使用 CANE[12] 公开的知乎数据集,其 中包含 10 000 个爬取的用户作为节点,以用户关 注话题的描述文本作为节点文本信息。 数据集统计信息列在表 3,在外部词向量的 未登录词统计列在表 4。 表 3 测试数据集统计 Table 3 Dataset statics 数据集 节点个数 边个数 节点标签 HepTh 10 740 16 629 Zhihu 10 000 43 894 表 4 数据集未登录词统计 Table 4 OVW statics 数据集 词个数 未登录词个数 未登录词占比/% HepTh 601 095 222 839 37.1 Zhihu 14 650 6 591 45.0 实验首先在数据集上对链接预测任务进行了 实验,并在 Cora 数据集上对节点分类任务进行了 实验。 5.2 基线方法 DeepWalk[8] 是 2014 年提出的网络表示学习 算法,主要利用随机游走构造节点上下文信息, 并利用词向量算法中的 SkipGram 计算网络表示, ·1060· 智 能 系 统 学 报 第 14 卷
第5期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1061· Hierarchical Softmax进行计算优化,DeepWalk针 用CANE中的参数设置,对cora、Zhihu数据集设置 对网络结构的二阶相似性进行建模。 a=1.0、B=0.3、y=0.3;HepTh数据集设置a=0.7 LNE利用预定义的概率密度函数对一阶以 B=0.2、y=0.2,epoch个数设置为200。 及二阶相似度进行了建模。为了尽可能体现LNE NE-EWV1 epoch个数设置为50。NE-EWV2 算法的性能,这里采用LINE算法的1st+2st的版 中首先采用TFDS模型计算关键词,保留关键词 本,即包含一阶相似度以及二阶相似度进行建模。 个数l5,对于Zhihu、Cora数据集,设置p=l/3 Node2veco主要针对随机游走过程中的宽度 q=1/10,对于HepTh数据集,设置p=1/2、q=1/5 优先以及深度优先做了优化,通过控制跳转概率 epoch个数设置为50。NE-EWV3(AutoEncoder)损 参数p、g进一步扩展了DeepWalk算法。 失函数中设置a=10、B=10、y=1,epoch个数设 CANE☒I算法主要利用互注意力机制以及卷 置为200。 积神经网络对文本进行建模,学习在不同上下文 对链接预测问题,即根据表示结果还原网络 状态下节点的不同表示。 的联通关系,采用AUC作为评价指标2),AUC衡 5.3测试方法 量了正确判定正样本与错误判定负样本的概率差 由于本文模型引入了外部词向量,为了减少 异,AUC指标越大说明模型在二分类问题上表现 词向量维度变化可能造成的信息损失,基线模型 越好。对节点分类问题,即根据表示结果对节点 得到的表示结果维度与词向量维度相同,本文模 分类进行预测,采用准确率作为评价指标。 型除向量拼接外,表示维度与词向量维度相同。 5.4 链接预测 对基线方法中的参数设置,采用grid search2o 在不同的数据集上针对链接预测任务进行了 进行选取。DeepWalk每个节点开始的随机游走 测试,测试方法是选取一定比例的边和以及这些 序列为10,游走长度80,skip-gram窗口为10。对 边中节点的文本信息作为测试数据,以剩余数据 涉及负采样的方法,负样本个数设置为K=5。沿 作为测试集。如表5、6所示。 表5 Zhihu数据集的AUC指标(256维) Table 5 AUC values on Zhihu (256 dimensions) 训练数据百分比% 15 25 35 45 55 65 75 85 95 DeepWalk 0.5657 0.5739 0.5760 0.5915 0.59330.6078 0.6112 0.6208 0.6590 LINE 0.51470.53640.5642 0.6285 0.64450.65160.67810.6937 0.7069 Node2vec 0.53320.54130.57180.6092 0.62990.68760.69730.6947 0.7292 CANE(200epochs) 0.56830.58770.59980.62130.65580.68130.70140.71180.7497 NE-EWVI 0.65730.66720.66380.67420.67880.68010.69160.7103 0.7211 NE-EWV2 0.67450.68930.69810.69730.70930.74640.74600.7774 0.7990 NE-EWV3(拼接) 0.68170.66270.69000.68220.69130.72220.7183 0.7559 0.7665 NE-EWV3(Autoencoder) 0.6803 0.69150.68350.69530.68560.7431 0.7479 0.7668 0.7893 表6 HepTh数据集的AUC指标(300维) Table 6 AUC values on HepTh(256 dimensions) 训练数据百分比% 15 25 35 45 55 65 75 85 95 DeepWalk 0.53380.6292 0.6693 0.6802 0.6957 0.6928 0.7066 0.7166 0.6939 LINE 0.50370.5090 0.51020.52930.53090.53580.5655 0.6083 0.6272 Node2vec 0.66050.68500.69590.70310.70650.69770.69370.6852 0.7101 CANE(200epochs) 0.73800.7775 0.79070.8043 0.82060.8283 0.84270.8528 0.8531 NE-EWV1 0.66530.65370.67120.6651 0.68810.7169 0.74480.7679 0.8021 NE-EWV2 0.74150.76240.77590.78920.80390.8251 0.82170.8327 0.8479 NE-EWV3(拼接) 0.76330.77720.80700.78530.8127 0.83540.82920.8536 0.8553 NE-EWV3(Autoencoder) 0.7136 0.7120 0.7239 0.7449 0.7825 0.8055 0.8308 0.8378 0.8137
Hierarchical Softmax 进行计算优化,DeepWalk 针 对网络结构的二阶相似性进行建模。 LINE[9] 利用预定义的概率密度函数对一阶以 及二阶相似度进行了建模。为了尽可能体现 LINE 算法的性能,这里采用 LINE 算法的 1st+2st 的版 本,即包含一阶相似度以及二阶相似度进行建模。 Node2vec[10] 主要针对随机游走过程中的宽度 优先以及深度优先做了优化,通过控制跳转概率 参数 p、q 进一步扩展了 DeepWalk 算法。 CANE[12] 算法主要利用互注意力机制以及卷 积神经网络对文本进行建模,学习在不同上下文 状态下节点的不同表示。 5.3 测试方法 由于本文模型引入了外部词向量,为了减少 词向量维度变化可能造成的信息损失,基线模型 得到的表示结果维度与词向量维度相同,本文模 型除向量拼接外,表示维度与词向量维度相同。 K = 5 对基线方法中的参数设置,采用 grid search[20] 进行选取。DeepWalk[8] 每个节点开始的随机游走 序列为 10,游走长度 80,skip-gram 窗口为 10。对 涉及负采样的方法,负样本个数设置为 。沿 α = 1.0 β = 0.3 γ = 0.3 α = 0.7 β = 0.2 γ = 0.2 用 CANE 中的参数设置,对 cora、Zhihu 数据集设置 、 、 ;HepTh 数据集设置 、 、 ,epoch 个数设置为 200。 p = 1/3 q = 1/10 p = 1/2 q = 1/5 α = 10 β = 10 γ = 1 NE-EWV1 epoch 个数设置为 50。NE-EWV2 中首先采用 TF-IDS 模型计算关键词,保留关键词 个数 15,对于 Zhihu、Cora 数据集,设置 、 ,对于 HepTh 数据集,设置 、 , epoch 个数设置为 50。NE-EWV3(AutoEncoder) 损 失函数中设置 、 、 ,epoch 个数设 置为 200。 对链接预测问题,即根据表示结果还原网络 的联通关系,采用 AUC 作为评价指标[21] ,AUC 衡 量了正确判定正样本与错误判定负样本的概率差 异,AUC 指标越大说明模型在二分类问题上表现 越好。对节点分类问题,即根据表示结果对节点 分类进行预测,采用准确率作为评价指标。 5.4 链接预测 在不同的数据集上针对链接预测任务进行了 测试,测试方法是选取一定比例的边和以及这些 边中节点的文本信息作为测试数据,以剩余数据 作为测试集。如表 5、6 所示。 表 5 Zhihu 数据集的 AUC 指标 (256 维) Table 5 AUC values on Zhihu (256 dimensions) 训练数据百分比/% 15 25 35 45 55 65 75 85 95 DeepWalk 0.565 7 0.573 9 0.576 0 0.591 5 0.593 3 0.607 8 0.611 2 0.620 8 0.659 0 LINE 0.514 7 0.536 4 0.564 2 0.628 5 0.644 5 0.651 6 0.678 1 0.693 7 0.706 9 Node2vec 0.533 2 0.541 3 0.571 8 0.609 2 0.629 9 0.687 6 0.697 3 0.694 7 0.729 2 CANE(200epochs) 0.568 3 0.587 7 0.599 8 0.621 3 0.655 8 0.681 3 0.701 4 0.711 8 0.749 7 NE-EWV1 0.657 3 0.667 2 0.663 8 0.674 2 0.678 8 0.680 1 0.691 6 0.710 3 0.721 1 NE-EWV2 0.674 5 0.689 3 0.698 1 0.697 3 0.709 3 0.746 4 0.746 0 0.777 4 0.799 0 NE-EWV3(拼接) 0.681 7 0.662 7 0.690 0 0.682 2 0.691 3 0.722 2 0.718 3 0.755 9 0.766 5 NE-EWV3(Autoencoder) 0.680 3 0.691 5 0.683 5 0.695 3 0.685 6 0.743 1 0.747 9 0.766 8 0.789 3 表 6 HepTh 数据集的 AUC 指标 (300 维) Table 6 AUC values on HepTh(256 dimensions) 训练数据百分比/% 15 25 35 45 55 65 75 85 95 DeepWalk 0.533 8 0.629 2 0.669 3 0.680 2 0.695 7 0.692 8 0.706 6 0.716 6 0.693 9 LINE 0.503 7 0.509 0 0.510 2 0.529 3 0.530 9 0.535 8 0.565 5 0.608 3 0.627 2 Node2vec 0.660 5 0.685 0 0.695 9 0.703 1 0.706 5 0.697 7 0.693 7 0.685 2 0.710 1 CANE(200epochs) 0.738 0 0.777 5 0.790 7 0.804 3 0.820 6 0.828 3 0.842 7 0.852 8 0.853 1 NE-EWV1 0.665 3 0.653 7 0.671 2 0.665 1 0.688 1 0.716 9 0.744 8 0.767 9 0.802 1 NE-EWV2 0.741 5 0.762 4 0.775 9 0.789 2 0.803 9 0.825 1 0.821 7 0.832 7 0.847 9 NE-EWV3(拼接) 0.763 3 0.777 2 0.807 0 0.785 3 0.812 7 0.835 4 0.829 2 0.853 6 0.855 3 NE-EWV3(Autoencoder) 0.713 6 0.712 0 0.723 9 0.744 9 0.782 5 0.805 5 0.830 8 0.837 8 0.813 7 第 5 期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1061·
·1062· 智能系统学报 第14卷 1)在中文数据集中本文模型要优于其他基线 C C.Social Network Data Analytics.Boston,MA:Spring- 模型,相比基线算法中AUC指标最好的CANE, er,2011:115-148 AUC指标提高了5%~12%。在英文数据集HepTH [5]DONG Xin,HALEVY A,MADHAVAN J,et al.Similar- 中与性能最好的CANE基本相当。 ity search for web services[C]//Proceedings of the Thirti- 2)本文使用了在领域无关的通用语料中训练 eth International Conference on Very Large Data Bases. 得到的词向量,在Zhihu数据集中未登录词占比 Toronto,Canada,2004:372-383 45.0%(Zhihu数据集中包含了话题描述,即包含了 [6]BASTIAN M,HEYMANN S,JACOMY M.Gephi:an 大量专有名词),在HepTh数据集中未登录词占 open source software for exploring and manipulating net- 比43.1%。说明本文方法对通用语料有较好适应 works[C]//Proceedings of International AAAl Conference 性,通用文本语料能够提升某些特定领域的文本 on Weblogs and Social Media.San Jose,California,USA, 信息网络表示学习的表示能力。 2009:361-362. 综上所述,证明了本文模型能够学习到文本 [7]PEROZZI B,AL-RFOU R,SKIENA S.Deepwalk:online 信息网络中的有效网络表示,能够有效捕捉网络 learning of social representations[C]//Proceedings of the 本身的结构、语义信息,并在不同数据集以及外 20th ACM SIGKDD International Conference on Know- 部词向量上证明了表示的有效性和鲁棒性。 ledge Discovery and Data Mining.New York,USA,2014: 701-710. 6结束语 [8]TANG Jian,QU Meng,WANG Mingzhe,et al.LINE: 本文提出了基于外部词向量的网络表示模 large-scale information network embedding[C]//Proceed- 型,将外部词向量引入到文本信息网络的网络表 ings of the 24th International Conference on World Wide 示学习过程中。模型包括3个部分:在语义特征 Web.Florence,Italy,2005:1067-1077. 空间中学习包含结构特征约束的表示,在结构特 [9]GROVER A.LESKOVEC J.node2vec:scalable feature 征空间学习语义特征约束的表示,以及表示融合 learning for networks[C]//Proceedings of the 22nd ACM 部分。本文在现实网络数据集中,以链接预测实 SIGKDD International Conference on Knowledge Discov- 验,证明了本文模型可以学习到节点间链接关系 ery and Data Mining.San Francisco,California,USA. 的有效表示,而节点间的链接关系也构成了整个 2016:855-864. 网络结构。 [10]YANG Cheng.LIU Zhiyuan,ZHAO Deli,et al.Network 在未来的研究工作中,有如下研究方向:未登 representation learning with rich text information[Cl//Pro- 录词的表示,通用词向量在领域特定任务中往往 ceedings of the 24th International Conference on Artifi- 面临着存在大量未登录词的问题,利用已知词对 cial Intelligence.Buenos Aires,Argentina,2015: 未登录词进行有效表示,直观上可以提升模型表 2111-2117. 示容量,从而提升网络表示能力。 [11]TU Cuchao,LIU Han,LIU Zhiyuan,et al.Cane:context- aware network embedding for relation modeling[Cl//Pro- 参考文献: ceedings of the 55th Annual Meeting of the Association for Computational Linguistics.Vancouver,Canada,2007: [1]CUI Peng,WANG Xiao,PEI Jian,et al.A survey on net- 1722-1731. work embedding[J].IEEE transactions on knowledge and [12]TANG Lei,LIU Huan.Scalable learning of collective be- data engineering,2019,31(5):833-852 havior based on sparse social dimensions[C]//Proceed- [2]LIBEN NOWELL D,KLEINBERG J.The link prediction ings of the 18th ACM Conference on Information and problem for social networks[J].Journal of the American Knowledge Management.Hong Kong,China,2009: society for information science and technology,2007, 1107-1116. 58(7):1019-1031 [13]BALASUBRAMANIAN M.SCHWARTZ E L.TENEN- [3]LANCICHINETTI A.FORTUNATO S.Community de- BAUM J B,et al.The isomap algorithm and topological stability[J].Science,2002,295(5552):7-7. tection algorithms:a comparative analysis[].Physical re- [14]MIKOLOV T.SUTSKEVER I,CHEN K,et al.Distrib- view E,2009,80:056117. uted representations of words and phrases and their com- [4]BHAGAT S,CORMODE G,MUTHUKRISHNAN S. positionality [C]//Proceedings of the 26th International Node classification in social networks[M]//AGGARWAL Conference on Neural Information Processing Systems
1) 在中文数据集中本文模型要优于其他基线 模型,相比基线算法中 AUC 指标最好的 CANE, AUC 指标提高了 5%~12%。在英文数据集 HepTH 中与性能最好的 CANE 基本相当。 2) 本文使用了在领域无关的通用语料中训练 得到的词向量,在 Zhihu 数据集中未登录词占比 45.0%(Zhihu 数据集中包含了话题描述,即包含了 大量专有名词),在 HepTh 数据集中未登录词占 比 43.1%。说明本文方法对通用语料有较好适应 性,通用文本语料能够提升某些特定领域的文本 信息网络表示学习的表示能力。 综上所述,证明了本文模型能够学习到文本 信息网络中的有效网络表示,能够有效捕捉网络 本身的结构、语义信息,并在不同数据集以及外 部词向量上证明了表示的有效性和鲁棒性。 6 结束语 本文提出了基于外部词向量的网络表示模 型,将外部词向量引入到文本信息网络的网络表 示学习过程中。模型包括 3 个部分:在语义特征 空间中学习包含结构特征约束的表示,在结构特 征空间学习语义特征约束的表示,以及表示融合 部分。本文在现实网络数据集中,以链接预测实 验,证明了本文模型可以学习到节点间链接关系 的有效表示,而节点间的链接关系也构成了整个 网络结构。 在未来的研究工作中,有如下研究方向:未登 录词的表示,通用词向量在领域特定任务中往往 面临着存在大量未登录词的问题,利用已知词对 未登录词进行有效表示,直观上可以提升模型表 示容量,从而提升网络表示能力。 参考文献: CUI Peng, WANG Xiao, PEI Jian, et al. A survey on network embedding[J]. IEEE transactions on knowledge and data engineering, 2019, 31(5): 833–852. [1] LIBEN NOWELL D, KLEINBERG J. The link prediction problem for social networks[J]. Journal of the American society for information science and technology, 2007, 58(7): 1019–1031. [2] LANCICHINETTI A, FORTUNATO S. Community detection algorithms: a comparative analysis[J]. Physical review E, 2009, 80: 056117. [3] BHAGAT S, CORMODE G, MUTHUKRISHNAN S. Node classification in social networks[M]//AGGARWAL [4] C C. Social Network Data Analytics. Boston, MA: Springer, 2011: 115–148. DONG Xin, HALEVY A, MADHAVAN J, et al. Similarity search for web services[C]//Proceedings of the Thirtieth International Conference on Very Large Data Bases. Toronto, Canada, 2004: 372–383. [5] BASTIAN M, HEYMANN S, JACOMY M. Gephi: an open source software for exploring and manipulating networks[C]//Proceedings of International AAAI Conference on Weblogs and Social Media. San Jose, California, USA, 2009: 361–362. [6] PEROZZI B, AL-RFOU R, SKIENA S. Deepwalk: online learning of social representations[C]//Proceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York, USA, 2014: 701–710. [7] TANG Jian, QU Meng, WANG Mingzhe, et al. LINE: large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web. Florence, Italy, 2005: 1067–1077. [8] GROVER A, LESKOVEC J. node2vec: scalable feature learning for networks[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco, California, USA, 2016: 855–864. [9] YANG Cheng, LIU Zhiyuan, ZHAO Deli, et al. Network representation learning with rich text information[C]//Proceedings of the 24th International Conference on Artificial Intelligence. Buenos Aires, Argentina, 2015: 2111–2117. [10] TU Cuchao, LIU Han, LIU Zhiyuan, et al. Cane: contextaware network embedding for relation modeling[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Vancouver, Canada, 2007: 1722–1731. [11] TANG Lei, LIU Huan. Scalable learning of collective behavior based on sparse social dimensions[C]//Proceedings of the 18th ACM Conference on Information and Knowledge Management. Hong Kong, China, 2009: 1107–1116. [12] BALASUBRAMANIAN M, SCHWARTZ E L, TENENBAUM J B, et al. The isomap algorithm and topological stability[J]. Science, 2002, 295(5552): 7–7. [13] MIKOLOV T, SUTSKEVER I, CHEN K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 26th International Conference on Neural Information Processing Systems. [14] ·1062· 智 能 系 统 学 报 第 14 卷
第5期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1063· Lake Tahoe,Nevada,2013:3111-3119 [21]HANLEY JA,MCNEIL B J.The meaning and use of the [15]RECHT B,RE C,WRIGHT S J,et al.Hogwild:a lock- area under a Receiver Operating Characteristic (ROC) free approach to parallelizing stochastic gradient curve[J].Radiology,1982,143:29-36. descent[C]//Proceedings of Advances in Neural Informa- 作者简介: tion Processing Systems.2011:693-701. 张潇鲲,男,1991年生,硕士研究 [16]CAO Shaosheng,LU Wei,XU Qiongkai.Grarep:learn- 生,主要研究方向为网络表示学习。 ing graph representations with global structural informa- tion[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne,Australia,2005:891-900. [17]TU Cunchao,ZHANG Weicheng,LIU Zhiyuan,et al. Max-margin deepwalk:discriminative learning of net- 刘琰,女,1979年生,副教授,博 work representation[C]//Proceedings of the Twenty-Fifth 士,主要研究方向为网络信息安全、网 International Joint Conference on Artificial Intelligence. 络资源测绘。申请发明专利10项,授 New York,USA,2006:3889-3895. 权5项,发表学术论文40余篇。 [18]PAGE L,BRIN S,MOTWANI R,et al.The PageRank citation ranking:Bringing order to the web[R].Palo Alto: Stanford InfoLab.1999. [19]KINGMA D,BA J.Adam:a method for stochastic optim- 陈静,女,1990年生,讲师,主要 ization[C]//Proceedings of the 3rd International Confer- 研究方向为数据挖掘、自然语言处理 ence on Learning Representations.San Diago,USA, 和社会网络分析。授权发明专利 2015. 2项,发表学术论文10篇。 [20]HSU C W,CHANG CC,LIN C J.A practical guide to support vector classification.http://www.csie.ntu.edu.tw/ cjlin/papers/guide/guide.pdf
Lake Tahoe, Nevada, 2013: 3111–3119. RECHT B, RÉ C, WRIGHT S J, et al. Hogwild: a lockfree approach to parallelizing stochastic gradient descent[C]//Proceedings of Advances in Neural Information Processing Systems. 2011: 693–701. [15] CAO Shaosheng, LU Wei, XU Qiongkai. Grarep: learning graph representations with global structural information[C]//Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. Melbourne, Australia, 2005: 891–900. [16] TU Cunchao, ZHANG Weicheng, LIU Zhiyuan, et al. Max-margin deepwalk: discriminative learning of network representation[C]//Proceedings of the Twenty-Fifth International Joint Conference on Artificial Intelligence. New York, USA, 2006: 3889–3895. [17] PAGE L, BRIN S, MOTWANI R, et al. The PageRank citation ranking: Bringing order to the web[R]. Palo Alto: Stanford InfoLab, 1999. [18] KINGMA D, BA J. Adam: a method for stochastic optimization[C]//Proceedings of the 3rd International Conference on Learning Representations. San Diago, USA, 2015. [19] HSU C W, CHANG C C, LIN C J. A practical guide to support vector classification. http://www.csie.ntu.edu.tw/ ~cjlin/papers/guide/guide.pdf. [20] HANLEY J A, MCNEIL B J. The meaning and use of the area under a Receiver Operating Characteristic (ROC) curve[J]. Radiology, 1982, 143: 29–36. [21] 作者简介: 张潇鲲,男,1991 年生,硕士研究 生,主要研究方向为网络表示学习。 刘琰,女,1979 年生,副教授,博 士,主要研究方向为网络信息安全、网 络资源测绘。申请发明专利 10 项,授 权 5 项,发表学术论文 40 余篇。 陈静,女,1990 年生,讲师,主要 研究方向为数据挖掘、自然语言处理 和社会网络分析。授权发明专利 2 项,发表学术论文 10 篇。 第 5 期 张潇鲲,等:引入外部词向量的文本信息网络表示学习 ·1063·