正在加载图片...
·296 智能系统学报 第11卷 产生较强的干扰,也需要和停用词一起加以过滤。 划分过程中采用投票机制来规避这一缺陷,详情见 经过以上预处理步骤,我们过滤掉了一部分噪 文献[8]。 声。但即便如此,以词来表征微博文本的特征向量 1.3用户社区划分 的维度也是巨大的,会严重影响微博文本相似度计 以用户D为节点构建的用户关系网中,同一社 算的效率以及有效性。 区内的用户,通常具有相同或相似的爱好。因此,结 3)基于微博文本的用户兴趣特征抽取 合用户的链接关系和用户的兴趣分布,对用户进行 为了学习用户的兴趣特征,如果以用户发表的 聚类,也称为用户社区划分。 微博文本上的词为特征,则会面临维数灾难,我们将 本文延用我们设计的社区划分方法KRLC)对 一个用户发表的所有微博合并为一个长的文本,用 微博用户进行社区划分。具体过程如下: 以表征用户的兴趣,采用基于吉布斯采样法[]的 1)选取中心节点 LDA]主题模型进行降维。将用户的兴趣表示为其 采用K-rank[刿算法选取初始中心节点,即中心 在有限个主题上的分布向量。 节点不但要具有大的PageRank值,中心节点间的相 1.2网络建模 似度要尽可能小。 1.2.1建模 2)社区划分 本文使用有向无权图表示用户关系网。每一个 采用K-means算法进行社区划分,过程如下: 用户作为图中的一个节点,为每一个节点都分配一 输入用户网络G,用户微博长文本集LD,社 个D,ID值从1~n,用户之间的关注关系作为图的 区数K; 边。如果用户i(D为i的用户)关注了用户j,则有 输出划分好的社区列表CommunityList。. 一条由节点i指向节点j的有向边。 ①运行Signal[1]方法将网络的拓扑结构转换成 1.2.2相似度构造方式 一个N维欧式空间上的几何向量。 1)链接属性相似度度量 ②运行Gibbs--sampling--LDA)方法将节点的微 文献[19]提出了一种采用信号传递方法将网 博文档映射到K维特征空间(表示用户在K个主题 络的拓扑结构转换成一个N维欧式空间上的几何 上的兴趣分布): 向量结构,N是网络中的节点数。我们以该几何向 ③采用K-means算法进行社区划分,将每个 量作为节点的链接属性向量。 用户节点分配得离它最近的中心所属的类中,用户 2)内容属性相似度度量 间节点的相似性计算方法用式(2)的联合相似性 用户微博通过LDA[]主题模型降维后,可以得 测度。 到一个该用户对应微博文档在主题上的分布向量, 对于已经划分的社区,我们根据社区内用户所 以该向量表示节点的内容特征向量。 发表微博在主题上的兴趣分布向量,可以求出该社 3)联合相似度 区关心的主题,如下: 本文采用余弦相似度计算两个节点的链接和内 以t(i)=(t(i,1),…,t(i,j),…,t(i,k)) 容相似度,公式为 表示社区i在各个主题上的兴趣分布向量,其中 6)×rG (i,)表示社区i在第j个主题上的分布值,则 k=1 t(i,)=∑t(k) (3) sim(i,j)= u(E)ec(i) x(i,k)×x(i,k)X ,k)×0,k) 式中:c(i)表示社区i,u(k)表示D为k的用户, (k,)表示用户k在第j个主题上的分布值。最 (1) 后,根据t()取主题分布值最大的3个分量对应的 如果将链接相似度表示为sim'(sim'由链接属性 主题作为社区i关心的主题。 向量采用式(1)求得),将内容相似度表示为sim 1.4话题检测 (sim°由内容特征向量采用式(1)求得),那么链接 话题是讨论、谈话的中心,在整个微博上,用户 与内容相结合的联合相似度可表示为sim“,sim“计 经常会针对某一事件、观点展开讨论。对于有大量 算公式为 用户参与讨论的事件和话题,我们称之为热点话题。 sim"a sim+(1 -a)sim (2)》 本文提出了一种融合词重要度与ε近邻图[] 式中α∈[0,1]表示链接相似度在联合相似度中占 的微博话题检测方法来检测话题。具体步骤如图2 的比例。由于参数α的选取通常很困难,故在社区 所示。产生较强的干扰,也需要和停用词一起加以过滤。 经过以上预处理步骤,我们过滤掉了一部分噪 声。 但即便如此,以词来表征微博文本的特征向量 的维度也是巨大的,会严重影响微博文本相似度计 算的效率以及有效性。 3)基于微博文本的用户兴趣特征抽取 为了学习用户的兴趣特征,如果以用户发表的 微博文本上的词为特征,则会面临维数灾难,我们将 一个用户发表的所有微博合并为一个长的文本,用 以表征用户的兴趣,采用基于吉布斯采样法[7] 的 LDA [1]主题模型进行降维。 将用户的兴趣表示为其 在有限个主题上的分布向量。 1.2 网络建模 1.2.1 建模 本文使用有向无权图表示用户关系网。 每一个 用户作为图中的一个节点,为每一个节点都分配一 个 ID,ID 值从 1~ n,用户之间的关注关系作为图的 边。 如果用户 i(ID 为 i 的用户)关注了用户 j,则有 一条由节点 i 指向节点 j 的有向边。 1.2.2 相似度构造方式 1) 链接属性相似度度量 文献[19]提出了一种采用信号传递方法将网 络的拓扑结构转换成一个 N 维欧式空间上的几何 向量结构,N 是网络中的节点数。 我们以该几何向 量作为节点的链接属性向量。 2) 内容属性相似度度量 用户微博通过 LDA [1] 主题模型降维后,可以得 到一个该用户对应微博文档在主题上的分布向量, 以该向量表示节点的内容特征向量。 3) 联合相似度 本文采用余弦相似度计算两个节点的链接和内 容相似度,公式为 sim(i, j)= ∑ n k =1 v(i,k) × v(j,k) ∑ n k =1 v(i,k) × v(i,k) × ∑ n k =1 v(j,k) × v(j,k) (1) 如果将链接相似度表示为 sim t (sim t由链接属性 向量采用式(1) 求得),将内容相似度表示为 sim c (sim c由内容特征向量采用式(1) 求得),那么链接 与内容相结合的联合相似度可表示为 sim u ,sim u计 算公式为 sim u = α sim t + (1 - α) sim c (2) 式中 α∈[0,1]表示链接相似度在联合相似度中占 的比例。 由于参数 α 的选取通常很困难,故在社区 划分过程中采用投票机制来规避这一缺陷,详情见 文献[8]。 1.3 用户社区划分 以用户 ID 为节点构建的用户关系网中,同一社 区内的用户,通常具有相同或相似的爱好。 因此,结 合用户的链接关系和用户的兴趣分布,对用户进行 聚类,也称为用户社区划分。 本文延用我们设计的社区划分方法 KRLC [8] 对 微博用户进行社区划分。 具体过程如下: 1)选取中心节点 采用 K⁃rank [9]算法选取初始中心节点,即中心 节点不但要具有大的 PageRank 值,中心节点间的相 似度要尽可能小。 2)社区划分 采用 K⁃means [11]算法进行社区划分,过程如下: 输入 用户网络 G ,用户微博长文本集 LD,社 区数 K; 输出 划分好的社区列表 CommunityList。 ①运行 Signal [19]方法将网络的拓扑结构转换成 一个 N 维欧式空间上的几何向量。 ②运行 Gibbs⁃sampling⁃LDA [1] 方法将节点的微 博文档映射到 K 维特征空间(表示用户在 K 个主题 上的兴趣分布); ③采用 K⁃means [11]算法进行社区划分,将每个 用户节点分配得离它最近的中心所属的类中,用户 间节点的相似性计算方法用式( 2) 的联合相似性 测度。 对于已经划分的社区,我们根据社区内用户所 发表微博在主题上的兴趣分布向量,可以求出该社 区关心的主题,如下: 以 t(i) = (t(i, 1), …, t(i, j), …, t(i, k)) 表示社区 i 在各个主题上的兴趣分布向量,其中 t(i, j)表示社区 i 在第 j 个主题上的分布值,则 t(i,j) = u(k∑ )∈c(i) t(k,j) (3) 式中:c( i) 表示社区 i,u( k) 表示 ID 为 k 的用户, t(k, j)表示用户 k 在第 j 个主题上的分布值。 最 后,根据 t(i)取主题分布值最大的 3 个分量对应的 主题作为社区 i 关心的主题。 1.4 话题检测 话题是讨论、谈话的中心,在整个微博上,用户 经常会针对某一事件、观点展开讨论。 对于有大量 用户参与讨论的事件和话题,我们称之为热点话题。 本文提出了一种融合词重要度与 ε 近邻图[2] 的微博话题检测方法来检测话题。 具体步骤如图 2 所示。 ·296· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有