产生较强的干扰，也需要和停用词一起加以过滤。经过以上预处理步骤，我们过滤

正在加载图片...

·296 智能系统学报第11卷产生较强的干扰，也需要和停用词一起加以过滤。划分过程中采用投票机制来规避这一缺陷，详情见经过以上预处理步骤，我们过滤掉了一部分噪文献[8]。声。但即便如此，以词来表征微博文本的特征向量 1.3用户社区划分的维度也是巨大的，会严重影响微博文本相似度计以用户D为节点构建的用户关系网中，同一社算的效率以及有效性。区内的用户，通常具有相同或相似的爱好。因此，结 3)基于微博文本的用户兴趣特征抽取合用户的链接关系和用户的兴趣分布，对用户进行为了学习用户的兴趣特征，如果以用户发表的聚类，也称为用户社区划分。微博文本上的词为特征，则会面临维数灾难，我们将本文延用我们设计的社区划分方法KRLC)对一个用户发表的所有微博合并为一个长的文本，用微博用户进行社区划分。具体过程如下：以表征用户的兴趣，采用基于吉布斯采样法[]的 1)选取中心节点 LDA]主题模型进行降维。将用户的兴趣表示为其采用K-rank[刿算法选取初始中心节点，即中心在有限个主题上的分布向量。节点不但要具有大的PageRank值，中心节点间的相 1.2网络建模似度要尽可能小。 1.2.1建模 2)社区划分本文使用有向无权图表示用户关系网。每一个采用K-means算法进行社区划分，过程如下：用户作为图中的一个节点，为每一个节点都分配一输入用户网络G,用户微博长文本集LD,社个D,ID值从1~n,用户之间的关注关系作为图的区数K; 边。如果用户i(D为i的用户)关注了用户j,则有输出划分好的社区列表CommunityList。. 一条由节点i指向节点j的有向边。 ①运行Signal[1]方法将网络的拓扑结构转换成 1.2.2相似度构造方式一个N维欧式空间上的几何向量。 1)链接属性相似度度量 ②运行Gibbs--sampling--LDA)方法将节点的微文献[19]提出了一种采用信号传递方法将网博文档映射到K维特征空间（表示用户在K个主题络的拓扑结构转换成一个N维欧式空间上的几何上的兴趣分布)：向量结构，N是网络中的节点数。我们以该几何向 ③采用K-means算法进行社区划分，将每个量作为节点的链接属性向量。用户节点分配得离它最近的中心所属的类中，用户 2)内容属性相似度度量间节点的相似性计算方法用式(2)的联合相似性用户微博通过LDA[]主题模型降维后，可以得测度。到一个该用户对应微博文档在主题上的分布向量，对于已经划分的社区，我们根据社区内用户所以该向量表示节点的内容特征向量。发表微博在主题上的兴趣分布向量，可以求出该社 3)联合相似度区关心的主题，如下：本文采用余弦相似度计算两个节点的链接和内以t(i)=(t(i,1),…,t(i,j),…,t(i,k)) 容相似度，公式为表示社区i在各个主题上的兴趣分布向量，其中 6)×rG (i,)表示社区i在第j个主题上的分布值，则 k=1 t(i,)=∑t(k) (3) sim(i,j)= u(E)ec(i) x(i,k)×x(i,k)X ,k)×0,k) 式中：c(i)表示社区i,u(k)表示D为k的用户， (k,)表示用户k在第j个主题上的分布值。最 (1) 后，根据t()取主题分布值最大的3个分量对应的如果将链接相似度表示为sim'(sim'由链接属性主题作为社区i关心的主题。向量采用式(1)求得)，将内容相似度表示为sim 1.4话题检测 (sim°由内容特征向量采用式(1)求得)，那么链接话题是讨论、谈话的中心，在整个微博上，用户与内容相结合的联合相似度可表示为sim“,sim“计经常会针对某一事件、观点展开讨论。对于有大量算公式为用户参与讨论的事件和话题，我们称之为热点话题。 sim"a sim+(1 -a)sim (2)》本文提出了一种融合词重要度与ε近邻图[] 式中α∈[0,1]表示链接相似度在联合相似度中占的微博话题检测方法来检测话题。具体步骤如图2 的比例。由于参数α的选取通常很困难，故在社区所示。产生较强的干扰，也需要和停用词一起加以过滤。经过以上预处理步骤，我们过滤掉了一部分噪声。但即便如此，以词来表征微博文本的特征向量的维度也是巨大的，会严重影响微博文本相似度计算的效率以及有效性。３）基于微博文本的用户兴趣特征抽取为了学习用户的兴趣特征，如果以用户发表的微博文本上的词为特征，则会面临维数灾难，我们将一个用户发表的所有微博合并为一个长的文本，用以表征用户的兴趣，采用基于吉布斯采样法［７］的ＬＤＡ［１］主题模型进行降维。将用户的兴趣表示为其在有限个主题上的分布向量。１．２网络建模１．２．１建模本文使用有向无权图表示用户关系网。每一个用户作为图中的一个节点，为每一个节点都分配一个ＩＤ，ＩＤ值从１～ｎ，用户之间的关注关系作为图的边。如果用户ｉ（ＩＤ为ｉ的用户）关注了用户ｊ，则有一条由节点ｉ指向节点ｊ的有向边。１．２．２相似度构造方式１）链接属性相似度度量文献［１９］提出了一种采用信号传递方法将网络的拓扑结构转换成一个Ｎ维欧式空间上的几何向量结构，Ｎ是网络中的节点数。我们以该几何向量作为节点的链接属性向量。２）内容属性相似度度量用户微博通过ＬＤＡ［１］主题模型降维后，可以得到一个该用户对应微博文档在主题上的分布向量，以该向量表示节点的内容特征向量。３）联合相似度本文采用余弦相似度计算两个节点的链接和内容相似度，公式为ｓｉｍ（ｉ，ｊ）＝ ∑ ｎｋ＝１ｖ（ｉ，ｋ） × ｖ（ｊ，ｋ） ∑ ｎｋ＝１ｖ（ｉ，ｋ） × ｖ（ｉ，ｋ） × ∑ ｎｋ＝１ｖ（ｊ，ｋ） × ｖ（ｊ，ｋ）（１）如果将链接相似度表示为ｓｉｍｔ（ｓｉｍｔ由链接属性向量采用式（１）求得），将内容相似度表示为ｓｉｍｃ（ｓｉｍｃ由内容特征向量采用式（１）求得），那么链接与内容相结合的联合相似度可表示为ｓｉｍｕ，ｓｉｍｕ计算公式为ｓｉｍｕ＝ α ｓｉｍｔ＋（１－ α）ｓｉｍｃ（２）式中 α∈［０，１］表示链接相似度在联合相似度中占的比例。由于参数 α 的选取通常很困难，故在社区划分过程中采用投票机制来规避这一缺陷，详情见文献［８］。１．３用户社区划分以用户ＩＤ为节点构建的用户关系网中，同一社区内的用户，通常具有相同或相似的爱好。因此，结合用户的链接关系和用户的兴趣分布，对用户进行聚类，也称为用户社区划分。本文延用我们设计的社区划分方法ＫＲＬＣ［８］对微博用户进行社区划分。具体过程如下：１）选取中心节点采用Ｋ⁃ｒａｎｋ［９］算法选取初始中心节点，即中心节点不但要具有大的ＰａｇｅＲａｎｋ值，中心节点间的相似度要尽可能小。２）社区划分采用Ｋ⁃ｍｅａｎｓ［１１］算法进行社区划分，过程如下：输入用户网络Ｇ，用户微博长文本集ＬＤ，社区数Ｋ；输出划分好的社区列表ＣｏｍｍｕｎｉｔｙＬｉｓｔ。 ①运行Ｓｉｇｎａｌ［１９］方法将网络的拓扑结构转换成一个Ｎ维欧式空间上的几何向量。 ②运行Ｇｉｂｂｓ⁃ｓａｍｐｌｉｎｇ⁃ＬＤＡ［１］方法将节点的微博文档映射到Ｋ维特征空间（表示用户在Ｋ个主题上的兴趣分布）； ③采用Ｋ⁃ｍｅａｎｓ［１１］算法进行社区划分，将每个用户节点分配得离它最近的中心所属的类中，用户间节点的相似性计算方法用式（２）的联合相似性测度。对于已经划分的社区，我们根据社区内用户所发表微博在主题上的兴趣分布向量，可以求出该社区关心的主题，如下：以ｔ（ｉ）＝（ｔ（ｉ，１）， …，ｔ（ｉ，ｊ）， …，ｔ（ｉ，ｋ））表示社区ｉ在各个主题上的兴趣分布向量，其中ｔ（ｉ，ｊ）表示社区ｉ在第ｊ个主题上的分布值，则ｔ（ｉ，ｊ）＝ｕ（ｋ∑ ）∈ｃ（ｉ）ｔ（ｋ，ｊ）（３）式中：ｃ（ｉ）表示社区ｉ，ｕ（ｋ）表示ＩＤ为ｋ的用户，ｔ（ｋ，ｊ）表示用户ｋ在第ｊ个主题上的分布值。最后，根据ｔ（ｉ）取主题分布值最大的３个分量对应的主题作为社区ｉ关心的主题。１．４话题检测话题是讨论、谈话的中心，在整个微博上，用户经常会针对某一事件、观点展开讨论。对于有大量用户参与讨论的事件和话题，我们称之为热点话题。本文提出了一种融合词重要度与 ε 近邻图［２］的微博话题检测方法来检测话题。具体步骤如图２所示。 ·２９６· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】面向用户兴趣与社区关系的微博话题检测方法编辑部