正在加载图片...
第3期 刘志雄,等:面向用户兴趣与社区关系的微博话题检测方法 ·295· 内部节点链接稠密、社区之间节点链接稀疏的特点。 理对象,分为如下4个步骤:数据预处理、网络建模 通常,社区内部的节点具有相似的特性,在网络中扮 用户社区发现、微博话题检测(流程如图1)。其中, 演着相似的角色。对于微博用户关系网而言:同一 数据预处理主要对微博数据进行筛选和切词,并且 社区内的用户往往具有相同或者相似的兴趣与 过滤掉停用词以及微博平台常见的噪声。例如: 爱好。 “转发微博”、“分享图片”、“视频”等,然后采用基 目前对于微博的研究大多是对用户关系的分析 于吉布斯采样]的LDA)主题模型对用户微博进 或者微博内容的分析。在用户关系研究领域,主要 行降维处理,以得到用户的兴趣分布。网络建模是 研究其社区特性。大体思路是:以用户D为节点, 以用户D为节点,用户关注关系为边,构建网络模 用户关注关系为边构建用户关系网络图,然后采用 型。用户社区发现主要结合LDA模型提取的用户 社区划分算法将其划分为若干社区。往往同一社区 兴趣特征,对用户关系网络进行社区划分,使得找到 内的用户拥有共同的兴趣与爱好。在微博内容分析 的社区内的用户对相似的话题感兴趣。话题发现: 方面,致力于研究微博话题发现方法。大体思路是: 利用社区划分结果,对社区内微博进行话题检测,挖 以词为特征使用VSM[]模型将微博文本转化为空 掘出社区内关心的话题,并对社区内的话题进行热 间向量,并且使用T℉-DF算法计算每一维的权重, 度排行。 然后使用聚类方法将相同话题下的微博文本聚集成 一个个微博话题簇。例如:周刚等4)提出了一种基 预处理 网络建模 社区划分 话题检测 于组合相似度的微博话题发现方法MB-SinglePass 来提升聚类效果,他们将余弦相似度、雅各比相似 图1算法流程 度、语义相似度以一定的权值融合,改进了微博相似 Fig.1 flow of algorithm 度的计算方法:郑斐然等)提出了一种基于词聚类 1.1 数据预处理 的新闻话题发现方法:方然等]提出了一种基于情 微博是一种非结构化数据,携带信息具有碎片 感的微博话题检测方法,他们认为倾向消极的词更 化的特征。并且,携带着大量的垃圾信息(噪声), 加具有话题表现力,从而依据词的情感分数改善了 使得对微博数据的预处理是微博数据分析的重要前 话题检测效果。然而微博文本被严格限制在140字 提。主要分为以下2个方面:1)针对微博用户的处 以内,单纯地使用VSM]空间向量模型对微博文本 理规则,2)针对微博文本内容的处理规则。 进行建模,存在严重的特征稀疏和维度过高问题。 1)针对微博用户 更严重的是聚类结果还受到微博噪声的影响,导致 由于某些用户发表微博数目较少,并不能很好 话题检测的效果不理想。 地反映用户的兴趣,故选取发表微博总长度大于 本文提出了一种面向用户兴趣与社区关系的微 5000的用户及其关注关系作为我们的数据集。 博话题检测方法,首先应用LDA[)]主题模型对微博 2)针对微博内容 文本进行降维,以用户微博在主题上的分布来表征 分词:汉语中词是最小、能独立活动、有意义的 用户的兴趣与爱好:然后,结合用户兴趣特征对用户 语言成分,但不像英语或者其他语言中词语之间有 关系网进行社区划分,使得同一社区内的用户不仅 明显的空格加以区分。因此分词是微博内容处理的 具有稠密链接的社区关系,还具有相似的兴趣:最 关键一步,分词的方法有多种,如基于字符串匹配的 后,使用了一种融合词重要度与ε近邻图[2)的微博 分词方法、基于统计的分词方法等。本文采用一种 话题检测方法得出每个社区(主题)对应的话题,并 基于最大匹配算法的中文单词识别系统(a word i- 实现相关社区内的话题热度排行。实验结果显示, dentification system for mandarin chinese text based on 该算法有效地对微博特征空间进行了降维、微博去 two variants of the maximum matching algorithm,MM- 噪,使得相似度的计算更加容易:实现了社区内的微 SEG)进行分词,MMSEG算法是一种简单、高效的基 博话题检测,以挖掘出社区内的用户共同关心的话 于词典的中文分词算法。 题,话题检测结果更加迎合社区内的用户兴趣与爱 去停用词:停用词是指在自然语言中具有一定 好,便于进行面向社区兴趣的话题推荐和排行。 功能但又没有什么实际意义的词。这些词往往以较 1 基于用户社区兴趣的话题发现方法 高的频率出现,会对文本处理造成一定干扰。另外, 微博文本中常会出现一些高频词,如:“转发”、“微 本文提出的微博话题检测方法以中文微博为处 博”、“分享”、“图片”等,这些高频词会对话题检测内部节点链接稠密、社区之间节点链接稀疏的特点。 通常,社区内部的节点具有相似的特性,在网络中扮 演着相似的角色。 对于微博用户关系网而言:同一 社区内的用户往往具有相同或者相似的兴趣与 爱好。 目前对于微博的研究大多是对用户关系的分析 或者微博内容的分析。 在用户关系研究领域,主要 研究其社区特性。 大体思路是:以用户 ID 为节点, 用户关注关系为边构建用户关系网络图,然后采用 社区划分算法将其划分为若干社区。 往往同一社区 内的用户拥有共同的兴趣与爱好。 在微博内容分析 方面,致力于研究微博话题发现方法。 大体思路是: 以词为特征使用 VSM [3] 模型将微博文本转化为空 间向量,并且使用 TF⁃IDF 算法计算每一维的权重, 然后使用聚类方法将相同话题下的微博文本聚集成 一个个微博话题簇。 例如:周刚等[4] 提出了一种基 于组合相似度的微博话题发现方法 MB⁃SinglePass 来提升聚类效果,他们将余弦相似度、雅各比相似 度、语义相似度以一定的权值融合,改进了微博相似 度的计算方法;郑斐然等[5] 提出了一种基于词聚类 的新闻话题发现方法;方然等[6] 提出了一种基于情 感的微博话题检测方法,他们认为倾向消极的词更 加具有话题表现力,从而依据词的情感分数改善了 话题检测效果。 然而微博文本被严格限制在 140 字 以内,单纯地使用 VSM [3]空间向量模型对微博文本 进行建模,存在严重的特征稀疏和维度过高问题。 更严重的是聚类结果还受到微博噪声的影响,导致 话题检测的效果不理想。 本文提出了一种面向用户兴趣与社区关系的微 博话题检测方法,首先应用 LDA [1] 主题模型对微博 文本进行降维,以用户微博在主题上的分布来表征 用户的兴趣与爱好;然后,结合用户兴趣特征对用户 关系网进行社区划分,使得同一社区内的用户不仅 具有稠密链接的社区关系,还具有相似的兴趣;最 后,使用了一种融合词重要度与 ε 近邻图[2] 的微博 话题检测方法得出每个社区(主题)对应的话题,并 实现相关社区内的话题热度排行。 实验结果显示, 该算法有效地对微博特征空间进行了降维、微博去 噪,使得相似度的计算更加容易;实现了社区内的微 博话题检测,以挖掘出社区内的用户共同关心的话 题,话题检测结果更加迎合社区内的用户兴趣与爱 好,便于进行面向社区兴趣的话题推荐和排行。 1 基于用户社区兴趣的话题发现方法 本文提出的微博话题检测方法以中文微博为处 理对象,分为如下 4 个步骤:数据预处理、网络建模、 用户社区发现、微博话题检测(流程如图 1)。 其中, 数据预处理主要对微博数据进行筛选和切词,并且 过滤掉停用词以及微博平台常见的噪声。 例如: “转发微博”、“分享图片”、“视频” 等,然后采用基 于吉布斯采样[7] 的 LDA [1] 主题模型对用户微博进 行降维处理,以得到用户的兴趣分布。 网络建模是 以用户 ID 为节点,用户关注关系为边,构建网络模 型。 用户社区发现主要结合 LDA 模型提取的用户 兴趣特征,对用户关系网络进行社区划分,使得找到 的社区内的用户对相似的话题感兴趣。 话题发现: 利用社区划分结果,对社区内微博进行话题检测,挖 掘出社区内关心的话题,并对社区内的话题进行热 度排行。 图 1 算法流程 Fig.1 flow of algorithm 1.1 数据预处理 微博是一种非结构化数据,携带信息具有碎片 化的特征。 并且,携带着大量的垃圾信息(噪声), 使得对微博数据的预处理是微博数据分析的重要前 提。 主要分为以下 2 个方面:1)针对微博用户的处 理规则,2)针对微博文本内容的处理规则。 1)针对微博用户 由于某些用户发表微博数目较少,并不能很好 地反映用户的兴趣,故选取发表微博总长度大于 5 000的用户及其关注关系作为我们的数据集。 2)针对微博内容 分词:汉语中词是最小、能独立活动、有意义的 语言成分,但不像英语或者其他语言中词语之间有 明显的空格加以区分。 因此分词是微博内容处理的 关键一步,分词的方法有多种,如基于字符串匹配的 分词方法、基于统计的分词方法等。 本文采用一种 基于最大匹配算法的中文单词识别系统( a word i⁃ dentification system for mandarin chinese text based on two variants of the maximum matching algorithm,MM⁃ SEG)进行分词,MMSEG 算法是一种简单、高效的基 于词典的中文分词算法。 去停用词:停用词是指在自然语言中具有一定 功能但又没有什么实际意义的词。 这些词往往以较 高的频率出现,会对文本处理造成一定干扰。 另外, 微博文本中常会出现一些高频词,如:“转发”、“微 博”、“分享”、“图片”等,这些高频词会对话题检测 第 3 期 刘志雄,等:面向用户兴趣与社区关系的微博话题检测方法 ·295·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有