正在加载图片...
·298. 智能系统学报 第11卷 实验结果与分析 个类别作为主题,分别为亲子、体育、公益、娱乐、文 艺、时尚、时政、生活、科技、财经。然后将每个用户 2.1实验数据 发表的微博拼接成微博文档,选取微博文档长度大 本实验数据采用自主抓取的新浪微博数据,该 于5000字的3490个用户作为实验数据,并进行网 数据集于2013年9月一2013年12月采用自主开发 络建模。采用信号传递算法[1对用户关系网求链 的面向新浪微博的网络爬虫爬取。数据集包括用户 接属性向量,并采用该向量求节点链接相似度;采用 基本信息、用户关系信息、用户发表微博等3部分。 LDA主题模型对微博文档求主题分布向量(内容 2.2实验过程与结果 特征向量),并采用该向量求节点内容相似度。然 2.2.1用户社区划分实验与结果 后采用KRLC算法[]对用户进行社区划分,最后采 根据新浪微博首页热门微博分类版块,选取10 用式(3)求出社区对应兴趣分布,具体结果如表1。 表1使用KRLC划分的社区兴趣分布 Table 1 The interest distribution of community by KRLC % 节点数 亲子 娱乐 生活 时政 财经 文艺 时尚 公益 体育 科技 类别 798 58.06 2.11 19.11 1.53 3.58 0.17 8.77 4.64 0.23 1.76 亲子 536 6.63 9.25 21.31 0.96 2.69 0.01 0.16 8.08 48.15 2.71 体育 204 11.14 5.16 12.27 6.92 6.81 0.70 1.70 50.71 1.60 2.92 公益 169 7.81 60.09 19.51 0.35 0.65 0.05 0.77 5.09 1.62 4.01 娱乐 122 10.89 5.00 4.46 7.25 6.27 45.64 2.50 15.07 0 2.86 文艺 70 11.85 2.71 15.34 0.10 2.28 0.49 56.22 4.00 0 6.95 时尚 567 10.52 1.27 3.14 46.45 9.66 0.50 0.51 27.27 0.16 0.48 时政 257 13.46 9.80 58.16 0.54 0.74 0.18 2.60 7.79 1.39 5.29 生活 609 9.38 2.71 8.37 0.14 4.31 0.07 6.97 1.38 0.08 66.53 科技 158 15.64 3.73 4.94 6.41 55.93 2.52 0.83 9.41 0.09 2.52 财经 2.2.2社区内话题检测结果 词语,相似度阈值ε设为0.15。由于亲子、文艺、时 根据划分的10个社区,在社区内检测话题,检 尚等3个主题出现话题几率较小,故本文没有在这 测算法如2.4所示。本文选取了2013.11.10一2013. 3个社区内检测话题。部分主题对应社区内话题检 11.12共3天的微博作为话题检测数据。其中词语 测结果如表2所示。 重要度阈值0设为40%,即保留重要度最高的40% 表2部分社区内微博话题检测结果 Table 2 Part of micro-blog topic detection result within community 主题 编号 主题词 热度 对应话题 1 男篮亚锦赛第一比赛易建联朱芳王治郅 2.13 男篮亚锦赛名单出炉 广州恒大2013亚冠联赛冠军足球夺冠 2.04 恒大亚冠联赛夺冠 体育 3 中国大奖赛车迷活动潘涌涌现场 1.95 车迷大奖赛潘涌涌现场解说 北京首钢支持陈磊吉哲球迷国安 1.70 明日CBA北京VS辽宁 5 央视羽毛球世锦赛林丹谌龙世界锦标赛男子单打 1.37 羽毛球世锦赛林丹战胜谌龙 河南大学生北京2013儿童家人电话平安 4.70 河南大学生失联 公益 汇聚长沙银行支行慈善拍卖会拍品展示作品 2.99 长沙银行娄底支行慈善拍卖会 3 头条汪峰离婚瞬间章子发布凌晨吴奇隆刘诗诗 1.89 汪峰悲催头条又被抢 白举纲丝带北京小白白菜节目录制 1.35 白举纲爱的绿丝带北京演唱会 娱乐 2 吴亦凡1106生日快乐祝福凡凡 0.92 11月06日吴亦凡生日快乐 3 非同凡响131102首尔青少年庆典领奖 0.84 非同凡响青少年庆典颁奖 根据表2我们可以看出,面向用户社区的话题 兴趣的话题,使得话题推荐和排行具有社区兴趣个 检测方法,可以针对社区内的用户兴趣找到用户感 性化。2 实验结果与分析 2.1 实验数据 本实验数据采用自主抓取的新浪微博数据,该 数据集于 2013 年 9 月—2013 年 12 月采用自主开发 的面向新浪微博的网络爬虫爬取。 数据集包括用户 基本信息、用户关系信息、用户发表微博等 3 部分。 2.2 实验过程与结果 2.2.1 用户社区划分实验与结果 根据新浪微博首页热门微博分类版块,选取 10 个类别作为主题,分别为亲子、体育、公益、娱乐、文 艺、时尚、时政、生活、科技、财经。 然后将每个用户 发表的微博拼接成微博文档,选取微博文档长度大 于 5 000 字的 3 490 个用户作为实验数据,并进行网 络建模。 采用信号传递算法[19] 对用户关系网求链 接属性向量,并采用该向量求节点链接相似度;采用 LDA [1]主题模型对微博文档求主题分布向量(内容 特征向量),并采用该向量求节点内容相似度。 然 后采用 KRLC 算法[8] 对用户进行社区划分,最后采 用式(3)求出社区对应兴趣分布,具体结果如表 1。 表 1 使用 KRLC 划分的社区兴趣分布 Table 1 The interest distribution of community by KRLC % 节点数 亲子 娱乐 生活 时政 财经 文艺 时尚 公益 体育 科技 类别 798 58.06 2.11 19.11 1.53 3.58 0.17 8.77 4.64 0.23 1.76 亲子 536 6.63 9.25 21.31 0.96 2.69 0.01 0.16 8.08 48.15 2.71 体育 204 11.14 5.16 12.27 6.92 6.81 0.70 1.70 50.71 1.60 2.92 公益 169 7.81 60.09 19.51 0.35 0.65 0.05 0.77 5.09 1.62 4.01 娱乐 122 10.89 5.00 4.46 7.25 6.27 45.64 2.50 15.07 0 2.86 文艺 70 11.85 2.71 15.34 0.10 2.28 0.49 56.22 4.00 0 6.95 时尚 567 10.52 1.27 3.14 46.45 9.66 0.50 0.51 27.27 0.16 0.48 时政 257 13.46 9.80 58.16 0.54 0.74 0.18 2.60 7.79 1.39 5.29 生活 609 9.38 2.71 8.37 0.14 4.31 0.07 6.97 1.38 0.08 66.53 科技 158 15.64 3.73 4.94 6.41 55.93 2.52 0.83 9.41 0.09 2.52 财经 2.2.2 社区内话题检测结果 根据划分的 10 个社区,在社区内检测话题,检 测算法如 2.4 所示。 本文选取了 2013.11.10—2013. 11.12 共 3 天的微博作为话题检测数据。 其中词语 重要度阈值 θ 设为 40%,即保留重要度最高的 40% 词语,相似度阈值 ε 设为0.15。 由于亲子、文艺、时 尚等 3 个主题出现话题几率较小,故本文没有在这 3 个社区内检测话题。 部分主题对应社区内话题检 测结果如表 2 所示。 表 2 部分社区内微博话题检测结果 Table 2 Part of micro⁃blog topic detection result within community 主题 编号 主题词 热度 对应话题 体育 1 男篮 亚锦赛 第一 比赛 易建联 朱芳 王治郅 2.13 男篮亚锦赛名单出炉 2 广州 恒大 2013 亚冠 联赛 冠军 足球 夺冠 2.04 恒大亚冠联赛夺冠 3 中国 大奖赛 车迷 活动 潘涌涌 现场 1.95 车迷大奖赛潘涌涌现场解说 4 北京 首钢 支持 陈磊 吉哲 球迷 国安 1.70 明日 CBA 北京 VS 辽宁 5 央视 羽毛球 世锦赛 林丹 谌龙 世界 锦标赛 男子 单打 1.37 羽毛球世锦赛林丹战胜谌龙 公益 1 河南 大学生 北京 2013 儿童 家人 电话 平安 4.70 河南大学生失联 2 汇聚 长沙 银行 支行 慈善 拍卖会 拍品 展示 作品 2.99 长沙银行娄底支行慈善拍卖会 3 头条 汪峰 离婚 瞬间 章子 发布 凌晨 吴奇隆 刘诗诗 1.89 汪峰悲催头条又被抢 娱乐 1 白举纲 丝带 北京 小白 白菜 节目 录制 1.35 白举纲爱的绿丝带北京演唱会 2 吴亦凡 1106 生日 快乐 祝福 凡凡 0.92 11 月 06 日吴亦凡生日快乐 3 非同 凡响 131102 首尔 青少年 庆典 颁奖 0.84 非同凡响青少年庆典颁奖 根据表 2 我们可以看出,面向用户社区的话题 检测方法,可以针对社区内的用户兴趣找到用户感 兴趣的话题,使得话题推荐和排行具有社区兴趣个 性化。 ·298· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有