第8卷第3期 智能系统学报 Vol.8 No.3 2013年6月 CAAI Transactions on Intelligent Systems Jum.2013 D0I:10.3969/i.issn.1673-4785.201301012 网络出版地址:http://www.cnki.net/kcms/detail/23.1538.TP.20130515.0839.002.html 一种基于情感的中文微博话题检测方法 方然12,苗夺谦12,张志飞12 (1.同济大学计算机科学与技术系,上海201804:2.同济大学嵌入式系统与服务计算教育部重点实验室,上海 200092)】 摘要:针对微博这种特殊的文本形式的话题检测,传统的算法并不能取得很好的效果.为了提高其查全率,根据微 博这种带有结构化特点的信息,提出了一种带有情感内容加权的话题检测方法.该方法基于含有负面情感的词语往 往携带了更多的信息量这一论点,在现有短文本话题检测的算法中,通过加大含有负面情感的短文本在话题检测中 的权重,之后再根据一种基于自查询的聚类方法进行话题聚类,将情感倾向融合到短文本话题检测中在真实数据集 上的实验表明,此方法能有效地进行话题聚类并检测话题,并提高了查全率. 关键词:中文微博:话题检测:聚类:情感 中图分类号:TP391文献标志码:A文章编号:1673.4785(2013)03-0208-06 中文引用格式:方然,苗夺谦,张志飞.一种基于情感的中文微博话题检测方法[J].智能系统学报,2013,8(3):208-213. 英文引用格式:FANG Ran,MIAO Duoqian,ZHANG Zhifei.An emotion-based method of topic detection from Chinese microblogs [J].CAAI Transactions on Intelligent Systems,2013,8(3):208-213. An emotion-based method of topic detection from Chinese microblogs FANG Ran'2,MIAO Duogian'.2,ZHANG Zhifei'.2 (1.Department of Computer Science and Technology,Tongji University,Shanghai 201804,China;2 The Key Laboratory of Embedded System and Service Computing,Ministry of Education,Tongji University,Shanghai 200092,China) Abstract:Previous research studies have laid the foundation in the area of traditional topic detection and shown there are some effective ways to detect topics.However,the traditional algorithms do not work well in special situa- tions for Chinese microblogs.In order to raise the recall ratio,the focus of this paper proposes to examine methods for detecting topics.The key to topic detection method,examines how to handle the structure of microblog with e- motional content weighting,which is based on the argument that the negative words tend to carry more information. The existing topic detection methods for short messages merge emotional incination into the topic detection by first raising the weight of short messages containing negative emotion in the topic detection,then clustering the topics by a clustering method based on self-inquiry.The experiment on a real microblog dataset show that the approach pro- vided in this paper can cluster topics and detect topics effectively,and also increase the recall ratio. Keywords:Chinese microblogs;topic detection;clustering;emotion 在信息爆炸时代,从海量数据中挖掘出有用的的平台也随之兴起.微博用户可以通过网络、手机、 信息显得格外重要.随着Wb2.0的兴起,微博客即 其他客户端进行实时的短文本信息分享与传播.美 微博,一种基于用户关系的信息分享、传播以及获取 国著名的微博网站Twitter用户数达到5.17亿),最 高峰时达到6939条每秒.用户通过这些微博平台发 收稿日期:2013-01-09.网络出版日期:2013-05-15. 布生活中的所见所闻,以及对于一些事件的态度和 基金项目:国家自然科学基金资助项目(60970061,61075056.61103067): 中央高校基本科研业务费专项资金资助项目(基于云计算的 评论等. 高效数据挖掘算法研究). 通信作者:方然.E-mail:ufo2243@gmail.com. 目前对于微博的研究大多是用户关系结构的分
第 8 卷第 3 期 智 能 系 统 学 报 Vol.8 №.3 2013 年 6 月 CAAI Transactions on Intelligent Systems Jun. 2013 DOI:10.3969 / j.issn.1673⁃4785.201301012 网络出版地址:http: / / www.cnki.net / kcms/ detail / 23.1538.TP.20130515.0839.002.html 一种基于情感的中文微博话题检测方法 方然1,2 ,苗夺谦1,2 ,张志飞1,2 (1.同济大学 计算机科学与技术系,上海 201804;2.同济大学 嵌入式系统与服务计算教育部重点实验室,上海 200092) 摘 要:针对微博这种特殊的文本形式的话题检测,传统的算法并不能取得很好的效果.为了提高其查全率,根据微 博这种带有结构化特点的信息,提出了一种带有情感内容加权的话题检测方法.该方法基于含有负面情感的词语往 往携带了更多的信息量这一论点,在现有短文本话题检测的算法中,通过加大含有负面情感的短文本在话题检测中 的权重,之后再根据一种基于自查询的聚类方法进行话题聚类,将情感倾向融合到短文本话题检测中.在真实数据集 上的实验表明,此方法能有效地进行话题聚类并检测话题,并提高了查全率. 关键词:中文微博;话题检测;聚类;情感 中图分类号: TP391 文献标志码:A 文章编号:1673⁃4785(2013)03⁃0208⁃06 中文引用格式:方然,苗夺谦,张志飞. 一种基于情感的中文微博话题检测方法[J].智能系统学报, 2013, 8(3): 208⁃213. 英文引用格式:FANG Ran, MIAO Duoqian, ZHANG Zhifei. An emotion⁃based method of topic detection from Chinese microblogs [J]. CAAI Transactions on Intelligent Systems, 2013, 8(3): 208⁃213. An emotion⁃based method of topic detection from Chinese microblogs FANG Ran 1,2 , MIAO Duoqian 1,2 , ZHANG Zhifei 1,2 (1. Department of Computer Science and Technology, Tongji University, Shanghai 201804, China; 2 The Key Laboratory of Embedded System and Service Computing, Ministry of Education, Tongji University, Shanghai 200092, China) Abstract:Previous research studies have laid the foundation in the area of traditional topic detection and shown there are some effective ways to detect topics. However, the traditional algorithms do not work well in special situa⁃ tions for Chinese microblogs. In order to raise the recall ratio, the focus of this paper proposes to examine methods for detecting topics. The key to topic detection method, examines how to handle the structure of microblog with e⁃ motional content weighting, which is based on the argument that the negative words tend to carry more information. The existing topic detection methods for short messages merge emotional incination into the topic detection by first raising the weight of short messages containing negative emotion in the topic detection, then clustering the topics by a clustering method based on self⁃inquiry. The experiment on a real microblog dataset show that the approach pro⁃ vided in this paper can cluster topics and detect topics effectively, and also increase the recall ratio. Keywords: Chinese microblogs; topic detection; clustering; emotion 收稿日期:2013⁃01⁃09. 网络出版日期:2013⁃05⁃15. 基金项目:国家自然科学基金资助项目(60970061,61075056,61103067); 中央高校基本科研业务费专项资金资助项目(基于云计算的 高效数据挖掘算法研究). 通信作者:方然. E⁃mail: ufo2243@ gmail.com. 在信息爆炸时代,从海量数据中挖掘出有用的 信息显得格外重要.随着 Web2.0 的兴起,微博客即 微博,一种基于用户关系的信息分享、传播以及获取 的平台也随之兴起.微博用户可以通过网络、手机、 其他客户端进行实时的短文本信息分享与传播.美 国著名的微博网站 Twitter 用户数达到 5.17 亿[1] ,最 高峰时达到 6 939 条每秒.用户通过这些微博平台发 布生活中的所见所闻,以及对于一些事件的态度和 评论等. 目前对于微博的研究大多是用户关系结构的分
第3期 方然,等:一种基于情感的中文微博话题检测方法 ·209· 析,但对于微博内容的分析并不多2],而对其进行 Clarity、WeightSumt、余弦相似度[o]等,这里采取了 话题检测在舆情控制、自然灾害预警等方面又具有 一种自查询的方法来计算文本的相似度, 重要的实际意义.在话题检测与跟踪(topic detection 1.1数据预处理 and tracking,TDT)领域,传统的算法主要面向于文 在预处理这一步,目标是将原始的微博数据根 本和语音形式的新闻报导[3)],针对的目标并不是这 据其自身的特殊格式进行相应的处理,排除一些可 种短文的微博形式,很多现有的方法如凝聚层次聚 能对话题检测的影响这里的处理规则大体上可以 类算法[,UMass和Dragon等方法[)并不能直接在 分为2类:一类是针对微博本身的文本内容的预处 微博上使用近年来,很多学者也在基于微博的话题 理规则:另一类是针对微博文本内容以外包括发微 检测方面做了一些研究,如在地震监控方面, 博者的一些其他数据的预处理规则: Takashi等[o]提出一种基于关键字为证据的贝叶斯 1)针对微博的文本内容, 决策方法,可以实时地通过Twitter监控地震发生的 ①对于带有“#主题#”格式的微博,由于这个主 情况.郑斐然等]提出的一种中文微博新闻话题检 题的词大多数是人为设定的,大部分带有商业目的 测方法,也通过实验证明了其方法可以从大量消息 而且转发数量大,这对话题检测会有不利的影响.于 中检测出新闻话题.而在情感词语所表达的信息量 是删除所有带有这种格式的文字内容,但仅删除“# 方面,Garcia等的研究(]表明包含积极内容的词语 主题#”格式的字段,保留其他的文本内容,因为这 的使用次数相对于包含消极内容的词语要少,通过 部分内容是用户关于这些人为设定的主题的讨论, 自信息量(self-information)的比较,这些消极的词语 可以作为提取话题的文本。 包含了更多的信息量 ②对于带有“@用户”格式的微博,大多数情况 本文通过分析微博自身的文本特点[7,),提出 下是在转发微博时被使用,根据其格式删除“@用 了一种基于情感内容加权的话题检测方法,该方法 户”的字段.这是因为微博的用户名不会给话题检测 在向量空间模型的基础上,在微博话题检测的主题 带来帮助,相反在统计词频的时候还会带来很多干 词选取时,通过对具有负面或消极含义的词语进行 扰,所以删除所有能确定是用户名字的字段 加权的方法筛选出最适合的主题词,再进行聚类。 2)针对发微博用户. 由于微博存在一些称为“僵尸账号”的微博账 1微博话题检测方法 号,这些账号大多数是有名无实的微博账号,它们通 本文提出的话题检测方法以中文微博为处理对 常是由系统自动产生的恶意注册用户,这些账号会 象,分为预处理、分词、主题词检测、话题聚类几大部 发布大量重复的内容用于一些商业目的,会对话题 分.中文微博在格式上有着其自己独特的特点,每条 检测造成不利的影响,因此在预处理这一步要对其 微博是由不超过140个中文字长度的文本与图片组 进行判断判断帐号是否为僵尸账号是一件较为复 成,这里不考虑其图像的含义只考虑文本的内容在 杂的工作,由于需要进行大量的判断,因此将其尽量 文本中还包含一些微博的特殊格式,例如用“#主题 简化,主要根据帐户的收听人数来判断,收听人数少 #”来表示这条微博是属于某一些特定主题的,这里 于阈值F的用户,将其判断为僵尸账号,这样能避 的主题是人为设定的,大多数情况下是一些活动或 免大量的僵尸账户,但会把一些不活跃的正常账户 商品的推广,会给话题检测造成一定的影响.用“@ 也剔除掉。 用户”来表示这条微博与某些制定的微博用户有 1.2分词 关,一般情况下是转发微博的时候系统会默认“@ 汉语中词是最小、能独立活动、有意义的语言成 用户”指被转发的用户,还有一些情况是向特定用 分,但不像英语或者其他语言中词语之间有明显的 户发的对话性质的微博内容.这些特殊的格式都必 标记来加以区分.因此分词也是中文信息处理的关 须在预处理中进行相应的处理,以防止其对话题检 键,分词的方法有很多,如基于字符串匹配的分词方 测造成不良的影响, 法、基于理解的分词方法和基于统计的分词方法等 在话题检测过程中,为话题建立相应的模型也 由于本文的重点在于微博的话题检测,这里直接采 是其中的一个基础性问题,常见的模型有空间向量 用中国科学院计算技术研究所的ICTCLAS分词系 模型、词汇链模型、图模型等.本文使用空间向量模 统[),对经过预处理之后的文本语料进行分词处 型,其中计算文本相似度的方法包括Okapi公式、 理.ICTCLAS分词系统在分词的同时会进行词性的
析,但对于微博内容的分析并不多[2] ,而对其进行 话题检测在舆情控制、自然灾害预警等方面又具有 重要的实际意义.在话题检测与跟踪( topic detection and tracking, TDT)领域,传统的算法主要面向于文 本和语音形式的新闻报导[3] ,针对的目标并不是这 种短文的微博形式,很多现有的方法如凝聚层次聚 类算法[4] 、UMass 和 Dragon 等方法[5] 并不能直接在 微博上使用.近年来,很多学者也在基于微博的话题 检测 方 面 做 了 一 些 研 究, 如 在 地 震 监 控 方 面, Takashi 等[6]提出一种基于关键字为证据的贝叶斯 决策方法,可以实时地通过 Twitter 监控地震发生的 情况.郑斐然等[7] 提出的一种中文微博新闻话题检 测方法,也通过实验证明了其方法可以从大量消息 中检测出新闻话题.而在情感词语所表达的信息量 方面,Garcia 等的研究[8] 表明包含积极内容的词语 的使用次数相对于包含消极内容的词语要少,通过 自信息量(self⁃information)的比较,这些消极的词语 包含了更多的信息量. 本文通过分析微博自身的文本特点[7,9] ,提出 了一种基于情感内容加权的话题检测方法,该方法 在向量空间模型的基础上,在微博话题检测的主题 词选取时,通过对具有负面或消极含义的词语进行 加权的方法筛选出最适合的主题词,再进行聚类. 1 微博话题检测方法 本文提出的话题检测方法以中文微博为处理对 象,分为预处理、分词、主题词检测、话题聚类几大部 分.中文微博在格式上有着其自己独特的特点,每条 微博是由不超过 140 个中文字长度的文本与图片组 成,这里不考虑其图像的含义只考虑文本的内容.在 文本中还包含一些微博的特殊格式,例如用“#主题 #”来表示这条微博是属于某一些特定主题的,这里 的主题是人为设定的,大多数情况下是一些活动或 商品的推广,会给话题检测造成一定的影响.用“@ 用户”来表示这条微博与某些制定的微博用户有 关,一般情况下是转发微博的时候系统会默认“@ 用户”指被转发的用户,还有一些情况是向特定用 户发的对话性质的微博内容.这些特殊的格式都必 须在预处理中进行相应的处理,以防止其对话题检 测造成不良的影响. 在话题检测过程中,为话题建立相应的模型也 是其中的一个基础性问题,常见的模型有空间向量 模型、词汇链模型、图模型等.本文使用空间向量模 型,其中计算文本相似度的方法包括 Okapi 公式、 Clarity、WeightSumt、余弦相似度[10] 等,这里采取了 一种自查询的方法来计算文本的相似度. 1.1 数据预处理 在预处理这一步,目标是将原始的微博数据根 据其自身的特殊格式进行相应的处理,排除一些可 能对话题检测的影响.这里的处理规则大体上可以 分为 2 类:一类是针对微博本身的文本内容的预处 理规则;另一类是针对微博文本内容以外包括发微 博者的一些其他数据的预处理规则. 1)针对微博的文本内容. ①对于带有“#主题#”格式的微博,由于这个主 题的词大多数是人为设定的,大部分带有商业目的 而且转发数量大,这对话题检测会有不利的影响.于 是删除所有带有这种格式的文字内容,但仅删除“ # 主题#”格式的字段,保留其他的文本内容,因为这 部分内容是用户关于这些人为设定的主题的讨论, 可以作为提取话题的文本. ②对于带有“@ 用户”格式的微博,大多数情况 下是在转发微博时被使用,根据其格式删除“@ 用 户”的字段.这是因为微博的用户名不会给话题检测 带来帮助,相反在统计词频的时候还会带来很多干 扰,所以删除所有能确定是用户名字的字段. 2)针对发微博用户. 由于微博存在一些称为“僵尸账号” 的微博账 号,这些账号大多数是有名无实的微博账号,它们通 常是由系统自动产生的恶意注册用户,这些账号会 发布大量重复的内容用于一些商业目的,会对话题 检测造成不利的影响,因此在预处理这一步要对其 进行判断.判断帐号是否为僵尸账号是一件较为复 杂的工作,由于需要进行大量的判断,因此将其尽量 简化,主要根据帐户的收听人数来判断,收听人数少 于阈值 F 的用户,将其判断为僵尸账号,这样能避 免大量的僵尸账户,但会把一些不活跃的正常账户 也剔除掉. 1.2 分词 汉语中词是最小、能独立活动、有意义的语言成 分,但不像英语或者其他语言中词语之间有明显的 标记来加以区分.因此分词也是中文信息处理的关 键,分词的方法有很多,如基于字符串匹配的分词方 法、基于理解的分词方法和基于统计的分词方法等. 由于本文的重点在于微博的话题检测,这里直接采 用中国科学院计算技术研究所的 ICTCLAS 分词系 统[11] ,对经过预处理之后的文本语料进行分词处 理.ICTCLAS 分词系统在分词的同时会进行词性的 第 3 期 方然,等:一种基于情感的中文微博话题检测方法 ·209·
·210· 智能系统学报 第8卷 标注,在分词和词性标注之后微博文本会变成如 F F= (1) 图1所示的形式 F 式中:F:是该词在当前窗口中的出现次数,F为当 纪念一代名将特别值得注意的是他 前时间窗口中的最高词频。 不仅神童(14岁?入清华),还是体育健 假设包含该词的微博在当前时间窗口有n个, 将谁说体育人四肢发 则该词的情感倾向的加权E为 ICTCLAS 2i=1e: E=- n 纪念/v一/m代/q名将/n./wi特别/d 值得/v注意/v的/udel是/vshi他/rr 式中:e:为当前时间窗口中所有包含该词语的微博 不仅/c神童/n(/wkz14/m岁/qt? /ww入/y清华/nz)/wky,/wd还/d 情感倾向.由于待处理的数据量很大,因此采用相对 是/vshi体育/n健将/n./wj谁/y说/v 简单的算法来判断微博情感倾向. 图1 ICTCLAS中文微博分词示例 本文再引入一个增长系数G来表示一个词在 Fig.I Word segmentation example using ICTCLAS 当前窗口时出现频率的增长速度,同时设定一个回 由于在对微博进行话题检测时面对的是海量的 顾时间窗口B,来限定该增长系数考察的范围.由于 微博数据,因此需要进行一定的删减,再进行主题的 是在一定时间窗口内,并不要求该词的词频在之前 检测在各个词性中,名词和动词对表达主题的贡献 的回顾时间窗口的范围内持续增长,因此增长系数 最大,故最后会保留下来的是每个微博中的动词和 G)]并不考察这一点,而需要考察的是相对于当前 名词对文本的情感倾向判断分析主要分为3个级 时间窗口的增长速度: 别:词汇级别、句子级别和文档级别].本文采用 XB G=- HowNet免费对外的褒贬义词表来简单地判断短文 可 本的情感倾向,并对其进行情感倾向加权.记e为一 式中:F,为该词在当前窗口中的出现次数.G的值越 条微博的情感倾向值,假设该条微博分词后共有m 大越说明该词在当前时间窗口中出现了突增的情 个词,则有 况,就越有可能是主题词. ∑a,emotion() 考虑使用上述3种权值来获取主题词列表,因 e= m 此构造了一个综合的权值V来评价一个词是否为 式中:根据HowNet的褒贬义词表,贬义词语的emo- 主题词的程度: ion(i)记为1,褒义词语的记为-1,不在中文情感词 V=logG alogF +Blog I EI 库中的词语记为0这里的e将用于下一步的主题词 式中:V值与主题词程度正相关,α与B用于调剂三 检测. 者之间的比例关系,从实际结果来看a取1.0~1.5 1.3主题词检测 最适当),B取±0.5左右较为合适,且B与E不同 由于微博数据的特殊性,不同于传统话题检测 正负,这样负面情感的词语就会增加其主题词权值 面向的对象,重要的一点是它还具有很强的时序性, 1.4话题聚类 传统的T℉-DF等方法无法利用微博文本的时序性 聚类的目的是为了将主题词列表中的候选主题 特点,因此无法使用用于静态长文本的传统方法来 词聚类成若干个词为一组的话题.完成聚类后的主 计算主题词本文采用兼顾被检测词在短时间内的 题词将会得到若干类,每类都由一个或多个主题词 增长速率和当前词频,当然更重要的是对待选词使 组成,这样的一类就形成了一个新闻话题.本文聚类 用情感倾向加权的评价方法来挑选出适当的主 算法的核心思想是K均值聚类算法的改良,是一个 题词. 增量的聚类算法,由于该方法并不预先假设话题数 将微博的文本按照固定的时间窗口划分成若干 量,因此初始状态为只有第1个词为初始类.大体步 块,每块都固定一个时间长度T,这和具体实验时微 骤如下: 博的采样频率有关.时间窗口确定之后,可以得到在 1)以第1个词为初始类: 最近的一个时间窗口,即当前时间窗口中某词的频 2)读入下一个词,判断它与已有每一个类的距 率F: 离(类的位置取其所包含词的平均位置):
标注,在分词和词性标注之后微博文本会变成如 图 1所示的形式. 图 1 ICTCLAS 中文微博分词示例 Fig.1 Word segmentation example using ICTCLAS 由于在对微博进行话题检测时面对的是海量的 微博数据,因此需要进行一定的删减,再进行主题的 检测.在各个词性中,名词和动词对表达主题的贡献 最大,故最后会保留下来的是每个微博中的动词和 名词.对文本的情感倾向判断分析主要分为 3 个级 别:词汇级别、句子级别和文档级别[12] . 本文采用 HowNet 免费对外的褒贬义词表来简单地判断短文 本的情感倾向,并对其进行情感倾向加权.记 e 为一 条微博的情感倾向值,假设该条微博分词后共有 m 个词,则有 e = ∑ m i = 1 emotion(i) m . 式中:根据 HowNet 的褒贬义词表,贬义词语的 emo⁃ tion(i)记为 1,褒义词语的记为-1,不在中文情感词 库中的词语记为 0.这里的 e 将用于下一步的主题词 检测. 1.3 主题词检测 由于微博数据的特殊性,不同于传统话题检测 面向的对象,重要的一点是它还具有很强的时序性, 传统的 TF⁃IDF 等方法无法利用微博文本的时序性 特点,因此无法使用用于静态长文本的传统方法来 计算主题词.本文采用兼顾被检测词在短时间内的 增长速率和当前词频,当然更重要的是对待选词使 用情感倾向加权的评价方法来挑选出适当的主 题词. 将微博的文本按照固定的时间窗口划分成若干 块,每块都固定一个时间长度 T,这和具体实验时微 博的采样频率有关.时间窗口确定之后,可以得到在 最近的一个时间窗口,即当前时间窗口中某词的频 率 F: F = Fi Fmax . (1) 式中:Fi 是该词在当前窗口中的出现次数,Fmax为当 前时间窗口中的最高词频. 假设包含该词的微博在当前时间窗口有 n 个, 则该词的情感倾向的加权 E 为 E = ∑ n i = 1 ei n . 式中:ei 为当前时间窗口中所有包含该词语的微博 情感倾向.由于待处理的数据量很大,因此采用相对 简单的算法来判断微博情感倾向. 本文再引入一个增长系数 G 来表示一个词在 当前窗口时出现频率的增长速度,同时设定一个回 顾时间窗口 B,来限定该增长系数考察的范围.由于 是在一定时间窗口内,并不要求该词的词频在之前 的回顾时间窗口的范围内持续增长,因此增长系数 G [7]并不考察这一点,而需要考察的是相对于当前 时间窗口的增长速度: G = Fi × B ∑ B j = 1 Fj . 式中:Fi 为该词在当前窗口中的出现次数.G 的值越 大越说明该词在当前时间窗口中出现了突增的情 况,就越有可能是主题词. 考虑使用上述 3 种权值来获取主题词列表,因 此构造了一个综合的权值 V 来评价一个词是否为 主题词的程度: V = logG + αlogF + βlog | E | . 式中:V 值与主题词程度正相关,α 与 β 用于调剂三 者之间的比例关系,从实际结果来看 α 取 1.0 ~ 1.5 最适当[7] ,β 取±0.5 左右较为合适,且 β 与 E 不同 正负,这样负面情感的词语就会增加其主题词权值. 1.4 话题聚类 聚类的目的是为了将主题词列表中的候选主题 词聚类成若干个词为一组的话题.完成聚类后的主 题词将会得到若干类,每类都由一个或多个主题词 组成,这样的一类就形成了一个新闻话题.本文聚类 算法的核心思想是 K 均值聚类算法的改良,是一个 增量的聚类算法,由于该方法并不预先假设话题数 量,因此初始状态为只有第 1 个词为初始类.大体步 骤如下: 1)以第 1 个词为初始类; 2)读入下一个词,判断它与已有每一个类的距 离(类的位置取其所包含词的平均位置); ·210· 智 能 系 统 学 报 第 8 卷
第3期 方然,等:一种基于情感的中文微博话题检测方法 ·211· 3)设定一个阈值D,如果这个词与每一个现有 一些相关数据,如他的粉丝数、微博数等,用于判断 类的距离都大于D,那么认为该词为一个新的类: 是否被过滤掉.另外还对这段数据人为标注了7个 4)重复2)~3),直到所有词处理完毕 事件进行评价,如“伦敦奥运会”、“体操男团冠军”、 计算一个词与其他词之间的距离的方法大体上 “爱情公寓3开播”等。 有2种:一种是预先确定词与词之间的距离:另一种 2.1预处理 是增量式的,随着文本不断的读入不断调整词与词 预处理主要包括两部分:1)根据发布微博的用 之间的距离关系.传统的话题检测算法中大多数采 户d及其数据过滤掉部分僵尸微博:2)对微博内容 取的是第1种方法,因为传统话题检测所面对的检 进行分词和词性标注.然后对其分词进行统计,会发 测对象大多数是长篇的文章,对于词与词之间的相 现词列表近似服从帕累托分布,少数常用词语大量 似度有大量的预先经验,所以更适用于此种方法.本 反复出现而绝大多数词语所占的总比重很低.在总 文采用第2种方法,如果2个词出现在同一条微博 共统计的8000多个词中,前1000个词占总数量的 中,就认为这2个词语更为相似.具体的一个词到一 50%以上,而后1000个词占了不到1.5%.分词的同 类的距离公式为 时进行词性标注,只保留动词和名词作为主题词的 候选,统计的结果如图2所示.从图2中可以看出, D(a,C)=- 前面少量词语占了很大的比重,而后面会有大量相 n 式中:D(a,C)为词a到类C的距离,C:为C类中的 似的词语,这也是对微博进行分词统计词频后发现 一个词,d(a,C)为事先维护的词与词之间相似度 的一个特性, 的表,即两者出现在同一微博中的次数.此处距离理 论上的意义是指,如果一个词与某一类中的词出现 30-×10 在同一微博中的次数较多,那么该词就与这一类的 距离较近 15 10 2实验 本次实验数据通过新浪微博API进行抓取,抓 取了2012-7-31一2012-8-2之间200万条微博数据, 覆翠誉荧金案壁覆部龈器 具体的数据格式如表1所示. 图2词频示例 表1API抓取微博样例 Fig.2 Word frequency example Table 1 Weibo example using API 2.2时间窗口T以及聚类阈值D的选取 序列号 文本内容 发布时间 实验发现时间窗口T和聚类阈值D这2个经 验值的选取很大程度上依赖于原始数据的采样频 都江堰夜景还 2012-07.31 率.实验数据中新浪微博API的流量限制为每 3473823024605352是保持住,没有 12:03:31 20min取5万条,而当采样频率发生变化的时候,时 给地震搞了 间窗口与聚类阈值的选取也要随之变化: 波士顿红袜对 聚类阈值D从实验中可以看出,当时间窗口固 底特律老虎,开 2012-07-31 定为3h时,随着D值的增大,查全率下降但查准率 3473823028249919 场走起,Go Red 12:03:33 上升.在上述固定采样频率的条件下D取20时,能 SOX Go! 取得相对理想的查准率和查全率. 时间窗口T的选取也格外重要,而且更大程度 朴泰桓狂言:孙 上依赖于采样频率,这是因为在某些特定的时间段 杨来奥运是个 2012-07-31 3473823028800377 微博上会爆发大量相同的词语这些词语大部分是 错误,只会衬托 12:03:33 和特定时间有关,而非重要的主题词,如“吃饭”、 我的速度 “睡觉”等一般与时间不相关,这就使得时间窗口不 宜选取得过短,经过实验发现选取在2~3h较好 表1中只列举了最主要的几项内容,实际抓取 话题检测结果如表2所示,可以看出该方法可 的数据还包括转发次数、评论次数以及发微博者的 以成功地进行聚类,得到相应的微博话题,并且通过
3)设定一个阈值 D,如果这个词与每一个现有 类的距离都大于 D,那么认为该词为一个新的类; 4)重复 2) ~3),直到所有词处理完毕. 计算一个词与其他词之间的距离的方法大体上 有 2 种:一种是预先确定词与词之间的距离;另一种 是增量式的,随着文本不断的读入不断调整词与词 之间的距离关系.传统的话题检测算法中大多数采 取的是第 1 种方法,因为传统话题检测所面对的检 测对象大多数是长篇的文章,对于词与词之间的相 似度有大量的预先经验,所以更适用于此种方法.本 文采用第 2 种方法,如果 2 个词出现在同一条微博 中,就认为这 2 个词语更为相似.具体的一个词到一 类的距离公式为 D(a,C) = ∑ n i = 1 d(a,Ci) n . 式中:D(a,C)为词 a 到类 C 的距离,Ci 为 C 类中的 一个词,d( a,Ci)为事先维护的词与词之间相似度 的表,即两者出现在同一微博中的次数.此处距离理 论上的意义是指,如果一个词与某一类中的词出现 在同一微博中的次数较多,那么该词就与这一类的 距离较近. 2 实 验 本次实验数据通过新浪微博 API 进行抓取,抓 取了 2012⁃7⁃31—2012⁃8⁃2 之间 200 万条微博数据, 具体的数据格式如表 1 所示. 表 1 API 抓取微博样例 Table 1 Weibo example using API 序列号 文本内容 发布时间 3473823024605352 都江 堰 夜 景 还 是保持住,没有 给地震搞了 2012⁃07⁃31 12 ∶ 03 ∶ 31 3473823028249919 波士 顿 红 袜 对 底特律老虎,开 场走起,Go Red SOX Go! 2012⁃07⁃31 12 ∶ 03 ∶ 33 3473823028800377 朴泰桓狂言:孙 杨来 奥 运 是 个 错误,只会衬托 我的速度 2012⁃07⁃31 12 ∶ 03 ∶ 33 表 1 中只列举了最主要的几项内容,实际抓取 的数据还包括转发次数、评论次数以及发微博者的 一些相关数据,如他的粉丝数、微博数等,用于判断 是否被过滤掉.另外还对这段数据人为标注了 7 个 事件进行评价,如“伦敦奥运会”、“体操男团冠军”、 “爱情公寓 3 开播”等. 2.1 预处理 预处理主要包括两部分:1)根据发布微博的用 户 id 及其数据过滤掉部分僵尸微博;2)对微博内容 进行分词和词性标注.然后对其分词进行统计,会发 现词列表近似服从帕累托分布,少数常用词语大量 反复出现而绝大多数词语所占的总比重很低.在总 共统计的8 000多个词中,前1 000个词占总数量的 50%以上,而后1 000个词占了不到 1.5%.分词的同 时进行词性标注,只保留动词和名词作为主题词的 候选,统计的结果如图 2 所示.从图 2 中可以看出, 前面少量词语占了很大的比重,而后面会有大量相 似的词语,这也是对微博进行分词统计词频后发现 的一个特性. 图 2 词频示例 Fig.2 Word frequency example 2.2 时间窗口 T 以及聚类阈值 D 的选取 实验发现时间窗口 T 和聚类阈值 D 这 2 个经 验值的选取很大程度上依赖于原始数据的采样频 率.实 验 数 据 中 新 浪 微 博 API 的 流 量 限 制 为 每 20 min取 5 万条,而当采样频率发生变化的时候,时 间窗口与聚类阈值的选取也要随之变化. 聚类阈值 D 从实验中可以看出,当时间窗口固 定为 3 h 时,随着 D 值的增大,查全率下降但查准率 上升.在上述固定采样频率的条件下 D 取 20 时,能 取得相对理想的查准率和查全率. 时间窗口 T 的选取也格外重要,而且更大程度 上依赖于采样频率,这是因为在某些特定的时间段 微博上会爆发大量相同的词语.这些词语大部分是 和特定时间有关,而非重要的主题词,如“吃饭”、 “睡觉”等一般与时间不相关,这就使得时间窗口不 宜选取得过短,经过实验发现选取在2~3 h较好. 话题检测结果如表 2 所示,可以看出该方法可 以成功地进行聚类,得到相应的微博话题,并且通过 第 3 期 方然,等:一种基于情感的中文微博话题检测方法 ·211·
·212· 智能系统学报 第8卷 情感倾向加权能够取得一定的效果不过实验过程 and tracking review[J].Journal of Chinese Information Pro- 也发现了一些问题,如分词不准导致的不利于后续 cessing,2007,21(6):71-85 话题检测,部分微博围绕一些人名,但有些人名的分 [4]YANG Y M,PIERCE T,CARBONELL J.A study of retro- spective and on-line event detection C]//Proceedings of 词效果并不好,会对话题检测产生部分噪音,而当围 the 21st Annual International ACM SIGIR Conference on 绕这些人名的微博大量产生的时候,就会对话题检 Research and Development in Information Retrieval.New 测产生较大影响. York.USA:ACM,1998:28-36. 表2部分话题聚类结果 [5]ALLAN J,CARBONELL J,DOODINGTON G,et al.Topic Table 2 Part of the topic clustering results detection and tracking pilot study final report[C]//Proceed- 时间 话题内容 ings of the DARPA Broadcast News Transcription and Un- derstanding Workshop.Lansdowne,USA,1988:194-218. 2012-07-31 男篮、伦敦、小组赛、俄罗斯、不敌 [6]SAKAKI T,OKAZAKI M,MATSUO Y.Earthquake shakes 18:00:00 Twitter user:real-time event detection by social sensors 2012-08-01 失利、无缘、体操、团体、女子 [C]//Proceedings of the 19th International Conference on 04:00:00 2012-08-01 World Wide Web.New York,USA:ACM,2010:851-861. 游泳、记录、混合、奥运会、叶 [7]郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检测 06:30:00 的方法[J].计算机科学,2012.39(1):138-140. 同时由于此次实验所取的数据是在奥运期间, ZHENG Feiran,MIAO Duogian,ZHANG Zhifei,et al. 部分词语如“奥运”大量产生,而其理论上应该分属 News topic detection approach on Chinese microblog[J]. 很多个子话题,如“奥运篮球”、“奥运体操”等,但当 Computer Science,2012,39(1):138-140. 前算法并未考虑这种情况,这也是后续需要改进的 [8]GARCIA D,GARAS A,SCHWEITZER F.Positive words 方向之一.在查全率方面,试验做了一次自身的对 carry less information than negative words[J].EPJ Data 比,即在同样的数据下进行有无情感加权的查全率 Science,2012,1(1):1-l6. [9]印桂生,张亚楠,董宇欣.基于提升系数的微博异常排名 对比,实验显示,在有情感加权的情况下查全率从 检测方法[J].哈尔滨工程大学学报,2013,34(4):488 71.4%提升至85.7%,说明该算法能够在一定程度 493. 上提高查全率。 YIN Guisheng,ZHANG Ya 'nan,DONG Yuxin.A boost fac- tor based detection method for abnormal rank of microblog- 3结束语 ging[J].Journal of Harbin Engineering University,2013, 在总结前人在微博话题检测工作的基础上,提 34(4):488-493. 「10]张晓艳.王挺.话题发现与追踪技术研究「J1.计算机科 出了包含情感倾向加权的一种微博话题检测方法, 学与探索,2009,3(4):347-357. 并通过在新浪微博上的实验说明了其可用性同时, ZHANG Xiaoyan,WANG Ting.Research of technologies 需要指出的是该方法在很多方面还需要改进,例如 on topic detection and tracking[J].Journal of Frontiers of 实验中所取的时间窗口T以及话题聚类中的阈值D Computer Science Technology,2009,3(4):347-357. 很大程度上依赖于实验数据,评价标准也相对缺乏, [11 ZHANG Huaping,YU Hongkui,XIONG Deyi,et al. 同时缺乏中文的微博语料库和标注话题,当然如何 HHMM-based Chinese lexical analyzer ICTCLAS[C]// 更好地提高查准率和查全率也是后续研究的重点. Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing.Stroudsburg,USA,2003,17:184- 参考文献: 187. 「12]陈岳峰,苗夺谦,李文,等.基于概念的词汇情感倾向识 [1]LUNDEN I.Analyst:Twitter passed 500M users in June 别方法[J]智能系统学报,2011,6(6):489-493. 2012,140M of them in US[EB/OL].[2013-03-261.ht- CHEN Yuefeng,MIAO Duoqian,LI Wen,et al.Semantic tp://techcrunch.com/2012/07/30/analyst-twitter-passed- orientation computing based on concepts[].CAAI Trans- 500m-users-in-june-2012-140m-of-them-in-us-jakarta-big- actions on Intelligent Systems,2011,6(6):489-493. gest-tweeting-city/. 作者简介: [2]RAMAGE D,DUMAIS S,LIEBLING D.Characterizing mi- 方然,男,1988年生,硕士研究生」 croblogs with topic models[C]//Proceedings of the 4th In- 主要研究方向为自然语言处理、智能信 ternational AAAI Conference on Weblogs and Social Media. 息处理、数据挖掘, Washington,DC,USA:The AAAI Press,2010:130-137. [3]洪字,张字,刘挺,等话题检测与跟踪的评测与研究综述 [J].中文信息学报,2007.21(6):71-85 HONG Yu,ZHANG Yu,LIU Ting,et al.Topic detection
情感倾向加权能够取得一定的效果.不过实验过程 也发现了一些问题,如分词不准导致的不利于后续 话题检测,部分微博围绕一些人名,但有些人名的分 词效果并不好,会对话题检测产生部分噪音,而当围 绕这些人名的微博大量产生的时候,就会对话题检 测产生较大影响. 表 2 部分话题聚类结果 Table 2 Part of the topic clustering results 时 间 话题内容 2012⁃07⁃31 18 ∶ 00 ∶ 00 男篮、伦敦、小组赛、俄罗斯、不敌 2012⁃08⁃01 04 ∶ 00 ∶ 00 失利、无缘、体操、团体、女子 2012⁃08⁃01 06 ∶ 30 ∶ 00 游泳、记录、混合、奥运会、叶 同时由于此次实验所取的数据是在奥运期间, 部分词语如“奥运”大量产生,而其理论上应该分属 很多个子话题,如“奥运篮球”、“奥运体操”等,但当 前算法并未考虑这种情况,这也是后续需要改进的 方向之一.在查全率方面,试验做了一次自身的对 比,即在同样的数据下进行有无情感加权的查全率 对比,实验显示,在有情感加权的情况下查全率从 71.4%提升至 85.7%,说明该算法能够在一定程度 上提高查全率. 3 结束语 在总结前人在微博话题检测工作的基础上,提 出了包含情感倾向加权的一种微博话题检测方法, 并通过在新浪微博上的实验说明了其可用性.同时, 需要指出的是该方法在很多方面还需要改进,例如 实验中所取的时间窗口 T 以及话题聚类中的阈值 D 很大程度上依赖于实验数据,评价标准也相对缺乏, 同时缺乏中文的微博语料库和标注话题,当然如何 更好地提高查准率和查全率也是后续研究的重点. 参考文献: [1] LUNDEN I. Analyst: Twitter passed 500M users in June 2012, 140M of them in US[ EB/ OL]. [ 2013⁃03⁃26]. ht⁃ tp: / / techcrunch. com/ 2012 / 07 / 30 / analyst⁃twitter⁃passed⁃ 500m⁃users⁃in⁃june⁃2012⁃140m⁃of⁃them⁃in⁃us⁃jakarta⁃big⁃ gest⁃tweeting⁃city / . [2]RAMAGE D, DUMAIS S, LIEBLING D. Characterizing mi⁃ croblogs with topic models[C] / / Proceedings of the 4th In⁃ ternational AAAI Conference on Weblogs and Social Media. Washington, DC, USA: The AAAI Press, 2010: 130⁃137. [3]洪宇,张宇,刘挺,等.话题检测与跟踪的评测与研究综述 [J].中文信息学报, 2007, 21(6): 71⁃85. HONG Yu, ZHANG Yu, LIU Ting, et al. Topic detection and tracking review[J]. Journal of Chinese Information Pro⁃ cessing, 2007, 21(6): 71⁃85. [4]YANG Y M, PIERCE T, CARBONELL J. A study of retro⁃ spective and on⁃line event detection [ C] / / Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, USA: ACM, 1998: 28⁃36. [5]ALLAN J, CARBONELL J, DOODINGTON G, et al. Topic detection and tracking pilot study final report[C] / / Proceed⁃ ings of the DARPA Broadcast News Transcription and Un⁃ derstanding Workshop. Lansdowne, USA, 1988: 194⁃218. [6]SAKAKI T, OKAZAKI M, MATSUO Y. Earthquake shakes Twitter user: real⁃time event detection by social sensors [C] / / Proceedings of the 19th International Conference on World Wide Web. New York, USA: ACM, 2010: 851⁃861. [7]郑斐然,苗夺谦,张志飞,等.一种中文微博新闻话题检测 的方法[J].计算机科学, 2012, 39(1): 138⁃140. ZHENG Feiran, MIAO Duoqian, ZHANG Zhifei, et al. News topic detection approach on Chinese microblog [ J]. Computer Science, 2012, 39(1): 138⁃140. [8] GARCIA D, GARAS A, SCHWEITZER F. Positive words carry less information than negative words [ J]. EPJ Data Science, 2012, 1(1): 1⁃16. [9]印桂生,张亚楠,董宇欣.基于提升系数的微博异常排名 检测方法[J].哈尔滨工程大学学报, 2013, 34(4): 488⁃ 493. YIN Guisheng, ZHANG Ya'nan, DONG Yuxin. A boost fac⁃ tor based detection method for abnormal rank of microblog⁃ ging[ J]. Journal of Harbin Engineering University, 2013, 34(4): 488⁃493. [10]张晓艳,王挺.话题发现与追踪技术研究[ J].计算机科 学与探索, 2009, 3(4): 347⁃357. ZHANG Xiaoyan, WANG Ting. Research of technologies on topic detection and tracking[ J]. Journal of Frontiers of Computer Science & Technology, 2009, 3(4): 347⁃357. [11 ] ZHANG Huaping, YU Hongkui, XIONG Deyi, et al. HHMM⁃based Chinese lexical analyzer ICTCLAS [ C] / / Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing. Stroudsburg, USA, 2003, 17: 184⁃ 187. [12]陈岳峰,苗夺谦,李文,等.基于概念的词汇情感倾向识 别方法[J].智能系统学报, 2011, 6(6): 489⁃493. CHEN Yuefeng, MIAO Duoqian, LI Wen, et al. Semantic orientation computing based on concepts[J]. CAAI Trans⁃ actions on Intelligent Systems, 2011, 6(6): 489⁃493. 作者简介: 方然,男,1988 年生,硕士研究生, 主要研究方向为自然语言处理、智能信 息处理、数据挖掘. ·212· 智 能 系 统 学 报 第 8 卷
第3期 方然,等:一种基于情感的中文微博话题检测方法 ·213· 苗夺谦.男,1964年生,教授.博土 张志飞,男,1986年生,博士研究 生导师,中国计算机学会高级会员、中 生,主要研究方向为文本挖掘、自然语 国人工智能学会理事、上海市计算机学 言处理. 会理事.主要研究方向为智能信息处 理粗糙集、粒计算、网络智能、数据挖 掘等.已主持完成国家级、省部级自然 科学基金与科技攻关项目多项,并参与完成国家“973”计划 项目1项、“863”计划项目2项等.曾获国家教委科技进步三 等奖、教育部科技进步一等奖、上海市科技发明一等奖、重庆 市自然科学一等奖等.发表学术论文160余篇,其中被CI、 EI检索80余篇,出版教材及学术著作9部,授权专利9项. 第8届中国生物识别学术会议(CCBR2013) The 8th Chinese Conference on Biometric Recognition CCBR2013) 生物识别是模式识别、图像处理、人工智能等学科领域的前沿方向,同时也是保障国家和公共安全的战略高 新技术、电子信息产业的新增长点.中国生物识别学术会议从2000年开始在北京、杭州、西安、北京、广州先后成功 主办过7届,有力推动了我国生物识别的学科发展和应用推广,同时为国内生物识别学术界和产业界同行提供了 一个交流与合作的平台.第8届中国生物识别学术会议(CCBR2013)由山东大学、中国科学院自动化研究所和中 国人工智能学会联合主办,将于2013年11月16一17日在济南举行.本届会议向广大科技工作者公开征集优秀学 术论文(英文),大会录用的稿件将由Springer出版社的Lecture Notes in Computer Sciences(LNCS)图书系列出版, 并被EI和ISTP检索. 征文范围 生物特征获取装置 指纹识别 静脉识别 生物识别过程的人机交互 虹膜识别 其他生物特征的识别与处理 生物特征质量评价 说话人识别 多模态生物识别与信息融合 生物特征信号质量增强 笔迹(含签名)识别 生物特征数据库建设与合成 基于生物特征的情感计算 步态识别 生物特征识别应用与系统 人脸检测、识别与跟踪 掌纹识别 其他相关内容 重要日期 投稿截止日期:2013年7月5日 录用通知日期:2013年8月20日 会议召开日期:2013年11月16一17日 联系我们 联系人:袭肖明 通信地址:山东济南市舜华路中段山东大学计算机学院 电 话:15069056021 邮 箱:ccbr2013@sdu.eu.cn 网 http://ccbr2013.sdu.edu.cn
苗夺谦,男,1964 年生,教授,博士 生导师,中国计算机学会高级会员、中 国人工智能学会理事、上海市计算机学 会理事. 主要研究方向为智能信息处 理、粗糙集、粒计算、网络智能、数据挖 掘等.已主持完成国家级、省部级自然 科学基金与科技攻关项目多项,并参与完成国家“973”计划 项目 1 项、“863”计划项目 2 项等.曾获国家教委科技进步三 等奖、教育部科技进步一等奖、上海市科技发明一等奖、重庆 市自然科学一等奖等.发表学术论文 160 余篇,其中被 SCI、 EI 检索 80 余篇,出版教材及学术著作 9 部,授权专利 9 项. 张志飞,男,1986 年生,博士研究 生,主要研究方向为文本挖掘、自然语 言处理. 第 8 届中国生物识别学术会议(CCBR2013) The 8th Chinese Conference on Biometric Recognition (CCBR2013) 生物识别是模式识别、图像处理、人工智能等学科领域的前沿方向,同时也是保障国家和公共安全的战略高 新技术、电子信息产业的新增长点.中国生物识别学术会议从 2000 年开始在北京、杭州、西安、北京、广州先后成功 主办过 7 届,有力推动了我国生物识别的学科发展和应用推广,同时为国内生物识别学术界和产业界同行提供了 一个交流与合作的平台.第 8 届中国生物识别学术会议(CCBR2013)由山东大学、中国科学院自动化研究所和中 国人工智能学会联合主办,将于 2013 年 11 月 16—17 日在济南举行.本届会议向广大科技工作者公开征集优秀学 术论文(英文),大会录用的稿件将由 Springer 出版社的 Lecture Notes in Computer Sciences(LNCS)图书系列出版, 并被 EI 和 ISTP 检索. 征文范围 生物特征获取装置 生物识别过程的人机交互 生物特征质量评价 生物特征信号质量增强 基于生物特征的情感计算 人脸检测、识别与跟踪 指纹识别 虹膜识别 说话人识别 笔迹(含签名)识别 步态识别 掌纹识别 静脉识别 其他生物特征的识别与处理 多模态生物识别与信息融合 生物特征数据库建设与合成 生物特征识别应用与系统 其他相关内容 重要日期 投稿截止日期:2013 年 7 月 5 日 录用通知日期:2013 年 8 月 20 日 会议召开日期:2013 年 11 月 16—17 日 联系我们 联 系 人:袭肖明 通信地址:山东济南市舜华路中段 山东大学 计算机学院 电 话:15069056021 邮 箱:ccbr2013@ sdu.edu.cn 网 址 http: / / ccbr2013.sdu.edu.cn 第 3 期 方然,等:一种基于情感的中文微博话题检测方法 ·213·