【自然语言处理与理解】一种基于情感的中文微博话题检测方法

团购合买资源类别：文库，文档格式：PDF，文档页数：6，文件大小：895.92KB

第8卷第3期智能系统学报 Vol.8 No.3 2013年6月 CAAI Transactions on Intelligent Systems Jum.2013 D0I:10.3969/i.issn.1673-4785.201301012 网络出版地址：http://www.cnki.net/kcms/detail/23.1538.TP.20130515.0839.002.html 一种基于情感的中文微博话题检测方法方然12，苗夺谦12，张志飞12 (1.同济大学计算机科学与技术系，上海201804：2.同济大学嵌入式系统与服务计算教育部重点实验室，上海 200092)】摘要：针对微博这种特殊的文本形式的话题检测，传统的算法并不能取得很好的效果.为了提高其查全率，根据微博这种带有结构化特点的信息，提出了一种带有情感内容加权的话题检测方法.该方法基于含有负面情感的词语往往携带了更多的信息量这一论点，在现有短文本话题检测的算法中，通过加大含有负面情感的短文本在话题检测中的权重，之后再根据一种基于自查询的聚类方法进行话题聚类，将情感倾向融合到短文本话题检测中在真实数据集上的实验表明，此方法能有效地进行话题聚类并检测话题，并提高了查全率. 关键词：中文微博：话题检测：聚类：情感中图分类号：TP391文献标志码：A文章编号：1673.4785(2013)03-0208-06 中文引用格式：方然，苗夺谦，张志飞.一种基于情感的中文微博话题检测方法[J].智能系统学报，2013,8(3)：208-213. 英文引用格式：FANG Ran,MIAO Duoqian,ZHANG Zhifei.An emotion-based method of topic detection from Chinese microblogs [J].CAAI Transactions on Intelligent Systems,2013,8(3):208-213. An emotion-based method of topic detection from Chinese microblogs FANG Ran'2,MIAO Duogian'.2,ZHANG Zhifei'.2 (1.Department of Computer Science and Technology,Tongji University,Shanghai 201804,China;2 The Key Laboratory of Embedded System and Service Computing,Ministry of Education,Tongji University,Shanghai 200092,China) Abstract:Previous research studies have laid the foundation in the area of traditional topic detection and shown there are some effective ways to detect topics.However,the traditional algorithms do not work well in special situa- tions for Chinese microblogs.In order to raise the recall ratio,the focus of this paper proposes to examine methods for detecting topics.The key to topic detection method,examines how to handle the structure of microblog with e- motional content weighting,which is based on the argument that the negative words tend to carry more information. The existing topic detection methods for short messages merge emotional incination into the topic detection by first raising the weight of short messages containing negative emotion in the topic detection,then clustering the topics by a clustering method based on self-inquiry.The experiment on a real microblog dataset show that the approach pro- vided in this paper can cluster topics and detect topics effectively,and also increase the recall ratio. Keywords:Chinese microblogs;topic detection;clustering;emotion 在信息爆炸时代，从海量数据中挖掘出有用的的平台也随之兴起.微博用户可以通过网络、手机、信息显得格外重要.随着Wb2.0的兴起，微博客即其他客户端进行实时的短文本信息分享与传播.美微博，一种基于用户关系的信息分享、传播以及获取国著名的微博网站Twitter用户数达到5.17亿)，最高峰时达到6939条每秒.用户通过这些微博平台发收稿日期：2013-01-09.网络出版日期：2013-05-15. 布生活中的所见所闻，以及对于一些事件的态度和基金项目：国家自然科学基金资助项目(60970061,61075056.61103067)：中央高校基本科研业务费专项资金资助项目（基于云计算的评论等. 高效数据挖掘算法研究). 通信作者：方然.E-mail:ufo2243@gmail.com. 目前对于微博的研究大多是用户关系结构的分

第８卷第３期智能系统学报Ｖｏｌ．８ №．３２０１３年６月ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓＪｕｎ．２０１３ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１６７３⁃４７８５．２０１３０１０１２网络出版地址：ｈｔｔｐ：／／ｗｗｗ．ｃｎｋｉ．ｎｅｔ／ｋｃｍｓ／ｄｅｔａｉｌ／２３．１５３８．ＴＰ．２０１３０５１５．０８３９．００２．ｈｔｍｌ一种基于情感的中文微博话题检测方法方然１，２，苗夺谦１，２，张志飞１，２（１．同济大学计算机科学与技术系，上海２０１８０４；２．同济大学嵌入式系统与服务计算教育部重点实验室，上海２０００９２）摘要：针对微博这种特殊的文本形式的话题检测，传统的算法并不能取得很好的效果．为了提高其查全率，根据微博这种带有结构化特点的信息，提出了一种带有情感内容加权的话题检测方法．该方法基于含有负面情感的词语往往携带了更多的信息量这一论点，在现有短文本话题检测的算法中，通过加大含有负面情感的短文本在话题检测中的权重，之后再根据一种基于自查询的聚类方法进行话题聚类，将情感倾向融合到短文本话题检测中．在真实数据集上的实验表明，此方法能有效地进行话题聚类并检测话题，并提高了查全率．关键词：中文微博；话题检测；聚类；情感中图分类号：ＴＰ３９１文献标志码：Ａ文章编号：１６７３⁃４７８５（２０１３）０３⁃０２０８⁃０６中文引用格式：方然，苗夺谦，张志飞．一种基于情感的中文微博话题检测方法［Ｊ］．智能系统学报，２０１３，８（３）：２０８⁃２１３．英文引用格式：ＦＡＮＧＲａｎ，ＭＩＡＯＤｕｏｑｉａｎ，ＺＨＡＮＧＺｈｉｆｅｉ．Ａｎｅｍｏｔｉｏｎ⁃ｂａｓｅｄｍｅｔｈｏｄｏｆｔｏｐｉｃｄｅｔｅｃｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇｓ［Ｊ］．ＣＡＡＩＴｒａｎｓａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１３，８（３）：２０８⁃２１３．Ａｎｅｍｏｔｉｏｎ⁃ｂａｓｅｄｍｅｔｈｏｄｏｆｔｏｐｉｃｄｅｔｅｃｔｉｏｎｆｒｏｍＣｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇｓＦＡＮＧＲａｎ１，２，ＭＩＡＯＤｕｏｑｉａｎ１，２，ＺＨＡＮＧＺｈｉｆｅｉ１，２（１．ＤｅｐａｒｔｍｅｎｔｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅａｎｄＴｅｃｈｎｏｌｏｇｙ，ＴｏｎｇｊｉＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２０１８０４，Ｃｈｉｎａ；２ＴｈｅＫｅｙＬａｂｏｒａｔｏｒｙｏｆＥｍｂｅｄｄｅｄＳｙｓｔｅｍａｎｄＳｅｒｖｉｃｅＣｏｍｐｕｔｉｎｇ，ＭｉｎｉｓｔｒｙｏｆＥｄｕｃａｔｉｏｎ，ＴｏｎｇｊｉＵｎｉｖｅｒｓｉｔｙ，Ｓｈａｎｇｈａｉ２０００９２，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ：Ｐｒｅｖｉｏｕｓｒｅｓｅａｒｃｈｓｔｕｄｉｅｓｈａｖｅｌａｉｄｔｈｅｆｏｕｎｄａｔｉｏｎｉｎｔｈｅａｒｅａｏｆｔｒａｄｉｔｉｏｎａｌｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｎｄｓｈｏｗｎｔｈｅｒｅａｒｅｓｏｍｅｅｆｆｅｃｔｉｖｅｗａｙｓｔｏｄｅｔｅｃｔｔｏｐｉｃｓ．Ｈｏｗｅｖｅｒ，ｔｈｅｔｒａｄｉｔｉｏｎａｌａｌｇｏｒｉｔｈｍｓｄｏｎｏｔｗｏｒｋｗｅｌｌｉｎｓｐｅｃｉａｌｓｉｔｕａ⁃ ｔｉｏｎｓｆｏｒＣｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇｓ．Ｉｎｏｒｄｅｒｔｏｒａｉｓｅｔｈｅｒｅｃａｌｌｒａｔｉｏ，ｔｈｅｆｏｃｕｓｏｆｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓｔｏｅｘａｍｉｎｅｍｅｔｈｏｄｓｆｏｒｄｅｔｅｃｔｉｎｇｔｏｐｉｃｓ．Ｔｈｅｋｅｙｔｏｔｏｐｉｃｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄ，ｅｘａｍｉｎｅｓｈｏｗｔｏｈａｎｄｌｅｔｈｅｓｔｒｕｃｔｕｒｅｏｆｍｉｃｒｏｂｌｏｇｗｉｔｈｅ⁃ ｍｏｔｉｏｎａｌｃｏｎｔｅｎｔｗｅｉｇｈｔｉｎｇ，ｗｈｉｃｈｉｓｂａｓｅｄｏｎｔｈｅａｒｇｕｍｅｎｔｔｈａｔｔｈｅｎｅｇａｔｉｖｅｗｏｒｄｓｔｅｎｄｔｏｃａｒｒｙｍｏｒｅｉｎｆｏｒｍａｔｉｏｎ．Ｔｈｅｅｘｉｓｔｉｎｇｔｏｐｉｃｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｓｆｏｒｓｈｏｒｔｍｅｓｓａｇｅｓｍｅｒｇｅｅｍｏｔｉｏｎａｌｉｎｃｉｎａｔｉｏｎｉｎｔｏｔｈｅｔｏｐｉｃｄｅｔｅｃｔｉｏｎｂｙｆｉｒｓｔｒａｉｓｉｎｇｔｈｅｗｅｉｇｈｔｏｆｓｈｏｒｔｍｅｓｓａｇｅｓｃｏｎｔａｉｎｉｎｇｎｅｇａｔｉｖｅｅｍｏｔｉｏｎｉｎｔｈｅｔｏｐｉｃｄｅｔｅｃｔｉｏｎ，ｔｈｅｎｃｌｕｓｔｅｒｉｎｇｔｈｅｔｏｐｉｃｓｂｙａｃｌｕｓｔｅｒｉｎｇｍｅｔｈｏｄｂａｓｅｄｏｎｓｅｌｆ⁃ｉｎｑｕｉｒｙ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｏｎａｒｅａｌｍｉｃｒｏｂｌｏｇｄａｔａｓｅｔｓｈｏｗｔｈａｔｔｈｅａｐｐｒｏａｃｈｐｒｏ⁃ ｖｉｄｅｄｉｎｔｈｉｓｐａｐｅｒｃａｎｃｌｕｓｔｅｒｔｏｐｉｃｓａｎｄｄｅｔｅｃｔｔｏｐｉｃｓｅｆｆｅｃｔｉｖｅｌｙ，ａｎｄａｌｓｏｉｎｃｒｅａｓｅｔｈｅｒｅｃａｌｌｒａｔｉｏ．Ｋｅｙｗｏｒｄｓ：Ｃｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇｓ；ｔｏｐｉｃｄｅｔｅｃｔｉｏｎ；ｃｌｕｓｔｅｒｉｎｇ；ｅｍｏｔｉｏｎ收稿日期：２０１３⁃０１⁃０９．网络出版日期：２０１３⁃０５⁃１５．基金项目：国家自然科学基金资助项目（６０９７００６１，６１０７５０５６，６１１０３０６７）；中央高校基本科研业务费专项资金资助项目（基于云计算的高效数据挖掘算法研究）．通信作者：方然．Ｅ⁃ｍａｉｌ：ｕｆｏ２２４３＠ｇｍａｉｌ．ｃｏｍ．在信息爆炸时代，从海量数据中挖掘出有用的信息显得格外重要．随着Ｗｅｂ２．０的兴起，微博客即微博，一种基于用户关系的信息分享、传播以及获取的平台也随之兴起．微博用户可以通过网络、手机、其他客户端进行实时的短文本信息分享与传播．美国著名的微博网站Ｔｗｉｔｔｅｒ用户数达到５．１７亿［１］，最高峰时达到６９３９条每秒．用户通过这些微博平台发布生活中的所见所闻，以及对于一些事件的态度和评论等．目前对于微博的研究大多是用户关系结构的分

第3期方然，等：一种基于情感的中文微博话题检测方法 ·209· 析，但对于微博内容的分析并不多2]，而对其进行 Clarity、WeightSumt、余弦相似度[o]等，这里采取了话题检测在舆情控制、自然灾害预警等方面又具有一种自查询的方法来计算文本的相似度，重要的实际意义.在话题检测与跟踪(topic detection 1.1数据预处理 and tracking,TDT)领域，传统的算法主要面向于文在预处理这一步，目标是将原始的微博数据根本和语音形式的新闻报导[3)]，针对的目标并不是这据其自身的特殊格式进行相应的处理，排除一些可种短文的微博形式，很多现有的方法如凝聚层次聚能对话题检测的影响这里的处理规则大体上可以类算法[，UMass和Dragon等方法[)并不能直接在分为2类：一类是针对微博本身的文本内容的预处微博上使用近年来，很多学者也在基于微博的话题理规则：另一类是针对微博文本内容以外包括发微检测方面做了一些研究，如在地震监控方面，博者的一些其他数据的预处理规则： Takashi等[o]提出一种基于关键字为证据的贝叶斯 1)针对微博的文本内容，决策方法，可以实时地通过Twitter监控地震发生的 ①对于带有“#主题#”格式的微博，由于这个主情况.郑斐然等]提出的一种中文微博新闻话题检题的词大多数是人为设定的，大部分带有商业目的测方法，也通过实验证明了其方法可以从大量消息而且转发数量大，这对话题检测会有不利的影响.于中检测出新闻话题.而在情感词语所表达的信息量是删除所有带有这种格式的文字内容，但仅删除“# 方面，Garcia等的研究(]表明包含积极内容的词语主题#”格式的字段，保留其他的文本内容，因为这的使用次数相对于包含消极内容的词语要少，通过部分内容是用户关于这些人为设定的主题的讨论，自信息量(self-information)的比较，这些消极的词语可以作为提取话题的文本。包含了更多的信息量 ②对于带有“@用户”格式的微博，大多数情况本文通过分析微博自身的文本特点[7，)，提出下是在转发微博时被使用，根据其格式删除“@用了一种基于情感内容加权的话题检测方法，该方法户”的字段.这是因为微博的用户名不会给话题检测在向量空间模型的基础上，在微博话题检测的主题带来帮助，相反在统计词频的时候还会带来很多干词选取时，通过对具有负面或消极含义的词语进行扰，所以删除所有能确定是用户名字的字段加权的方法筛选出最适合的主题词，再进行聚类。 2)针对发微博用户. 由于微博存在一些称为“僵尸账号”的微博账 1微博话题检测方法号，这些账号大多数是有名无实的微博账号，它们通本文提出的话题检测方法以中文微博为处理对常是由系统自动产生的恶意注册用户，这些账号会象，分为预处理、分词、主题词检测、话题聚类几大部发布大量重复的内容用于一些商业目的，会对话题分.中文微博在格式上有着其自己独特的特点，每条检测造成不利的影响，因此在预处理这一步要对其微博是由不超过140个中文字长度的文本与图片组进行判断判断帐号是否为僵尸账号是一件较为复成，这里不考虑其图像的含义只考虑文本的内容在杂的工作，由于需要进行大量的判断，因此将其尽量文本中还包含一些微博的特殊格式，例如用“#主题简化，主要根据帐户的收听人数来判断，收听人数少 #”来表示这条微博是属于某一些特定主题的，这里于阈值F的用户，将其判断为僵尸账号，这样能避的主题是人为设定的，大多数情况下是一些活动或免大量的僵尸账户，但会把一些不活跃的正常账户商品的推广，会给话题检测造成一定的影响.用“@ 也剔除掉。用户”来表示这条微博与某些制定的微博用户有 1.2分词关，一般情况下是转发微博的时候系统会默认“@ 汉语中词是最小、能独立活动、有意义的语言成用户”指被转发的用户，还有一些情况是向特定用分，但不像英语或者其他语言中词语之间有明显的户发的对话性质的微博内容.这些特殊的格式都必标记来加以区分.因此分词也是中文信息处理的关须在预处理中进行相应的处理，以防止其对话题检键，分词的方法有很多，如基于字符串匹配的分词方测造成不良的影响，法、基于理解的分词方法和基于统计的分词方法等在话题检测过程中，为话题建立相应的模型也由于本文的重点在于微博的话题检测，这里直接采是其中的一个基础性问题，常见的模型有空间向量用中国科学院计算技术研究所的ICTCLAS分词系模型、词汇链模型、图模型等.本文使用空间向量模统[)，对经过预处理之后的文本语料进行分词处型，其中计算文本相似度的方法包括Okapi公式、理.ICTCLAS分词系统在分词的同时会进行词性的

析，但对于微博内容的分析并不多［２］，而对其进行话题检测在舆情控制、自然灾害预警等方面又具有重要的实际意义．在话题检测与跟踪（ｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｎｄｔｒａｃｋｉｎｇ，ＴＤＴ）领域，传统的算法主要面向于文本和语音形式的新闻报导［３］，针对的目标并不是这种短文的微博形式，很多现有的方法如凝聚层次聚类算法［４］、ＵＭａｓｓ和Ｄｒａｇｏｎ等方法［５］并不能直接在微博上使用．近年来，很多学者也在基于微博的话题检测方面做了一些研究，如在地震监控方面，Ｔａｋａｓｈｉ等［６］提出一种基于关键字为证据的贝叶斯决策方法，可以实时地通过Ｔｗｉｔｔｅｒ监控地震发生的情况．郑斐然等［７］提出的一种中文微博新闻话题检测方法，也通过实验证明了其方法可以从大量消息中检测出新闻话题．而在情感词语所表达的信息量方面，Ｇａｒｃｉａ等的研究［８］表明包含积极内容的词语的使用次数相对于包含消极内容的词语要少，通过自信息量（ｓｅｌｆ⁃ｉｎｆｏｒｍａｔｉｏｎ）的比较，这些消极的词语包含了更多的信息量．本文通过分析微博自身的文本特点［７，９］，提出了一种基于情感内容加权的话题检测方法，该方法在向量空间模型的基础上，在微博话题检测的主题词选取时，通过对具有负面或消极含义的词语进行加权的方法筛选出最适合的主题词，再进行聚类．１微博话题检测方法本文提出的话题检测方法以中文微博为处理对象，分为预处理、分词、主题词检测、话题聚类几大部分．中文微博在格式上有着其自己独特的特点，每条微博是由不超过１４０个中文字长度的文本与图片组成，这里不考虑其图像的含义只考虑文本的内容．在文本中还包含一些微博的特殊格式，例如用“＃主题＃”来表示这条微博是属于某一些特定主题的，这里的主题是人为设定的，大多数情况下是一些活动或商品的推广，会给话题检测造成一定的影响．用“＠用户”来表示这条微博与某些制定的微博用户有关，一般情况下是转发微博的时候系统会默认“＠用户”指被转发的用户，还有一些情况是向特定用户发的对话性质的微博内容．这些特殊的格式都必须在预处理中进行相应的处理，以防止其对话题检测造成不良的影响．在话题检测过程中，为话题建立相应的模型也是其中的一个基础性问题，常见的模型有空间向量模型、词汇链模型、图模型等．本文使用空间向量模型，其中计算文本相似度的方法包括Ｏｋａｐｉ公式、Ｃｌａｒｉｔｙ、ＷｅｉｇｈｔＳｕｍｔ、余弦相似度［１０］等，这里采取了一种自查询的方法来计算文本的相似度．１．１数据预处理在预处理这一步，目标是将原始的微博数据根据其自身的特殊格式进行相应的处理，排除一些可能对话题检测的影响．这里的处理规则大体上可以分为２类：一类是针对微博本身的文本内容的预处理规则；另一类是针对微博文本内容以外包括发微博者的一些其他数据的预处理规则．１）针对微博的文本内容． ①对于带有“＃主题＃”格式的微博，由于这个主题的词大多数是人为设定的，大部分带有商业目的而且转发数量大，这对话题检测会有不利的影响．于是删除所有带有这种格式的文字内容，但仅删除“ ＃主题＃”格式的字段，保留其他的文本内容，因为这部分内容是用户关于这些人为设定的主题的讨论，可以作为提取话题的文本． ②对于带有“＠用户”格式的微博，大多数情况下是在转发微博时被使用，根据其格式删除“＠用户”的字段．这是因为微博的用户名不会给话题检测带来帮助，相反在统计词频的时候还会带来很多干扰，所以删除所有能确定是用户名字的字段．２）针对发微博用户．由于微博存在一些称为“僵尸账号” 的微博账号，这些账号大多数是有名无实的微博账号，它们通常是由系统自动产生的恶意注册用户，这些账号会发布大量重复的内容用于一些商业目的，会对话题检测造成不利的影响，因此在预处理这一步要对其进行判断．判断帐号是否为僵尸账号是一件较为复杂的工作，由于需要进行大量的判断，因此将其尽量简化，主要根据帐户的收听人数来判断，收听人数少于阈值Ｆ的用户，将其判断为僵尸账号，这样能避免大量的僵尸账户，但会把一些不活跃的正常账户也剔除掉．１．２分词汉语中词是最小、能独立活动、有意义的语言成分，但不像英语或者其他语言中词语之间有明显的标记来加以区分．因此分词也是中文信息处理的关键，分词的方法有很多，如基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等．由于本文的重点在于微博的话题检测，这里直接采用中国科学院计算技术研究所的ＩＣＴＣＬＡＳ分词系统［１１］，对经过预处理之后的文本语料进行分词处理．ＩＣＴＣＬＡＳ分词系统在分词的同时会进行词性的第３期方然，等：一种基于情感的中文微博话题检测方法 ·２０９·

·210· 智能系统学报第8卷标注，在分词和词性标注之后微博文本会变成如 F F= (1) 图1所示的形式 F 式中：F:是该词在当前窗口中的出现次数，F为当纪念一代名将特别值得注意的是他前时间窗口中的最高词频。不仅神童(14岁？入清华)，还是体育健假设包含该词的微博在当前时间窗口有n个，将谁说体育人四肢发则该词的情感倾向的加权E为 ICTCLAS 2i=1e: E=- n 纪念/v一/m代/q名将/n./wi特别/d 值得/v注意/v的/udel是/vshi他/rr 式中：e:为当前时间窗口中所有包含该词语的微博不仅/c神童/n(/wkz14/m岁/qt? /ww入/y清华/nz)/wky,/wd还/d 情感倾向.由于待处理的数据量很大，因此采用相对是/vshi体育/n健将/n./wj谁/y说/v 简单的算法来判断微博情感倾向. 图1 ICTCLAS中文微博分词示例本文再引入一个增长系数G来表示一个词在 Fig.I Word segmentation example using ICTCLAS 当前窗口时出现频率的增长速度，同时设定一个回由于在对微博进行话题检测时面对的是海量的顾时间窗口B,来限定该增长系数考察的范围.由于微博数据，因此需要进行一定的删减，再进行主题的是在一定时间窗口内，并不要求该词的词频在之前检测在各个词性中，名词和动词对表达主题的贡献的回顾时间窗口的范围内持续增长，因此增长系数最大，故最后会保留下来的是每个微博中的动词和 G)]并不考察这一点，而需要考察的是相对于当前名词对文本的情感倾向判断分析主要分为3个级时间窗口的增长速度：别：词汇级别、句子级别和文档级别].本文采用 XB G=- HowNet免费对外的褒贬义词表来简单地判断短文可本的情感倾向，并对其进行情感倾向加权.记e为一式中：F,为该词在当前窗口中的出现次数.G的值越条微博的情感倾向值，假设该条微博分词后共有m 大越说明该词在当前时间窗口中出现了突增的情个词，则有况，就越有可能是主题词. ∑a,emotion(）考虑使用上述3种权值来获取主题词列表，因 e= m 此构造了一个综合的权值V来评价一个词是否为式中：根据HowNet的褒贬义词表，贬义词语的emo- 主题词的程度： ion(i)记为1，褒义词语的记为-1，不在中文情感词 V=logG alogF +Blog I EI 库中的词语记为0这里的e将用于下一步的主题词式中：V值与主题词程度正相关，α与B用于调剂三检测. 者之间的比例关系，从实际结果来看a取1.0~1.5 1.3主题词检测最适当)，B取±0.5左右较为合适，且B与E不同由于微博数据的特殊性，不同于传统话题检测正负，这样负面情感的词语就会增加其主题词权值面向的对象，重要的一点是它还具有很强的时序性， 1.4话题聚类传统的T℉-DF等方法无法利用微博文本的时序性聚类的目的是为了将主题词列表中的候选主题特点，因此无法使用用于静态长文本的传统方法来词聚类成若干个词为一组的话题.完成聚类后的主计算主题词本文采用兼顾被检测词在短时间内的题词将会得到若干类，每类都由一个或多个主题词增长速率和当前词频，当然更重要的是对待选词使组成，这样的一类就形成了一个新闻话题.本文聚类用情感倾向加权的评价方法来挑选出适当的主算法的核心思想是K均值聚类算法的改良，是一个题词. 增量的聚类算法，由于该方法并不预先假设话题数将微博的文本按照固定的时间窗口划分成若干量，因此初始状态为只有第1个词为初始类.大体步块，每块都固定一个时间长度T,这和具体实验时微骤如下：博的采样频率有关.时间窗口确定之后，可以得到在 1)以第1个词为初始类：最近的一个时间窗口，即当前时间窗口中某词的频 2)读入下一个词，判断它与已有每一个类的距率F: 离（类的位置取其所包含词的平均位置）：

标注，在分词和词性标注之后微博文本会变成如图１所示的形式．图１ＩＣＴＣＬＡＳ中文微博分词示例Ｆｉｇ．１ＷｏｒｄｓｅｇｍｅｎｔａｔｉｏｎｅｘａｍｐｌｅｕｓｉｎｇＩＣＴＣＬＡＳ由于在对微博进行话题检测时面对的是海量的微博数据，因此需要进行一定的删减，再进行主题的检测．在各个词性中，名词和动词对表达主题的贡献最大，故最后会保留下来的是每个微博中的动词和名词．对文本的情感倾向判断分析主要分为３个级别：词汇级别、句子级别和文档级别［１２］．本文采用ＨｏｗＮｅｔ免费对外的褒贬义词表来简单地判断短文本的情感倾向，并对其进行情感倾向加权．记ｅ为一条微博的情感倾向值，假设该条微博分词后共有ｍ个词，则有ｅ＝ ∑ ｍｉ＝１ｅｍｏｔｉｏｎ（ｉ）ｍ．式中：根据ＨｏｗＮｅｔ的褒贬义词表，贬义词语的ｅｍｏ⁃ ｔｉｏｎ（ｉ）记为１，褒义词语的记为－１，不在中文情感词库中的词语记为０．这里的ｅ将用于下一步的主题词检测．１．３主题词检测由于微博数据的特殊性，不同于传统话题检测面向的对象，重要的一点是它还具有很强的时序性，传统的ＴＦ⁃ＩＤＦ等方法无法利用微博文本的时序性特点，因此无法使用用于静态长文本的传统方法来计算主题词．本文采用兼顾被检测词在短时间内的增长速率和当前词频，当然更重要的是对待选词使用情感倾向加权的评价方法来挑选出适当的主题词．将微博的文本按照固定的时间窗口划分成若干块，每块都固定一个时间长度Ｔ，这和具体实验时微博的采样频率有关．时间窗口确定之后，可以得到在最近的一个时间窗口，即当前时间窗口中某词的频率Ｆ：Ｆ＝ＦｉＦｍａｘ．（１）式中：Ｆｉ是该词在当前窗口中的出现次数，Ｆｍａｘ为当前时间窗口中的最高词频．假设包含该词的微博在当前时间窗口有ｎ个，则该词的情感倾向的加权Ｅ为Ｅ＝ ∑ ｎｉ＝１ｅｉｎ．式中：ｅｉ为当前时间窗口中所有包含该词语的微博情感倾向．由于待处理的数据量很大，因此采用相对简单的算法来判断微博情感倾向．本文再引入一个增长系数Ｇ来表示一个词在当前窗口时出现频率的增长速度，同时设定一个回顾时间窗口Ｂ，来限定该增长系数考察的范围．由于是在一定时间窗口内，并不要求该词的词频在之前的回顾时间窗口的范围内持续增长，因此增长系数Ｇ［７］并不考察这一点，而需要考察的是相对于当前时间窗口的增长速度：Ｇ＝Ｆｉ × Ｂ ∑ Ｂｊ＝１Ｆｊ．式中：Ｆｉ为该词在当前窗口中的出现次数．Ｇ的值越大越说明该词在当前时间窗口中出现了突增的情况，就越有可能是主题词．考虑使用上述３种权值来获取主题词列表，因此构造了一个综合的权值Ｖ来评价一个词是否为主题词的程度：Ｖ＝ｌｏｇＧ＋ αｌｏｇＦ＋ βｌｏｇ｜Ｅ｜．式中：Ｖ值与主题词程度正相关，α 与 β 用于调剂三者之间的比例关系，从实际结果来看 α 取１．０～１．５最适当［７］，β 取±０．５左右较为合适，且 β 与Ｅ不同正负，这样负面情感的词语就会增加其主题词权值．１．４话题聚类聚类的目的是为了将主题词列表中的候选主题词聚类成若干个词为一组的话题．完成聚类后的主题词将会得到若干类，每类都由一个或多个主题词组成，这样的一类就形成了一个新闻话题．本文聚类算法的核心思想是Ｋ均值聚类算法的改良，是一个增量的聚类算法，由于该方法并不预先假设话题数量，因此初始状态为只有第１个词为初始类．大体步骤如下：１）以第１个词为初始类；２）读入下一个词，判断它与已有每一个类的距离（类的位置取其所包含词的平均位置）； ·２１０· 智能系统学报第８卷

第3期方然，等：一种基于情感的中文微博话题检测方法 ·211· 3)设定一个阈值D,如果这个词与每一个现有一些相关数据，如他的粉丝数、微博数等，用于判断类的距离都大于D,那么认为该词为一个新的类：是否被过滤掉.另外还对这段数据人为标注了7个 4)重复2)~3)，直到所有词处理完毕事件进行评价，如“伦敦奥运会”、“体操男团冠军”、计算一个词与其他词之间的距离的方法大体上 “爱情公寓3开播”等。有2种：一种是预先确定词与词之间的距离：另一种 2.1预处理是增量式的，随着文本不断的读入不断调整词与词预处理主要包括两部分：1)根据发布微博的用之间的距离关系.传统的话题检测算法中大多数采户d及其数据过滤掉部分僵尸微博：2)对微博内容取的是第1种方法，因为传统话题检测所面对的检进行分词和词性标注.然后对其分词进行统计，会发测对象大多数是长篇的文章，对于词与词之间的相现词列表近似服从帕累托分布，少数常用词语大量似度有大量的预先经验，所以更适用于此种方法.本反复出现而绝大多数词语所占的总比重很低.在总文采用第2种方法，如果2个词出现在同一条微博共统计的8000多个词中，前1000个词占总数量的中，就认为这2个词语更为相似.具体的一个词到一 50%以上，而后1000个词占了不到1.5%.分词的同类的距离公式为时进行词性标注，只保留动词和名词作为主题词的候选，统计的结果如图2所示.从图2中可以看出， D(a,C)=- 前面少量词语占了很大的比重，而后面会有大量相 n 式中：D(a,C)为词a到类C的距离，C:为C类中的似的词语，这也是对微博进行分词统计词频后发现一个词，d(a,C)为事先维护的词与词之间相似度的一个特性，的表，即两者出现在同一微博中的次数.此处距离理论上的意义是指，如果一个词与某一类中的词出现 30-×10 在同一微博中的次数较多，那么该词就与这一类的距离较近 15 10 2实验本次实验数据通过新浪微博API进行抓取，抓取了2012-7-31一2012-8-2之间200万条微博数据，覆翠誉荧金案壁覆部龈器具体的数据格式如表1所示. 图2词频示例表1API抓取微博样例 Fig.2 Word frequency example Table 1 Weibo example using API 2.2时间窗口T以及聚类阈值D的选取序列号文本内容发布时间实验发现时间窗口T和聚类阈值D这2个经验值的选取很大程度上依赖于原始数据的采样频都江堰夜景还 2012-07.31 率.实验数据中新浪微博API的流量限制为每 3473823024605352是保持住，没有 12:03:31 20min取5万条，而当采样频率发生变化的时候，时给地震搞了间窗口与聚类阈值的选取也要随之变化：波士顿红袜对聚类阈值D从实验中可以看出，当时间窗口固底特律老虎，开 2012-07-31 定为3h时，随着D值的增大，查全率下降但查准率 3473823028249919 场走起，Go Red 12:03:33 上升.在上述固定采样频率的条件下D取20时，能 SOX Go! 取得相对理想的查准率和查全率. 时间窗口T的选取也格外重要，而且更大程度朴泰桓狂言：孙上依赖于采样频率，这是因为在某些特定的时间段杨来奥运是个 2012-07-31 3473823028800377 微博上会爆发大量相同的词语这些词语大部分是错误，只会衬托 12:03:33 和特定时间有关，而非重要的主题词，如“吃饭”、我的速度 “睡觉”等一般与时间不相关，这就使得时间窗口不宜选取得过短，经过实验发现选取在2~3h较好表1中只列举了最主要的几项内容，实际抓取话题检测结果如表2所示，可以看出该方法可的数据还包括转发次数、评论次数以及发微博者的以成功地进行聚类，得到相应的微博话题，并且通过

３）设定一个阈值Ｄ，如果这个词与每一个现有类的距离都大于Ｄ，那么认为该词为一个新的类；４）重复２）～３），直到所有词处理完毕．计算一个词与其他词之间的距离的方法大体上有２种：一种是预先确定词与词之间的距离；另一种是增量式的，随着文本不断的读入不断调整词与词之间的距离关系．传统的话题检测算法中大多数采取的是第１种方法，因为传统话题检测所面对的检测对象大多数是长篇的文章，对于词与词之间的相似度有大量的预先经验，所以更适用于此种方法．本文采用第２种方法，如果２个词出现在同一条微博中，就认为这２个词语更为相似．具体的一个词到一类的距离公式为Ｄ（ａ，Ｃ）＝ ∑ ｎｉ＝１ｄ（ａ，Ｃｉ）ｎ．式中：Ｄ（ａ，Ｃ）为词ａ到类Ｃ的距离，Ｃｉ为Ｃ类中的一个词，ｄ（ａ，Ｃｉ）为事先维护的词与词之间相似度的表，即两者出现在同一微博中的次数．此处距离理论上的意义是指，如果一个词与某一类中的词出现在同一微博中的次数较多，那么该词就与这一类的距离较近．２实验本次实验数据通过新浪微博ＡＰＩ进行抓取，抓取了２０１２⁃７⁃３１—２０１２⁃８⁃２之间２００万条微博数据，具体的数据格式如表１所示．表１ＡＰＩ抓取微博样例Ｔａｂｌｅ１ＷｅｉｂｏｅｘａｍｐｌｅｕｓｉｎｇＡＰＩ序列号文本内容发布时间３４７３８２３０２４６０５３５２都江堰夜景还是保持住，没有给地震搞了２０１２⁃０７⁃３１１２ ∶ ０３ ∶ ３１３４７３８２３０２８２４９９１９波士顿红袜对底特律老虎，开场走起，ＧｏＲｅｄＳＯＸＧｏ！２０１２⁃０７⁃３１１２ ∶ ０３ ∶ ３３３４７３８２３０２８８００３７７朴泰桓狂言：孙杨来奥运是个错误，只会衬托我的速度２０１２⁃０７⁃３１１２ ∶ ０３ ∶ ３３表１中只列举了最主要的几项内容，实际抓取的数据还包括转发次数、评论次数以及发微博者的一些相关数据，如他的粉丝数、微博数等，用于判断是否被过滤掉．另外还对这段数据人为标注了７个事件进行评价，如“伦敦奥运会”、“体操男团冠军”、 “爱情公寓３开播”等．２．１预处理预处理主要包括两部分：１）根据发布微博的用户ｉｄ及其数据过滤掉部分僵尸微博；２）对微博内容进行分词和词性标注．然后对其分词进行统计，会发现词列表近似服从帕累托分布，少数常用词语大量反复出现而绝大多数词语所占的总比重很低．在总共统计的８０００多个词中，前１０００个词占总数量的５０％以上，而后１０００个词占了不到１．５％．分词的同时进行词性标注，只保留动词和名词作为主题词的候选，统计的结果如图２所示．从图２中可以看出，前面少量词语占了很大的比重，而后面会有大量相似的词语，这也是对微博进行分词统计词频后发现的一个特性．图２词频示例Ｆｉｇ．２Ｗｏｒｄｆｒｅｑｕｅｎｃｙｅｘａｍｐｌｅ２．２时间窗口Ｔ以及聚类阈值Ｄ的选取实验发现时间窗口Ｔ和聚类阈值Ｄ这２个经验值的选取很大程度上依赖于原始数据的采样频率．实验数据中新浪微博ＡＰＩ的流量限制为每２０ｍｉｎ取５万条，而当采样频率发生变化的时候，时间窗口与聚类阈值的选取也要随之变化．聚类阈值Ｄ从实验中可以看出，当时间窗口固定为３ｈ时，随着Ｄ值的增大，查全率下降但查准率上升．在上述固定采样频率的条件下Ｄ取２０时，能取得相对理想的查准率和查全率．时间窗口Ｔ的选取也格外重要，而且更大程度上依赖于采样频率，这是因为在某些特定的时间段微博上会爆发大量相同的词语．这些词语大部分是和特定时间有关，而非重要的主题词，如“吃饭”、 “睡觉”等一般与时间不相关，这就使得时间窗口不宜选取得过短，经过实验发现选取在２～３ｈ较好．话题检测结果如表２所示，可以看出该方法可以成功地进行聚类，得到相应的微博话题，并且通过第３期方然，等：一种基于情感的中文微博话题检测方法 ·２１１·

·212· 智能系统学报第8卷情感倾向加权能够取得一定的效果不过实验过程 and tracking review[J].Journal of Chinese Information Pro- 也发现了一些问题，如分词不准导致的不利于后续 cessing,2007,21(6):71-85 话题检测，部分微博围绕一些人名，但有些人名的分 [4]YANG Y M,PIERCE T,CARBONELL J.A study of retro- spective and on-line event detection C]//Proceedings of 词效果并不好，会对话题检测产生部分噪音，而当围 the 21st Annual International ACM SIGIR Conference on 绕这些人名的微博大量产生的时候，就会对话题检 Research and Development in Information Retrieval.New 测产生较大影响. York.USA:ACM,1998:28-36. 表2部分话题聚类结果 [5]ALLAN J,CARBONELL J,DOODINGTON G,et al.Topic Table 2 Part of the topic clustering results detection and tracking pilot study final report[C]//Proceed- 时间话题内容 ings of the DARPA Broadcast News Transcription and Un- derstanding Workshop.Lansdowne,USA,1988:194-218. 2012-07-31 男篮、伦敦、小组赛、俄罗斯、不敌 [6]SAKAKI T,OKAZAKI M,MATSUO Y.Earthquake shakes 18:00:00 Twitter user:real-time event detection by social sensors 2012-08-01 失利、无缘、体操、团体、女子 [C]//Proceedings of the 19th International Conference on 04:00:00 2012-08-01 World Wide Web.New York,USA:ACM,2010:851-861. 游泳、记录、混合、奥运会、叶 [7]郑斐然，苗夺谦，张志飞，等.一种中文微博新闻话题检测 06:30:00 的方法[J].计算机科学，2012.39(1)：138-140. 同时由于此次实验所取的数据是在奥运期间， ZHENG Feiran,MIAO Duogian,ZHANG Zhifei,et al. 部分词语如“奥运”大量产生，而其理论上应该分属 News topic detection approach on Chinese microblog[J]. 很多个子话题，如“奥运篮球”、“奥运体操”等，但当 Computer Science,2012,39(1):138-140. 前算法并未考虑这种情况，这也是后续需要改进的 [8]GARCIA D,GARAS A,SCHWEITZER F.Positive words 方向之一.在查全率方面，试验做了一次自身的对 carry less information than negative words[J].EPJ Data 比，即在同样的数据下进行有无情感加权的查全率 Science,2012,1(1):1-l6. [9]印桂生，张亚楠，董宇欣.基于提升系数的微博异常排名对比，实验显示，在有情感加权的情况下查全率从检测方法[J].哈尔滨工程大学学报，2013,34(4)：488 71.4%提升至85.7%，说明该算法能够在一定程度 493. 上提高查全率。 YIN Guisheng,ZHANG Ya 'nan,DONG Yuxin.A boost fac- tor based detection method for abnormal rank of microblog- 3结束语 ging[J].Journal of Harbin Engineering University,2013, 在总结前人在微博话题检测工作的基础上，提 34(4):488-493. 「10]张晓艳.王挺.话题发现与追踪技术研究「J1.计算机科出了包含情感倾向加权的一种微博话题检测方法，学与探索，2009,3(4)：347-357. 并通过在新浪微博上的实验说明了其可用性同时， ZHANG Xiaoyan,WANG Ting.Research of technologies 需要指出的是该方法在很多方面还需要改进，例如 on topic detection and tracking[J].Journal of Frontiers of 实验中所取的时间窗口T以及话题聚类中的阈值D Computer Science Technology,2009,3(4):347-357. 很大程度上依赖于实验数据，评价标准也相对缺乏， [11 ZHANG Huaping,YU Hongkui,XIONG Deyi,et al. 同时缺乏中文的微博语料库和标注话题，当然如何 HHMM-based Chinese lexical analyzer ICTCLAS[C]// 更好地提高查准率和查全率也是后续研究的重点. Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing.Stroudsburg,USA,2003,17:184- 参考文献： 187. 「12]陈岳峰，苗夺谦，李文，等.基于概念的词汇情感倾向识 [1]LUNDEN I.Analyst:Twitter passed 500M users in June 别方法[J]智能系统学报，2011,6(6)：489-493. 2012,140M of them in US[EB/OL].[2013-03-261.ht- CHEN Yuefeng,MIAO Duoqian,LI Wen,et al.Semantic tp://techcrunch.com/2012/07/30/analyst-twitter-passed- orientation computing based on concepts[].CAAI Trans- 500m-users-in-june-2012-140m-of-them-in-us-jakarta-big- actions on Intelligent Systems,2011,6(6):489-493. gest-tweeting-city/. 作者简介： [2]RAMAGE D,DUMAIS S,LIEBLING D.Characterizing mi- 方然，男，1988年生，硕士研究生」 croblogs with topic models[C]//Proceedings of the 4th In- 主要研究方向为自然语言处理、智能信 ternational AAAI Conference on Weblogs and Social Media. 息处理、数据挖掘， Washington,DC,USA:The AAAI Press,2010:130-137. [3]洪字，张字，刘挺，等话题检测与跟踪的评测与研究综述 [J].中文信息学报，2007.21(6)：71-85 HONG Yu,ZHANG Yu,LIU Ting,et al.Topic detection

情感倾向加权能够取得一定的效果．不过实验过程也发现了一些问题，如分词不准导致的不利于后续话题检测，部分微博围绕一些人名，但有些人名的分词效果并不好，会对话题检测产生部分噪音，而当围绕这些人名的微博大量产生的时候，就会对话题检测产生较大影响．表２部分话题聚类结果Ｔａｂｌｅ２Ｐａｒｔｏｆｔｈｅｔｏｐｉｃｃｌｕｓｔｅｒｉｎｇｒｅｓｕｌｔｓ时间话题内容２０１２⁃０７⁃３１１８ ∶ ００ ∶ ００男篮、伦敦、小组赛、俄罗斯、不敌２０１２⁃０８⁃０１０４ ∶ ００ ∶ ００失利、无缘、体操、团体、女子２０１２⁃０８⁃０１０６ ∶ ３０ ∶ ００游泳、记录、混合、奥运会、叶同时由于此次实验所取的数据是在奥运期间，部分词语如“奥运”大量产生，而其理论上应该分属很多个子话题，如“奥运篮球”、“奥运体操”等，但当前算法并未考虑这种情况，这也是后续需要改进的方向之一．在查全率方面，试验做了一次自身的对比，即在同样的数据下进行有无情感加权的查全率对比，实验显示，在有情感加权的情况下查全率从７１．４％提升至８５．７％，说明该算法能够在一定程度上提高查全率．３结束语在总结前人在微博话题检测工作的基础上，提出了包含情感倾向加权的一种微博话题检测方法，并通过在新浪微博上的实验说明了其可用性．同时，需要指出的是该方法在很多方面还需要改进，例如实验中所取的时间窗口Ｔ以及话题聚类中的阈值Ｄ很大程度上依赖于实验数据，评价标准也相对缺乏，同时缺乏中文的微博语料库和标注话题，当然如何更好地提高查准率和查全率也是后续研究的重点．参考文献：［１］ＬＵＮＤＥＮＩ．Ａｎａｌｙｓｔ：Ｔｗｉｔｔｅｒｐａｓｓｅｄ５００ＭｕｓｅｒｓｉｎＪｕｎｅ２０１２，１４０ＭｏｆｔｈｅｍｉｎＵＳ［ＥＢ／ＯＬ］．［２０１３⁃０３⁃２６］．ｈｔ⁃ ｔｐ：／／ｔｅｃｈｃｒｕｎｃｈ．ｃｏｍ／２０１２／０７／３０／ａｎａｌｙｓｔ⁃ｔｗｉｔｔｅｒ⁃ｐａｓｓｅｄ⁃ ５００ｍ⁃ｕｓｅｒｓ⁃ｉｎ⁃ｊｕｎｅ⁃２０１２⁃１４０ｍ⁃ｏｆ⁃ｔｈｅｍ⁃ｉｎ⁃ｕｓ⁃ｊａｋａｒｔａ⁃ｂｉｇ⁃ ｇｅｓｔ⁃ｔｗｅｅｔｉｎｇ⁃ｃｉｔｙ／．［２］ＲＡＭＡＧＥＤ，ＤＵＭＡＩＳＳ，ＬＩＥＢＬＩＮＧＤ．Ｃｈａｒａｃｔｅｒｉｚｉｎｇｍｉ⁃ ｃｒｏｂｌｏｇｓｗｉｔｈｔｏｐｉｃｍｏｄｅｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４ｔｈＩｎ⁃ ｔｅｒｎａｔｉｏｎａｌＡＡＡＩＣｏｎｆｅｒｅｎｃｅｏｎＷｅｂｌｏｇｓａｎｄＳｏｃｉａｌＭｅｄｉａ．Ｗａｓｈｉｎｇｔｏｎ，ＤＣ，ＵＳＡ：ＴｈｅＡＡＡＩＰｒｅｓｓ，２０１０：１３０⁃１３７．［３］洪宇，张宇，刘挺，等．话题检测与跟踪的评测与研究综述［Ｊ］．中文信息学报，２００７，２１（６）：７１⁃８５．ＨＯＮＧＹｕ，ＺＨＡＮＧＹｕ，ＬＩＵＴｉｎｇ，ｅｔａｌ．Ｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｎｄｔｒａｃｋｉｎｇｒｅｖｉｅｗ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅＩｎｆｏｒｍａｔｉｏｎＰｒｏ⁃ ｃｅｓｓｉｎｇ，２００７，２１（６）：７１⁃８５．［４］ＹＡＮＧＹＭ，ＰＩＥＲＣＥＴ，ＣＡＲＢＯＮＥＬＬＪ．Ａｓｔｕｄｙｏｆｒｅｔｒｏ⁃ ｓｐｅｃｔｉｖｅａｎｄｏｎ⁃ｌｉｎｅｅｖｅｎｔｄｅｔｅｃｔｉｏｎ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２１ｓｔＡｎｎｕａｌＩｎｔｅｒｎａｔｉｏｎａｌＡＣＭＳＩＧＩＲＣｏｎｆｅｒｅｎｃｅｏｎＲｅｓｅａｒｃｈａｎｄＤｅｖｅｌｏｐｍｅｎｔｉｎＩｎｆｏｒｍａｔｉｏｎＲｅｔｒｉｅｖａｌ．ＮｅｗＹｏｒｋ，ＵＳＡ：ＡＣＭ，１９９８：２８⁃３６．［５］ＡＬＬＡＮＪ，ＣＡＲＢＯＮＥＬＬＪ，ＤＯＯＤＩＮＧＴＯＮＧ，ｅｔａｌ．Ｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｎｄｔｒａｃｋｉｎｇｐｉｌｏｔｓｔｕｄｙｆｉｎａｌｒｅｐｏｒｔ［Ｃ］／／Ｐｒｏｃｅｅｄ⁃ ｉｎｇｓｏｆｔｈｅＤＡＲＰＡＢｒｏａｄｃａｓｔＮｅｗｓＴｒａｎｓｃｒｉｐｔｉｏｎａｎｄＵｎ⁃ ｄｅｒｓｔａｎｄｉｎｇＷｏｒｋｓｈｏｐ．Ｌａｎｓｄｏｗｎｅ，ＵＳＡ，１９８８：１９４⁃２１８．［６］ＳＡＫＡＫＩＴ，ＯＫＡＺＡＫＩＭ，ＭＡＴＳＵＯＹ．ＥａｒｔｈｑｕａｋｅｓｈａｋｅｓＴｗｉｔｔｅｒｕｓｅｒ：ｒｅａｌ⁃ｔｉｍｅｅｖｅｎｔｄｅｔｅｃｔｉｏｎｂｙｓｏｃｉａｌｓｅｎｓｏｒｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＩｎｔｅｒｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．ＮｅｗＹｏｒｋ，ＵＳＡ：ＡＣＭ，２０１０：８５１⁃８６１．［７］郑斐然，苗夺谦，张志飞，等．一种中文微博新闻话题检测的方法［Ｊ］．计算机科学，２０１２，３９（１）：１３８⁃１４０．ＺＨＥＮＧＦｅｉｒａｎ，ＭＩＡＯＤｕｏｑｉａｎ，ＺＨＡＮＧＺｈｉｆｅｉ，ｅｔａｌ．ＮｅｗｓｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｐｐｒｏａｃｈｏｎＣｈｉｎｅｓｅｍｉｃｒｏｂｌｏｇ［Ｊ］．ＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ，２０１２，３９（１）：１３８⁃１４０．［８］ＧＡＲＣＩＡＤ，ＧＡＲＡＳＡ，ＳＣＨＷＥＩＴＺＥＲＦ．Ｐｏｓｉｔｉｖｅｗｏｒｄｓｃａｒｒｙｌｅｓｓｉｎｆｏｒｍａｔｉｏｎｔｈａｎｎｅｇａｔｉｖｅｗｏｒｄｓ［Ｊ］．ＥＰＪＤａｔａＳｃｉｅｎｃｅ，２０１２，１（１）：１⁃１６．［９］印桂生，张亚楠，董宇欣．基于提升系数的微博异常排名检测方法［Ｊ］．哈尔滨工程大学学报，２０１３，３４（４）：４８８⁃ ４９３．ＹＩＮＧｕｉｓｈｅｎｇ，ＺＨＡＮＧＹａ＇ｎａｎ，ＤＯＮＧＹｕｘｉｎ．Ａｂｏｏｓｔｆａｃ⁃ ｔｏｒｂａｓｅｄｄｅｔｅｃｔｉｏｎｍｅｔｈｏｄｆｏｒａｂｎｏｒｍａｌｒａｎｋｏｆｍｉｃｒｏｂｌｏｇ⁃ ｇｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＨａｒｂｉｎＥｎｇｉｎｅｅｒｉｎｇＵｎｉｖｅｒｓｉｔｙ，２０１３，３４（４）：４８８⁃４９３．［１０］张晓艳，王挺．话题发现与追踪技术研究［Ｊ］．计算机科学与探索，２００９，３（４）：３４７⁃３５７．ＺＨＡＮＧＸｉａｏｙａｎ，ＷＡＮＧＴｉｎｇ．Ｒｅｓｅａｒｃｈｏｆｔｅｃｈｎｏｌｏｇｉｅｓｏｎｔｏｐｉｃｄｅｔｅｃｔｉｏｎａｎｄｔｒａｃｋｉｎｇ［Ｊ］．ＪｏｕｒｎａｌｏｆＦｒｏｎｔｉｅｒｓｏｆＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅ＆Ｔｅｃｈｎｏｌｏｇｙ，２００９，３（４）：３４７⁃３５７．［１１］ＺＨＡＮＧＨｕａｐｉｎｇ，ＹＵＨｏｎｇｋｕｉ，ＸＩＯＮＧＤｅｙｉ，ｅｔａｌ．ＨＨＭＭ⁃ｂａｓｅｄＣｈｉｎｅｓｅｌｅｘｉｃａｌａｎａｌｙｚｅｒＩＣＴＣＬＡＳ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２ｎｄＳＩＧＨＡＮＷｏｒｋｓｈｏｐｏｎＣｈｉｎｅｓｅＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＵＳＡ，２００３，１７：１８４⁃ １８７．［１２］陈岳峰，苗夺谦，李文，等．基于概念的词汇情感倾向识别方法［Ｊ］．智能系统学报，２０１１，６（６）：４８９⁃４９３．ＣＨＥＮＹｕｅｆｅｎｇ，ＭＩＡＯＤｕｏｑｉａｎ，ＬＩＷｅｎ，ｅｔａｌ．Ｓｅｍａｎｔｉｃｏｒｉｅｎｔａｔｉｏｎｃｏｍｐｕｔｉｎｇｂａｓｅｄｏｎｃｏｎｃｅｐｔｓ［Ｊ］．ＣＡＡＩＴｒａｎｓ⁃ ａｃｔｉｏｎｓｏｎＩｎｔｅｌｌｉｇｅｎｔＳｙｓｔｅｍｓ，２０１１，６（６）：４８９⁃４９３．作者简介：方然，男，１９８８年生，硕士研究生，主要研究方向为自然语言处理、智能信息处理、数据挖掘． ·２１２· 智能系统学报第８卷

第3期方然，等：一种基于情感的中文微博话题检测方法 ·213· 苗夺谦.男，1964年生，教授.博土张志飞，男，1986年生，博士研究生导师，中国计算机学会高级会员、中生，主要研究方向为文本挖掘、自然语国人工智能学会理事、上海市计算机学言处理. 会理事.主要研究方向为智能信息处理粗糙集、粒计算、网络智能、数据挖掘等.已主持完成国家级、省部级自然科学基金与科技攻关项目多项，并参与完成国家“973”计划项目1项、“863”计划项目2项等.曾获国家教委科技进步三等奖、教育部科技进步一等奖、上海市科技发明一等奖、重庆市自然科学一等奖等.发表学术论文160余篇，其中被CI、 EI检索80余篇，出版教材及学术著作9部，授权专利9项. 第8届中国生物识别学术会议(CCBR2013) The 8th Chinese Conference on Biometric Recognition CCBR2013) 生物识别是模式识别、图像处理、人工智能等学科领域的前沿方向，同时也是保障国家和公共安全的战略高新技术、电子信息产业的新增长点.中国生物识别学术会议从2000年开始在北京、杭州、西安、北京、广州先后成功主办过7届，有力推动了我国生物识别的学科发展和应用推广，同时为国内生物识别学术界和产业界同行提供了一个交流与合作的平台.第8届中国生物识别学术会议(CCBR2013)由山东大学、中国科学院自动化研究所和中国人工智能学会联合主办，将于2013年11月16一17日在济南举行.本届会议向广大科技工作者公开征集优秀学术论文（英文），大会录用的稿件将由Springer出版社的Lecture Notes in Computer Sciences(LNCS)图书系列出版，并被EI和ISTP检索. 征文范围生物特征获取装置指纹识别静脉识别生物识别过程的人机交互虹膜识别其他生物特征的识别与处理生物特征质量评价说话人识别多模态生物识别与信息融合生物特征信号质量增强笔迹（含签名）识别生物特征数据库建设与合成基于生物特征的情感计算步态识别生物特征识别应用与系统人脸检测、识别与跟踪掌纹识别其他相关内容重要日期投稿截止日期：2013年7月5日录用通知日期：2013年8月20日会议召开日期：2013年11月16一17日联系我们联系人：袭肖明通信地址：山东济南市舜华路中段山东大学计算机学院电话：15069056021 邮箱：ccbr2013@sdu.eu.cn 网 http://ccbr2013.sdu.edu.cn

苗夺谦，男，１９６４年生，教授，博士生导师，中国计算机学会高级会员、中国人工智能学会理事、上海市计算机学会理事．主要研究方向为智能信息处理、粗糙集、粒计算、网络智能、数据挖掘等．已主持完成国家级、省部级自然科学基金与科技攻关项目多项，并参与完成国家“９７３”计划项目１项、“８６３”计划项目２项等．曾获国家教委科技进步三等奖、教育部科技进步一等奖、上海市科技发明一等奖、重庆市自然科学一等奖等．发表学术论文１６０余篇，其中被ＳＣＩ、ＥＩ检索８０余篇，出版教材及学术著作９部，授权专利９项．张志飞，男，１９８６年生，博士研究生，主要研究方向为文本挖掘、自然语言处理．第８届中国生物识别学术会议（ＣＣＢＲ２０１３）Ｔｈｅ８ｔｈＣｈｉｎｅｓｅＣｏｎｆｅｒｅｎｃｅｏｎＢｉｏｍｅｔｒｉｃＲｅｃｏｇｎｉｔｉｏｎ（ＣＣＢＲ２０１３）生物识别是模式识别、图像处理、人工智能等学科领域的前沿方向，同时也是保障国家和公共安全的战略高新技术、电子信息产业的新增长点．中国生物识别学术会议从２０００年开始在北京、杭州、西安、北京、广州先后成功主办过７届，有力推动了我国生物识别的学科发展和应用推广，同时为国内生物识别学术界和产业界同行提供了一个交流与合作的平台．第８届中国生物识别学术会议（ＣＣＢＲ２０１３）由山东大学、中国科学院自动化研究所和中国人工智能学会联合主办，将于２０１３年１１月１６—１７日在济南举行．本届会议向广大科技工作者公开征集优秀学术论文（英文），大会录用的稿件将由Ｓｐｒｉｎｇｅｒ出版社的ＬｅｃｔｕｒｅＮｏｔｅｓｉｎＣｏｍｐｕｔｅｒＳｃｉｅｎｃｅｓ（ＬＮＣＳ）图书系列出版，并被ＥＩ和ＩＳＴＰ检索．征文范围生物特征获取装置生物识别过程的人机交互生物特征质量评价生物特征信号质量增强基于生物特征的情感计算人脸检测、识别与跟踪指纹识别虹膜识别说话人识别笔迹（含签名）识别步态识别掌纹识别静脉识别其他生物特征的识别与处理多模态生物识别与信息融合生物特征数据库建设与合成生物特征识别应用与系统其他相关内容重要日期投稿截止日期：２０１３年７月５日录用通知日期：２０１３年８月２０日会议召开日期：２０１３年１１月１６—１７日联系我们联系人：袭肖明通信地址：山东济南市舜华路中段山东大学计算机学院电话：１５０６９０５６０２１邮箱：ｃｃｂｒ２０１３＠ｓｄｕ．ｅｄｕ．ｃｎ网址ｈｔｔｐ：／／ｃｃｂｒ２０１３．ｓｄｕ．ｅｄｕ．ｃｎ第３期方然，等：一种基于情感的中文微博话题检测方法 ·２１３·

点击下载完整版文档（PDF格式）

已到末页，全文结束

点击下载（PDF格式）

浏览记录