正在加载图片...
·122, 智能系统学报 第9卷 的方法),2009年Alec等)首次尝试通过训练表 号,通常一条微博的情感与它所含表情符号的情感 情符号特征,使用比较常用的3种机器学习的方法 是相符的。 (naive Bayes、maximum entropy和SVM))对Twitter 本文从新浪微博抓取某个热点话题的相关评 消息进行情感分类,并取得了不错的效果。而Da- 论,对其采用基于情感词典和基于语义规则2种方 vidiv等把Tweets中的标签和表情符号作为特征, 法进行情感分析。 通过训练一个基于监督学习的、与K近邻(KNN)相 1.1基于情感词典的方法 似的分类器,来判断Tweets消息的情感倾向性。 词典资源是基于情感词典方法的前提,本文使 Jiang等)采用内容、情感词典和主题相关3类特征 用中文最具权威的知网]词典资源,知网于2007 对Twitters进行主客观和情感极性的分类,并提出 年发布了最新版本“情感分析用词语集(beta版)”, 了基于图模型的算法来优化情感分类结果。在中文 其中中文情感分析用词语集包含中文正面情感词语 微博的情感分析研究方面,谢丽星[)通过从新浪微 836个、负面情感词语1254个、中文正面评价词语 博提供的API接口抓取实验数据,对微博的链接、 3730个、负面评价词语3116个。知网虽然对情感 表情、情感词和上下文等主题无关的特征的有效性 词语进行了褒贬分类,但是没有标注情感极性强度。 及多种分类方法进行了研究,最终选定4种特征共 本文将知网中褒义词语的情感极性值设为0.8,贬义 用及基于SVM的方法对微博消息进行了情感分类。 词语的情感极性值设为-0.8。 刘志明等[通过对比3种机器学习算法、3种特征 基于情感词典的方法首先对每条微博进行分 选取算法和3种特征项权重计算方法,最终选用 词、词性标注等预处理,然后依据情感词典判断每条 SVM、IG以及T℉-DF作为特征项权重对中文微博 微博中出现的所有情感词以及其强度,并采用极性 进行情感分析。 累加的方法计算每条微博的情感极性,如式(1): 以上是基于监督的机器学习方法对微博进行情 P(T)= 2P(w) (1) 感分析,这种方法的第1步是将文本向量化,文本向 i= 量化的前提是特征之间的相互独立,这样势必会造 式中:w:为一条微博中所含的情感词;P(w:)为一 成在分析文本时忽视词语的上下文联系。与基于监 个情感词的情感极性:P(T)为一条微博的情感极 督学习的情感分析相比,基于规则和无监督学 性,若结果大于零,表明微博为褒义倾向,若结果小 习-]的研究不是很多。沈阳等[)从饭否网抓取实 于零,表明结果为贬义倾向,否则为中性。 验数据,通过定义态度词典、权重词典、程度词典、否 1.2基于语义规则的方法 定词典和连接词典来计算每条微博的情感指数,该 基于情感词典的方法是对独立的词语进行分 方法存在的缺点是每个句子中的修饰程度词和否定 析,也就是把词语从句子中孤立出来,忽略词语的上 词只是简单的统计,并没有针对到具体所修饰的情 下文关系,因此,称之为词语的原极性。如果孤立地 感词。机器学习的方法需要大规模标注的训练集, 看待这些词语,并不能正确地反映微博消息的情感 同时对训练集的质量要求也很高。 倾向,必须将上下文的联系考虑进来,才能够提高分 基于以上分析,本文提出一种基于语义规则的 析的准确度。因此,在词语情感计算的基础上,应该 方法对微博热点话题进行情感分析。事实上,文本 考虑上下文中能够改变词语情感倾向或者情感强度 情感分析和文本分类最大的区别就在于语义相关性 的修饰副词等。本文将会改变词语极性强度的修饰 和上下文相关性,使用情感词语和词语的上下文关 副词分为2类:第1类是否定词,它会改变极性倾 系来进行文本情感分析才更为合理。 向,如“不”:第2类是程度词,它会改变极性强度, 如“很”、“非常”等山。 1 微博情感分析 另外,微博消息文本有其自身的特征,如包含网 传统文本(如新闻网页、博客等)虽然只是简单 页链接(hp:c/2Wpsk)、表情符号(巴),标 的文字描述,但文本一般较长。与传统文本不同,微 签(#孙杨#)等,本文只考虑与微博消息文本的情感 博文本简短,字数一般在140字以内,并且形式多 极性相关的特征,如表情符号特征,而像网页链接、 样,一条微博中除了文字信息,还可以包含网页链 标签这些特征对微博文本的情感极性影响不大的, 接、图片信息、标签、表情符号等。微博的这些新特 则不予以考虑。 征对微博文本的情感分析会产生一定影响,例如人 1.2.1情感词 们判断一条微博的情感的第一反应就是通过表情符 情感词是判断微博文本是否具有情感倾向的一的方法[1] ,2009 年 Alec 等[2] 首次尝试通过训练表 情符号特征,使用比较常用的 3 种机器学习的方法 (naive Bayes、maximum entropy 和 SVM)) 对 Twitter 消息进行情感分类,并取得了不错的效果。 而 Da⁃ vidiv 等[3]把 Tweets 中的标签和表情符号作为特征, 通过训练一个基于监督学习的、与 K 近邻(KNN)相 似的分类器,来判断 Tweets 消息的情感倾向性。 Jiang 等[4]采用内容、情感词典和主题相关 3 类特征 对 Twitters 进行主客观和情感极性的分类,并提出 了基于图模型的算法来优化情感分类结果。 在中文 微博的情感分析研究方面,谢丽星[5] 通过从新浪微 博提供的 API 接口抓取实验数据,对微博的链接、 表情、情感词和上下文等主题无关的特征的有效性 及多种分类方法进行了研究,最终选定 4 种特征共 用及基于 SVM 的方法对微博消息进行了情感分类。 刘志明等[6]通过对比 3 种机器学习算法、3 种特征 选取算法和 3 种特征项权重计算方法,最终选用 SVM、IG 以及 TF-IDF 作为特征项权重对中文微博 进行情感分析。 以上是基于监督的机器学习方法对微博进行情 感分析,这种方法的第 1 步是将文本向量化,文本向 量化的前提是特征之间的相互独立,这样势必会造 成在分析文本时忽视词语的上下文联系。 与基于监 督学习 的 情 感 分 析 相 比, 基 于 规 则 和 无 监 督 学 习[7⁃8]的研究不是很多。 沈阳等[9] 从饭否网抓取实 验数据,通过定义态度词典、权重词典、程度词典、否 定词典和连接词典来计算每条微博的情感指数,该 方法存在的缺点是每个句子中的修饰程度词和否定 词只是简单的统计,并没有针对到具体所修饰的情 感词。 机器学习的方法需要大规模标注的训练集, 同时对训练集的质量要求也很高。 基于以上分析,本文提出一种基于语义规则的 方法对微博热点话题进行情感分析。 事实上,文本 情感分析和文本分类最大的区别就在于语义相关性 和上下文相关性,使用情感词语和词语的上下文关 系来进行文本情感分析才更为合理。 1 微博情感分析 传统文本(如新闻网页、博客等)虽然只是简单 的文字描述,但文本一般较长。 与传统文本不同,微 博文本简短,字数一般在 140 字以内,并且形式多 样,一条微博中除了文字信息,还可以包含网页链 接、图片信息、标签、表情符号等。 微博的这些新特 征对微博文本的情感分析会产生一定影响,例如人 们判断一条微博的情感的第一反应就是通过表情符 号,通常一条微博的情感与它所含表情符号的情感 是相符的。 本文从新浪微博抓取某个热点话题的相关评 论,对其采用基于情感词典和基于语义规则 2 种方 法进行情感分析。 1.1 基于情感词典的方法 词典资源是基于情感词典方法的前提,本文使 用中文最具权威的知网[10] 词典资源,知网于 2007 年发布了最新版本“情感分析用词语集(beta 版)”, 其中中文情感分析用词语集包含中文正面情感词语 836 个、负面情感词语 1 254 个、中文正面评价词语 3 730 个、负面评价词语 3 116 个。 知网虽然对情感 词语进行了褒贬分类,但是没有标注情感极性强度。 本文将知网中褒义词语的情感极性值设为 0.8,贬义 词语的情感极性值设为-0.8。 基于情感词典的方法首先对每条微博进行分 词、词性标注等预处理,然后依据情感词典判断每条 微博中出现的所有情感词以及其强度,并采用极性 累加的方法计算每条微博的情感极性,如式(1): P(T) = ∑ n i = 1 P(wi) (1) 式中: wi 为一条微博中所含的情感词; P(wi) 为一 个情感词的情感极性; P(T) 为一条微博的情感极 性,若结果大于零,表明微博为褒义倾向,若结果小 于零,表明结果为贬义倾向,否则为中性。 1.2 基于语义规则的方法 基于情感词典的方法是对独立的词语进行分 析,也就是把词语从句子中孤立出来,忽略词语的上 下文关系,因此,称之为词语的原极性。 如果孤立地 看待这些词语,并不能正确地反映微博消息的情感 倾向,必须将上下文的联系考虑进来,才能够提高分 析的准确度。 因此,在词语情感计算的基础上,应该 考虑上下文中能够改变词语情感倾向或者情感强度 的修饰副词等。 本文将会改变词语极性强度的修饰 副词分为 2 类:第 1 类是否定词,它会改变极性倾 向,如“不”;第 2 类是程度词,它会改变极性强度, 如“很”、“非常”等[11] 。 另外,微博消息文本有其自身的特征,如包含网 页链接(http: / / t.cn / zWpsuJx )、表情符号( )、标 签(#孙杨#)等,本文只考虑与微博消息文本的情感 极性相关的特征,如表情符号特征,而像网页链接、 标签这些特征对微博文本的情感极性影响不大的, 则不予以考虑。 1.2.1 情感词 情感词是判断微博文本是否具有情感倾向的一 ·122· 智 能 系 统 学 报 第 9 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有