正在加载图片...
.552 智能系统学报 第11卷 新词出现的,并且没有明显的句式标识词(例如, 析,例如祈使句式、多重否定、反讽句等; “这小偷真是太机智了”),使得对反讽句和转折句 3)挖掘微博用户之间的社交网络关系对情感 的判断比较困难。 分析的影响,通过有关联用户来参与判断情感。 4.4对比分析 参考文献: 通过在同一数据集上对不同模型的实验表明」 多情绪源关联模型能够很好地解决基于情感词判别 [1]PANG Bo,LEE L,VAITHYANATHAN S.Thumbs up?: 方法时效性差的问题,并且在分类时综合考虑了不 sentiment classification using machine learning techniques 同情绪源之间的关联性,提高了分类效果。相对于 [C]//Proceedings of the ACL-02 Conference on Empirical 对比实验2的普通情感词和表情建模的方法,多情 Methods in Natural Language Processing.Stroudsburg,PA, 绪源关联模型通过引入后验概率,利用情感词与表 USA:ACM.2002,10:79-86. [2]DAVE K,LAWRENCE S,PENNOCK D M.Mining the 情符号之间的关联性,加强情感判断性能。另外,使 Peanut gallery:opinion extraction and semantic classifica- 用对比实验1中的VM分类器时,虽然加入了包括 tion of product reviews[C]//Proceedings of the 12th Inter- 表情、否定词在内的多特征,但认为不同特征之间相 national Conference on World Wide Web.Budapest,HU: 互独立。多情绪源关联模型所能解决的一些错分类 ACM.2003:519-528. 问题如表8所示。 [3]YU HONG,HATZIVASSILOGLOU V.Towards answering 表8关联模型分类正确样本 opinion questions:separating facts from opinions and identi- Table 8 Experimental examples fying the polarity of opinion sentences[C]//Proceedings of 错误类别 序号 关联 SVM 3.3 the 2003 Conference on Empirical Methods in Natural Lan- 示例 描述 模型模型模型 guage Processing.Stroudsburg.PA,USA:ACM,2003: 129-136. 情感词与表情 趴在墙上 [4]NA J C,SUI H,KHOO C,et al.Effectiveness of simple 1间的关联关系 不能更萌 正确错误错误 linguistic processing in automatic sentiment classification of 主导分类结果表情:“可怜” product reviews[C]//MCILWAINE I C.Knowledge Organi- 这啥,太不稳 zation and the Global Information Society:Proceedings of 微博包含 定了,又抽风 正确正确 正确 the Eighth International ISKO Conference.Wurzburg,Ger- 否定词 般地自己好了 many:Ergon Verlag,2004:49-54. 祈福。我叫不 [5]WILSON T,WIEBE J,HOFFMANN P.Recognizing con- SVM误判生气!表情:“蜡正确错误正确 textual polarity in phrase-level sentiment analysis[C]//Pro- 3 烛”“生病”“抓狂” ceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. 4 结论及展望 Stroudsburg,PA,USA:ACM,2005:347-354. [6]SCHAPIRE R E,SINGER Y.BoosTexter:a boosting-based 新浪微博作为时下最为流行的社交网站之一, system for text categorization[J.Machine Learning,2000. 不仅是民众钟爱的社交工具,更是研究者挖掘数据 39(2/3):135-168. 的天堂,其商业价值和学术价值都不断升温。本文 [7]TURNEY P D.Thumbs up or thumbs down?:semantic ori- 对微博数据挖掘领域的情感分析进行了研究,提出 entation applied to unsupervised classification of reviews 多情绪源关联模型,针对传统基于词典的方法重新 [C]//Proceedings of the 40th Annual Meeting on Associa- 进行了关联性建模,使得分类准确率相比传统模型 tion for Computational Linguistics.Stroudsburg,PA,USA: (3.3节模型)提高了1.9%:相比多特征SVM提高了 ACM,2002:417-424. [8]朱嫣岚,闵锦,周雅倩,等.基于HowNet的词汇语义倾 2.4%。但该方法仍是较为简单的情感分析方法,就 向计算[J].中文信息学报,2006,20(1):14-20 方法本身而言,也存在很大的提升空间,可以对以下 ZHU Yanlan,MIN Jin,ZHOU Yaqian,et al.Semantic ori- 几个方面进行改进: entation computing based on HowNet[J].Journal of Chinese 1)拓展模型,引入更多情绪源,包括图片和视 information processing,2006,20(1):14-20. 频等,使模型更适合于微博语境。 [9]HU Xia,TANG Jiliang,GAO Huiji,et al.Unsupervised 2)在概率模型中引入更加复杂的语法规则分 sentiment analysis with emotional signals[C]//Proceedings新词出现的,并且没有明显的句式标识词(例如, “这小偷真是太机智了”),使得对反讽句和转折句 的判断比较困难。 4.4 对比分析 通过在同一数据集上对不同模型的实验表明, 多情绪源关联模型能够很好地解决基于情感词判别 方法时效性差的问题,并且在分类时综合考虑了不 同情绪源之间的关联性,提高了分类效果。 相对于 对比实验 2 的普通情感词和表情建模的方法,多情 绪源关联模型通过引入后验概率,利用情感词与表 情符号之间的关联性,加强情感判断性能。 另外,使 用对比实验 1 中的 SVM 分类器时,虽然加入了包括 表情、否定词在内的多特征,但认为不同特征之间相 互独立。 多情绪源关联模型所能解决的一些错分类 问题如表 8 所示。 表 8 关联模型分类正确样本 Table 8 Experimental examples 序号 错误类别 描述 示例 关联 模型 SVM 模型 3.3 模型 1 情感词与表情 间的关联关系 主导分类结果 趴在墙上 不能更萌 表情:“可怜” 正确 错误 错误 2 微博包含 否定词 这啥,太不稳 定了,又抽风 般地自己好了 正确 正确 正确 3 SVM 误判 祈福。 我叫不 生气!! 表情:“蜡 烛”“生病”“抓狂” 正确 错误 正确 4 结论及展望 新浪微博作为时下最为流行的社交网站之一, 不仅是民众钟爱的社交工具,更是研究者挖掘数据 的天堂,其商业价值和学术价值都不断升温。 本文 对微博数据挖掘领域的情感分析进行了研究,提出 多情绪源关联模型,针对传统基于词典的方法重新 进行了关联性建模,使得分类准确率相比传统模型 (3.3 节模型)提高了 1.9%;相比多特征 SVM 提高了 2.4%。 但该方法仍是较为简单的情感分析方法,就 方法本身而言,也存在很大的提升空间,可以对以下 几个方面进行改进: 1)拓展模型,引入更多情绪源,包括图片和视 频等,使模型更适合于微博语境。 2)在概率模型中引入更加复杂的语法规则分 析,例如祈使句式、多重否定、反讽句等; 3)挖掘微博用户之间的社交网络关系对情感 分析的影响,通过有关联用户来参与判断情感。 参考文献: [1] PANG Bo, LEE L, VAITHYANATHAN S. Thumbs up?: sentiment classification using machine learning techniques [C] / / Proceedings of the ACL⁃02 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2002, 10: 79-86. [2] DAVE K, LAWRENCE S, PENNOCK D M. Mining the Peanut gallery: opinion extraction and semantic classifica⁃ tion of product reviews[C] / / Proceedings of the 12th Inter⁃ national Conference on World Wide Web. Budapest, HU: ACM, 2003: 519-528. [3] YU HONG, HATZIVASSILOGLOU V. Towards answering opinion questions: separating facts from opinions and identi⁃ fying the polarity of opinion sentences[C] / / Proceedings of the 2003 Conference on Empirical Methods in Natural Lan⁃ guage Processing. Stroudsburg, PA, USA: ACM, 2003: 129-136. [4]NA J C, SUI H, KHOO C, et al. Effectiveness of simple linguistic processing in automatic sentiment classification of product reviews[C] / / MCILWAINE I C. Knowledge Organi⁃ zation and the Global Information Society: Proceedings of the Eighth International ISKO Conference. Wurzburg, Ger⁃ many: Ergon Verlag, 2004: 49-54. [5]WILSON T, WIEBE J, HOFFMANN P. Recognizing con⁃ textual polarity in phrase⁃level sentiment analysis[C] / / Pro⁃ ceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Stroudsburg, PA, USA: ACM, 2005: 347-354. [6]SCHAPIRE R E, SINGER Y. BoosTexter: a boosting⁃based system for text categorization[J]. Machine Learning, 2000, 39(2 / 3): 135-168. [7]TURNEY P D. Thumbs up or thumbs down?: semantic ori⁃ entation applied to unsupervised classification of reviews [C] / / Proceedings of the 40th Annual Meeting on Associa⁃ tion for Computational Linguistics. Stroudsburg, PA, USA: ACM, 2002: 417-424. [8]朱嫣岚, 闵锦, 周雅倩, 等. 基于 HowNet 的词汇语义倾 向计算[J]. 中文信息学报, 2006, 20(1): 14-20. ZHU Yanlan, MIN Jin, ZHOU Yaqian, et al. Semantic ori⁃ entation computing based on HowNet[J]. Journal of Chinese information processing, 2006, 20(1): 14-20. [9] HU Xia, TANG Jiliang, GAO Huiji, et al. Unsupervised sentiment analysis with emotional signals[C] / / Proceedings ·552· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有