新词出现的，并且没有明显的句式标识词（例如， “这小偷真是太机智了”），使

正在加载图片...

.552 智能系统学报第11卷新词出现的，并且没有明显的句式标识词（例如，析，例如祈使句式、多重否定、反讽句等； “这小偷真是太机智了”)，使得对反讽句和转折句 3)挖掘微博用户之间的社交网络关系对情感的判断比较困难。分析的影响，通过有关联用户来参与判断情感。 4.4对比分析参考文献：通过在同一数据集上对不同模型的实验表明」多情绪源关联模型能够很好地解决基于情感词判别 [1]PANG Bo,LEE L,VAITHYANATHAN S.Thumbs up?: 方法时效性差的问题，并且在分类时综合考虑了不 sentiment classification using machine learning techniques 同情绪源之间的关联性，提高了分类效果。相对于 [C]//Proceedings of the ACL-02 Conference on Empirical 对比实验2的普通情感词和表情建模的方法，多情 Methods in Natural Language Processing.Stroudsburg,PA, 绪源关联模型通过引入后验概率，利用情感词与表 USA:ACM.2002,10:79-86. [2]DAVE K,LAWRENCE S,PENNOCK D M.Mining the 情符号之间的关联性，加强情感判断性能。另外，使 Peanut gallery:opinion extraction and semantic classifica- 用对比实验1中的VM分类器时，虽然加入了包括 tion of product reviews[C]//Proceedings of the 12th Inter- 表情、否定词在内的多特征，但认为不同特征之间相 national Conference on World Wide Web.Budapest,HU: 互独立。多情绪源关联模型所能解决的一些错分类 ACM.2003:519-528. 问题如表8所示。 [3]YU HONG,HATZIVASSILOGLOU V.Towards answering 表8关联模型分类正确样本 opinion questions:separating facts from opinions and identi- Table 8 Experimental examples fying the polarity of opinion sentences[C]//Proceedings of 错误类别序号关联 SVM 3.3 the 2003 Conference on Empirical Methods in Natural Lan- 示例描述模型模型模型 guage Processing.Stroudsburg.PA,USA:ACM,2003: 129-136. 情感词与表情趴在墙上 [4]NA J C,SUI H,KHOO C,et al.Effectiveness of simple 1间的关联关系不能更萌正确错误错误 linguistic processing in automatic sentiment classification of 主导分类结果表情：“可怜” product reviews[C]//MCILWAINE I C.Knowledge Organi- 这啥，太不稳 zation and the Global Information Society:Proceedings of 微博包含定了，又抽风正确正确正确 the Eighth International ISKO Conference.Wurzburg,Ger- 否定词般地自己好了 many:Ergon Verlag,2004:49-54. 祈福。我叫不 [5]WILSON T,WIEBE J,HOFFMANN P.Recognizing con- SVM误判生气！表情：“蜡正确错误正确 textual polarity in phrase-level sentiment analysis[C]//Pro- 3 烛”“生病”“抓狂” ceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. 4 结论及展望 Stroudsburg,PA,USA:ACM,2005:347-354. [6]SCHAPIRE R E,SINGER Y.BoosTexter:a boosting-based 新浪微博作为时下最为流行的社交网站之一， system for text categorization[J.Machine Learning,2000. 不仅是民众钟爱的社交工具，更是研究者挖掘数据 39(2/3):135-168. 的天堂，其商业价值和学术价值都不断升温。本文 [7]TURNEY P D.Thumbs up or thumbs down?:semantic ori- 对微博数据挖掘领域的情感分析进行了研究，提出 entation applied to unsupervised classification of reviews 多情绪源关联模型，针对传统基于词典的方法重新 [C]//Proceedings of the 40th Annual Meeting on Associa- 进行了关联性建模，使得分类准确率相比传统模型 tion for Computational Linguistics.Stroudsburg,PA,USA: (3.3节模型)提高了1.9%：相比多特征SVM提高了 ACM,2002:417-424. [8]朱嫣岚，闵锦，周雅倩，等.基于HowNet的词汇语义倾 2.4%。但该方法仍是较为简单的情感分析方法，就向计算[J].中文信息学报，2006,20(1)：14-20 方法本身而言，也存在很大的提升空间，可以对以下 ZHU Yanlan,MIN Jin,ZHOU Yaqian,et al.Semantic ori- 几个方面进行改进： entation computing based on HowNet[J].Journal of Chinese 1)拓展模型，引入更多情绪源，包括图片和视 information processing,2006,20(1):14-20. 频等，使模型更适合于微博语境。 [9]HU Xia,TANG Jiliang,GAO Huiji,et al.Unsupervised 2)在概率模型中引入更加复杂的语法规则分 sentiment analysis with emotional signals[C]//Proceedings新词出现的，并且没有明显的句式标识词（例如， “这小偷真是太机智了”），使得对反讽句和转折句的判断比较困难。４．４对比分析通过在同一数据集上对不同模型的实验表明，多情绪源关联模型能够很好地解决基于情感词判别方法时效性差的问题，并且在分类时综合考虑了不同情绪源之间的关联性，提高了分类效果。相对于对比实验２的普通情感词和表情建模的方法，多情绪源关联模型通过引入后验概率，利用情感词与表情符号之间的关联性，加强情感判断性能。另外，使用对比实验１中的ＳＶＭ分类器时，虽然加入了包括表情、否定词在内的多特征，但认为不同特征之间相互独立。多情绪源关联模型所能解决的一些错分类问题如表８所示。表８关联模型分类正确样本Ｔａｂｌｅ８Ｅｘｐｅｒｉｍｅｎｔａｌｅｘａｍｐｌｅｓ序号错误类别描述示例关联模型ＳＶＭ模型３．３模型１情感词与表情间的关联关系主导分类结果趴在墙上不能更萌表情：“可怜” 正确错误错误２微博包含否定词这啥，太不稳定了，又抽风般地自己好了正确正确正确３ＳＶＭ误判祈福。我叫不生气！！表情：“蜡烛”“生病”“抓狂” 正确错误正确４结论及展望新浪微博作为时下最为流行的社交网站之一，不仅是民众钟爱的社交工具，更是研究者挖掘数据的天堂，其商业价值和学术价值都不断升温。本文对微博数据挖掘领域的情感分析进行了研究，提出多情绪源关联模型，针对传统基于词典的方法重新进行了关联性建模，使得分类准确率相比传统模型（３．３节模型）提高了１．９％；相比多特征ＳＶＭ提高了２．４％。但该方法仍是较为简单的情感分析方法，就方法本身而言，也存在很大的提升空间，可以对以下几个方面进行改进：１）拓展模型，引入更多情绪源，包括图片和视频等，使模型更适合于微博语境。２）在概率模型中引入更加复杂的语法规则分析，例如祈使句式、多重否定、反讽句等；３）挖掘微博用户之间的社交网络关系对情感分析的影响，通过有关联用户来参与判断情感。参考文献：［１］ＰＡＮＧＢｏ，ＬＥＥＬ，ＶＡＩＴＨＹＡＮＡＴＨＡＮＳ．Ｔｈｕｍｂｓｕｐ？：ｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｍａｃｈｉｎｅｌｅａｒｎｉｎｇｔｅｃｈｎｉｑｕｅｓ［Ｃ］／／ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＡＣＬ⁃０２ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ：ＡＣＭ，２００２，１０：７９－８６．［２］ＤＡＶＥＫ，ＬＡＷＲＥＮＣＥＳ，ＰＥＮＮＯＣＫＤＭ．ＭｉｎｉｎｇｔｈｅＰｅａｎｕｔｇａｌｌｅｒｙ：ｏｐｉｎｉｏｎｅｘｔｒａｃｔｉｏｎａｎｄｓｅｍａｎｔｉｃｃｌａｓｓｉｆｉｃａ⁃ ｔｉｏｎｏｆｐｒｏｄｕｃｔｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１２ｔｈＩｎｔｅｒ⁃ ｎａｔｉｏｎａｌＣｏｎｆｅｒｅｎｃｅｏｎＷｏｒｌｄＷｉｄｅＷｅｂ．Ｂｕｄａｐｅｓｔ，ＨＵ：ＡＣＭ，２００３：５１９－５２８．［３］ＹＵＨＯＮＧ，ＨＡＴＺＩＶＡＳＳＩＬＯＧＬＯＵＶ．Ｔｏｗａｒｄｓａｎｓｗｅｒｉｎｇｏｐｉｎｉｏｎｑｕｅｓｔｉｏｎｓ：ｓｅｐａｒａｔｉｎｇｆａｃｔｓｆｒｏｍｏｐｉｎｉｏｎｓａｎｄｉｄｅｎｔｉ⁃ ｆｙｉｎｇｔｈｅｐｏｌａｒｉｔｙｏｆｏｐｉｎｉｏｎｓｅｎｔｅｎｃｅｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ２００３ＣｏｎｆｅｒｅｎｃｅｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎ⁃ ｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ：ＡＣＭ，２００３：１２９－１３６．［４］ＮＡＪＣ，ＳＵＩＨ，ＫＨＯＯＣ，ｅｔａｌ．Ｅｆｆｅｃｔｉｖｅｎｅｓｓｏｆｓｉｍｐｌｅｌｉｎｇｕｉｓｔｉｃｐｒｏｃｅｓｓｉｎｇｉｎａｕｔｏｍａｔｉｃｓｅｎｔｉｍｅｎｔｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｐｒｏｄｕｃｔｒｅｖｉｅｗｓ［Ｃ］／／ＭＣＩＬＷＡＩＮＥＩＣ．ＫｎｏｗｌｅｄｇｅＯｒｇａｎｉ⁃ ｚａｔｉｏｎａｎｄｔｈｅＧｌｏｂａｌＩｎｆｏｒｍａｔｉｏｎＳｏｃｉｅｔｙ：ＰｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅＥｉｇｈｔｈＩｎｔｅｒｎａｔｉｏｎａｌＩＳＫＯＣｏｎｆｅｒｅｎｃｅ．Ｗｕｒｚｂｕｒｇ，Ｇｅｒ⁃ ｍａｎｙ：ＥｒｇｏｎＶｅｒｌａｇ，２００４：４９－５４．［５］ＷＩＬＳＯＮＴ，ＷＩＥＢＥＪ，ＨＯＦＦＭＡＮＮＰ．Ｒｅｃｏｇｎｉｚｉｎｇｃｏｎ⁃ ｔｅｘｔｕａｌｐｏｌａｒｉｔｙｉｎｐｈｒａｓｅ⁃ｌｅｖｅｌｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓ［Ｃ］／／Ｐｒｏ⁃ ｃｅｅｄｉｎｇｓｏｆｔｈｅＣｏｎｆｅｒｅｎｃｅｏｎＨｕｍａｎＬａｎｇｕａｇｅＴｅｃｈｎｏｌｏｇｙａｎｄＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ：ＡＣＭ，２００５：３４７－３５４．［６］ＳＣＨＡＰＩＲＥＲＥ，ＳＩＮＧＥＲＹ．ＢｏｏｓＴｅｘｔｅｒ：ａｂｏｏｓｔｉｎｇ⁃ｂａｓｅｄｓｙｓｔｅｍｆｏｒｔｅｘｔｃａｔｅｇｏｒｉｚａｔｉｏｎ［Ｊ］．ＭａｃｈｉｎｅＬｅａｒｎｉｎｇ，２０００，３９（２／３）：１３５－１６８．［７］ＴＵＲＮＥＹＰＤ．Ｔｈｕｍｂｓｕｐｏｒｔｈｕｍｂｓｄｏｗｎ？：ｓｅｍａｎｔｉｃｏｒｉ⁃ ｅｎｔａｔｉｏｎａｐｐｌｉｅｄｔｏｕｎｓｕｐｅｒｖｉｓｅｄｃｌａｓｓｉｆｉｃａｔｉｏｎｏｆｒｅｖｉｅｗｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ４０ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｎＡｓｓｏｃｉａ⁃ ｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ．Ｓｔｒｏｕｄｓｂｕｒｇ，ＰＡ，ＵＳＡ：ＡＣＭ，２００２：４１７－４２４．［８］朱嫣岚，闵锦，周雅倩，等．基于ＨｏｗＮｅｔ的词汇语义倾向计算［Ｊ］．中文信息学报，２００６，２０（１）：１４－２０．ＺＨＵＹａｎｌａｎ，ＭＩＮＪｉｎ，ＺＨＯＵＹａｑｉａｎ，ｅｔａｌ．Ｓｅｍａｎｔｉｃｏｒｉ⁃ ｅｎｔａｔｉｏｎｃｏｍｐｕｔｉｎｇｂａｓｅｄｏｎＨｏｗＮｅｔ［Ｊ］．ＪｏｕｒｎａｌｏｆＣｈｉｎｅｓｅｉｎｆｏｒｍａｔｉｏｎｐｒｏｃｅｓｓｉｎｇ，２００６，２０（１）：１４－２０．［９］ＨＵＸｉａ，ＴＡＮＧＪｉｌｉａｎｇ，ＧＡＯＨｕｉｊｉ，ｅｔａｌ．Ｕｎｓｕｐｅｒｖｉｓｅｄｓｅｎｔｉｍｅｎｔａｎａｌｙｓｉｓｗｉｔｈｅｍｏｔｉｏｎａｌｓｉｇｎａｌｓ［Ｃ］／／Ｐｒｏｃｅｅｄｉｎｇｓ ·５５２· 智能系统学报第１１卷

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】基于多情绪源关联模型的中文微博情感分析