正在加载图片...
第1期 赵文清,等:语义规则在微博热点话题情感分析中的应用 ·123· 个重要特征。根据人们写作习惯和大量语料分析得 变。因此,否定词对情感词0:的影响因子?定义为 知,人们在微博中发表的观点和情感大多是通过情 7(0:)=(-1)9 感词的形式实现,情感词的褒贬也通常代表这句子 1.2.4表情符号特征 的褒贬。 很多微博用户习惯在发布消息时加上一些表情 一般情况下微博文本中都是比较简单的句子, 符号,这些表情符号通常是由微博平台提供,方便用 情感词的倾向就直接决定了这条微博的情感倾向, 户的使用。微博消息中的表情符号被抓取后的表现 情感词的数量和情感强度对每条微博文本的情感倾 形式变为中括号加文本,如表情符号“©”相应文 向有较大的影响,因此仍然采用极性累加的方法,即 本为“嘻嘻”。用户选择不同的表情符号表达了不 通过情感词极性累加公式(1)来计算每条微博的情 同的情感色彩,因此,本文把新浪微博平台提供的常 感极性。 用表情符号分为正向和负向2类。 1.2.2程度副词特征 般情况下,如果一条微博消息包含表情符号, 知网的中文情感分析用词表中提供了程度级别 那么首先选择通过表情符号来判断一条微博的情感 词语,以知网程度级别词语为基础,参考蔺璜对程度 倾向。一条微博中可以包含多个表情符号,因此,首 副词的分类),人工整理所使用的程度副词,并把 先需要对一条微博消息中的正向表情符号个数ep 程度词语分为3个级别。第1级的程度词对所修饰 和负向表情符号个数e、进行统计,并把表情符号对 的情感词的情感强度大大加强,例如“极其”、“最”。 整条微博的情感倾向影响因素δ定义为 第2级的程度词对所修饰的情感词的情感强度是加 δ=ep-ew 强作用,如“很”、“非常”。第3级的程度词对所修 式中:当8>0时,就认为该微博为褒义倾向:当8<0 饰的情感词的情感强度是削弱作用,如“有点”、“稍 时,表明该消息为贬义倾向:否则通过其他特征来判 微”。3个级别程度词对所修饰情感词的情感强度 定该条微博消息的情感倾向。 扩大倍数分别设置为第1级2倍,第2级1.5倍,第 1.2.5情感计算 3级0.5倍。 因为微博文本内容较短,一般都在140字以内, 如果句子中情感词语前面有程度词修饰,那么 通常也只包含一两句话,并且句法分析技术直接用 被修饰的情感词语的情感强度必然发生改变,进而 于微博文本存在错误率较高的问题,所以本文省略 会影响到这个句子的情感强度。一个程度副词后面 了对微博文本进行句法分析,不再分句,从而直接对 可以有多个情感词,同样一个情感词也可以被多个 整条微博进行处理。综合考虑以上几个特征使用式 程度副词所修饰。本文处理程度副词的方法是把情 (2)对一条微博的情感倾向值P(T)进行计算: 感强度加到其后修饰的第1个情感词上,情感强度 对情感词w:的影响因子y定义为 P(w,)×y(,)xn(w,)1,6>0 i=1 y(w:)=ΠD(d) k=1 P(T)= 式中:D(d)为程度副词的情感强度扩大倍数。 -2P(g,)×y()×,)1,8<0 =1 1.2.3否定词特征 6=0 本文参考郝雷红对否定副词范围的界定1),选 /∑P()xY(,)×n(), 取“不是”、“不会”、“不要”、“没有”等30个常见否 (2) 定词作为否定副词表,并将其极性强度设置为-1。 若P(T)计算结果大于零,表明微博为褒义倾向;若 否定词在句子的情感倾向性判断上有着重要作 结果小于零,表明微博为贬义倾向:否则为中性。 用。如果褒义词前面出现否定词,整个词汇的语义 就会发生逆转,进而影响整个句子的情感倾向性。 2实验结果与分析 例如“我喜欢你”,在情感词前面加上否定词“不”, 利用ROST虚拟学习团队开发的新浪微博搜索 整个句子的情感极性就会发生改变。本文处理否定 数据抓取工具,抓取了在伦敦奥运会期间新浪微博 词的方法是将否定加到其后的第1个情感词上,当 上的热点话题“国羽女双输球”的50页共924条相 一个情感词前面出现不只一个否定词时,则根据否 关评论,经过人工识别,其中13条评论与此话题无 定词出现的次数来判断情感词的极性,出现奇数次 关,443条是负面评论,412条是正面评论,还有56 则情感词的极性逆转,否则情感词的极性不发生改 条是中性评论。一条微博中包含褒贬2种态度的取个重要特征。 根据人们写作习惯和大量语料分析得 知,人们在微博中发表的观点和情感大多是通过情 感词的形式实现,情感词的褒贬也通常代表这句子 的褒贬。 一般情况下微博文本中都是比较简单的句子, 情感词的倾向就直接决定了这条微博的情感倾向, 情感词的数量和情感强度对每条微博文本的情感倾 向有较大的影响,因此仍然采用极性累加的方法,即 通过情感词极性累加公式(1)来计算每条微博的情 感极性。 1.2.2 程度副词特征 知网的中文情感分析用词表中提供了程度级别 词语,以知网程度级别词语为基础,参考蔺璜对程度 副词的分类[12] ,人工整理所使用的程度副词,并把 程度词语分为 3 个级别。 第 1 级的程度词对所修饰 的情感词的情感强度大大加强,例如“极其”、“最”。 第 2 级的程度词对所修饰的情感词的情感强度是加 强作用,如“很”、“非常”。 第 3 级的程度词对所修 饰的情感词的情感强度是削弱作用,如“有点”、“稍 微”。 3 个级别程度词对所修饰情感词的情感强度 扩大倍数分别设置为第 1 级 2 倍,第 2 级 1.5 倍,第 3 级 0.5 倍。 如果句子中情感词语前面有程度词修饰,那么 被修饰的情感词语的情感强度必然发生改变,进而 会影响到这个句子的情感强度。 一个程度副词后面 可以有多个情感词,同样一个情感词也可以被多个 程度副词所修饰。 本文处理程度副词的方法是把情 感强度加到其后修饰的第 1 个情感词上,情感强度 对情感词 wi 的影响因子 γ 定义为 γ(wi) = ∏ m k = 1 D(dk) 式中: D(dk) 为程度副词的情感强度扩大倍数。 1.2.3 否定词特征 本文参考郝雷红对否定副词范围的界定[13] ,选 取“不是”、“不会”、“不要”、“没有”等 30 个常见否 定词作为否定副词表,并将其极性强度设置为-1。 否定词在句子的情感倾向性判断上有着重要作 用。 如果褒义词前面出现否定词,整个词汇的语义 就会发生逆转,进而影响整个句子的情感倾向性。 例如“我喜欢你”,在情感词前面加上否定词“不”, 整个句子的情感极性就会发生改变。 本文处理否定 词的方法是将否定加到其后的第 1 个情感词上,当 一个情感词前面出现不只一个否定词时,则根据否 定词出现的次数来判断情感词的极性,出现奇数次 则情感词的极性逆转,否则情感词的极性不发生改 变。 因此,否定词对情感词 wi 的影响因子 η 定义为 η(wi) = ( - 1) n 1.2.4 表情符号特征 很多微博用户习惯在发布消息时加上一些表情 符号,这些表情符号通常是由微博平台提供,方便用 户的使用。 微博消息中的表情符号被抓取后的表现 形式变为中括号加文本,如表情符号“ ”相应文 本为“嘻嘻”。 用户选择不同的表情符号表达了不 同的情感色彩,因此,本文把新浪微博平台提供的常 用表情符号分为正向和负向 2 类。 一般情况下,如果一条微博消息包含表情符号, 那么首先选择通过表情符号来判断一条微博的情感 倾向。 一条微博中可以包含多个表情符号,因此,首 先需要对一条微博消息中的正向表情符号个数 eP 和负向表情符号个数 eN 进行统计,并把表情符号对 整条微博的情感倾向影响因素 δ 定义为 δ = eP - eN 式中:当 δ>0 时,就认为该微博为褒义倾向;当δ<0 时,表明该消息为贬义倾向;否则通过其他特征来判 定该条微博消息的情感倾向。 1.2.5 情感计算 因为微博文本内容较短,一般都在 140 字以内, 通常也只包含一两句话,并且句法分析技术直接用 于微博文本存在错误率较高的问题,所以本文省略 了对微博文本进行句法分析,不再分句,从而直接对 整条微博进行处理。 综合考虑以上几个特征使用式 (2)对一条微博的情感倾向值 P(T) 进行计算: P(T) = |∑ n i = 1 P(wi) × γ(wi) × η(wi) | , δ > 0 -|∑ n i = 1 P(wi) × γ(wi) × η(wi) | , δ < 0 ∑ n i = 1 P(wi) × γ(wi) × η(wi) , δ = 0 ì î í ï ï ï ï ï ï ï ï (2) 若 P(T) 计算结果大于零,表明微博为褒义倾向;若 结果小于零,表明微博为贬义倾向;否则为中性。 2 实验结果与分析 利用 ROST 虚拟学习团队开发的新浪微博搜索 数据抓取工具,抓取了在伦敦奥运会期间新浪微博 上的热点话题“国羽女双输球”的 50 页共 924 条相 关评论,经过人工识别,其中 13 条评论与此话题无 关,443 条是负面评论,412 条是正面评论,还有 56 条是中性评论。 一条微博中包含褒贬 2 种态度的取 第 1 期 赵文清,等:语义规则在微博热点话题情感分析中的应用 ·123·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有