正在加载图片...
542 智能系统学报 第11卷 Form∈M (210, 在已知情感种子词中 weight(w)= Forn∈N 0.5 其他 按式(5)采样每个词的主题 (12) Until收敛or达到最大迭代次数 当一个词的权重大于1时,表明其作用在采样 分别按照式(6)和式(7)计算0、P 中将会被增强:小于1时,其重要性降低。若将全部 Fork∈K 权重置为1,则为一般的吉布斯采样。 Fors∈S 方法1和方法3均能将“舒适”、“实惠”等词赋 按式(8)计算主题k的情感倾向E(k) 以较大权重,将部分没有情感色彩的词如“服务 If E(k)>0 员”、“酒店”等赋以较小权重,但对于未收录的情感 T1=T1+0 词汇如“很脏”、“破”等,方法3表现不佳。方法2 If E(k)<0 将提高出现次数较少的罕见词的权重,而同时降低 T2=T2+0g 高频情感词和高频非情感词的权重。综上,3种方 Form∈M 法中PI加权最适用于本文,故以下实验中采用的 If Ta.>Tm.2 均是PM加权方式。 文档情感为正面 3.3WLDA和LSM模型对比 Else 在主题模型中,通常以各个主题下的关键词来 文档情感为负面 表征该主题的含义。表3为采用语料1时WLDA 3实验结果与分析 与LSM模型的关键词对比。 表3WLDA和LSM关键词 3.1实验设置 Table 3 Keywords of WLDA and LSM 语料1为中科院谭松波等收集整理的酒店评论 模型 正面 负面 语料,从中随机选取带有正向和负向情感倾向标注 的评论各500篇:语料2为从互联网爬取的酒店评 不错方便热情 差携程不知道 论11197篇,包含正向文本5891篇和负向文本 免费酒店满意 不能房间根本 5306篇。WLDA和JST模型的正面和负面情感种 总体房间舒服 打电话酒店电话 WLDA 干净挺下次 太前台只能 子词来自知网的《中文情感分析用词语集》。实验 舒适特色周到 告诉不好不要 前,首先对语料进行了分词、去停用词等预处理。 安静推荐很快 洗澡退房失望 WLDA参数取经验值a=50/K,B=0.01,S= 感动交通 服务员投诉 100。实验以LSM和JST两种经典算法作为对比, LSM模型中,选取ax=50/K,B=0.01:JST模型参数 酒店房间不错 酒店房间前台 设置与文献[6]保持一致。3种算法的迭代次数均 感觉服务入住 入住携程服务员 为1000次。 早餐方便免费 服务晚上客人 3.2加权方式对比 LSM 小吃设施 发现差电话 表2列举了部分词汇在3种加权方式下的权重值。 价格干净环境 退房打电话不能 表2各加权方式下部分词汇权重对比 大餐厅下次 房不知道点这家 Table 2 Term weights in different weighting algorithms 服务员晚上 宾馆 词汇 PMI IDF 二值化 在WLDA中,超过一半的关键词都具有明显的 舒适 3.31 0.63 2 情感倾向,如“不错”、“方便”、“失望”等,使读者更 实惠 2.92 0.55 2 容易区分主题的情感倾向:而在LSM模型中,正如 很脏 2.16 0.71 0.5 上文所提到的,体现情感的词汇出现较少,而“酒 破 3.16 0.70 0.5 店”、“房间”、“人住”等不能表达明确情感色彩的词 服务员 0.10 0.43 0.5 散布在正面和负面两类情感的关键词中。 酒店 0.36 0.19 0.5 表4展示了WLDA和LSM模型对文档的情感 方法1PMI已在上文详述,方法2IDF权重计算 分类精度。在关键词部分,虽然LSM中涉及的具有 方法来自文献[16],方法3的二值化见式(12): 情感倾向的词汇较少,仍可辨别两类关键词的正负For m ∈ M For n ∈ N 按式(5)采样每个词的主题 Until 收敛 or 达到最大迭代次数 分别按照式(6)和式(7)计算 θ、φ For k ∈ K For s ∈ S 按式(8)计算主题 k 的情感倾向 E(k) If E(k) >0 π1 = π1 + θk If E(k) <0 π2 = π2 + θk For m ∈ M If πm,1 > πm,2 文档情感为正面 Else 文档情感为负面 3 实验结果与分析 3.1 实验设置 语料 1 为中科院谭松波等收集整理的酒店评论 语料,从中随机选取带有正向和负向情感倾向标注 的评论各 500 篇;语料 2 为从互联网爬取的酒店评 论 11 197 篇,包含正向文本 5 891 篇和负向文本 5 306篇。 WLDA 和 JST 模型的正面和负面情感种 子词来自知网的《中文情感分析用词语集》。 实验 前,首先对语料进行了分词、去停用词等预处理。 WLDA 参数取经验值 α = 50 / K , β = 0.01, S = 100。 实验以 LSM 和 JST 两种经典算法作为对比, LSM 模型中,选取 α = 50 / K , β = 0.01;JST 模型参数 设置与文献[6]保持一致。 3 种算法的迭代次数均 为 1 000 次。 3.2 加权方式对比 表2 列举了部分词汇在3 种加权方式下的权重值。 表 2 各加权方式下部分词汇权重对比 Table 2 Term weights in different weighting algorithms 词汇 PMI IDF 二值化 舒适 3.31 0.63 2 实惠 2.92 0.55 2 很脏 2.16 0.71 0.5 破 3.16 0.70 0.5 服务员 0.10 0.43 0.5 酒店 0.36 0.19 0.5 方法 1 PMI 已在上文详述,方法 2IDF 权重计算 方法来自文献[16],方法 3 的二值化见式(12): weight(w) = 2w, 在已知情感种子词中 {0.5, 其他 (12) 当一个词的权重大于 1 时,表明其作用在采样 中将会被增强;小于 1 时,其重要性降低。 若将全部 权重置为 1,则为一般的吉布斯采样。 方法 1 和方法 3 均能将“舒适”、“实惠”等词赋 以较大权重,将部分没有情感色彩的词如“ 服务 员”、“酒店”等赋以较小权重,但对于未收录的情感 词汇如“很脏”、“破” 等,方法 3 表现不佳。 方法 2 将提高出现次数较少的罕见词的权重,而同时降低 高频情感词和高频非情感词的权重。 综上,3 种方 法中 PMI 加权最适用于本文,故以下实验中采用的 均是 PMI 加权方式。 3.3 WLDA 和 LSM 模型对比 在主题模型中,通常以各个主题下的关键词来 表征该主题的含义。 表 3 为采用语料 1 时 WLDA 与 LSM 模型的关键词对比。 表 3 WLDA 和 LSM 关键词 Table 3 Keywords of WLDA and LSM 模型 正面 负面 WLDA 不错 方便 热情 免费 酒店 满意 总体 房间 舒服 干净 挺 下次 舒适 特色 周到 安静 推荐 很快 感动 交通 差 携程 不知道 不能 房间 根本 打电话 酒店 电话 太 前台 只能 告诉 不好 不要 洗澡 退房 失望 服务员 投诉 LSM 酒店 房间 不错 感觉 服务 入住 早餐 方便 免费 小 吃 设施 价格 干净 环境 大 餐厅 下次 服务员 晚上 酒店 房间 前台 入住 携程 服务员 服务 晚上 客人 发现 差 电话 退房 打电话 不能 房 不知道 点 这家 宾馆 在 WLDA 中,超过一半的关键词都具有明显的 情感倾向,如“不错”、“方便”、“失望”等,使读者更 容易区分主题的情感倾向;而在 LSM 模型中,正如 上文所提到的,体现情感的词汇出现较少,而“酒 店”、“房间”、“入住”等不能表达明确情感色彩的词 散布在正面和负面两类情感的关键词中。 表 4 展示了 WLDA 和 LSM 模型对文档的情感 分类精度。 在关键词部分,虽然 LSM 中涉及的具有 情感倾向的词汇较少,仍可辨别两类关键词的正负 ·542· 智 能 系 统 学 报 第 11 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有