正在加载图片...
第4期 程传鹏,等:情感倾向判断中基准词的选择 ·353. 采用KNN分类的方法,以这些情感基准词作为 : KNN分类器的特征词,特征词的加权方法为 基 -同义词1同义词2同义词-同义词n tft,d)×log(N/n,) W(t,d)= 词 ∑,e4[t,d)×log(NWm,)】 式中:W(t,d)为情感词t在在语料d中的权重,而 f(t,d)为t在d中的词频,N为文档的总数,n,为语 图3基准词同义扩展 料中出现t的文档数 Fig.3 Synonym expansions of standard words 试验中,词语相似度的计算公式B,sim,(S, 3实验及评价 S2)中B1=0.6,B2=0.2,B3=0.2,sim,(P1,P2)中入1、 从网上的评论中搜集到4个领域的中文数据 入2取了3组值: 集,分别是:国内某知名网上商城中对某款电子产品 1)入1=0.6,入2=0.4: 的用户评价作为测试语料1,新浪网财经论坛中对 2)入1=0.5,A2=0.5; 某只股票的用户评价作为测试语料2,携程旅行网 3)入1=0.4,入2=0.6. 上对某个酒店的用户评价作为测试语料3,搜狐体 sim,(P1,P2)公式中a1、a2也分别取了3组值: 育上对某个比赛规则的用户评价作为测试语料4.其 1)a1=0.6、a2=0.4; 中,测试语料1包含正面评价3690条,负面评价 2)a1=0.7、a2=0.3; 4721条;测试语料2包含正面评价4215条,负面评 3)a1=0.5、2=0.5. 价3976条:测试语料3包含正面评价2876条,负 在构造邻接矩阵G时,入取值为0.75. 面评价3128条:测试语料4包含正面评价4134 用的评价指标为 条,负面评价3157条.以本文所选择的基准词与文 献[2]所选择的基准词和文献[3]所选择的基准词 准确率= -×100%. 进行情感判断比较.其中文献[2]的基准词是由人工 N 选择的,所选择的40对基准词如下所示: 式中:Nc=能正确找出文本倾向的总数:N,=测试文 “健康、安全、天下第一、美丽、超级、保险、卫 本的总数.KNN分类中K的取值分别为1O00、 生、天使、英雄、精选、快乐、权威、稳定、优秀、高级、 1200、1400、1500,分别采用40组人工选择的基准 精英、最好、最佳、幸福、容易、高手、文明、积极、著 词对、由词典构造的基准词对和本文所选择的40组 名、漂亮、完美、真实、简单、和平、开通、先进、便宜、 情感词对分别作为特征词,对4组语料进行情感倾 优质、欢乐、美好、良好、不错、出色、成熟、完善”. 向分类.分类准确率的结果比较如图4~7所示 “合作、黑客、疯狂、错误、事故、非法、失败、背 由于本文在选择基准词时,考虑到了情感词的 后、麻烦、不良、病人、恶意、色情、暴力、黄色、浪费、 情感歧义、情感度、情感倾向性.本文所提出的方法 落后、漏洞、有害、讨厌、自负、不安、魔鬼、花样、野 在准确率上都要优于其他2种方法,因而本文的方 蛮、陷阱、不当、腐败、无情、失误、淫秽、流氓、虚假、 法具备有一定的实用性.图4~7的实验数据的比较 残酷、变态、脆弱、不合格、愚人、恶劣、恶魔” 结果,也验证了该结论 1.0r 文献[3]中所选择的基准词是通过词典进行构 造的,如下所示: 0.8 “好、安全、不错、喜欢、加速、舒适、豪华、满意、 0.6 爱、解决、风格、优势、保证、全新、实在、舒服、稳定、 方便、品质、提升、乐趣、省油、先进、成功、漂亮、最 0.4 好、保护、好车、值得、良好、满足、享受、出色、提高、 ◆一人工选择的基准词 适合、平稳、轻松、优点、完美、实用” 0.2 ■由词典构造的基准词 一本文所选择的基准词 “碰撞、噪音、事故、毛病、不好、严重、下降、缺 0.8 1.0 点、不够、死、不足、故障、缺陷、郁闷、撞击、断裂、失 12141610 K 望、担心、倒、车祸、遗憾、怀疑、不行、变形、断、危险、 图4对测试语料1的准确率比较 震动、损失、噪声、麻烦、冲击、隐患、后悔、恐怕、粗 Fig.4 Accuracy comparison for test corpus 1 糙、颠簸、造成、难看、不类、伤害”.图 3 基准词同义扩展 Fig.3 Synonym expansions of standard words 3 实验及评价 从网上的评论中搜集到 4 个领域的中文数据 集,分别是:国内某知名网上商城中对某款电子产品 的用户评价作为测试语料 1,新浪网财经论坛中对 某只股票的用户评价作为测试语料 2,携程旅行网 上对某个酒店的用户评价作为测试语料 3,搜狐体 育上对某个比赛规则的用户评价作为测试语料 4.其 中,测试语料 1 包含正面评价 3 690 条,负面评价 4 721条;测试语料 2 包含正面评价 4 215 条,负面评 价 3 976 条;测试语料 3 包含正面评价 2 876 条,负 面评价 3 128 条;测试语料 4 包含正面评价 4 134 条,负面评价 3 157 条.以本文所选择的基准词与文 献[2]所选择的基准词和文献[3]所选择的基准词 进行情感判断比较.其中文献[2]的基准词是由人工 选择的,所选择的 40 对基准词如下所示: “健康、安全、天下第一、美丽、超级、保险、卫 生、天使、英雄、精选、快乐、权威、稳定、优秀、高级、 精英、最好、最佳、幸福、容易、高手、文明、积极、著 名、漂亮、完美、真实、简单、和平、开通、先进、便宜、 优质、欢乐、美好、良好、不错、出色、成熟、完善”. “合作、黑客、疯狂、错误、事故、非法、失败、背 后、麻烦、不良、病人、恶意、色情、暴力、黄色、浪费、 落后、漏洞、有害、讨厌、自负、不安、魔鬼、花样、野 蛮、陷阱、不当、腐败、无情、失误、淫秽、流氓、虚假、 残酷、变态、脆弱、不合格、愚人、恶劣、恶魔”. 文献[3]中所选择的基准词是通过词典进行构 造的,如下所示: “好、安全、不错、喜欢、加速、舒适、豪华、满意、 爱、解决、风格、优势、保证、全新、实在、舒服、稳定、 方便、品质、提升、乐趣、省油、先进、成功、漂亮、最 好、保护、好车、值得、良好、满足、享受、出色、提高、 适合、平稳、轻松、优点、完美、实用”. “碰撞、噪音、事故、毛病、不好、严重、下降、缺 点、不够、死、不足、故障、缺陷、郁闷、撞击、断裂、失 望、担心、倒、车祸、遗憾、怀疑、不行、变形、断、危险、 震动、损失、噪声、麻烦、冲击、隐患、后悔、恐怕、粗 糙、颠簸、造成、难看、不爽、伤害”. 采用 KNN 分类的方法,以这些情感基准词作为 KNN 分类器的特征词,特征词的加权方法为 W(t,d) = tf(t,d) × log(N/ nt) ∑t∈d [tf(t,d) × log(N/ nt) ] 2 . 式中:W(t,d)为情感词 t 在在语料 d 中的权重,而 tf(t,d)为 t 在 d 中的词频,N 为文档的总数,nt 为语 料中出现 t 的文档数. 试验中,词语相似度的计算公式∑ 3 i = 1 βi simi( S1 , S2 )中 β1 = 0.6,β2 = 0.2,β3 = 0.2,sims(P1 ,P2 )中 λ1 、 λ2 取了 3 组值: 1)λ1 = 0.6,λ2 = 0.4; 2)λ1 = 0.5,λ2 = 0.5; 3)λ1 = 0.4,λ2 = 0.6. sims(P1 ,P2 )公式中 α1 、α2 也分别取了 3 组值: 1)α1 = 0.6、α2 = 0.4; 2)α1 = 0.7、α2 = 0.3; 3)α1 = 0.5、α2 = 0.5. 在构造邻接矩阵 G 时,λ 取值为 0.75. 用的评价指标为 准确率 = NC NT × 100%. 式中:NC =能正确找出文本倾向的总数;NT = 测试文 本的 总 数. KNN 分 类 中 K 的 取 值 分 别 为 1 000、 1 200、1 400、1 500,分别采用 40 组人工选择的基准 词对、由词典构造的基准词对和本文所选择的 40 组 情感词对分别作为特征词,对 4 组语料进行情感倾 向分类.分类准确率的结果比较如图 4~7 所示. 由于本文在选择基准词时,考虑到了情感词的 情感歧义、情感度、情感倾向性.本文所提出的方法 在准确率上都要优于其他 2 种方法,因而本文的方 法具备有一定的实用性.图 4 ~ 7 的实验数据的比较 结果,也验证了该结论. 图 4 对测试语料 1 的准确率比较 Fig.4 Accuracy comparison for test corpus 1 第 4 期 程传鹏,等:情感倾向判断中基准词的选择 ·353·
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有