图３基准词同义扩展Ｆｉｇ．３Ｓｙｎｏｎｙｍｅｘｐａｎｓｉｏｎｓ

正在加载图片...

第4期程传鹏，等：情感倾向判断中基准词的选择 ·353. 采用KNN分类的方法，以这些情感基准词作为 : KNN分类器的特征词，特征词的加权方法为基 -同义词1同义词2同义词-同义词n tft,d)×log(N/n,) W(t,d)= 词 ∑，e4[t,d)×log(NWm,)】式中：W(t,d)为情感词t在在语料d中的权重，而 f(t,d)为t在d中的词频，N为文档的总数，n,为语图3基准词同义扩展料中出现t的文档数 Fig.3 Synonym expansions of standard words 试验中，词语相似度的计算公式B,sim,(S, 3实验及评价 S2)中B1=0.6,B2=0.2,B3=0.2,sim,(P1,P2)中入1、从网上的评论中搜集到4个领域的中文数据入2取了3组值：集，分别是：国内某知名网上商城中对某款电子产品 1)入1=0.6，入2=0.4：的用户评价作为测试语料1，新浪网财经论坛中对 2)入1=0.5，A2=0.5; 某只股票的用户评价作为测试语料2，携程旅行网 3)入1=0.4，入2=0.6. 上对某个酒店的用户评价作为测试语料3，搜狐体 sim,(P1,P2)公式中a1、a2也分别取了3组值：育上对某个比赛规则的用户评价作为测试语料4.其 1)a1=0.6、a2=0.4; 中，测试语料1包含正面评价3690条，负面评价 2)a1=0.7、a2=0.3; 4721条；测试语料2包含正面评价4215条，负面评 3)a1=0.5、2=0.5. 价3976条：测试语料3包含正面评价2876条，负在构造邻接矩阵G时，入取值为0.75. 面评价3128条：测试语料4包含正面评价4134 用的评价指标为条，负面评价3157条.以本文所选择的基准词与文献[2]所选择的基准词和文献[3]所选择的基准词准确率= -×100%. 进行情感判断比较.其中文献[2]的基准词是由人工 N 选择的，所选择的40对基准词如下所示：式中：Nc=能正确找出文本倾向的总数：N,=测试文 “健康、安全、天下第一、美丽、超级、保险、卫本的总数.KNN分类中K的取值分别为1O00、生、天使、英雄、精选、快乐、权威、稳定、优秀、高级、 1200、1400、1500,分别采用40组人工选择的基准精英、最好、最佳、幸福、容易、高手、文明、积极、著词对、由词典构造的基准词对和本文所选择的40组名、漂亮、完美、真实、简单、和平、开通、先进、便宜、情感词对分别作为特征词，对4组语料进行情感倾优质、欢乐、美好、良好、不错、出色、成熟、完善”. 向分类.分类准确率的结果比较如图4~7所示 “合作、黑客、疯狂、错误、事故、非法、失败、背由于本文在选择基准词时，考虑到了情感词的后、麻烦、不良、病人、恶意、色情、暴力、黄色、浪费、情感歧义、情感度、情感倾向性.本文所提出的方法落后、漏洞、有害、讨厌、自负、不安、魔鬼、花样、野在准确率上都要优于其他2种方法，因而本文的方蛮、陷阱、不当、腐败、无情、失误、淫秽、流氓、虚假、法具备有一定的实用性.图4~7的实验数据的比较残酷、变态、脆弱、不合格、愚人、恶劣、恶魔” 结果，也验证了该结论 1.0r 文献[3]中所选择的基准词是通过词典进行构造的，如下所示： 0.8 “好、安全、不错、喜欢、加速、舒适、豪华、满意、 0.6 爱、解决、风格、优势、保证、全新、实在、舒服、稳定、方便、品质、提升、乐趣、省油、先进、成功、漂亮、最 0.4 好、保护、好车、值得、良好、满足、享受、出色、提高、 ◆一人工选择的基准词适合、平稳、轻松、优点、完美、实用” 0.2 ■由词典构造的基准词一本文所选择的基准词 “碰撞、噪音、事故、毛病、不好、严重、下降、缺 0.8 1.0 点、不够、死、不足、故障、缺陷、郁闷、撞击、断裂、失 12141610 K 望、担心、倒、车祸、遗憾、怀疑、不行、变形、断、危险、图4对测试语料1的准确率比较震动、损失、噪声、麻烦、冲击、隐患、后悔、恐怕、粗 Fig.4 Accuracy comparison for test corpus 1 糙、颠簸、造成、难看、不类、伤害”.图３基准词同义扩展Ｆｉｇ．３Ｓｙｎｏｎｙｍｅｘｐａｎｓｉｏｎｓｏｆｓｔａｎｄａｒｄｗｏｒｄｓ３实验及评价从网上的评论中搜集到４个领域的中文数据集，分别是：国内某知名网上商城中对某款电子产品的用户评价作为测试语料１，新浪网财经论坛中对某只股票的用户评价作为测试语料２，携程旅行网上对某个酒店的用户评价作为测试语料３，搜狐体育上对某个比赛规则的用户评价作为测试语料４．其中，测试语料１包含正面评价３６９０条，负面评价４７２１条；测试语料２包含正面评价４２１５条，负面评价３９７６条；测试语料３包含正面评价２８７６条，负面评价３１２８条；测试语料４包含正面评价４１３４条，负面评价３１５７条．以本文所选择的基准词与文献［２］所选择的基准词和文献［３］所选择的基准词进行情感判断比较．其中文献［２］的基准词是由人工选择的，所选择的４０对基准词如下所示： “健康、安全、天下第一、美丽、超级、保险、卫生、天使、英雄、精选、快乐、权威、稳定、优秀、高级、精英、最好、最佳、幸福、容易、高手、文明、积极、著名、漂亮、完美、真实、简单、和平、开通、先进、便宜、优质、欢乐、美好、良好、不错、出色、成熟、完善”． “合作、黑客、疯狂、错误、事故、非法、失败、背后、麻烦、不良、病人、恶意、色情、暴力、黄色、浪费、落后、漏洞、有害、讨厌、自负、不安、魔鬼、花样、野蛮、陷阱、不当、腐败、无情、失误、淫秽、流氓、虚假、残酷、变态、脆弱、不合格、愚人、恶劣、恶魔”．文献［３］中所选择的基准词是通过词典进行构造的，如下所示： “好、安全、不错、喜欢、加速、舒适、豪华、满意、爱、解决、风格、优势、保证、全新、实在、舒服、稳定、方便、品质、提升、乐趣、省油、先进、成功、漂亮、最好、保护、好车、值得、良好、满足、享受、出色、提高、适合、平稳、轻松、优点、完美、实用”． “碰撞、噪音、事故、毛病、不好、严重、下降、缺点、不够、死、不足、故障、缺陷、郁闷、撞击、断裂、失望、担心、倒、车祸、遗憾、怀疑、不行、变形、断、危险、震动、损失、噪声、麻烦、冲击、隐患、后悔、恐怕、粗糙、颠簸、造成、难看、不爽、伤害”．采用ＫＮＮ分类的方法，以这些情感基准词作为ＫＮＮ分类器的特征词，特征词的加权方法为Ｗ（ｔ，ｄ）＝ｔｆ（ｔ，ｄ） × ｌｏｇ（Ｎ／ｎｔ） ∑ｔ∈ｄ [ｔｆ（ｔ，ｄ） × ｌｏｇ（Ｎ／ｎｔ） ] ２．式中：Ｗ（ｔ，ｄ）为情感词ｔ在在语料ｄ中的权重，而ｔｆ（ｔ，ｄ）为ｔ在ｄ中的词频，Ｎ为文档的总数，ｎｔ为语料中出现ｔ的文档数．试验中，词语相似度的计算公式∑ ３ｉ＝１ βｉｓｉｍｉ（Ｓ１，Ｓ２）中 β１＝０．６，β２＝０．２，β３＝０．２，ｓｉｍｓ（Ｐ１，Ｐ２）中 λ１、 λ２取了３组值：１）λ１＝０．６，λ２＝０．４；２）λ１＝０．５，λ２＝０．５；３）λ１＝０．４，λ２＝０．６．ｓｉｍｓ（Ｐ１，Ｐ２）公式中 α１、α２也分别取了３组值：１）α１＝０．６、α２＝０．４；２）α１＝０．７、α２＝０．３；３）α１＝０．５、α２＝０．５．在构造邻接矩阵Ｇ时，λ 取值为０．７５．用的评价指标为准确率＝ＮＣＮＴ × １００％．式中：ＮＣ＝能正确找出文本倾向的总数；ＮＴ＝测试文本的总数．ＫＮＮ分类中Ｋ的取值分别为１０００、１２００、１４００、１５００，分别采用４０组人工选择的基准词对、由词典构造的基准词对和本文所选择的４０组情感词对分别作为特征词，对４组语料进行情感倾向分类．分类准确率的结果比较如图４～７所示．由于本文在选择基准词时，考虑到了情感词的情感歧义、情感度、情感倾向性．本文所提出的方法在准确率上都要优于其他２种方法，因而本文的方法具备有一定的实用性．图４～７的实验数据的比较结果，也验证了该结论．图４对测试语料１的准确率比较Ｆｉｇ．４Ａｃｃｕｒａｃｙｃｏｍｐａｒｉｓｏｎｆｏｒｔｅｓｔｃｏｒｐｕｓ１第４期程传鹏，等：情感倾向判断中基准词的选择 ·３５３·

<<向上翻页向下翻页>>

点击下载：【自然语言处理与理解】情感倾向判断中基准词的选择