正在加载图片...
·492 智能系统学报 第6卷 当concept_p1,concept-.P2,…,concept-P.为褒义基 发现褒义基准词中包含99组概念,贬义基准词中包 准概念,concept_.n1,concept_.n2,…,concept_.nm为贬 含127组概念,故实验1将基准概念对数设置在 义基准概念时,对于一个词汇W,它的语义倾向度计 90~140(这样的话比较次数相当,时间消耗差不 算公式为 多),并与基于词汇的语义倾向度分析方法的准确 度进行比较,结果如表3所示. orientation(W)=>Similarity(concept_pi,W)- 表3实验结果 Table 3 Results of experiments o Similarity(eancep) (2) 总体 褒义词 贬义词 准确率 准确率 准确率 3 实验结果与分析 40对基准词 73.9 89.4 57.7 3.1实验数据 90对基准概念 76.2 91.1 60.6 100对基准概念 78.3 90.8 65.1 为实验方便且易于比较,本文仅考虑中文,不考 110对基准概念 78.5 95.0 61.3 虑其他语言.且需要两大类数据源,一是褒贬义词 120对基准概念 80.5 91.8 68.8 表,二是褒贬义概念表。 130对基准概念 81.4 95.6 66.7 实验中使用的褒贬义词表是HowNet免费对外 140对基准概念 81.9 95.5 67.5 提供的4份褒贬义词表,如表2所示.其中前2份表 对于总体准确率,运用基准词的方式获得了 组成贬义词组,共计4559个词;后2份表组成褒义 73.9%的准确率,而使用基准概念的方式下最好结果 词组,共计4739个词. 达到了81.9%,比传统方式高出了8%.基于概念的语 表2褒贬义词表 义倾向度分析方法效果明显好于基于词汇的方法, Table 2 List of sentimental words 出现上述结果有2个主要的原因: 文件名 词汇数量极性 1)基于概念的语义倾向度分析方法使用的都 HowNet Sentiment_MinusFeeling C 1297 贬义 是带有褒贬含义的概念,针对性更强,对倾向度分析 HowNet Sentiment MinusSentiment C 3261 贬义 的作用更大、更直接 HowNet Sentiment PlusFeeling_C 873 褒义 2)在HowNet知识库中,一个褒义词可能不仅 HowNet Sentiment PlusSentiment C 3866 褒义 包含褒义概念,还包含贬义概念和无褒贬含义的概 在HowNet概念中有一栏专门的属性S_C,指明 念,在进行倾向性分析的时候,仅它的褒义概念会起 该概念的中文语义倾向(相应还有属性SE,指明英 正面作用,而贬义概念和无褒贬含义的概念则有可 文的语义倾向,在此先不作考虑).它共有4种值: 能会有反作用或是没有作用:同样的问题也存在于 MinusFeeling、MinusSentiment、.PlusFeeling、PlusSenti- 些贬义词中.使用基于概念的语义倾向度分析方 ment.此外对中性的概念该属性为空.故将S_C值 法,可以消除反作用,同时避免不必要的时间损耗 为前2个值的概念全部作为贬义概念,共计355个 对于褒义词和贬义词各自的准确率,不管何种方式 概念,将S_C值为后2个值的概念全部作为褒义概 褒义词准确率明显高于相应的贬义词准确率,基于 念,共计305个概念 相似度的方法似乎很难避免褒、贬义词准确率偏斜 3.2实验方法及评价指标 现象的出现.但是相对基于词汇的方法贬义词仅有 实验利用算法2和式(2)进行,根据不同的基 57.7%准确率,基于概念的方法在准确率上有明显 准概念对数进行实验并作比较 的改进,在一定程度上纠正了准确率偏斜现象 需要注意的是,由于K-MEDOIDS的初始中心 此外,与基于词汇的语义倾向度分析方法相比, 点是随机的,对于不同的基准概念对数,本文采用 基于概念的语义倾向度分析方法还体现出2个优 10次实验求取平均数作为最后的结果。 点:其一是自动化程度高,在利用聚类算法寻找基准 在评价部分,实验不仅根据总体准确率来评价 概念的过程中,基准概念是从HowNet所提供的所 实验效果,还将比较褒义词和贬义词的准确率,如果 有褒贬义概念中自动地选取,而非人为指定基准词, 两者自身的准确率越高,彼此的差距越小,就说明实 在认同HowNet是一种通用工具的情况下,寻找基 验效果越好。 准概念的过程可认为是一种只需指定若干参数即可 3.3实验结果与讨论 自动化的过程;其二是分析速度更快,在所使用的概 3.3.1使用基准词方法的性能 念数大致相同,且认为每次HowNet计算2个词相 为与基于词汇的语义倾向度分析方法进行比 似度的时间复杂度相同的情况下,基于概念的语义 较,先对文献[7]中提到的40对基准词进行统计, 倾向度分析方法减少了分析词汇、提取概念的过程
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有