正在加载图片...
648 智能系统学报 第12卷 可以提示词之间潜在的关系。 度词典候选集进行评价与过滤,选取其中评分大于 为自动构建情感维度词典,首先手工挑选少量 阈值的候选集中的情感词,放入相应的情感维度词 高质量的情感维度值种子词(不超过10个)和4个 典中: 依存关系模板。其中,关于每个情感维度值的种子 ∑c(w,u) DIC∑ c(v,u 词包含词的原型和词性信息。加入词性信息是因 f八v∈DICs)= u壁DIC 为相同的词在词性不同的时候含义大不相同,例 ∑c(, IDICI∑c(u,w) 如:sentence做动词时,意思为“判刑”,维度是 (1) Blameworthy;但是做名词时,意思为“句子”,可以认 4)不断重复步骤2)~3),直到不再有新的情感 为不是情感词。4个依存关系包括conj_and、conj 维度词加入; or、prep_in和parataxis。其含义分别是词之间的并 5)利用WordNet中的派生以及还原关系扩充 列and关系、词之间的并列or关系、词之间的介词 情感维度词典。 i关系和2个词在分句中所处的并列关系。然而, 构建情感维度词典过程中的输入是海量的文 仅仅依靠依存关系可能会有一些问题。比如,简单 本和关于某个情感维度值的种子词,输出是针对这 的并列关系“wonderful and exciting'”中wonderful和 个情感维度值建立起来的情感维度词典。这里涉 exciting是同义词关系;而在另一个短语“young and 及3个维度,6个维度值,情感维度值可以是“合意 old”中,young和old有着强烈的反义词关系而不是 的”“不合意的”“值得称赞的”“应受责备的”“可 同义词关系。由此可见,尽管模板comj_and可以提 能的”和“确定的”,分别简写为“D”“U”“P”“B” 示词之间存在语义关系,但是这种语义关系到底是 “L”“C”。其中L、C情感维度词典的构建仅仅依赖 致还是恰好相反需要借助词典来进一步判断。 WordNet中词之间的语义关系,并且Likelihood维度 因此,基于词典的方法不但用来寻找候选的情感维 的默认值为C。 度词,而且用来判断候选情感维度词的情感维度值 循环初始时挑选的高质量情感维度种子词为 的合理性。 1)和2)提供一个良好的基础。1)和2)的目的是分 在第一轮循环开始,对于每种情感维度值挑选 别基于词典和基于依存关系获得候选的情感维度 少量高质量的种子词,作为初始的情感维度词典输 词。3)通过计算一个评分函数保证进入情感维度 入。情感维度词典包括DIC。(合意的)、DIC,(不 词典的词的质量。最后,在情感维度词典中的词基 合意的)、DIC。(值得称赞的)、DIC:(应受责备 于WordNet中的同义、反义、还原和派生关系进行扩 的)。挑选情感维度种子词有多种策略,可以通过 充。比如,如果“harm”是在情感维度词典中维度值 手工查看数据集凭经验进行挑选或者通过计算词 为“blameworthy”的词,扩充它的派生词“harmful”到 出现的频率挑选出频率高并且包含情感维度值的 情感维度词典中,同时它的情感维度值也为 词作为种子词。 “blameworthy”。 2.1.1构建过程 评分函数f(v∈DICk)主要是基于共现的思 在每一轮循环中,用WordNet和手工挑选的模 想,如果待评价的情感词与某一已知情感维度值的 板不断地抽取不同维度值下的情感词。在每一轮 情感词共同出现的次数越多,则该情感词的维度值 循环后,利用一个基于共现思想的评分函数来评估 就更有可能成为该情感维度值。在每一轮循环中, 抽取的情感维度词。情感维度词典的构建过程 评分函数利用WordNet词典和句法依存关系得到候 如下。 选集,通过设定共现次数的阈值日,过滤掉低质量 1)针对情感维度词典中每个新加入的情感维 的候选情感维度词。这里v是当前待评价的候选情 度词,基于WordNet词典,找出其同义词和反义词, 感词,u是已知情感维度值为k的情感维度词典中 并将其同义词和反义词分别放入相应的情感维度 的词,k的取值可以是“D”“U”“P”“B”。DICg是 词典候选集中。 当前生成的维度值为k的情感维度词典,|DIC4|表 2)利用前面提到的4个句法依存关系从输入 示情感维度词典元素个数。DIC是当前所有情感维 的海量文本中找出与所述相应的情感维度词典中 度词典的并集,其元素个数为|DIC。函数c(v,u) 已有的情感维度词具有依存关系的新情感维度词: 表示词v和词u在同一语句中共现的次数。评分函 放入相应的情感维度词典候选集中。 数中词,是否属于某类情感维度词典的计算既考虑 3)利用(1)式所示的评分函数对相应的情感维 了)与该类情感维度词共现的次数(作为后验),也可以提示词之间潜在的关系。 为自动构建情感维度词典,首先手工挑选少量 高质量的情感维度值种子词(不超过 10 个)和 4 个 依存关系模板。 其中,关于每个情感维度值的种子 词包含词的原型和词性信息。 加入词性信息是因 为相同的词在词性不同的时候含义大不相同,例 如: sentence 做 动 词 时, 意 思 为 “ 判 刑”, 维 度 是 Blameworthy;但是做名词时,意思为“句子”,可以认 为不是情感词。 4 个依存关系包括 conj_and、conj_ or、prep_in 和 parataxis。 其含义分别是词之间的并 列 and 关系、词之间的并列 or 关系、词之间的介词 in 关系和 2 个词在分句中所处的并列关系。 然而, 仅仅依靠依存关系可能会有一些问题。 比如,简单 的并列关系“wonderful and exciting”中 wonderful 和 exciting 是同义词关系;而在另一个短语“ young and old”中,young 和 old 有着强烈的反义词关系而不是 同义词关系。 由此可见,尽管模板 conj_and 可以提 示词之间存在语义关系,但是这种语义关系到底是 一致还是恰好相反需要借助词典来进一步判断。 因此,基于词典的方法不但用来寻找候选的情感维 度词,而且用来判断候选情感维度词的情感维度值 的合理性。 在第一轮循环开始,对于每种情感维度值挑选 少量高质量的种子词,作为初始的情感维度词典输 入。 情感维度词典包括 DICD (合意的)、 DICU (不 合意的)、 DICP ( 值得称赞的)、 DICB ( 应受责备 的)。 挑选情感维度种子词有多种策略,可以通过 手工查看数据集凭经验进行挑选或者通过计算词 出现的频率挑选出频率高并且包含情感维度值的 词作为种子词。 2.1.1 构建过程 在每一轮循环中,用 WordNet 和手工挑选的模 板不断地抽取不同维度值下的情感词。 在每一轮 循环后,利用一个基于共现思想的评分函数来评估 抽取的情感维度词。 情感维度词典的构建过程 如下。 1)针对情感维度词典中每个新加入的情感维 度词,基于 WordNet 词典,找出其同义词和反义词, 并将其同义词和反义词分别放入相应的情感维度 词典候选集中。 2)利用前面提到的 4 个句法依存关系从输入 的海量文本中找出与所述相应的情感维度词典中 已有的情感维度词具有依存关系的新情感维度词, 放入相应的情感维度词典候选集中。 3)利用(1)式所示的评分函数对相应的情感维 度词典候选集进行评价与过滤,选取其中评分大于 阈值的候选集中的情感词,放入相应的情感维度词 典中: f(v ∈ DICk) = ∑u∈DICk c(v,u) ∑u c(v,u) + DICk ∑u∉DIC c(v,u) DIC ∑u c(v,u) (1) 4)不断重复步骤 2) ~3),直到不再有新的情感 维度词加入; 5) 利用 WordNet 中的派生以及还原关系扩充 情感维度词典。 构建情感维度词典过程中的输入是海量的文 本和关于某个情感维度值的种子词,输出是针对这 个情感维度值建立起来的情感维度词典。 这里涉 及 3 个维度,6 个维度值,情感维度值可以是“合意 的” “不合意的” “值得称赞的” “应受责备的” “可 能的”和“确定的”,分别简写为“D” “U” “P” “B” “L” “C”。 其中 L、C 情感维度词典的构建仅仅依赖 WordNet 中词之间的语义关系,并且 Likelihood 维度 的默认值为 C。 循环初始时挑选的高质量情感维度种子词为 1)和 2)提供一个良好的基础。 1)和 2)的目的是分 别基于词典和基于依存关系获得候选的情感维度 词。 3)通过计算一个评分函数保证进入情感维度 词典的词的质量。 最后,在情感维度词典中的词基 于 WordNet 中的同义、反义、还原和派生关系进行扩 充。 比如,如果“harm”是在情感维度词典中维度值 为“blameworthy”的词,扩充它的派生词“harmful”到 情感 维 度 词 典 中, 同 时 它 的 情 感 维 度 值 也 为 “blameworthy”。 评分函数 f(v ∈ DICk) 主要是基于共现的思 想,如果待评价的情感词与某一已知情感维度值的 情感词共同出现的次数越多,则该情感词的维度值 就更有可能成为该情感维度值。 在每一轮循环中, 评分函数利用 WordNet 词典和句法依存关系得到候 选集,通过设定共现次数的阈值 θ1 ,过滤掉低质量 的候选情感维度词。 这里 v 是当前待评价的候选情 感词, u 是已知情感维度值为 k 的情感维度词典中 的词, k 的取值可以是“D” “U” “P” “B”。 DICk 是 当前生成的维度值为 k 的情感维度词典, DICk 表 示情感维度词典元素个数。 DIC 是当前所有情感维 度词典的并集,其元素个数为 DIC 。 函数 c(v,u) 表示词 v 和词 u 在同一语句中共现的次数。 评分函 数中词 v 是否属于某类情感维度词典的计算既考虑 了 v 与该类情感维度词共现的次数(作为后验),也 ·648· 智 能 系 统 学 报 第 12 卷
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有