正在加载图片...
第6期 唐琴,等:基于Chunk-CRF的情感问答研究 ·507 基于情感问题本身的一些具有区别性的特征, 首先,对于表2中的两类问题的分类,一方面通 采用了如表3所示的Chunk标注体系, 过构建一些启发式规则,如B-NH与B-ADJP的出现 表3 Chunk标注体系 与否,以及具有一些评价意味的指示词短语如“令 Table 3 Chunk annotation scheme 人喜欢”,“受欢迎”等进行区分.同时对于比较复杂 Chunk 说明 的表2中的问题3与问题6的分类则是通过对两个 B-VP 动词短语 问题中提取出的B-NP的处理来实现的. B-QP 疑问词短语 在这里通过引入“知网”中的用于情感分析的 B-ADVP 副词短语 中文词库1对B-NP进行处理.例如,问题3中所识 B-PP 介词短语 别出的B-NP为“好听的歌”,而问题6中识别出的 B-RP 代词 B-NP 除人名外单一的名词或名词短语 B-NP为“尴尬的事情”,两个B-NP短语的起始的形 B-UP 助词 容词分别为“好听”和“尴尬”,这两个形容词在文献 B-NT 时间词短语 [10]中分别属于正面评价词语与负面情感词语.这 B-NL 处所词短语 样这种含有评价词语的情感问题则优先属于第一类 B-ADJP 形容词短语 问题,而只含有正负面情感词语的情感问题则被分 B-NH 焦点人物的人名 到第5类问题中. B-CP 连词短语 其次,在表1中,除表2中的两类问题之外,其 在这个Chunk标注体系中,将焦点人名与其他 他类情感问题的特征则相对要明显些.这里通过对 的名词或短语进行区别标注,并且B-NP中的形容 模型中所识别出的特定的Chunk应用简单的规则 词并不将其单独标记为B-ADP,如包含在B-NP中 加以区分,这些规则主要基于情感问题的疑问词和 如表2中问题4中的“心爱的颜色”将被标注为B- 问题中常见的特征词(见表1). NP;而问题2中的“好听”则将被标注为B-ADJP,这 在情感问题的Chunk标注结果的基础上,通过 样的标注主要是为了加强B-ADP的分类能力.而 引入启发式规则和语义情感资源,实现了对几种主 对于含有形容词的B-NP,其中的形容词则会在后续 要类型的情感问题的分类.同时,作者假定,在 的应用规则分类的阶段加以利用.B-NH与B-RP的 Chunk标注结果与分类结果的基础上,由于情感问 标注则是基于表2中问题1所具有的区别于其他问 题被标注为一个Chunk序列,从而能够针对特定类 题的特征 别的情感问题提取出如表4所示的特定的Chunk序 在利用CRF模型识别出情感问题的Chunk标 列而作为问题的主干.在抽取答案以及情感倾向的 注序列后,对识别的序列应用一些启发式规则侧,来对 判别的过程中作为指示信息而进一步加以利用)」 情感问题进行分类, 表4情感问题Chunk标注示例 Table 4 Examples of Chunk annotations 情感问题类州 例句 Cnk标注结界 关键的Chnk 伊能静喜欢看选的业? 事实类 伊能静喜欢看谁的书? VP OP UP NP NH.VP,OP,NP 潘琉柏的哪首歌好听? 评价类 潘玮柏的哪首歌好听? NH.NP.ADJP NH UP OP NP ADIP 胡歌和明道谁更帅? 比较类 制歌和明道谁更脚? NH CP NH QP ADVP ADJP NH,OP,ADJP 羽泉是不是最成功的组合 是否类 羽泉是不是最成功的组合? NH VP ADVP NP NH.ADVP.NP 原因类 大S为什么会和蓝正龙分手? 大S为住么会和蓝正龙分手? 除OP之外的组块 NH OP VP NII VP 2.4情感问题分类实验 的答案.另外,为了扩大和丰富语料,作者实验室其 作者搜集有关娱乐明星问题共1927个,其中 他成员对事实类和原因类的每个问题分别构造两个 事实性问题1056个,情感问题共871个,爬取百度 答案,其中一个是正确答案,另外一个是不相关但具 知道站点下娱乐明星目录下的网页数目15791,网 有干扰作用的答案;而对其他3种类型的所有问题 页内容主要包括两大部分:用户问题和大众所提供 分别构造对应的两个问题,其中之一是与原问题相
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有