·506 智能系统学报 第3卷 的抽取答案的方式将不同.所以为情感问题定义新 4)询问是否类型.这类问题有:“世界上最接近 的类型成为必然,不能简单地以疑问词来区分情感 完美的歌手是杰克逊么?”,“大家喜欢刘亦菲吗?”, 问题,同时必须考虑情感的发出者这一关键因素 “你讨厌李敖吗?”。 通过对问题集中所有情感问题的分析,我们发 5)询问大众对哪位明星或者具体某位明星某 现人们大多倾向于询问以下5种类型的问题: 方面的偏好.此类问题定义为评论类情感问题,这类 1)询问娱乐明星个人喜好和经历等.此类问题 问题与第一类问题句式相似,但更为主观,常见问题 较接近于一般事实性问题,定义为事实类情感问题, 有:“迈克尔杰克逊的哪张唱片最经典?”,“大家觉 如,“朱孝天在什么节目中出言鄙视内地粉丝?”, 得哪位港姐最漂亮?”,“谁是当今中国模特界的男 “李连杰喜欢什么颜色?”,“韩雪喜爱的歌手除了 模第一人?” Avirl Lavigne还有谁?”, 除了以上5种类型,还有其他一些类型,如疑问 2)询问原因类型.如:“周杰伦为什么会这么受 词为“怎么样”类型:“罗大佑的作品风格怎样?” 大众喜欢?”,“明星们为什么怕私人生活被曝光?”, “大家觉得07好男儿张超怎么样?”等问题.由于这 “汤唯怎么一夜成名了?”. 些类型的问题数目太少,本文不加讨论.可以看出, 3)对明星进行比较类型.典型问题有:“井柏 后3种问题相对前2种问题而言更主观.表1是各 然、付辛博、乔任梁,你们更欣赏哪一个?”,“杰克逊 类情感问题统计数据。 和麦当娜谁比较红?” 表1情感问题统计 Table 1 Emotional questions statistics 情感问题类型 特征词 问题数 问题比率/% 事实类 什么,谁 211 24.2 原因类 为什么,怎么 101 11.6 比较类 谁,哪一个,更,比较,是…还是… 108 12.4 是否类 吗,么,是不是,算不算,是否… 160 18.4 评价类 谁,哪位,哪个,哪些… 270 31.9 其他类型 2 2.4 2.3 基于Chunk-CRF模型与规则相结合的情感问 感问答中需要着重解决的问题.本文采用基于 题分类策略 Chunk-CRF及规则相结合的分类策略 考虑到情感问题不同于一般事实性问题的分类 下面列举几组评价类情感问题与事实类情感问 标准,如何构建针对情感问题的自动分类策略是情 题的例子,见表2 表2事实类情感问题与评价类情感问题的对比 Table 2 The comparison of appraise type and fact type 编号 评价类情感问题 编号 事实类情感问题 1 大家认为TVB最漂亮的女演员是谁? 4 李霞最心爱的颜色是哪一种? 2 张学友有哪些歌比较好听? 5 洪涛有哪些业余爱好? 3 井柏然最好听的歌是哪首? 6 方琼最尴尬的事情是什么? 由表2,两类问题本质的区别在于情感的发出 不能取得好的效果.因此采用组块(Chunk)分析的 者并不相同:第一类问题中所包含的情感来自于焦 思想],通过对句子特定组块的识别来进一步获得 点人物本身,而第5类问题中所包含的情感却来自 信息 于大众.这种区别导致了回答问题的方式不同.然 考虑到情感问题的特殊性,首先对情感问题集 而,由于两类问题中都含有用于表达情感的形容词 训练一个基于Chunk标注的CRF模型9),再对模型 等相似的词性特征,甚至具有相似的提问方式,可见 的识别结果引入适当的启发式规则来实现对情感问 单纯的从词法或句法角度来对两类问题进行分类并 题的分类