正在加载图片...
第6期 唐琴,等:基于Chunk-CRF的情感问答研究 ·505· 有一定的指导作用.文献[3]分别在篇章级和句子 首先根据所搜集的情感问题语料统计并归纳出 级上对观点和事实进行分离,并对句子进行聚类,得 主要的5种问题类型:事实类、原因类、比较类、是否 到摘要作为观点性问题的答案.文献[4]证实了对 类和评价类.由于情感问题不同于一般的事实性问 问题和候选答案句子确定其更精确的情感类型比简 题,故不能简单地根据疑问词对其进行分类.本文采 单只区分主观和事实信息所获得的效果要好. 用基于Chunk-CRF(conditional random fields)与规 从这些研究工作可知,目前多视角问答系统多 则相结合的方法对情感问题进行分类.通过对情感 从观点问答人手,国内这方面的研究很少,并无成熟 问题的分析,发现其中的比较类、是否类和评价类3 的语料资源可用.文献[5]中的问题集部分来自于 类问题询问的是大众的看法.对于这些问题,从文档 互联网上的问卷调查表,部分来源于人工构造 中抽取一句话作为答案并没有实际意义,故统计出 大众的支持度或者反对度,然后将统计结果作为问 1主要研究框架 题的答案并以可视化形式表示出来6.至于事实类 通过百度知道这个丰富的知识库来获取所需要 和原因类问题,其主要询问焦点人物个人的喜好或 的语料.作者发现人们对于焦点人物的关注度很高。 经历,因此采用一般答案抽取方法,即直接从文档中 人们喜欢了解焦点人物的喜好,也想要了解别人对 抽取句子或句子片断作为答案.所以在答案抽取阶 这些公众人物是如何看待的.本文从不同于观点问 段,结合问题的组块识别结果和情感的倾向性,根据 答的角度入手,以娱乐焦点人物的喜好以及大众对 问题类型的不同将采用2种不同的方式来获取问题 其的情感作为研究对象,主要研究思路如下, 的答案.研究框架如图1所示 Chunk-CRF 启发式规则 (命名实体识别 、倾问性识捌 (句子相似度计算 情感,题 比较类是否类评价类 统计大众的支持度 或反对度作为答案 情感问题分类 事实类原因类 抽取句子或句子片 断作为答案 情感问题的两种不同答案抽取方式 知网情感分析词师 同义词词林 图1研究框架 Fig-1 Research framework 2情感问题分类 2.2情感问题类型的划分 对于基于事实的问题,人们一般按照疑问词对 2.1中文情感问题获取 其进行分类.常见的问题类型有询问人时间、数量、 百度知道提供了一个问答平台,使得大众可 地点、定义、原因、实体等几种.同样的,对于情感问 以对他人提出的问题提供答案,包括个人的意见、想 题也需要适当对其进行分类,以便更好地抽取答案 法、甚至喜好.目前百度知道上每个月发起的新问题 但是,基于事实的问题分类体系并不能直接应用于 并且得到解决的问题数已经超过百万.百度知道数 情感问答,如:“刘德华曾经遇到最大的挫折是什 据库已经被越来越多的人所使用. 么?”又如:“(大家认为)刘德华的哪些电影好看?” 我们通过大量浏览百度知道的问题发现人们对 这两个问题从一般问答的角度来看都属于询问实体 于焦点人物如娱乐明星的关注度很高.常见的提问 类型,但从情感角度而言,这两个问题并不能归为 方式如:“大家比较喜欢刘德华还是梁朝伟?”,“刘 类.前者询问的是明星本人的情感,而后者的情感是 德华有什么爱好?”等。 从大众角度出发的.不同类型的情感问题则所对应
<<向上翻页向下翻页>>
©2008-现在 cucdc.com 高等教育资讯网 版权所有